所谓的网页探勘(Web mining),主要就是利用文字或资料探勘(text/data mining)的技术,针对网页的特性,自动从网页上撷取、发掘出一些特征与规律(pattern),并希望能应用在各个领域。
为何需要Web Mining?
Web Mining 从字面上来看,简单的说就是从全球资讯网(WWW)的丰富资源中“采矿",挖掘出重要的资讯。随Web快速的成长,世界各地的使用者,根据他们所关心的主题,持续不断地加入并更新各式各样的内容,并以网页的形式整理资料。目前全球被搜寻引擎所索引(index)的网页,已经超过42亿页,这只是冰山的一角,并不包括没有被收录的部分。因此,它已经是世界上最庞大的动态知识来源了。然而,如何从这么丰富的网页资源中撷取、并分析出有用的资讯则是目前主要的研究课题之一。......