資料挖掘(Data Mining)是用來找出在龐大資料庫中隱藏的有用資訊,而且資料電子化的程度越高越好。網路上的資料可以說是電子化最高的資料。這些大量的資料都已經儲存在電腦中,非常容易拿來做資料挖掘。近年來網路的蓬勃發展以及電子商務的興起,提供了網頁挖掘一個很大的應用空間,而網路上的商機,也同樣可以透過網頁挖掘(Web Mining)這樣的技術來增加利潤。網頁挖掘可以挖掘出網路使用者的各種習性,比如上網購物者的習性。應用這些找出的資訊將對於網站經營有很大的幫助。
強化搜尋引擎網站的應用
網頁挖掘根據應用大致上可分為二類:網頁內容挖掘(Web Content Mining) 和網頁使用挖掘(Web Usage Mining)。網頁內容挖掘是根據網頁本身的內容做資料挖掘。所謂網頁內容包含網頁中的文字、超連結、網頁所在的目錄結構、網頁瀏覽者輸入的資料、網頁本身大小均是。其應用的例子有:分析網站內容、加強搜尋引擎能力等等。
目前較著名的幾個搜尋引擎網站,都有大量的人去使用。在這些搜尋引擎網站的背後各有不同的技術,像Yahoo!這種網站則是透過人工的方式將網站內容做分類,並非完全使用自動化方式產生。比如將其分類為「電腦」、「生活」、「學術機關」...等等。而有些搜尋引擎網站則採用網頁的標題、關鍵字來找尋的,如Lycos。這種方式是當使用者輸入關鍵字如「windows」,搜尋引擎會去找出標題或其關鍵字有「windows」的網站。
選擇太多反而無從選擇
另一種為我們所知強大的功能是全文檢索,這種技術對於找尋資料有更多的選擇。這類網站是自動化的主動到各網站去抓取網頁資料,再傳回來放入資料庫中。在這方面如AltaVista,All the Web (http://www.alltheweb.com/)都是全文檢索的搜尋引擎網站。不過也因為太多選擇了,往往無從選擇,比如使用者輸入關鍵字「news」時就會去找出內容文字有「news」的網頁,這會找出相當龐大的符合條件筆數,以AltaVista來說就可能找出7千多萬筆,假設我們只是想看看新聞網站,那麼,這幾千萬筆中可能只有極少數是我們要的,其他都是多餘的,這種搜尋結果往往不能滿足人們所需。就算不是全文檢索的方式而是前述以標題或人工分類方式,如果輸入的關鍵字太常被用到,一樣會找出太多的資料。
這也是目前搜尋引擎開發者所頭痛的問題。所以搜尋引擎網站如果運用資料挖掘的技術,可以收集使用者輸入關鍵字,再加以做關聯法則的資料挖掘。因此搜尋引擎網站可以收集使用者輸入的關鍵字,以關聯法則的方式,找出那些關鍵字的組合最為頻繁,然後將這些資訊提供給較無經驗的使用者。
現在我們來探討有關網頁架構資訊的挖掘。這是取網頁中的文字、超連結、以及其他網頁屬性來做資料挖掘。主要用途在於分析網頁,從中找出一些隱藏的資訊。比如可以分析某一種類的網站具有何種特徵。就網頁本身的內容來說,具有很多屬性,以下列舉二個例子說明:
(1) 超連結:超連結是一個非常值得做為挖掘的屬性。通常網頁的超連結代表著跟該網頁有關聯性存在,不只在對外的超連結,對內的超連結也可顯示出一些訊息。(圖一)是Yahoo!的超連結結構,從該內部網站的超連結關係結構可以發現:
《圖一 AltaVista,All the Web搜尋引擎網站》 |
|
1.Computer_Science 在Yahoo搜尋網站分類中是屬於Science類;
2.Medicine 同時被歸類屬於Health 及Science類別下。
這些分類方法是人為產生的,不過可以由電腦去分析了解其分類方法。除此之外連結的網址也是具有資訊在裡面的,從超連結中的目錄架構也可看出各網頁間內容的關係。比如/Science 和/Science /Computer_Science 這兩個目錄架構看來,/Science /Computer_Science的內容應跟/Science有關且範圍較小。
(2)網頁編排格式,許多網頁會根據其內容的特性呈現出相同編排方式。比如在介紹個人資料網頁通常會有固定的某些字(例如姓名、興趣),且可能有個人照片、電子信箱等。又如介紹某主題的主網頁通常會在最上方有比較大的標題文字。
其實在網站中光是網頁文字就有很多資訊可以挖掘了。對於挖掘文字這方面的應用有人將其歸類為文字挖掘(Text Mining),文字挖掘主要處理字元型資料。一般要解決的問題是發現兩個主體(可能是人或事)之間是否有關聯性?是什麼樣的關聯性?特別是在資訊網路化時代,我們使用傳統的方法幾乎無法處理或閱讀整個資料庫。同時,因為資料庫中存著大量無用和多餘的資訊,往往使我們能夠搜尋找到的資訊與所含的總資訊量相比下非常小。因此,如何去蕪存菁,並迅速、準確以及適量地找到我們所需資訊,同時能夠找出資訊與資訊之間的關聯是文字挖掘的主要工作。(圖二)
網頁使用挖掘這種技術可以挖掘並分析瀏覽者的行為。以下介紹四種網頁使用挖掘的實際應用方向:
電子商務
現今電子商務市場被認為是一潛在無限商機的大餅,許多企業都將其商業交易行為擴充到網際網路上,希望能透過這個開放的空間爭取到龐大的商業利潤,因此如何經營商業網站成為很重要的關鍵。分析進站參觀及購物的瀏覽者之行為,可以提供網站經營者很好的決策參考,而找出瀏覽者經常行走的路徑可以從中發現有用的資訊,例如:有一條瀏覽路徑發生頻率很高,進一步分析行走此路徑的目地是為了觀看A產品的相關訊息,那麼可以考慮在首頁加強A產品的廣告宣傳以增加購買人數。
網站設計
管理一個具有規模的網站不是一件容易的事。如何去完整架構該網站,使得網路瀏覽者對於瀏覽該網站產生更大的興趣,是很重要的課題。一般說來網站都會盡可能把最吸引人的網頁放在最前頭讓瀏覽者一進入就能被其中的資訊所吸引而駐留該站,這就如同報紙的頭版新聞的功能是一樣的。
另外,網站內容的編排非常重要。一個常被瀏覽的網頁需要好幾次超連結才能到達是很差勁的編排方式。如何讓瀏覽者能輕易在網站中瀏覽到他們想看的東西,對於網站的受歡迎程度具有很大的關聯性。也因此,網站必須不斷的改進,使其架構保持在一良好的狀況。透過網頁挖掘技術可以依照造訪人次分析、訪客來源分析、以及訪客觸擊分析等等,分析出網站正確觸擊總數及佔所有觸擊數、網站錯誤觸擊總數及佔所有觸擊數、網頁發生錯誤觸擊之次數、訪客瀏覽網頁時找不到檔案的次數之間的關係,進而掌握網路瀏覽者的動態,來改良網站架構和內容。
網路教學
除了在商業上的應用,在教學網站方面,網頁使用挖掘一樣可以提供有用的參考資訊,教學網頁與傳統教學方法之間,存在很大的差別是在於老師無法直接與學生面對面教學,因此在教學方式的成效上就必須以不同的方式來評量。找出學生在學習網頁中經常發生的行走網頁過程,可以了解學生的學習狀況,進一步提昇網路教學的效果。因此在龐大的資料筆數中,依據每筆資料中所記錄的行走路徑去挖掘出對決策有用的路徑走法模式,是一門重要的技術。
網路廣告
目前各網站最大的金錢來源應該就屬廣告的收入了。然而在網頁上數個廣告除了廣告圖案外觀的炫麗與否之外,廣告的位置與排列順序其實對廣告的效果也會對廣告的效益有很大的影響。運用資料挖掘的技術可以用來分析出網路廣告在不同的時間不同的使用者登入,它所置放的位置以及順序對廣告本身的效益有什麼關聯。
結語
網路可以為我們帶來無限的商機,但是商機是要靠我們自己去創造,這個讓我們創造商機的工具就是資料挖掘。這幾個月來,我們可以看見多少電子商務的網路公司從盛而衰,網路的未來是我們不可預測的,但是資訊的掌握可以讓我們在迅速變化的網路世界中,找到自己的方向,存活在這個刺激多變的科技時代。
(作者為網眼科技技術顧問,網眼科技為網路市場資訊分析系統專業公司)