帳號:
密碼:
最新動態
產業快訊
CTIMES / 文章 /
熱得燙手的資訊技術 - Data Mining
 

【作者: 洪哲倫】   2000年12月01日 星期五

瀏覽人次:【6216】

資料挖掘是新玩意?

最近在許多地方都可以看到資料挖掘(Data Mining)的蹤跡,許多人不免又要皺起眉頭,這又是什麼新玩意?其實資料挖掘並不是什麼新玩意,它早已行之有年,直到國內對於資訊的重視與網際網路不可思議的快速成長,才讓它活躍在國內的電腦資訊界。那資料挖掘是什麼呢?說穿了就像它的名稱一樣,就是在一堆資料中做挖掘的動作,把儲存在電腦中的資料當作一個寶山,利用資料挖掘的技術在這寶山中挖出我們想要的寶藏。接下來我們來看看資料挖掘的廬山真面目。


資料挖掘的由來

我們先來看一個有趣的例子,了解一下資料挖掘可以幫我們挖掘出什麼樣的資訊。在美國有一家超商為了瞭解顧客的消費行為,所以利用資料挖掘的技術找出了一個非常ㄅㄧㄤˋ的結果,這結果呈現這家超商的顧客買了啤酒都會買尿布。這家超商也利用這個挖掘出來的寶藏,將商店內的啤酒和尿布陳設在一起,有時還用來促銷。這樣的動作,使得這家超商賺進了大把銀子。


相信各位看倌現在應該對資料挖掘有一點概念了。那各位看倌知不知道為什麼會出現這種現象呢?原因就是美國的男人都很喜歡喝啤酒,但是苦命的是他們的阿娜答都會叫他們買啤酒的時候順便買尿布,所以就造就了這個令人百思不得其解的現象囉!看來美國的男人不會比我們幸福到哪裡去呢!


由上述的例子,可以知道資料挖掘的主要目的,是要由龐大的資料中,找出有意義或對我們有用的資訊;透過這些資訊,將有助於資訊管理、查詢處理、以及決策的制定等。例如在超市的客戶交易紀錄中,可以分析出客戶的購買行為以增加營業利潤;對信用卡而言,可依據客戶的刷卡紀錄以及繳款紀錄來分析出信用好壞的客戶,以決定其信用額度;在醫學的應用,可以發現潛在疾病的病徵,有效的加予預防和治療。


資料挖掘的流程

現在我們來看看資料挖掘的前後整個流程(圖一)。資料挖掘的過程包含了資料的挑選、資料的前置處理、轉換、資料挖掘、以及規則的評估和解釋。先將各種不同來源的資料,經過整理轉換後建構成資料倉儲(Data Warehouse)。然而在資料倉儲中的資料屬性並不是全部都可以用來作資料挖掘,必須經過挑選的程序選出適宜其應用領域的資料屬性。因為資料挖掘中有許多不同的技術(其後再述),這些挑選出來的資料,為了因應這些技術,所以要將這些資料加以轉換才能被使用。


《圖一 資料挖掘的前後流程》
《圖一 資料挖掘的前後流程》

經過資料挖掘出來的結果,稱之為規則(Rule)或者是型樣(Pattern)。對使用者而言,這些規則或型樣並不是每一個都具有意義,所以必須經過領域內專家的評估,才能找出真正有用的資訊。如果挖掘出來的結果,經過評估後不符合需求,可以回到前述的程序,進行資料挖掘技術的參數調整或是選擇其他技術,更甚的是重新挑選資料屬性或選擇資料來源。經由這種回授過程,反覆進行直到滿意的結果為止。


這整個流程以資料挖掘為核心,也是最重要的關鍵。如前所述,資料挖掘並不是一項新的技術,事實上,它也使用了許多統計上的技術加以變化,例如群組化以及分類(這些技術我稍後再談)。現今的資料挖掘技術更加入了人工智慧的技術(例如模糊理論、類神經網路、基因演算法等),讓資料挖掘的效果變得更為有效。此外,與資料挖掘有關的領域包括機器學習、專家系統及型樣識別等。


資料挖掘發展至今,已經發展出許多的技術,這些技術分別應用在各種不同的環境上。在這些應用的環境中,如何選擇適合的資料挖掘技術,將會影響處理過程的效能以及挖掘出來的資訊之可用性。目前資料挖掘的主要技術有關聯法則(Association rule)、分類(Classification)、組群化(Clustering)、序列型樣(Sequential pattern)以及路徑行走型樣(Path traversal pattern),這些技術都有其特性及不同的結果分析。以下我將分別介紹這幾種資料挖掘的技術。


關聯法則

關聯法則主要目的是在資料量龐大的環境中分析各資料項目間的關聯性,這個關聯性的形式表示為X→Y(X、Y分別為資料庫中不同的資料項目)。關聯法則最初的目的是為了要經由分析客戶的購物交易紀錄,進而找出各商品之間的關聯性,利用這些關聯性來做商店的商品陳設或是進貨及促銷的參考,明顯地,此種關聯性有助於商店的競爭力以增進利益。


可是如何評估關聯法則的關聯性是否可信?答案在於支持度(Support)以及可靠度(Confidence)這兩個參數。這兩個參數是由使用者自訂,只要藉由關聯法則找出關聯性的支持度與可靠度,若值大於使用者的自訂值,則可判定這個關聯性是有意義的。


分類

分類在統計的領域中是一個行之有年的技術,相信許多讀者對其非常熟悉了。分類是一種監督式學習(Supervised learning)的技術,其目的在於利用資料中的屬性來建構一分類器(Classifier),在利用此分類器作為預測分析之用。在分類器中的資料分為兩種:訓練資料(Training data)與測試資料(Testing data)。


訓練資料主要是用來建構分類器,而測試資料與訓練資料具有相同的資料屬性,用來驗證分類器的正確率是否達到使用者所能接受的值。目前最為普遍的分類方法是決策樹(Decision tree),其分析出來的結果可以容易轉換成IF-THEN的規則,以利決策者觀看及達到支援決策的目的。(圖二)顯示出一個簡單的決策樹的例子。



《圖二 決策樹為最普遍的分類法》
《圖二 決策樹為最普遍的分類法》

組群化

組群化的技術與分類有些不同,組群化是屬於非監督式學習(Unsupervised learning)的技術。組群化是將資料有效地分成一個個的組群(Cluster),組群內的資料都具有高度的相似性,不同的組群,其特徵不盡相同,其概念如(圖三)所示。組群化技術可說是最廣泛被應用的技術,例如在影像處理上,利用組群化來做影像分割或是影像辨識。群組化的結果,主要是提供資料的分布情形與趨勢,以幫助使用者進行資料的分析與決策的制定。



《圖三 廣泛被應用的組群化技術》
《圖三 廣泛被應用的組群化技術》

序列型樣

序列型樣的技術與以上所提的技術有很大的不同,因為序列型樣加入了時間因素的考量。基本上序列形樣與關聯法則目的是相同的,都是要找出關聯性,可是序列型樣要找的是事件在時間上的順序關聯性。舉個例來說,某家超商的顧客買了可樂之後就會買麵包,這之間的關係是順序性的。


序列型樣可分為順序性型樣以及週期性型樣,分別針對時間的順序性以及時間區段的週期性做分析。順序性型樣只考量事件的時間順序先後,週期性型樣加上了時間週期的變化,例如小明每天早上八點到九點都會喝咖啡和看報紙,以上例可以看出週期是每天的早上八點到九點,而發生的事件是喝咖啡和看報紙。


這兩種方法找出的型樣雖然不同,但是針對時間的多變化性卻也能提供有效之決策支援。這種技術最常見的應用是在股市上,主要用來做預測和分析,不過根據筆者自己的經驗,在台灣股市這種詭譎多變情勢,這還真是僅供參考呢!


路徑行走型樣

隨著網際網路(Internet)的快速發展,資料挖掘當然也不能錯過這個可以大放異彩的機會,於是路徑行走型樣也應用而生。其實在網際網路上的資料挖掘稱之為網頁挖掘(Web mining),其分為兩個方向:網頁內容挖掘(Web content mining)及網頁使用挖掘(Web usage mining)。


網頁內容挖掘主要針對網頁內容做分析,其內容包含了文字和超連結。網頁使用挖掘著重於找尋使用者瀏覽網頁的習慣,這也就是路徑行走型樣,目前有許多大型網站都有使用這種技術,例如亞馬遜(Amazon.com)、雅虎(Yahoo.com)等。目前這方面的研究算是資料挖掘技術裡最熱門的,而隨著電子商務的持續發展,資料挖掘的重要性與應用範疇也會越來越重要而且越來越廣。


小結

資料挖掘發展至今,在各領域應用上已有一些相當不錯的成果。在商業市場上,可經由其預測未來的市場趨勢以增進其利益,以及對客戶的消費行為分析取得競爭優勢。在網路的應用上,經由預測使用者可能的網頁瀏覽路線,適當的放置廣告以達到廣告效益、輪播廣告的順序、以及個人化的網站等。資料現在已是一個十分重要的角色,尤其在競爭激烈的資訊市場上,資料挖掘技術更是不容忽視,善其技術將有助於取得競爭上的優勢。下一期我們再深入探討資料挖掘在網路上的應用。


(作者為網眼科技技術顧問,網眼科技為網路市場資訊分析系統專業公司)


相關文章
面對「不確定性」的最佳解:現代化應用
抗疫優先 全球科技廠展開史上最大動員
高性能DSP與深度學習語庫是智慧語音開發關鍵
研華攜手AWS網路服務 加速建置智慧工廠
AI 扮演智慧家庭要角
相關討論
  相關新聞
» 精誠「Carbon EnVision雲端碳管理系統」獲台灣精品獎銀質獎 善盡企業永續責任 賺有意義的錢
» 工研院通訊大賽獲獎名單出爐 AI創新應用助2025年通訊業產值破兆
» AI浪潮來襲!伺服器面臨高熱密度挑戰 Vertiv協助矽谷主機代管商在既有機房突破散熱瓶頸
» 英業達捐贈台大高效伺服器 引領學術研究高算力大未來
» 數位部辦理5G專網國際論壇 機械業看好提升短鏈勞動力


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2025 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.3.144.232.156
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: webmaster@ctimes.com.tw