Big Data議題在最近以黑馬之姿似地追趕過雲端運算這個科技名詞,企業看似無法逃過資料巨獸的襲擊,卻又必須勇敢提出因應Big Data的解決對策。目前能夠用來解決管理巨量資料的知名技術工具有Apache Hadoop(雲端運算平台)以及NoSQL等,而Hadoop又為目前最主流的巨量資料管理工具,Facebook即是Hadoop的使用者之一。
|
Hadoop 是一個開放源碼的分散式運算平台。 |
到底資料量要大到什麼程度才算是Big Data?用量化的呈現方式就是1TB X 1000倍的PB(Petabyte)資料量。Big Data又具有三種特點,即多種資料格式處理(Variety)、資料量處理(Volume)、即時資料處理(Velocity)。當企業要對抗這不斷增長又複雜的資料巨獸時,首先觸礁的是礙於技術不足,該如何從巨量資料裡去找出所需的資訊以及巨量資料的分析能力無疑是目前企業要處理的課題。
Hadoop採用分散式處理技術又能透過水平擴充方式來增加資料的處理能力,它允許程式師在Java代碼中尋找所需的資訊,而且不需要規範的資料庫結構。透過Hadoop這項工具讓企業不需要額外添購資料分析設備,就能夠直接整合資料庫管理系統來處理這些巨量資料,企業便能快速搜尋到所需的資訊及數據,以便在最短的時間內做出應變處理。
舉例來說,Facebook即將自己的MySQL資料庫儲存數據傳送到Hadoop進行計算,而Hadoop計算結果會再次轉移到MySQL,以提供有用的資訊給用戶的頁面使用。
Hadoop工具廣受歡迎的原因之一,是因為它是一個開放原始碼平台,企業能夠針對自己所需的功能去進行平台程式修改,也就是能量身定製符合自己需求的巨量資料工具。不過,即使人人都可使用Hadoop,但如何將它的功能發揮到極致,就需要靠真正懂「它」的專業人才了。
就如同RedHat專門提供Linux套件及服務,目前專門提供Hadoop工具服務的公司已經出現,較知名的包括Cloudera、MapR和Hortonworks,其中以Cloudera的規模最大。該公司開發了自己的工具,讓客戶運用Hadoop搜索資料變得更加容易;同時,Cloudera還在努力建設更廣泛的合作生態系統,從而讓更多不同應用能使用Hadoop服務。
對於企業組織來說,Big Data是一個很大的挑戰,但它的價值彰顯出兩個方面:分析使用和二次開發,只要能夠能加以善用,所帶來商業契機相當龐大。很顯然地,愈能掌握Big Data,愈能在網路時代脫穎而出,成為市場的下一匹黑馬。
[相關連結]
Hadoop Taiwan User Group