Big Data议题在最近以黑马之姿似地追赶过云端运算这个科技名词,企业看似无法逃过数据巨兽的袭击,却又必须勇敢提出因应Big Data的解决对策。目前能够用来解决管理巨量数据的知名技术工具有Apache Hadoop(云端运算平台)以及NoSQL等,而Hadoop又为目前最主流的巨量数据管理工具,Facebook即是Hadoop的用户之一。
|
Hadoop 是一个开放源码的分布式计算平台。 |
到底数据量要大到什么程度才算是Big Data?用量化的呈现方式就是1TB X 1000倍的PB(Petabyte)数据量。Big Data又具有三种特点,即多种数据格式处理(Variety)、数据量处理(Volume)、实时数据处理(Velocity)。当企业要对抗这不断增长又复杂的数据巨兽时,首先触礁的是碍于技术不足,该如何从巨量数据里去找出所需的信息以及巨量数据的分析能力无疑是目前企业要处理的课题。
Hadoop采用分布式处理技术又能透过水平扩充方式来增加数据的处理能力,它允许程序员在Java代码中寻找所需的信息,而且不需要规范的数据库结构。透过Hadoop这项工具让企业不需要额外添购数据分析设备,就能够直接整合数据库管理系统来处理这些巨量数据,企业便能快速搜寻到所需的信息及数据,以便在最短的时间内做出应变处理。
举例来说,Facebook即将自己的MySQL数据库储存数据传送到Hadoop进行计算,而Hadoop计算结果会再次转移到MySQL,以提供有用的信息给用户的页面使用。
Hadoop工具广受欢迎的原因之一,是因为它是一个开放原始码平台,企业能够针对自己所需的功能去进行平台程序修改,也就是能量身定制符合自己需求的巨量数据工具。不过,即使人人都可使用Hadoop,但如何将它的功能发挥到极致,就需要靠真正懂「它」的专业人才了。
就如同RedHat专门提供Linux套件及服务,目前专门提供Hadoop工具服务的公司已经出现,较知名的包括Cloudera、MapR和Hortonworks,其中以Cloudera的规模最大。该公司开发了自己的工具,让客户运用Hadoop搜索数据变得更加容易;同时,Cloudera还在努力建设更广泛的合作生态系统,从而让更多不同应用能使用Hadoop服务。
对于企业组织来说,Big Data是一个很大的挑战,但它的价值彰显出两个方面:分析使用和二次开发,只要能够能加以善用,所带来商业契机相当庞大。很显然地,愈能掌握Big Data,愈能在网络时代脱颖而出,成为市场的下一匹黑马。
[相关链接]
Hadoop Taiwan User Group