Cloudera日前发表Cloudera数据科学平台(Cloudera Data Science Workbench;CDSW)测试版,此平台为针对Cloudera企业版的数据科学所做的全新自助服务工具。 Cloudera数据科学平台以Cloudera去年收购的云端Sense.io技术为基础,让资料科学家使用开放原始码程式语言(常见的R语言、Python和Scala撰写程式),和整合原生Apache Spark和Apache Hadoop安全企业平台上的资料库进行各项分析任务,加快从探讨到制程所产生的数据分析。储存资料量大、可储存任何类型的数据及可弹性调整为Cloudera产品的特性。
|
Steven Totman的理念是所有现今无法解决的问题,未来将可以用数据来解决;而Cloudera数据科学平台是协助企业加速大数据智慧应用的全新自助服务工具。 (source:Cloudera) |
Cloudera大数据专业顾问Steven Totman具有19年资讯管理领域的丰富经验,并且拥有数项关于数据整合、数据管理及元数据相关设计的专利,协助全球客户藉由Cloudera企业数据集中管理系统以处理企业本身的大数据资料,包括数据管理工具、数据模型及资料使用道德等来创造利润。
至于企业除了建立平台和拥有工具之外,如何顺利导入大数据及有效应用是重点。 Steven Totman表示,企业内部善加应用大数据的三项步骤在于:
1.企业必须重视数据,把数据当成资产,建立以数据为导向的企业文化;他认为一般企业多半对于所拥有的硬体设备资产非常清楚,却不重视数据能解决问题的能力,对于数据多少所带来的价值一无所知。他以Gartner分析师提出的资讯加上经济可形成数据经济学的观点来说明数据是商机的所在。
2.成立适当的团队及运用工具、技巧;目前许多企业会仰赖资料科学家的分析结果来调整行销策略,然而资料科学家往往受限于用部分的数据来整理数据、分析和建立分析预测的演算法模型,容易导致分析结果不够准确,也提高了资安的风险,他们必须不断调整分析模型与方法才能找出有效模式足以因应企业所产生复杂的问题。然而专业分工是必要的,企业团队必须结合资料科学家、数据工程师、架构分析工程师等人才之力,专案部署灵活迅速的在企业内部推动大数据运作,运用分析技术处理企业庞大的数据,不再需要3、6或9月来规画开发,而是以30、60或90天的来计算部署时程。
3.利用机器学习节省人力和时间。 Steven Totman提及在不同产业的应用案例,透过收集数据的反馈,可以得知生产流程中的元件状态/衰退期及确实掌握状况,进而规划流程与知道何时汰换不适用的元件,他认为单一数据并无价值,将数据整合能力变成资讯才有意义。他以纽约大雪洒盐不结冰的案例说明下大雪时每天收集1千万笔数据分析研究,让道路优先排序调整盐量的使用,对于个人生活造成的影响。
Steven Totman的理念是所有现今无法解决的问题,未来将可以用数据来解决。他认为在大数据领域,台湾相较于美国还处于初期阶段,却持有开放的态度愿意接受变化。至于未来大数据在全球的最大主流应用预料将落在真的足以改变人类生命与生活的领域,例如电信及医疗。
Cloudera数据科学平台建置安全数据探索、视觉化和模组化的协作自助型环境,让科学家、分析师和商业团队可以共同使用,能为企业加快数据科学和机器学习的自助服务数据科学。