NVIDIA (輝達)今(11)日針對資料科學與機器學習推出GPU加速平台,為眾多極大的企業提供以前所未有的速度分析龐大的資料與產出精確的商業預測,被業界領導品牌廣為採納。
RAPIDS? 開源軟體為資料科學家處理複雜的商業挑戰,例如:預測信用卡盜刷、零售庫存與瞭解消費者購買行為時,帶來卓越的效能提升。隨著業界持續對 GPU 運算在資料分析的重要性產生共識,眾多企業從開源社群的先驅 Databricks 與 Anaconda,至科技領導品牌包含 Hewlett Packard Enterprise、IBM 與 Oracle皆表態支持 RAPIDS。
分析師預估資料科學與機器學習的伺服器市場的年度產值達 200 億美元,若再加上科學分析與深度學習的產能將使高效能運算市場產值推升至 360 億美元。
NVIDIA 創辦人暨執行長黃仁勳在歐洲 GPU 技術大會主題演說上宣布推出RAPIDS時表示:「資料分析與機器學習是高效能運算產業間兩大尚未進行加速的領域,直到現在。全球各大產業透過在大量的伺服器上執行運用機器學習所寫的演算法,理解市場與環境中複雜的模式並且快速且準確地進行預測,直接影響獲利。
NVIDIA將RAPIDS建立於CUDA與全球生態系中,透過與開源社群的密切合作打造出此 GPU 加速平台。其無縫整合全球各大資料科學函式庫與作業負載以加速機器學習,NVIDIA 正將過往提升深度學習的規格運用在機器學習之中。」
RAPIDS 為GPU加速分析、機器學習與即將道來的資料虛擬化提供一系列開源的函式庫,這是NVIDIA 工程師與關鍵開源開發人員在過去 2 年密切合作的成果。
RAPIDS 首度給與科學家透過 GPU 執行資料科學傳輸所需的所有工具。初期的RAPIDS 測試顯示,透過 XGBoost 機器學習演算法在 NVIDIA DGX-2? 系統上進行訓練,與純 CPU 系統相比速度提升 50 倍。這使資料科學家能過縮短過往所需的訓練時間,根據資料量大小為基準,能從以天計算降至以小時計算或以小時計算降至以分鐘計算。
與開源社群的密切合作
RAPIDS 透過將 GPU 加速應用在受市場歡迎的 Python 資料科學工具鏈上,支援包含 Apache Arrow、Pandas 與 scikit-learn 等開源套件。為了使 RAPIDS 能夠支援更多機器學習函式庫與功能,NVIDIA 正與各大開源生態系重要機構與人員,包含 Anaconda、 BlazingDB、Databricks、Quansight、scikit-learn以及Ursa Labs 首長暨 Python 資料科學函式庫中,成長最快速的Apache Arrow 與 Pandas 發行人 Wes McKinney,進行合作。
Wes McKinney 表示:「GPU 加速資料科學平台 RAPIDS 是由 Apache Arrow 所驅動的次世代運算生態系。NVIDIA 與Ursa Labs合作會加速Arrow函式庫的核新創新速度,並為分析與特徵工程作業帶來顯著的效能加速。 」
NVIDIA 為擴大支援,將 RAPIDS 整合至對分析與資料科學最重要的開源架構Apache Spark 中。
Databricks共同創辦人暨首席科學技術人員兼Apache Spark創辦人Matei Zaharia表示:「在Databricks,我們對於 RAPIDS 將加速 Apache Spark 作業負載的潛能感到興奮,現在我們有幾項正在進行的專案,以優化 Spark 與加速器的整合,其中包含導入 Apache Arrow 與 GPU 排程的 Hydrogen 計畫。我們堅信RAPIDS 是將客戶資料科學與 AI 作業負載規模化的一個令人振奮的契機。」
Walmart 執行副總裁暨科技長 Jeremy King 表示:「NVIDIA GPU加速平台與RAPIDS 軟體已徹底改善我們如何使用資料,能將最複雜的模型有規模地執行並提供更準確的預測。RAPIDS 根基於 NVIDIA 與 Walmart 工程師的深度合作,而我們也計畫持續增進此項合作。」
其他眾多全球頂尖科技公司也正透過新系統、資料科學與軟體解決方案導入 RAPIDS。
Hewlett Packard Enterprise 執行長 Antonio Neri 表示:「HPE 致力於提升顧客生活與作業模式,AI、分析與機器學習等技術皆在探索洞見,協助客戶取得突破性進展與改善人類生活中扮演要角。HPE 在市場定位特殊,透過策略顧問服務取得完整的AI與資料分析解決方案,有目的性的打造 GPU 加速技術、執行支援與強健的合作夥伴生態系,為客戶提供量身打造的解決方案。我們期待與 NVIDIA 在 RAPIDS 上合作,以加速資料科學與機器學習的應用,協助客戶取得更快更有洞見的產出。」
IBM 研究部總監暨混合雲資深副總裁Arvind Krishna表示:「不管佈署的模型為何,IBM 已針對企業 AI 打造出全球領先的平台。我們期待延續與 NVIDIA 的成功合作關係,並利用 RAPIDS 為我們的客戶提供新的機器學習工具。」
Oracle 雲端架構軟體開發資深副總裁Clay Magouyrk表示:「當代電腦運算世界需要強大的處理效能,以因應資料科學及分析等複雜的工作負載,而這正是 NVIDIA GPU 擅長之處。RAPIDS 正在加速完成此一處理及機器學習訓練所需的速度。我們很興奮能以原生的方式,在 Oracle 雲端架構上支援全新的開源軟體,並期待與 NVIDIA 合作在我們全部的平台上支援 RAPIDS,包括 Oracle 資料科學雲端,進一步加速客戶端對端的資料科學作業流程。RAPIDS 軟體可在 Oracle 雲端上無縫作業,讓客戶得以支援所有的高效能運算、AI與資料科學上的需求,並利用其架構中已有的 GPU 案例選集。」