NVIDIA從傳統圖形處理器(GPU)設計起家,近年來將觸角廣泛深入至深度學習、人工智慧、ADAS等領域,NIVIDIA日前在矽谷舉辦GPU技術大會(GTC 2018),為人工智慧和深度學習的盛會,會中發表了許多和深度學習相關的進程,包括深度學習運算平台效能升級、將深度學習加速器(NVDLA) IP整合到Arm Project Trillium平台、與技術夥伴合作一起擴充深度學習推論功能。
NVIDIA創辦人兼執行長黃仁勳在GTC 2018期間指出:「深度學習非凡的進展揭露更多未來值得期待的部分,這些精進很多是建立在NVIDIA的深度學習平台上,我們正以遠遠超越摩爾定律的速度提升效能,並達成各種突破性的進展,可以為醫療照護、交通運輸、科學探索與其他無數領域帶來革命性的發展。」
深度學習運算平台效能升級
Tesla V100 GPU記憶體倍增
圖1 : NVIDIA創辦人暨執行長黃仁勳宣布推出Quadro GV100 GPU。(Source: NVIDIA) |
|
Tesla V100為針對資料中心所推出的GPU,這次NVIDIA透過提升其記憶體至32GB,以應對深度學習與高效運算作業負載對記憶體的需求,讓更大、更深的深度學習模型進行更高準度的訓練。
目前已有電腦製造商如Cray、Hewlett Packard Enterprise、IBM、Lenovo、Supermicro與Tyan,已宣布將在第二季開始推出全新的Tesla V100 32GB系統,而Oracle雲端設備服務也宣布計劃於今年下半年透過雲端系統提供 Tesla V100 32GB。
高運算效能伺服器NVIDIA DGX-2
圖2 : NVIDIA DGX-2 (Source: NVIDIA) |
|
DGX-2為一運算效能可達2 petaflop的單一伺服器,搭載具32GB記憶體Tesla V100 GPU,採納NVSwitch革命性光纖互連技術的系統,可讓系統中16個GPU共享相同的記憶空間,而NVSwitch比PCIe交換系統的頻寬高出5倍,讓開發者可以連接更多高速GPU來打造系統。
此外,DGX-2整合完整優化的更新版NVIDIA深度學習軟體,可在兩天內針對最頂尖的神經機器翻譯模型FAIRSeq進行訓練,而效能比2017年發表的Volta DGX-1提升了十倍。
深度學習推論功能擴充
TensorRT 4與TensorFlow的整合
圖3 : 整合常用的開法語言和框架。(Source: NVIDIA) |
|
NVIDIA將新版TensorRT整合至Google TensorFlow 1.7,讓用戶更容易在GPU上運行各種深度學習推論應用,TensorRT能提供INT8與FP16精準的推論內容,讓資料中心成本最高可減少70%,
而TensorRT 4為新版TensorRT,其軟體能為多種應用程式進行深度學習推論加速,能用來快速進行最佳化、驗證以及將訓練完成的類神經網路部署到超大規模資料中心、嵌入式裝置和車用GPU平台。
在處理包括電腦視覺、神經機器翻譯、自動語音辨識、語音合成與推薦系統等常見應用時,新版軟體在執行深度學習推論的速度是CPU的190倍。
ONNX擴充支援
ONNX是由臉書和微軟發起的開放神經網路交換格式,使不同深度學習模型地框架可以互通,目前Intel、高通、IBM、華為、AMD、Arm、NVIDIA等廠商都已加入。
NVIDIA與Amazon、Facebook以及Microsoft等公司密切合作,使NVIDIA的深度學習平台可擴充支援ONNX框架開發,包括Caffe 2、Chainer、CNTK、MXNet和Pytorch的用戶,進一步統合了深度學習模型的框架。
NVDLA整合至Arm Project Trillium平台
2018年初Arm推出的Arm Project Trillium機器學習平台,包含機器學習處理器(Arm ML Processor)、物件辨識處理器(Arm OD Processor)以及神經網路軟體(open-source Arm NN software)。
透過開源的NVIDIA深度學習加速器(NVDLA)架構整合至Arm Project Trillium機器學習平台,讓物聯網晶片製造商能輕易將AI整合至設計中,進而讓平價的智慧產品普及到全球數十億消費者手中。
NVDLA的基礎建構為強大的自主機器系統單晶片NVIDIA Xavier,為免費的開放架構,協助推廣深度學習推論加速器的設計標準化。此外,NVDLA的模組化架構具備可擴充與高度可配置等特性,且為簡化整合與移轉作業而設計。NVDLA帶來了許多優勢,並加速深度學習推論技術的採用,其背後還NVIDIA 一系列開發者工具全力支援,包括新版TensorRT可編程深度學習加速器。
Moor Insights & Strategy深度學習首席分析師Karl Freund表示:「對於計畫開發AI加速推論解決方案的物聯網、行動與嵌入式晶片廠商而言,這項合作對大家都是雙贏局面。NVIDIA與Arm分別為機器學習訓練與物聯網端點的領導者,兩家巨擘在IP上進行結盟對業界的影響甚遠。」
NVIDIA深度學習應用
更新醫療影像儀器:超級電腦Project Clara
全球共有近300萬台的醫療影像儀器,醫生也依賴這些儀器所呈現出的結果,了解病人的狀態並有效治療,而這些儀器的汰換週期大多都在10年以上,NVIDIA的Project Clara是一款醫學影像超級電腦,可以實地更新影像儀器的功能。
現在人們能夠利用深度學習和人工智慧來分析這些影像,最近有一種稱為V-Net的演算法,使用了3D體積分割技術,可自動測量通流經心臟的血流量。這種演算法在15年前必須使用一台千萬美元的電腦,且電腦的耗電須500瓩,才能進行V-Net運算,現在只需要幾顆Tesla V100 GPU,便可完成此運算。
Clara可以同時運行多項運算工具;還能在遠端利用NVIDIA vGPU 來支援多人使用;Clara具通用性,可以為任何儀器執行運算作業,如CT、MR、超音波、X光,乳房X光攝影;Clara還具備擴展性,在GPU上使用Kubernetes,有效率地依需求調節運算規模。
NVIDIA已與許多醫療機構、公司及新創展開合作,其AI應用如AutoMap和V-Net為放射學領域帶來了無形的價值。
自駕車: DRIVE Constellation模擬系統
圖4 : NVIDIA DRIVE Constellation運算平台。(Source: NVIDIA) |
|
NVIDIA發表了一套雲端模擬系統DRIVE Constellation,利用擬真技術來進行自駕車測試,DRIVE Constellation包含兩個伺服器,第一個伺服器用於執行NVIDIA DRIVE Sim軟體,可模擬自駕車感測器,如攝影機、光達與雷達等;第二個伺服器內含NVIDIA DRIVE Pegasus人工智慧車用電腦,用以執行完整的自駕車軟體堆疊,並將模擬資料當作真實資料進行處理。
DRIVE Constellation由多個NVIDIA GPU驅動,每個GPU皆可產出一系列模擬感測資料,在將其?入DRIVE Pegasus進行處理。來自DRIVE Pegasus的駕駛指令會在回饋至模擬器,以完成數據資料迴路,此「迴路硬體(hardware-in-the-loop)」每秒執行30次,用來驗證DRIVE Pegasus上運行的演算法和軟體,是否正確的進行車輛的模擬。
圖5 : DRIVE Sim可產出一系列擬真的資料,以創造極大範圍的各種測試環境。(Source: NVIDIA) |
|
DRIVE Sim可產出一系列擬真的資料,以創造極大範圍的各種測試環境,可模擬不同的天氣,如暴風雨與暴風雪、每天不同時間點令人感覺刺眼的光線或夜間視力受限的情境,以及各種不同的道路鋪面與地型,各種危險情境也能以不傷害任何人的風險下,被寫入模擬系統中來測試自駕車的反應能力。
IHS Markit研究與分析總監Luca De Ambroggi表示:「自駕車的開發需要一套可以涵蓋從訓練、測試到上路駕駛的系統。NVIDIA端對端的平台是正確的方式,而用來進行虛擬測試與驗證的DRIVE Constellation系統,可以讓我們更進一步邁向自駕車的量產。」
實現人工智慧的晶片有很多種,包含CPU、GPU、FPGA、ASIC等,Google、Apple也在加緊研發自己的AI晶片,大陸華為也於近日推出搭在AI晶片麒麟970的手機,NVIDIA作為專精於GPU的廠商,在各個應用領域積極布局,期待未來透過AI實現更多我們還未曾想過的創新。