當紅的生成式人工智慧ChatGPT,可以說是顛覆了很多人對AI的想像,更重要的是,它真正帶起AI技術的應用,甚至把AI運算加速的重要性浮上檯面。本場的【東西講座】特別邀請創鑫智慧事業開發經理陳品函擔任講者,藉由自身多年的觀察與經驗,幫大家解開為何需要AI運算加速,同時也探討其應用的潛能。
圖一 : 創鑫智慧事業開發經理陳品函解說為何需要AI運算加速,同時也探討其應用的潛能。
創鑫智慧(NEUCHIPS)是由資深IC及軟體設計專家團隊,於2019年成立的AI ASIC解決方案提供商,也是一家AI運算加速器IC設計公司,過去在神經運算網絡有領先的技術,更在信號處理和電路設計方面擁有多項專利,目前致力研究在加速運算過程中,如何減少記憶體耗用量。
陳品函表示,三十年前計算機對當時來說就已經是AI了,直至2016年發現影像分析軟體開始可用機器學習或深度學習解決AI問題的時候,大部分關注在影像處理和物件辨識。而去年Open AI開放ChatGPT給普羅大眾使用,才算是讓大多數的人認知到AI能協助許多事。
陳品函指出,機器學習中使用的硬體技術,以現階段產業界上面,絕大多數在訓練(training)上會使用GPU,用到的數學複雜程度相對高很多,也需要很多的互動運算;推論(inference)相對來說,一般的CPU還是可以達成的,其實還是取決於應用在哪個面向,來選擇合適運算的硬體。
根據計算密集、應用需求和市場需求,AI加速運算主要是指利用特殊設計的硬體和軟體優化,提升AI演算法執行速度和效能的方法。而機器學習和深度學習的訓練與推論,會針對訓練好的模型進行部署推論,對所有的訓練資料進行多次的計算得到效果最好的學習模型。
AI應用與商機切入點 將是未來面臨的限制與挑戰
生成式AI涵蓋非常多的矩陣式運算,例如GEMM(General Matrix to Matrix Multiplication;通用矩陣乘法)是神經網絡中基本的運算子,在線性代數、機械學習、統計與其他領域中常見的運算;GEMV(General Matrix to Vector Multiplication;矩陣向量乘法)為一維矩陣。
陳品函表示,過程中GPU、CPU的支援,需要消耗多少的能源來去完成指令,可能相對就沒有ASIC來得好,現今有許多AI新創公司針對看到的應用,需要的矩陣大小也有所不同,運算過程中資料如何地拋轉、網路的呈現、特別的IC設計,整體效能將會提高。
為了晶片的發展回到兩個面向,包括彈性(Flexibility)的AI數據中心,同質處理元件、一般拓樸數組/網格/環等;客製化(Custom/Application Specific)的車用AI,在沒有GPU那樣有強大的記憶體與運算式之下,硬體設計高度定制會調整到軟體和系統需求,另外還有異質處理元件等。
AI運算加速所面臨的限制與挑戰,包含讓普羅大眾最有感的ChatGPT在過去幾年快速累積使用者,但AI的落地應用與商機尚未有頭緒,因此AI導入的難題,消費性產品仍在找尋切入點,目前只侷限在手機app;AI晶片有所不同,雲端市場門檻高;如何從GPU開發環境做轉換、地緣政治等。
創鑫智慧針對使用者推薦作運算加速,RecAccel N3000是一種特定領域架構(DSA)ASIC,用於深度學習推薦模型的數據中心推論;不但獲得專利的FFP8產生最高的8位精度和專有的INT8校準器;創新的嵌入引擎設計用於全面優化數據片上和片外的位置和記憶體存取。
另外,獲得專利的動態MLP引擎(DME)提高了吞吐量,同時能降低功耗;RecAccel編譯器使用AI實現高度優化的低功耗動態嵌入分片等。
VIDEO