CTIMES/SmartAuto - AMD：AI架構將導向邊緣和雲端逐步走向統一與可擴展:CPU,HPC,GPU,DPU,MPU,AMD,超微

人工智慧和機器學習（AI/ML）產業被劃分為各種不同領域，這些領域中具代表性的兩種劃分為訓練與推論，以及雲端和邊緣。AI/ML訓練開發出供推論使用的模型，用於識別任何需要辨識的物件。這些物件可以是智慧城市街道上順暢或擁擠的交通、用於實現安全存取控制的身份證件和人臉比對的許可級別、向客服中心撥打電話的對話內容，抑或是郵政分發中心中信封上的手寫地址。

AMD資深副總裁Ivo Bolsens指出，訓練通常在企業資料中心或雲端進行，這些環境中有眾多高效能伺服器、充裕的記憶體、硬體加速器和高速網路可以投入工作負載。在這種環境下，需快速完成工作的訓練使用大量供給運算、網路連結和冷卻的電力。儘管推論工作負載也能在資料中心或雲端執行，但由於多種原因，越來越多推論任務正遷移至邊緣。

首先是延遲問題。將原始資料發送到雲端或資料中心耗用時間，因此需要更長的時間來執行推論，而且將想要的答案或決策發送至邊緣的時間也會增加。以工廠自動化、雷達、電子作戰等即時任務來說，費時過長的決策會導致高昂成本。

將推論工作負載遷移到邊緣還有另外兩個原因：運算力和電力。隨著AI/ML推論工作負載遷移到大量的邊緣裝置，這些邊緣裝置中的數百萬個推論引擎總運算力將超越資料中心伺服器的運算力。另外，邊緣推論引擎並不會消耗大量電力。

為解決邊緣推論的獨特需求，採用全新運算架構的晶片將於近期問世。製造商強調，他們的元件能以更低的功耗達到頗高的TFLOPS和TOPS運算次數。儘管推論工作負載需要充裕的TFLOPS和TOPS是不爭的事實，但這些專用邊緣推論晶片基於單向架構理念，一旦考慮互相結合訓練與推論工作負載，即有可能證明這種架構不堪使用。

當前，AI/ML模型訓練工作負載主要在資料中心內的高功耗CPU和GPU上執行，它們在此消耗大量電力，同時利用先進的冷卻技術來執行訓練AI/ML模型所需的數萬億次運算。這種訓練幾乎普遍採用具備高動態範圍的浮點資訊格式，透過允許對模型權重進行微小的增量調整來實現最高模型精度。浮點運算耗電更多，因而需要額外的冷卻。此外，CPU和GPU在記憶體和其內部運算單元之間遷移大型訓練資料集時也會消耗大量電力。

如果要使用全精度浮點資訊格式完成全部運算，大多數邊緣推論晶片難以負擔如此的矽或功耗。很多公司為了獲得高峰值TFLOPS和TOPS指標而做出妥協，通常的做法是以精度略低的資料類型代表AI/ML權重、啟動和資料。邊緣AI/ML晶片的廠商會提供相關軟體工具，以降低受訓模型權重的精度，從而將模型轉換為較小數值格式，例如FP8、縮放整數，或者甚至是二進位資料格式。這些較小的資料格式可為推論工作負載帶來優勢，但也會損失一定程度的模型精度。用降低的精度重新訓練AI/ML模型通常可以恢復些許精度。

試想有一種可擴展的裝置架構，既可以部署在小型嵌入式邊緣裝置中，也可以部署在能夠聚集資料中心內執行的工作負載的大型裝置中。這些最佳化措施除幫助改善邊緣功耗和成本效率，也能令資料中心的運算更密集、更具成本效益，以便降低用於推論和訓練的設備資本與營運支出。

而支援全精度浮點格式和降精度浮點格式的AI/ML加速器可擴展架構，打破訓練與推論之間的人工界線，為統一架構部署相同標準和熟悉的軟體工具。這類高效率的邊緣AI加速器採用資料流程和晶片廣播網路等架構創新，允許從外部記憶體獲取的資料傳輸到晶片後多次重複使用。

在一些實際的應用案例中，導向機器學習的統一可擴展資料流程架構，打破訓練與推論不同階段之間的壁壘。以聯邦學習（Federated Learning）為例，它解鎖全新類型的AI/ML工作負載。對於眾多連結應用而言，聯邦學習可以取代透過一次性離線訓練推導出的降精度AI/ML推論模型單向方法，並獲得由於欠缺代表的集中式離線訓練集而難以實現的效能。

聯邦學習利用邊緣推論的重要特色，即裝置帶來遠超於原始模型訓練集，在眾多範圍暴露的不同輸入（inputs）。如設計得當，邊緣裝置能從額外輸入中學習，並在裝置部署過程中進一步提升其模型精度。可能會有數百、數千乃至數百萬個邊緣裝置共同改善相同的AI/ML模型，以提供更優質的本地回覆或決策。

以同一家廠商製造並遍佈在世界各地醫院中的CT或MRI掃描器為例。這些影像裝置的任務通常是發現癌症腫瘤或其他疾病，並且能愈加採用AI/ML模型幫助放射科醫生辨別可疑組織。隨著每台現場裝置不斷改進其模型，如果利用聯邦學習更新及改進原始模型，可讓用於打造新影像裝置的原始訓練模型受益於相同的改良。

進行更新時，應確保只共用來自新增邊緣訓練的洞察，而非個人隱私資料，以利所有現場裝置都能在不侵犯隱私的情況下從這種額外訓練中獲益。聯邦學習在隱私保護裝置個人化方面具有廣泛適用性，因其可以針對特定使用者客製化視覺演算法和語音演算法效能。此外，也有網路安全應用，透過網路入口節點的協作學習即可發現主動安全規則，而無需共用敏感的專用網路流量。

AMD資深副總裁Ivo Bolsens認為，統一的雲端和邊緣運算架構優勢在於利用相同的軟體二進位，就能將模型依邏輯劃分為執行於雲端和邊緣。統一架構可確保使用相容的資料格式，以及確保優化資料格式如稀疏性表示（sparsity representations）不會在雲端和邊緣之間中斷。可擴展的統一架構與貫穿於所部署應用生命週期的持續學習，與現時的常規訓練與推論做法不同，因為後者依賴資料中心的CPU和GPU與邊緣專用裝置。然而，隨著AI/ML逐步普及，如果業界希望大幅提升效能、精度和能源效率，這種統一方式應為最合乎邏輯的途徑。