人員偵測和物件計算等網路終端人工智慧(AI)應用正日益普及,但設計人員越來越迫切地要求在不影響性能的情況下實現低功耗和小尺寸的網路終端人工智慧解決方案。萊迪思的sensAI技術集合的最新版本,加上ECP5和iCE40 UltraPlus FPGA,為設計人員提供了在網路終端實現低功耗、高性能AI所需的硬體平台、IP、軟體工具、參考設計和設計服務。
低成本、高性能的網路終端解決方案的市場競爭日益激烈。各市場研究公司預測,在未來六年內,網路終端解決方案市場將迎來大爆發。IHS預計到2025年,將有超過400億台設備在網路終端運行,而市場情報機構Tractica預測,屆時每年將出貨超過25億台網路終端設備。
隨著新一代網路終端應用的出現,設計人員越來越傾向於開發結合低功耗和小尺寸而不降低性能的解決方案。推動這些全新AI解決方案需求的是網路終端應用的增長,例如用於智慧門鈴和監視器等家庭控制應用的存在偵測,零售應用中用於庫存的物件計算,以及工業應用中的物件和存在偵測。一方面,市場要求設計人員開發出性能比以往更高的解決方案。另一方面,延遲、頻寬、隱私、功耗和成本問題限制了他們依賴雲端運算資源來執行分析。
同時,性能、功耗和成本限制因應用而異。隨著即時線上網路終端應用的資料需求不斷推動對基於雲端服務的需求,設計人員必須解決傳統的功耗、電路板面積和成本問題。開發人員如何解決系統對於日益嚴格的功耗(毫瓦級)和小尺寸(5 mm2到100 mm2)要求。單論各種性能要求就已經很難滿足。
利用FPGA的優勢
萊迪思的FPGA具有獨特的優勢,可以滿足網路終端設備快速變化的市場需求。設計人員可以在不依賴雲端的情況下,快速為網路終端設備提供更多運算資源的其中一個方法,為使用FPGA中本身的並行處理能力來加速神經網路性能。
此外,通過使用針對低功耗運行而優化的低密度、小尺寸封裝FPGA,設計人員可以滿足新的消費和工業應用對功耗和尺寸的嚴格限制。例如,萊迪思的iCE40 UltraPlus?和ECP5?產品系列支援網路終端解決方案的開發,功耗低至1 mW到1 W,硬體平台尺寸小至5.5 mm2到100 mm2。通過將超低功耗、高性能和高精度與全面的傳統介面支援相結合,這些FPGA為網路終端設備開發人員提供了滿足不斷變化的設計要求所需的靈活性。
圖一 : 萊迪思半導體的低功耗、小尺寸FPGA提供適當的性能和功能組合,支援網路終端人工智慧應用。 |
|
為了滿足這一需求並加速開發,萊迪思sensAI為設計人員提供了開發智慧家居、智慧工廠、智慧城市和智慧汽車中低功耗、高性能網路終端設備所需的所有工具。sensAI旨在滿足支援AI的網路終端設備不斷增長的需求,提供全面的硬體和軟體解決方案,用於在網路終端運行的智慧設備中實現低功耗、即時線上的AI功能。sensAI旨在無縫創造新設計或更新現有設計,其低功耗AI推理針對這些新應用要求進行了優化。
這個全面的設計生態系統中有什麼?首先,萊迪思的模組化硬體平台,如帶有HM01B0 Shield開發板的iCE40 UPduino 2.0和基於ECP5的嵌入式視覺開發套件(EVDK),為應用開發提供了穩固的基礎。UPduino可用於僅需幾毫瓦的AI設計,而EVDK支援需要更高功耗但通常工作在1W以下的應用。
Soft IP可以輕易地具現化到FPGA中,以加速神經網路的開發。因此,sensAI開發包包括CNN加速器IP,能讓設計人員在iCE40 UltraPlus FPGA中實現深度學習應用。sensAI還提供完整的CNN可設置參數的加速器IP核心,可以在萊迪思的ECP5 FPGA中實現。這些IP支援可變數化。這反過來又使設計人員能夠在資料準確性和功耗之間進行權衡。
萊迪思的sensAI技術集合允許設計人員通過便於使用的工具流程探索設計選項和權衡。設計人員可以使用Caffe、TensorFlow和Keras等行業標準框架進行網路訓練。開發環境還提供神經網路編譯器,將訓練的網路模型映射為固定點表示,支援權重和啟動的可變數化。設計人員可以使用編譯器來?明分析、模擬和編譯不同類型的網路,以便在沒有RTL經驗的情況下在萊迪思的加速器IP核上實現。然後,設計人員可以使用傳統的FPGA設計工具,如Lattice Radiant和Diamond來實現整個FPGA設計。
為加快設計實現,sensAI提供了越來越多的參考設計和演示。包括臉部辨識、手勢偵測、關鍵字檢測、人員偵測、臉部跟蹤、物件計算和速度標誌檢測。最後,設計團隊通常需要一定的專業知識才能完成設計。
圖二 : sensAI是一整套硬體和軟體解決方案,適用於網路終端人工智慧應用的開發 |
|
大標:主要更新
為了滿足網路終端AI快速增長的性能要求,萊迪思在2019年發佈sensAI更新,增強了其性能並優化了設計流程。更新後的sensAI比上一版本的性能提升了10倍,這是由多個優化促成的,包括通過更新CNN IP和神經網路編譯器,新增8位元啟動量化、智慧層合併以及雙DSP引擎等特性,優化了記憶體的存取。
在最新版本中,由於更新了神經網路編譯器,支援8位元輸入資料,記憶體訪問序列得到大幅優化。因此不僅外部記憶體的存取減少了一半,還支援使用更高解析度的圖像作為資料輸入。使用更高解析度的圖像,解決方案自然更為精確。
為進一步加速性能,萊迪思優化了sensAI神經網路中的卷積層,減少了卷積計算耗費的時間。萊迪思將設備中的卷積引擎數量翻倍,減少了約50%的卷積時間。
萊迪思在不增加功耗的情況下提升了sensAI的性能,設計人員因此可以選擇ECP5 FPGA產品系列中閘數較少的裝置。經優化的演示範例可以?明實現性能提升。例如,針對低功耗運行進行優化、採用CMOS圖像感測器的人員偵測演示,通過VGG8網路提供64 x 64 x 3的解析度。
該系統以每秒5幀的速率運行,使用iCE40 UltraPlus FPGA功耗僅為7 mW。第二個性能經優化的演示,針對人員計算應用,同樣也使用CMOS圖像感應器,通過VGG8網路提供128 x 128 x 3的解析度。該演示以每秒30幀的速率運行,使用 ECP5-85K FPGA功耗為850 mW。
圖三 : 這些參考設計展示了sensAI提供的功耗與性能可選方案 |
|
與此同時,sensAI給使用者帶來無縫的設計體驗,它支援更多神經網路模型和機器學習框架,從而縮短設計週期。全新可定制化的參考設計可簡化物件計算和存在偵測等常見的網路終端解決方案的開發,同時設計合作夥伴生態也在不斷拓展,為使用者提供重要的設計服務。有了這些,萊迪思能為開發人員提供他們複製或調整其設計所需的全部關鍵工具。例如,圖四展示了萊迪思提供的一系列全面的元件,包括訓練模型、訓練資料集、訓練腳本、經過更新的神經網路IP和神經網路編譯器。
圖四 : sensAI的設計流程包括了業界領先的機器學習框架、訓練資料和腳本、神經網路IP等設計和訓練網路終端AI設備必需的資源 |
|
萊迪思還拓展了對機器學習框架的支援,致力於提供無縫的使用者體驗。最初版本的sensAI支援Caffe和TensorFlow,最新版本新增支援Keras,這是用Python編寫的開源神經網路,可在TensorFlow、Microsoft Cognition Toolkit或Theano上運行。Keras旨在協助工程師快速實現深度神經網路,它可以提供高度方便使用性、模組化和可拓展的環境,加速原型設計。Keras最初被當做一種介面而非獨立的機器學習框架,它的高度抽象性能讓開發人員加速開發深度學習模型。
為進一步簡化使用,萊迪思更新了sensAI神經網路編譯器工具,它可以在機器學習模型轉換為固件檔時自動選擇最精確的分數位數。sensAI更新還新增了一個硬體除錯工具,讓使用者可以在神經網路每個層級進行讀取和寫入。進行軟體模擬之後,工程師也需要知道他們的網路在實際硬體上的表現。使用此工具,工程師可以在短短幾分鐘內看到硬體運行的結果。
此外,最新版本的sensAI得到了越來越多公司採用,提供專為低功耗、即時線上的網路終端設備而優化的設計服務和產品開發技能。這些公司通過無縫更新現有設計或針對特定應用開發完整的解決方案來協助客戶構建網路終端AI設備。
sensAI設計案例
萊迪思這一更高性能的全新解決方案可用於下列四種不同的加速器設計案例。在第一個設計案例中(圖五),設計工程師使用sensAI來構建獨立運行模式的解決方案。這種系統架構能讓設計工程師在萊迪思iCE40 UltraPlus或ECP5 FPGA上開發出即時線上的整合解決方案,具有低延遲、高安全性的特點,其中FPGA資源可用於系統控制。典型的一種應用就是使用獨立運行的感應器實現人員偵測和計算。
圖五 : 將sensAI作為獨立運行的網路終端AI處理解決方案 |
|
設計人員還使用sensAI開發兩種不同類型的預處理解決方案。第一種情況下(圖六),設計人員採用了萊迪思sensAI以及一片低功耗的iCE40 UltraPlus FPGA對感測器資料進行預處理,從而最大程度地降低了向SoC或雲端傳輸資料進行分析的成本。例如,如果是用在智慧門鈴上,sensAI會初步讀取來自影像感測器的資料。如果判斷為不是人,比如說是一隻貓,那麼系統就不會喚醒SoC或連接到雲端作進一步處理。
因此,這種方法可以最大程度降低資料傳輸成本和功耗。如果預處理系統判斷門口的物件是人,則喚醒SoC作進一步處理。這能極大減少系統需要處理的資料量,同時降低功耗要求,這對於即時線上的網路終端應用來說至關重要。
圖六 : 在此案例中,sensAI會預處理感測器資料來判斷該資料是否需要發送到SoC作進一步處理。 |
|
在第二個預處理應用中,設計人員可以使用ECP5 FPGA實現神經網路加速(圖七)。在此案例中,設計人員利用ECP5 IO的靈活性將各類現有的板載器件(如感測器)連接到低端MCU,實現高度靈活的系統制。
圖七 : 第二個系統架構也採用了預處理,設計人員可以使用ECP5和sensAI預處理感測器資料,加強神經網絡的綜合性能 |
|
設計人員還可以在後處理系統中使用sensAI加速器(圖八)。越來越多的設計案例表明,很多公司雖然已經開發出經過驗證、基於MCU的解決方案,但是他們希望在不更換元件或重新設計的情況下新增某種AI功能。但是在某些情況下,他們的MCU性能相對不足。
典型的例子就是智慧工業或智慧家庭應用,在進行分析之前需要圖像濾波。設計人員可以在這裡添加另一個MCU,然後經歷耗時的設計驗證過程,或者也可以在MCU和資料中心之間添加加速器進行後處理,最大限度地減少發送到雲端的資料量。這種方法對想要添加AI功能的物聯網設備開發人員尤其有吸引力。
圖八 : 通過sensAI增強該基於MCU的設計,讓現有的設計支援網路終端AI功能 |
|
結論
顯然,未來幾年將是即時線上的網路終端智慧設備市場發展的關鍵時期。由於應用變得越來越複雜,設計人員將急需能夠以低功耗支援更高性能的工具。萊迪思最新版本的sensAI技術配合ECP5和iCE40 UltraPlus FPGA,將為設計人員提供硬體平台、IP、軟體工具、參考設計和設計服務,協助他們戰勝競爭對手,快速開發出成功的解決方案。