未来是AI处理器的时代,这些智慧处理器将媲美现在的CPU与影像处理器,晋升为最主流的逻辑元件。但要在边缘环境实现智慧普及化,元件设计仍有成本与功耗的关键挑战。美国AI处理器新创公司Mythic(Mythic, Inc.)锁定边缘运算市场对低功耗推论运算(inference processing)的庞大市场,藉由其独特的数位记忆体内运算(analog comput-in-memory)技术,推出首款数位矩阵运算处理器M1108 AMP(Analog Matrix Processor),不仅效能与功耗效率成功双双升级,推论效能可达35 TOPS,准确率更达到数位元件等级。
|
Mythic数位矩阵运算处理器M1108 AMP,创新采用数位运算架构来开发AI处理器,实现35 TOPS的优异推论效能,且最高功耗仅4W,推升边缘运算装置量产的市场潜力。 |
谈到边缘运算装置,常见的CPU、GPU、ASIC等逻辑元件,皆以数位运算架构设计,在特定领域(domain-specific)的深度学习应用,显现了超於常人的智慧运算效能,然而,这些元件多半采用例如5nm的先进制程,还需要DRAM等外部记忆体,功耗与成本也很吓人。
Mythic业务发展部门资深经理David Kuo指出:「类比运算架构在边缘装置上展现了可观优势,能够利用Flash记忆体,设计出记忆体内运算元件,不仅解决了运算延迟的问题,制程成本也能降低许多。」
新款M1108 AMP处理器采用了独特的元件架构,因此大幅减省执行复杂AI模型时的运算功耗,工作量达尖峰时功耗最高仅4W,还能善用技术成熟且具成本优势的40nm制程技术,系统设计上,也不需要DRAM或SRAM等外部记忆体,因此,与采用数位运算架构的元件相比,整体成本最多降低了10倍。
拆解这套元件架构可以发现,M1108 AMP整合了108个AMP区块(tile),每区块都内建了Mythic类比运算引擎(Mythic Analog Compute Engine;Mythic ACE),还包含了快闪记忆体阵列、数位类比转换器(ADC)、网路晶片(Network-on-chip;NoC)路由器、SRAM与SIMD向量运算引擎,还搭载一颗32位元的RISC-V处理器(nano-processor),最隹化AI运算架构的整体功耗、成本与效能。
「所有推论工作都在Flash执行,」David Kuo解释:「而我们的关键技术,在於利用Flash进行乘法运算(multiplying),最重要的是,我们在M1108晶片上设计了2万7千多颗ADC,因此元件尺寸必须微缩到极小,这也是Mythic的IP技术所在。」
Mythic的研发成果,也确实令人为之一亮,M1108 AMP的元件尺寸仅360mm2,满足边缘装置的尺寸高敏感型需求。在控制与介面上,M1108提供四通道PCIe 2.0介面,能以2GB/s的最高频宽连接到系统主处理器,另外还支援I2X、SPI、UART与GPIO介面,提升边缘装置的开发弹性与可行性。
如此精巧尺寸与低功耗的设计,在运算上还能执行ResNet-50、YOLOv3、OpenPose Body25等复杂的运算模型,为新世代的边缘运算装置提供了量产的优化方案。
此外,为了简化开发人员的设计流程,Mythic也提供数位元件设计的相关软体工具,包含从优化神经网路的分层(layer)、转换模型的浮点运算格式(由FP32转至INT8),到重新训练AI模型、图像编译(graph compilation),提供一系列的开发资源,协助将AI模型转换至Mythic AMP处理器上执行推论。
M1108 AMP系列产品目前提供PCIe M.2和PCIe的选项。目标应用涵盖现在常见的边缘运算装置,例如监控摄影机、网路摄影机、智慧家庭电器、工业机器视觉设备,以及其他AI新兴应用,例如轻量型无人机、AR/VR互动装置,以及消费性与零售机器人等。
Mythic成立於2012年,聚焦数位运算架构,累积了丰富的相关开发技术与经验,尤其针对数位元件的生产难题,成功开发出相应的元件架构技术解决。