GPU的AI加速运算能力在各大研究上扮演关键角色。丽台科技突破传统限制,率先发表GPU资源分配与管理系统 (GDMS),并首由长庚大学资工系导入使用。
|
长庚大学资工系系主任陈仁晖(中)与丽台科技协理陈树威(左一)等人合影。(source:丽台) |
丽台GDMS提供多人使用单一张GPU,以及一人使用多GPU两种资源分配模式,适用於NVIDIA 全系列绘图卡,支援不同规模的工作负载,达到资源运用最大化。其直觉式图型操作介面,让不懂Docker指令的管理人员,仍能轻松执行AI专案建置,将AI研发和教学环境布署时间缩短300倍。
在AI研发上,目前大部份开发者采用的容器化开源软体架构,皆是以单张GPU为单位。也就是单一GPU卡,只能分配给单一Container使用。丽台GDMS则是以专案及Docker为基础的GPU资源分配与管理系统,容许多个Container使用同一张GPU资源。长庚大学资工系陈仁晖系主任提到,在教学上,学生所执行的专案较小,如果GPU等资源无法有效分配,将十分可惜。GDMS可以在相同资源条件下,让更多学生同时使用GPU运算资源,将能够大大提升GPU使用率。此外,透过GDMS图型介面,除了能让使用者更方便操作外,老师也能在课堂间的休息时间,快速布署不同Container给指定学生使用。一般来说,大约需要花 50 分钟才能建立 100 个 Container,但现在只需要花十秒即可完成,同时达到快速备课及资源使用最大化目的,真的是教学一大利器。
丽台科技林威延博士补充,此种单卡支援多人使用的模式也相当适合企业研发单位执行AI训练,以降低总体持有成本。丽台GDMS另一个功能则反过来。例如研究单位进行大型AI研发专案时,丽台GDMS能集中多张GPU资源支持该专案进行,并确保其他人寻找可用GPU资源时不会影响到该专案的资源分配,弹性支援不同AI开发情境。
在实务上,随着需求不断改变,AI研发单位会不断的扩充硬体,创建不同的群组与Docker。时间久了,很难记住这些Docker布署在哪些伺服器上,进而造成管理混乱。在GDMS协助下,管理时间将大幅降低,研发团队可更专注於AI专案开发。除此之外,丽台同时推出RTX GPU AI 开发软体(RTX AI Software Pack)以解决AI框架相依函式库易相冲突的问题。丽台GPU AI开发软体整合了 12 种深度学习以及机器学习的开发套件。除了大家熟悉的 Caffe、TensorFlow、学术界常用的 PyTorch,还有RAPIDS等,各开发套件的相容性已调整在最隹状态,在AI开发环境建置上,将可省去除错时间。若在伺服器上安装丽台GPU AI 开发软体,再通过 GDMS启动Container,便可直接开启多个对应的连接埠、整合储存设备路径,或安装必要套件(例如:Jupyter notebook、Matplotlib),专案成员亦可自行上传Docker Image。如此一来,透过GDMS的管理,除了GPU的资源分配之外,只需要对应多组连接埠,即可在有限的硬体实现多丛集架构的软体教学 (例如:Hadoop),不需再购买其他虚拟化方案。
图说 : 长庚大学资工系系主任陈仁晖(中),丽台科技协理陈树威(左一),长庚大学资工系助理教授李季青(左二),丽台科技业务经理沈守宥(右二),丽台科技技术经理刘家豪(右一)合影。(source:丽台)