账号:
密码:
最新动态
 
产业快讯
CTIMES / 文章 /
高性能DSP与深度学习语库是智慧语音开发关键
家庭语音助理迎十倍成长

【作者: 王景新、籃貫銘】2018年11月12日 星期一

浏览人次:【13638】


亚马逊(Amazon)智慧音箱Echo的成功,改变了整个智慧语音应用的市场风貌,现在人们谈到智慧语音,脑海浮现的不是Siri,而是Alexa。而应用的场景也不是行动优先的手机,而是在家庭。


目前在美国市场,智慧音箱已在日常的家庭生活中有着日渐稳固的地位。根据研究机构PwC对1,000名美国成年人进行的调查显示,65%的消费者在进行烹饪时,会使用独立的智慧音箱;反之,使用行动装置进行语音辅助的比例仅为37%。此外,在处理多重任务和观看电视时,智慧音箱都是他们的主要选项。


家庭应用是智慧语音技术的主场

由此可见,家庭应用无疑是智慧语音技术的主场,而且更重要的是,几乎所有的消费者(93%)都对这些语音助理感到满意,但智慧手机上的语音助理则是最消费者满意度最低的一项。


所以毫无疑问,智慧语音助理在数位家庭用中的比重将会开始飙升。 IDC的最新报告就指出,全球智慧家庭装置市场,包括智慧音箱,数位媒体转接器,照明,恒温器等,预计2018年出货量达549.5万台,比去年成长26.8%。其中最热门的两个类别是智慧音箱和影片娱乐产品,预计将占2018年智慧家庭产品市场价值的71%。


另一家国际研究机构Juniper Research也指出,亚马逊Alexa与谷歌语音的智慧家庭助理装置,在未来五年将有望达到十倍(1000%)的成长。预计使用语音助理的数量,将从2018年的2500万,成长到2023年的2.75亿。这一成长的主要动能就是智慧家庭解决方案的大量成长。


而随着智慧语音在家庭应用规模的飙升,相关技术供应链的也将迎来美好的年代,其中晶片与模组供应商会是最主要的获利者。然而,相较于传统的独立、零散的语音设计方案,当前新一代的智慧语音,则是走向整体解决方案的形式,也就是结合晶片、软体与云端,并具备AI和机器学习的技术支援。


优化语音品质 高性能与低功耗是DSP的硬道理

瑞昱半导体(Realtek)是台湾老牌的音效晶片供应商,其DSP晶片已被广泛用在各式消费性装置与PC平台。而随着进入智慧语音世代,瑞昱的DSP也从高运算能力、大容量、省电,转移至神经网路技术(Neural Network Learning)与Video演算法,以往4到8个mac,目前已往300至1000个mac走。此外,配合消费性电子轻薄产品趋势,DSP体积也同步缩小。


「语音最自然,可以存在于每个装置上面。」瑞昱半导体电脑周边事业群副总经理苏祝鼎说道。



图1 : 瑞昱半导体电脑周边事业群副总经理苏祝鼎相信,未来每个装置都将支援语音介面。 (摄影/王景新)
图1 : 瑞昱半导体电脑周边事业群副总经理苏祝鼎相信,未来每个装置都将支援语音介面。 (摄影/王景新)

瑞昱认为,语音介面的技术很多,概略可分为软体、硬体两大项,之后又可再依照是人和人之间的沟通(voice),或是人与机器间的指令(speech),这两者的技术又不相同,语音辨识之前有一段的pre-processing(前处理)跟语音品质息息相关,是为技术层面的最大挑战。


「我认为最大的挑战是怎么去处理语音的品质。」苏祝鼎强调。


他举例,人跟人之间的沟通,即便是在环境较嘈杂的咖啡店,我们仍能清楚接受同伴的讯息;机器则不然,「我们有一种过度期待是可以站得很远,或很吵的环境,机器还可以听得懂。」易言之,使用者对人机介面语音品质接收成功与否有很高期待,期待能跟人际沟通一样顺畅无碍。


「我们在硬体的部分,专注于Codec跟DSP上。」苏祝鼎说。他也指出,高品质、低电耗依旧是技术发展的硬道理。至于软体部分,瑞昱将重心放在Voice Processing。


他表示,过去瑞昱让终端用户自己选择使用的环境,然后再提供相应的对策;现在的趋势是,让软体自己侦测使用环境,具体而微地分辨出咖啡厅、餐厅、家里等,而瑞昱已投入了20年。


苏祝鼎指出,语音介面的硬体挑战不在编解码器(Codec)本身,而在数位讯号处理器(DSP)上。如果为了提高识别率,动不动把SoC叫起来,将相当耗电。


他分析,国外有大厂作法是辨识处理部分往云端丢,漏掉一个关键,这除了也耗电,更疏忽了资料保密性的重要。目前的技术趋势是,前处理同步进行个人语音,所以一颗DSP晶片有二分之一都是记忆体,跑得动演算法之外,也须具备省电特性。


虽然瑞昱并非麦克风或喇叭厂,苏祝鼎仍点出这两项硬体的摆放位置,直接影响收音好坏。


「收音设备机构设计上如果有问题,再好的算法跟硬体DSP,可能都救不了。」他举例,曾经碰过有人把麦克风摆在风扇旁边,对语音辨识就是较不理想的摆放位置。他强调,人的语音特征不能被破坏,杂音抑制(Noise Surrpressing)做过头,人声辨识不出来;做太少,则音感不好。



图2 : 瑞昱半导体通讯网路事业群总监沈家厌拿着的Ameba Pro仅2.7乘以2.2公分大小。(摄影/王景新)
图2 : 瑞昱半导体通讯网路事业群总监沈家厌拿着的Ameba Pro仅2.7乘以2.2公分大小。(摄影/王景新)

通讯网路事业群总监沈家庆则特别介绍旗下一款Wi-Fi SoC晶片Ameba,其以具有改变其形状和适应能力的真核生物体命名。产品像其名字,Ameba可以应用于几乎每个IoT应用。这款晶片整合了Wi-Fi与MCU和丰富的I/O介面。


深度学习技术解决人类自然语意难题

不同于瑞昱在音效技术上的长期投入,威盛电子(VIA)则是从处理器端起步,并透过在运算端的优势,在近期转往发展人工智慧(AI)技术,并将之运用在智慧语音上。


OLAMI(欧拉蜜),便是威盛独立开发的智慧语音助理方案,未来将融入智慧电子看板、电视墙,和物联网(IoT)应用等。 OLAMI基于深度学习(Deep Learning)的语音辨识与电脑视觉等相关技术,具备语音检测、回声消除、噪声抑制语音辨识;自然语言理解、对话管理、语音合成,提供一站式的解决方案。


威盛嵌入式事业部总经理吴亿盼表示,语料库的建立,是发展AI的前期基础门槛。必须搞清楚定位在哪,想这个市场多大,建立语料、定位,再定义场景,最后收敛到应用端。



图3 : 威盛投入人工智慧语音方案的布局。威盛嵌入式事业部总经理吴亿盼(右)、郭宇帆。(摄影/王景新)
图3 : 威盛投入人工智慧语音方案的布局。威盛嵌入式事业部总经理吴亿盼(右)、郭宇帆。(摄影/王景新)

他指出,人类有70%的感官靠眼睛。但也必须结合听觉,因此,机器视觉、智慧语音、人工自然语言等三者,彼此有不可或缺的紧密、连动关系,这里头的关键技术,是以绘图晶片的演算法跟逻辑开发出来的。再以B2B的形式,落地到各个行业。


「技术的核心一样,不同的排列组合,堆叠出客户的需求。」吴亿盼说。


「客户对AI有电影般的想像。」威盛嵌入式-Smart Cities产品行销郭宇帆分享。他认为,要先了解客户的最终目的是什么,梳理中间架构,协助画清楚中间地图,从预期收敛到现实,是推广方面的最大挑战。


他举例,就医院的应用场景来说,总有推床等声音干扰,不见得适合完全以机器人为主,「这时候可以投过手机App来辅助,纪录相关数据,让产品更能落实。」即是于劳力密集的零售端,传统人力仍然难被取代。


他指出,最大的限制是自然语意理解(NLP)的部分,人类语音有太多复杂的模型。机器人目前有其局限范围,一定范围之外听不懂,最后还是会找上真人。


这个痛点,威盛看到了。其OLAMI自然语言人机互动方案,就是覆盖众多垂直领域的语意通用场景,藉由海量知识库,支持亿万量级词典的复杂语意空间建模以及自定义语法解析,专利研发的深度语意解析技术以及OSL语法描述语言,让开发者或企业可以根据自身需求快速构建各种应用,并降低开发成本。


「OLAMI是台湾最local的中文语音辨识服务。」郭宇帆介绍。


他解释,OLAMI中文语音辨识(Speech-To-Text;STT)能提供中、英、台语混合辨识引擎企业级解决方案,针对不同产业领域,专业客制化语音辨识引擎。其中,在台语语音、以及声音转成文字都能做得非常精准,例如,一般语音辨识台语的「脚踏车」,中文显示结果可能「卡的车」,并不精确;拜OLAMI台语语料库、文法逻辑之赐,把特殊词汇建进中文逻辑,混搭中、英、台语三种不同语言逻辑,精准呈现,拉开与同业的距离


由于其强大的辨识与学习能力,因此OLAMI的应用远超出了智慧家庭的范畴,不仅在中国大陆智慧家庭应用颇有斩获,也能因应电信、金融、零售以及企业内部等的商业级的应用。


今年第三季,信望爱基金会出导入威盛开发的AI语音辨识,开发的系统可辨识学生朗诵课文,依据流畅度、发音等评分,给出红(挣扎)、黄(注意)、绿(流畅)三灯级分,也让智慧语音技术进入了教育市场。


相关文章
显微镜解决方案助力台湾半导体技术提升研发效能
十大云端应用开发趋势与预测
以深度学习和Spine Tool评估阿兹海默症治疗标的
透过App机器学习加速药物制造分析
灯塔工厂的关键技术与布局
comments powered by Disqus
相关讨论
  相关新闻
» 数智创新大赛助力产学接轨 鼎新培育未来AI智客
» 巴斯夫与Fraunhofer光子微系统研究所共厌 合作研发半导体产业创新方案10年
» 工研院IEK眺??2025年半导体产业 受AI终端驱动产值达6兆元
» ASM携手清大设计半导体制程模拟实验 亮相国科会「科普环岛列车」
» SEMI提4大方针增台湾再生能源竞争力 加强半导体永续硬实力


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.2048.18.219.89.148
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw