亚马逊(Amazon)智慧音箱Echo的成功,改变了整个智慧语音应用的市场风貌,现在人们谈到智慧语音,脑海浮现的不是Siri,而是Alexa。而应用的场景也不是行动优先的手机,而是在家庭。
目前在美国市场,智慧音箱已在日常的家庭生活中有着日渐稳固的地位。根据研究机构PwC对1,000名美国成年人进行的调查显示,65%的消费者在进行烹饪时,会使用独立的智慧音箱;反之,使用行动装置进行语音辅助的比例仅为37%。此外,在处理多重任务和观看电视时,智慧音箱都是他们的主要选项。
家庭应用是智慧语音技术的主场
由此可见,家庭应用无疑是智慧语音技术的主场,而且更重要的是,几乎所有的消费者(93%)都对这些语音助理感到满意,但智慧手机上的语音助理则是最消费者满意度最低的一项。
所以毫无疑问,智慧语音助理在数位家庭用中的比重将会开始飙升。 IDC的最新报告就指出,全球智慧家庭装置市场,包括智慧音箱,数位媒体转接器,照明,恒温器等,预计2018年出货量达549.5万台,比去年成长26.8%。其中最热门的两个类别是智慧音箱和影片娱乐产品,预计将占2018年智慧家庭产品市场价值的71%。
另一家国际研究机构Juniper Research也指出,亚马逊Alexa与谷歌语音的智慧家庭助理装置,在未来五年将有望达到十倍(1000%)的成长。预计使用语音助理的数量,将从2018年的2500万,成长到2023年的2.75亿。这一成长的主要动能就是智慧家庭解决方案的大量成长。
而随着智慧语音在家庭应用规模的飙升,相关技术供应链的也将迎来美好的年代,其中晶片与模组供应商会是最主要的获利者。然而,相较于传统的独立、零散的语音设计方案,当前新一代的智慧语音,则是走向整体解决方案的形式,也就是结合晶片、软体与云端,并具备AI和机器学习的技术支援。
优化语音品质 高性能与低功耗是DSP的硬道理
瑞昱半导体(Realtek)是台湾老牌的音效晶片供应商,其DSP晶片已被广泛用在各式消费性装置与PC平台。而随着进入智慧语音世代,瑞昱的DSP也从高运算能力、大容量、省电,转移至神经网路技术(Neural Network Learning)与Video演算法,以往4到8个mac,目前已往300至1000个mac走。此外,配合消费性电子轻薄产品趋势,DSP体积也同步缩小。
「语音最自然,可以存在于每个装置上面。」瑞昱半导体电脑周边事业群副总经理苏祝鼎说道。
图1 : 瑞昱半导体电脑周边事业群副总经理苏祝鼎相信,未来每个装置都将支援语音介面。 (摄影/王景新) |
|
瑞昱认为,语音介面的技术很多,概略可分为软体、硬体两大项,之后又可再依照是人和人之间的沟通(voice),或是人与机器间的指令(speech),这两者的技术又不相同,语音辨识之前有一段的pre-processing(前处理)跟语音品质息息相关,是为技术层面的最大挑战。
「我认为最大的挑战是怎么去处理语音的品质。」苏祝鼎强调。
他举例,人跟人之间的沟通,即便是在环境较嘈杂的咖啡店,我们仍能清楚接受同伴的讯息;机器则不然,「我们有一种过度期待是可以站得很远,或很吵的环境,机器还可以听得懂。」易言之,使用者对人机介面语音品质接收成功与否有很高期待,期待能跟人际沟通一样顺畅无碍。
「我们在硬体的部分,专注于Codec跟DSP上。」苏祝鼎说。他也指出,高品质、低电耗依旧是技术发展的硬道理。至于软体部分,瑞昱将重心放在Voice Processing。
他表示,过去瑞昱让终端用户自己选择使用的环境,然后再提供相应的对策;现在的趋势是,让软体自己侦测使用环境,具体而微地分辨出咖啡厅、餐厅、家里等,而瑞昱已投入了20年。
苏祝鼎指出,语音介面的硬体挑战不在编解码器(Codec)本身,而在数位讯号处理器(DSP)上。如果为了提高识别率,动不动把SoC叫起来,将相当耗电。
他分析,国外有大厂作法是辨识处理部分往云端丢,漏掉一个关键,这除了也耗电,更疏忽了资料保密性的重要。目前的技术趋势是,前处理同步进行个人语音,所以一颗DSP晶片有二分之一都是记忆体,跑得动演算法之外,也须具备省电特性。
虽然瑞昱并非麦克风或喇叭厂,苏祝鼎仍点出这两项硬体的摆放位置,直接影响收音好坏。
「收音设备机构设计上如果有问题,再好的算法跟硬体DSP,可能都救不了。」他举例,曾经碰过有人把麦克风摆在风扇旁边,对语音辨识就是较不理想的摆放位置。他强调,人的语音特征不能被破坏,杂音抑制(Noise Surrpressing)做过头,人声辨识不出来;做太少,则音感不好。
图2 : 瑞昱半导体通讯网路事业群总监沈家厌拿着的Ameba Pro仅2.7乘以2.2公分大小。(摄影/王景新) |
|
通讯网路事业群总监沈家庆则特别介绍旗下一款Wi-Fi SoC晶片Ameba,其以具有改变其形状和适应能力的真核生物体命名。产品像其名字,Ameba可以应用于几乎每个IoT应用。这款晶片整合了Wi-Fi与MCU和丰富的I/O介面。
深度学习技术解决人类自然语意难题
不同于瑞昱在音效技术上的长期投入,威盛电子(VIA)则是从处理器端起步,并透过在运算端的优势,在近期转往发展人工智慧(AI)技术,并将之运用在智慧语音上。
OLAMI(欧拉蜜),便是威盛独立开发的智慧语音助理方案,未来将融入智慧电子看板、电视墙,和物联网(IoT)应用等。 OLAMI基于深度学习(Deep Learning)的语音辨识与电脑视觉等相关技术,具备语音检测、回声消除、噪声抑制语音辨识;自然语言理解、对话管理、语音合成,提供一站式的解决方案。
威盛嵌入式事业部总经理吴亿盼表示,语料库的建立,是发展AI的前期基础门槛。必须搞清楚定位在哪,想这个市场多大,建立语料、定位,再定义场景,最后收敛到应用端。
图3 : 威盛投入人工智慧语音方案的布局。威盛嵌入式事业部总经理吴亿盼(右)、郭宇帆。(摄影/王景新) |
|
他指出,人类有70%的感官靠眼睛。但也必须结合听觉,因此,机器视觉、智慧语音、人工自然语言等三者,彼此有不可或缺的紧密、连动关系,这里头的关键技术,是以绘图晶片的演算法跟逻辑开发出来的。再以B2B的形式,落地到各个行业。
「技术的核心一样,不同的排列组合,堆叠出客户的需求。」吴亿盼说。
「客户对AI有电影般的想像。」威盛嵌入式-Smart Cities产品行销郭宇帆分享。他认为,要先了解客户的最终目的是什么,梳理中间架构,协助画清楚中间地图,从预期收敛到现实,是推广方面的最大挑战。
他举例,就医院的应用场景来说,总有推床等声音干扰,不见得适合完全以机器人为主,「这时候可以投过手机App来辅助,纪录相关数据,让产品更能落实。」即是于劳力密集的零售端,传统人力仍然难被取代。
他指出,最大的限制是自然语意理解(NLP)的部分,人类语音有太多复杂的模型。机器人目前有其局限范围,一定范围之外听不懂,最后还是会找上真人。
这个痛点,威盛看到了。其OLAMI自然语言人机互动方案,就是覆盖众多垂直领域的语意通用场景,藉由海量知识库,支持亿万量级词典的复杂语意空间建模以及自定义语法解析,专利研发的深度语意解析技术以及OSL语法描述语言,让开发者或企业可以根据自身需求快速构建各种应用,并降低开发成本。
「OLAMI是台湾最local的中文语音辨识服务。」郭宇帆介绍。
他解释,OLAMI中文语音辨识(Speech-To-Text;STT)能提供中、英、台语混合辨识引擎企业级解决方案,针对不同产业领域,专业客制化语音辨识引擎。其中,在台语语音、以及声音转成文字都能做得非常精准,例如,一般语音辨识台语的「脚踏车」,中文显示结果可能「卡的车」,并不精确;拜OLAMI台语语料库、文法逻辑之赐,把特殊词汇建进中文逻辑,混搭中、英、台语三种不同语言逻辑,精准呈现,拉开与同业的距离
由于其强大的辨识与学习能力,因此OLAMI的应用远超出了智慧家庭的范畴,不仅在中国大陆智慧家庭应用颇有斩获,也能因应电信、金融、零售以及企业内部等的商业级的应用。
今年第三季,信望爱基金会出导入威盛开发的AI语音辨识,开发的系统可辨识学生朗诵课文,依据流畅度、发音等评分,给出红(挣扎)、黄(注意)、绿(流畅)三灯级分,也让智慧语音技术进入了教育市场。