文字如同语音在声音讯号中的标准性一般,是影像讯号中的通讯标准。工研院前瞻技术中心早期也发展文字辨识(Character Recognition)技术,包括光学和手写文字辨识,特别是手写辨识现在已成为手持设备重要的输入介面,目前为商品化技术。近年来,在影像视讯上的技术发展逐渐转向各种电脑视觉处理的研究,特别是在有关安全监控方面的应用。
影像与视讯检索技术
目前使用者对资讯型态的要求,已由纯文字演进到多媒体,即包括声音、静态影像、视讯等,其相对应的检索技术也应运而生。一般影像与视讯检索技术仅定义了各种特征的撷取和比对方式,但却无法判别个别媒体内容以何种特征描述为最佳。而这样一来,便无法达成有意义、高效率的检索效果。
目前研究单位正在发展能自动依据影像内容选取适合特征的系统,能够进一步以互动的方式探知使用者的需求,并整合各项特征资讯,以传回使用者真正想要检索的影像。这种整合检索方式,可突破传统单一查询影像、单一描述的限制,达成较传统方式快速而精确的成果。
人脸辨识技术
想像一下,当您使用电脑或手机时不用再记住一大堆密码该有多好?以人脸辨识为例,它是属于生物辨识(Biometrics)其中一项技术,就如同指纹、声音、瞳孔与热影像等用来当作身分识别的特征。而人脸有别于这些特征,且收集比较容易,不会造成使用者的不方便与不舒服,所以一般人的接受度较高。
财政部于2003年时,为了打击人头户泛滥所衍生的金融犯罪,要求所有银行于2004年3月底前,建置完成拍照开户或录影开户的动作。个人隐私虽是一个很大的问题,但随着加解密技术与验证方式的进步,个人资料外泄的疑虑已大幅降低。目前,国外已有将人脸辨识技术用在过场旅客的滤机机制上的例子,以防范偷渡客持有他人身分证件。
以工研院所开发的人脸辨识技术来说,可以从平常的照片中即时找出所有人的脸部位置,并且根据其五官等重要特征来辨识身分。而对于小角度转头或各种表情、有无戴眼镜、换发型等动作都不会照成任何的影响。我们以200人的实验来说,其辨识率可达到95%以上。
《图二 中间图为用户影像,右下角的小图则是辨识出来的身分》 |
|
自动柜员机的人脸遮蔽/非遮蔽侦测技术
近年来,自动柜员机盗领、改装、侧录与盗刷的事件层出不穷,财政部为了杜绝这些犯罪情形,规定国内金融机构于2004年6月底前,在旗下的自动柜员机建立24小时监控中心。其实许多银行早就在自动柜员机装设了录影设备,但在犯罪发生后,所摄录到的歹徒往往戴着安全帽或口罩,并无法从影像辨识身分。人脸遮蔽/非遮蔽侦测技术,就是要在第一时间发现脸部被遮蔽的可疑人物,以提醒警卫人员注意,并且避免无效的录影存证。目前这种在自动柜员机设置的主动式智慧型监控技术,已在日本与欧洲逐渐开始实行,国内还属于起步的阶段。
工研院的人脸遮蔽/非遮蔽侦测技术主要是比对人脸的眼、鼻、口等部位是否清楚,并作判断的动作。而对于戴口罩、安全帽、用手捂住嘴或遮脸等情形都可以侦测出来,且不会造成正常使用者的困扰。目前这个技术在开发与改善中,其雏形系统也已在国内的一些保全业者内部作测试的阶段。
《图三 左图:脸被遮蔽的Alarm状态,右图:脸没有被遮蔽的正常(Clear)状态》 |
|
多元模式人机互动技术
人类互动常常是结合多种感官同时进行,例如使用者在说话时,结合手势与脸部的表情。而机器的操作往往也使用多种模式的配合来执行命令,以增进操作的效率与方便性,例如键盘与滑鼠的搭配输入、萤幕显示与声音输出的搭配使用等。因此,结合语音及视觉的多元模式互动技术,也是未来发展的重点之一。
多元模式人物辨识技术
生物特征识别是一项热门及新颖的主题,也是近年来学术界和工商界极为重视的一种安全认证方式。而生物特征识别普遍所用到的生物特征包含指纹、掌纹、声纹、人脸、视网膜、手型、耳型,及嘴唇等运动模式。
工研院所研发的一套多元模式系统,可辨识人脸及语音两种特征,并应用在门禁管制系统中。因为人脸和语音并不是外在的物品,所以不用特别携带,且别人也不容易仿冒。至于其他的优点还包括使用方便(人性化)、适用性广泛(可依安全性需求来调整)。若配合人机介面的系统,更能充分发挥生物特征识别的优点及功能。
人脸说话仿真技术
藉由说话影像与语音资料的处理,以及多维可形变模型的技术(Multidimensional Morphable Model),来学习影像与语音之间的关连性。多维可形变模型是将每张影像的形状与纹理加以参数化,让每张嘴型影像得以由其形状与纹理参数形,变为少数的样版影像(Prototype Images)来加以合成。
在将影像参数化之后,我们可以得知语音与影像参数之间的关系。把这些参数变化的路径分析与合成后,使得只要输入语音或文字,便能计算出其中每个语音音素所占用的时间,如此即可求出最佳之影像参数路径,并藉由多维可形变模型的技术来合成出拟真的人脸动画。
此技术可透过输入语音/文字的驱动,来进行说话影像视讯合成。而其中所包含的技术有语音的分析处理或合成技术,以及相对应的影像合成技术。
个人化可配置分散式人机互动平台
此平台的核心为可配置分散式语音辨识C-DSR(Configurable-Distributed Speech Recognition),这是一个可以累积个人化语音资料与对话场景资讯的平台。而在C-DSR平台上的各种拟人化造型、可与之互动的虚拟生物,则被称为「CricketBot」。
CricketBot是利用Client-Server的架构所建立,并可分为「使用模式」及「编导模式」。利用与虚拟生物对话的情境,人们较会主动愿意利用语音辨识与机器做拟人般的互动。当使用者与系统互动越频繁,此平台主动、被动搜集的资讯就会越多。如此便可以让互动机制成熟和互动效果越成熟与平顺。这种平台可以作为个人化的人机互动介面,并深植于各种实际应用之中。
语意网路服务
网路服务(Web Services)的作用是增加传统网路的动态连结性(Dynamics),而语意网路(Semantic Web)的作用则是增加传统网路的知识表达能力(Expression Power)。顾名思义,语意网路服务(Semantic Web Services)整合了两者的优点,并突破智慧型规划(AI Planning)缺乏动态调整的限制,实现自动服务组合的概念。
语意网路服务的优点在于电脑可动态地依据使用者的需求,自动寻找适当的服务,并组合成e化工作流程。比起传统的人工流程组合,这个技术更可增加开发与维护e化工作流程的效率。
认知仿真语言数位学习技术
认知仿真语言数位学习技术是一种可以辅助语言学习的相关技术,其中包括发音与韵律之评量、诊断和矫正等语音处理技术,以及文章分级、文法分析、语句生成等语文处理技术。其终极目标是希望在电脑环境上建构出个人专属的语言学习教师,让学生不受时或地的限制,随时随地都能够学习。
这名电脑教师可以像普通的老师一样,训练学生的听、说、读、写能力,如示范正确的读音、纠正发音的错误、指导写作、模拟测验,及练习口语会话等。
其他智慧型人机介面技术
除了上述的人机介面技术外,其他还有几个较为值得一提的技术,以下就替这些技术作个简介。
视觉性互动式游戏 有氧热舞机技术
热舞机雏形展示系统的概念为利用游戏画面与音乐引导玩家舞动身体,并透过摄影机来撷取玩家肢体动作,然后再利用影像处理核心技术进行分析、辨识,及判断玩家动作是否正确而予以计分。
热舞机的核心技术包含两种,分别是使用去背法(Background Subtraction)侦测出前景资讯、使用隐藏式马可夫模型(Hidden Markov Model,HMM)进行动作模型训练与动作辨识。配合人机介面的设计,以及结合影像处理技术与运动休闲,提供玩家与运动爱好者一项新型态的电子游戏。
雷射光点侦测与应用技术
这是将影像侦测与追踪雷射笔的雷射光点结合,并分析其运动轨迹的技术,可取代电脑游戏的光枪射击,或作简报时所需的滑鼠操作。这类应用核心技术包含了两部份,分别是影像与萤幕(投影幕)间的座标校准与转换,以及影像中所出现雷射光点的侦测、追踪与运动(轨迹)分析。
智慧型(主动式)人物入侵监控系统
智慧型(主动式)人物入侵监控统采用先进的电脑视觉演算法,其作用是在少量人力的协助下,系统会主动对摄影机拍摄的影像进行侦测、追踪与分析。并利用分析的结果判断入侵情形是否发生,以及入侵的种类主动发出警告。该系统可有效降低人力并增加监控的安全性与可靠性。其功能如下:
- ● 可判断之警报(Alarm type):
- ●快速或慢速移动人物(intruder)
- ●摄影机遭受断讯,转向,遮蔽(camera error)
- ● 可避免假警报(False alarm)
- ●轻微地震
- ●动物或昆虫经过
- ●环境光源自然变化
- ●环境每天极小变化(如镜头脏污)
- ● 可即时判断是否遭到入侵并且于萤幕上显示警讯与入侵种类
- ● 若具有储存装置,可保留入侵前3张与后2张影像以作为搜证用途
结语
个人化弹性配置的处理平台、生物特征在安全性的应用、语意理解能力的网路服务,以及数位学习的应用等技术都是人机互动技术未来发展的新方向。就像人类是地球最高度复杂的生物一样,人机互动技术也是极为深奥复杂,其发展趋势与可能方向更是难以预测。唯一可以确定的是,人类对于了解本身奥秘的追寻,以及设计仿造如人类智慧之机器的企图与梦想永远都不会停止。
<作者为工研院电通所前瞻技术中心副主任>