生成式 AI 技术颠覆以往使用 AI 的方式,并深入各领域发展出多样化的创新应用,而媒体产业在此波浪潮下也没有缺席。相信大家对於在民视主播台上播报国际气象的「敏熙」主播并不陌生,专攻影像技术的光禾感知以 AIGC(AI Generated Content,人工智慧生成内容)技术,结合微软 Azure AI 语音服务,为民视新闻打造台湾首位 AI 生成的虚拟电视新闻主播。
|
微软与光禾感知合作打造AI新闻主播 |
光禾感知整合微软技术 打造拟真AI主播「敏熙」
本次合作集结影像、声音与新闻制播等三方专业技术,由光禾感知生成 AI 虚拟主播影像後,搭配微软 Azure AI 的语音合成技术产出发音自然、流畅的播报人声,再借助民视新闻多年新闻制播经验,以及丰富的新闻播报、访谈节目等高画质新闻影像资料库进行形象优化,量身打造专属於的 AI 主播模型。
光禾感知科技执行长王友光指出:「光禾感知 2022 年底开始投入 AI 主播制作,透过大量搜集照片作为训练原料,以扩散模型(Diffusion model)为技术基底,训练出能够生成动态图像的模型,完成主播脸孔塑造。很高兴此次与台湾微软携手促成民视『敏熙』主播的诞生,展现生成式 AI 於影像生成领域无限的技术发展潜力。」
除了外貌,声音在新闻播报中亦扮演重要角色,微软 Azure AI 语音服务的 TTS(文字转语音)及 Viseme 技术即为实现敏熙主播自然且顺畅人声关键。不同於传统如机械音般的文字转语音服务,Azure AI 语音服务拥有丰富模型,提供 140 种语系以上、超过 400 个近似真人发音的预建神经语音模型供选择。除了预建模型,Azure AI 语音服务还支援自订模型,可根据您的需求调整语音的风格、速度、音调等叁数,进而生成贴近真人主播具备情绪及抑扬顿挫的语音,展现出结合 AI 与美感的传播科技成果。
此外,透过 Viseme 技术还能提升虚拟主播嘴型与播报文字精准度。Viseme 技术能够在说话过程定义脸部及嘴唇、下颚及舌头等位置,使虚拟主播脸部嘴型与语音的结合呈现更为自然。两者技术相辅相成不仅能生成嘴型与声音吻合的 AI 脸部影像,也能进一步实现多国语系主播的可能,敏熙现在已可以进行综合中文及英文的播报内容。