多用途唇读新技术可助听讲话内容--中关村多媒体创意产业园官方网站-中关村国家自主创新示范区专业科技园┆中关村博雅留学人员创业园┆首批文化科技园区和孵化器┆中关村海外人才创业园┆北京多媒体产业基地┆多媒体企业孵化器┆北京市海淀区文化创意产业协会副会长单位┆中关村海淀专业园联盟发起单位┆北京多媒体行业协会理事长单位┆Zhongguancun Multimedia Creative Industry Park┆留学人员创业园┆高新技术科技园区

媒体报道

多用途唇读新技术可助听讲话内容

http://www.bjmmedia.cn 发布日期：2016-03-29 中关村多媒体创意产业园关注度：
http://www.bjmmedia.com.cn

据英国东英吉利大学消息，该校科学家开发出一种新的唇语阅读技术，不仅有助于解决犯罪调查问题，也给那些在听力和讲话方面有困难的人带来帮助。研究人员在近日于上海召开的“国际声学、语音和信号处理大会”（ICASSP）上介绍了这一成果。

新的视觉语音识别技术由东英吉利大学计算科学学院海伦·L.拜尔博士和理查德·哈维教授开发，可以用在“任何凭声音难以确定人们在说什么的地方”。拜尔说，当无法获得声音时，如何确定人们的讲话内容是个独特的问题，比如闭路电视的脚注，或者声音不足又没有对话语境的线索。但现在，通过机器唇读分类技术，能更精确地区分这些声音。

拜尔说，一种稳定的唇读系统能用于从犯罪调查到娱乐用途等多种情况。唇读还可以用在运动场上，比如足球运动员在比赛激烈时大喊大叫的单词是什么，但最可能的实际用途还是在那些噪音较大的地方，比如汽车中或飞机驾驶舱内。

研究人员使用了一种新的训练方法，使这种分类系统对以往的唇读方法进行了改进。虽然目前这一系统还有需要改善的地方，但最重要的是，它可以通过调整来用于多种目的，比如给那些有听力障碍或讲话困难的人带来帮助。此外，一个好的唇读机可以作为整体视听识别系统的一部分。

哈维也指出，在人工智能领域，唇读是最具挑战性的难题之一，训练机器如何识别人类嘴唇的形状和变化并非易事，所以这方面取得的进步非常重要。

相关论文将发表在电气与电子工程师协会（IEEE）《2016年国际声学、语音和信号处理大会会刊》上。

（来源：科技日报）

上一篇：用手机自动遥控热水器
下一篇：激发创新活力服务社会需求