据Theregister介绍,牛津大学、谷歌旗下的AI公司DeepMind、加拿大高级研究所向机器学习会议(ICLR2017)提交的论文称,他们开发的神经网络LipNet可以理解唇语的秘密,AI监控技术将成为更先进的设备。研究人员称,通过分析视频中某人讲话的时空视觉特征,LipNet可以破译他们在说什么,比人类专业唇语理解专家更有能力,准确率为93.4%。这是第一个打破非常简单的词汇分类的AI模型,可以用来预测句级序列扩展。
理解唇语是一项非常复杂的任务,甚至对于丧失听力的人来说,平均准确率也只有52.3%。研究者称之为:机器破解唇语潜力巨大,可用于改善助听器、公共空间无声书写、隐藏对话、嘈杂环境下的语音识别、生物识别、无声电影的处置。但是对于那些担心中央监控系统加载他们的秘密对话的人来说,没有必要深感震惊。
研究人员否认非常准确的嘴唇开裂是罕见的。在大多数情况下,有限的单词被连接成句子,它们通常没有意义。研究人员使用GRIDcorpus来训练和测试LipNet。
这个语料库中有一系列的音频和视频,包括34个说话者说出的1000个句子。这些句子都有非常简单的语法结构,包括指令(4)颜色(4)介词(4)字母(25)数字(10)副词(4)。括号中的数字代表每个类别中可选单词的数量,这意味着它们总共可以构成64000个句子。
由于许多文件早已丢失或损坏,仍有32,829句话由13位发言者宣读。LipNet需要大量的训练才能超越今天的准确率。
本文来源:888am集团登录入口-www.ptbukitasam.com