两个小孩

谷歌研发深度学习语音分析系统

2018-08-14 10:16:58 来源: 中国听力在线微信字体[ ]

谷歌的研究人员开发出一种深度学习系统,能够帮助计算机在嘈杂环境下识别和分离语音。和以往的降噪机制不同,这次,是真的完全将声音剥离解析,理论上,只要我们愿意,我们可以在任何嘈杂环境中听到我们想要的声音。这种技术一旦商业化,将促使助听器或人工耳蜗进行重大升级。 

谷歌

据Google Research公布,研究人员通过自我学习机制的人工智能系统,模拟出人类大脑的“鸡尾酒会效应”,所谓“鸡尾酒会效应”,就是在嘈杂环境中,两人的谈话会忽略背景中的其他对话或噪音。对于健听人士来说,这是一种天生的声音选择能力,我们的大脑自然会判断有用的信息。

但是对于听障人士来说,在嘈杂环境下分辨信息是有困难的,这主要是由于我们的助听设备分析声音降噪机制限制和我们大脑的判断能力缺失,虽然双侧同时有效干预能让我们在嘈杂环境下更好的聆听,但仍有部分人无法识别多人语言环境中的其中一人讲话。

谷歌采用了一种独特的视听模式,将视频中多人对话的语言剥离分析,通过算法,分离单音轨视频中的语音,然后手动选择这个人的语音,那么你就会只听到这个人的语音,同时可以适当开启其他声音,调节到不影响听主要语音的程度。这听起来并不难,但传统上我们需要手动剥离音轨,而谷歌的研发,则是完全交给了人工智能,这样可以在极短时间内,完成全部操作。

听觉系统人类听觉系统及其复杂,当我们在噪声中交谈时,我们可以完全忽略噪声,这并非我们听不到噪声,而是不想听,这种可以自我选择的能力有着非常复杂的机制。如果由人工智能来模仿大脑,在一个充满干扰的环境中(例如到处都有其他的人在说话),将注意力集中在一个单独的物体(例如某一个人)的时候会发生什么?

人工智能模型通常很难以相同的效果调整外部输入,特别是当包含多个声音的音频流时更是如此。这已被证明是语音识别领域的主要挑战,这是当今神经网络的主要应用领域之一。

谷歌表示,其研究人员通过开发一种考虑不同类型信息的深度学习模型克服了这一障碍:视觉输入。

该技术被设计用于处理视频。人工智能可以分析剪辑中显示人物的嘴部动作,以使每个人都能与他们发出的声音进行匹配。一旦它建立起了必要的关联关系,模型就可以将单个的语音轨道分开。

教会人工智能有效地完成这项任务并不是一件容易的事。谷歌的研究人员从YouTube上收集了100,000个视频,提取了包含每个发言人声音的音频片段,然后将这些片段拼接成具有多个音轨的“合成鸡尾酒会”。

视觉成分是这里的关键,这种技术会观察某个人嘴部的活动,从而更好地确定要识别哪个语音,从而创建出更加精确的个人音轨。

研究人员在开发出这个模式的过程中,搜集了YouTube上10万多份演讲和谈话,并从中提取了2000多小时的有效片段,并将这些声音混合,并加入人工智能背景噪声,创建了一个“模拟鸡尾酒大会”。

随后谷歌就开始训练它通过解读人们的“脸部微小动作”以及视频的频谱图,将这份混合的音频分解掉。这个系统能理清哪个声源属于哪一张脸,并为每一个人创建自己的音轨。

谷歌表示自己期待这种技术能“在众多宽泛的情境下得以应用”,目前自己正在尝试将它整合到现有的谷歌产品中。Hangouts和YouTube似乎是两种容易应用的地方。另外我们也不难预见,这种技术也能在语音放大耳机以及智能眼镜,也就是Google Glass上得到应用。

该搜索巨头还相信这项技术可以应用于医疗领域,例如可以开发出更复杂的助听器。

如果这项技术可以与智能眼镜相结合,而智能眼镜又和智能助听器或智能耳蜗相结合,我们就可以利用智能眼镜的焦点获得嘈杂环境中的主要语音,然后信息传递至智能助听设备,通过语音剥离分析,我们可以得到主要语音放大,其他声音缩小,甚至无需降噪,理论上,我们可以在大型会议、课堂、酒吧等场所使用,我们所需要做的,只需注视你要听的人即可。

这些技术互相关联,是否有可能?当然可以,看看现在的智能家居就知道,通过家居AI管家,我们可以将冰箱、电视、空调、微波炉、门禁、清洁机器人等设备联网,通过管家按时进行服务。互联网已经过去,在现在这个物联网的时代,没有什么不可能。

[责任编辑: 郭勇]