突然资讯网
首页 >> 科技 >> 正文

讯飞这是一大突破,精准拾取30分贝超小音量

日期:2020-09-21 12:57:28 来源:互联网 编辑:小狐 阅读人数:376

万物互联,作为人类最自然、便捷的沟通方式,语音正成为所有智能设备至关重要的入口,但入口的关键—拾音,效果往往差强人意。就智能家居来说,它们的拾音范围多集中于近场环境,约为2-3米,且拾取效果欠佳,需多次唤醒。

如果把摄像机比作“眼睛”拾音器便是“耳朵”眼睛看到的图像和耳朵听到的声音组合构成一个基本的影音记录。然而这只灵活的耳朵在应用过程中会受到诸如拾音距离、室内混响、环境噪音等诸多因素的影响,这对拾音来说是不小的。

如何真正“耳听八方”深耕智能语音与人工智能领域多年的科大讯飞,近期推出了全新拾音品牌—谛听,在超小音量拾取和降噪方面再下一城。其实,讯飞在早前推出的讯飞录音笔、智能鼠标、阿尔法蛋等产品均涉及语音交互。基于产品应用的技术积累,这次在拾音领域发力深耕,令人欣喜。

据了解,科大讯飞谛听系列配备了32路麦克风,主打全自动声源定位、自适应波束形成和混响抑制技术以及基于深度学习的噪声抑制和语音自动增益调节算法,可实现室内说话人自动定位、噪声与混响抑制、音量自动调节等功能,从而达到精准拾音的目的。

自动追踪声源,精准拾取30分贝超小音量

讯飞这是一大突破,精准拾取30分贝超小音量(图1)

在模拟30分贝人耳都无法听见的超小的音量环境下,森海塞尔拾音稳定,内容清晰,舒尔拾取的声音小且难以分辨说话内容,讯飞谛听拾取的内容清晰,且音质听感较好的。

讯飞这是一大突破,精准拾取30分贝超小音量(图2)

这主要由于科大讯飞采用了自主研发的全自动声源定位技术,只要有轻微的声音,它便如聚光灯一样迅速定位声源,并对来自其他方位的混响和噪音进行抑制。在实际应用中,32个麦克风组成的阵列可做到7×24小时全天候、全方位、无死角拾音,精准拾取低至30分贝的超小音量。

众所周知,声音在传播过程中会发生衰减,不同方位的声源会导致所拾取语音音量和效果差异较大,全自动声源定位和自适应波束形成技术还使得讯飞谛听在拾取运动的声源方面表现出色。波束如同枪手枪击猎物一样,可自动“瞄准”运动的声源方位。这意味着,对于那些仍需要预设和限制区域才能拾音的设备来说,讯飞这是一大突破。不仅如此,通过对不同音量自动调整,讯飞谛听使得拾取的声音更符合人耳听觉效果。

攻克技术难点,谛听降噪能力惊人

声学环境比想象中更为复杂,环境噪音、干扰噪音、电流噪音等噪声与语音信号在时间和频谱上常常相互交叠,再加上回波和混响的影响,想要捕捉相对纯净的语音非常困难。在评测中,评测者分别模拟了环境噪音为70分贝和90分贝的情况,结果显示即使是90分贝的极端噪音环境,谛听都抑制了噪音,对话内容依旧清晰。

讯飞这是一大突破,精准拾取30分贝超小音量(图3)

面对噪音这一,讯飞谛听依据时域、频域和空域的信息,能有效增强语音并显著抑制噪音对目标语音的影响。它首先通过声音定位技术拾取语音,进行语音增强,实现初步的降噪效果。通过波束形成和基于深度学习的语音增强算法和对非方向性和方向性的噪声进行抑制,最后输出时,对音量大小自动增益并根据人耳的听觉特点优化,使声音更加饱满。

核心语音技术驱动发展,未来可赋能多场景

万物智联的时代已然来临,A.I.赋能IOT将激发无限可能,前端拾取的音质高低无疑会为影响后期的语音处理的水平。

当今世界正经历百年未有之大变局,而人工智能正是引领新一轮科技和产业变革的战略性技术,对于推动社会生产力的整体跃升有着重大意义。刘庆峰不止一次表示,“只有占据核心技术的高点,才能在产业发展中赢得主动,在国际竞争中拥有话语权。”讯飞谛听或许正是其20多年专注于人工智能核心技术的最佳体现。

本文相关词条概念解析:

拾取

【词目】拾取【释义】捡起。中文名:拾取

语音

语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音的物理基础主要有音高、音强、音长、音色,是构成语音四要素。

网友评论