人工智能耳机可以在人群中调谐成一个声音

AI资讯 2026-01-28 11:53:40 古雨国

嵌入在领先品牌耳机和耳塞中的主动降噪(ANC)技术让世界变得更加安静。只需轻轻一按开关,咖啡店顾客和航空旅客就可以在嘈杂的背景噪音和其他分散注意力的聊天声中调低音量按静音。但是,当你确实想在一片寂静的人群中听到一个人说话时会发生什么呢?目前,耳机用户必须做出选择:继续静音整个音景,或者关闭降噪功能来进行对话。

由于华盛顿大学的研究人员设计了一个新的支持人工智能的“目标语音听力”系统,在噪音消除和对话之间的选择有朝一日可能会成为过去。在最近发表在计算机机械协会的一篇论文中,研究人员声称他们定制的概念验证耳机可以从人群中挑选出特定的声音,然后锁定该声音,同时抵消周围的声音。耳机佩戴者只需直接盯着目标说话者的脸,让人工智能系统捕捉充满其独特语音特征的声音信号。最终结果是:戴上耳机的人可以在仍然配备噪音消除技术的情况下与个人进行持续对话。研究人员认为,有朝一日,这个系统可以帮助部分听力损失的人,或者只是让在嘈杂地区的对话不那么混乱。

华盛顿大学保罗·艾伦计算机科学与工程学院教授、资深作者希亚姆·戈拉科塔在一份声明中说:“在这个项目中,我们开发人工智能来改变任何戴耳机的人的听觉感知,根据他们的喜好。”“有了我们的设备,即使你在一个有很多人说话的嘈杂环境中,你现在也能清楚地听到一个扬声器。”

修改后的耳机如何捕捉个人的声音

为了构建他们的系统,研究人员拿了一副现成的商用耳机,并为它们配备了麦克风和板载人工智能神经网络。在实践中,一个有兴趣挑选扬声器的人只需要在按下设备侧面的按钮时直视他们。该按钮启动了一个名为“注册”的过程,耳机接收来自目标扬声器的声音信号。该信号集中在位于左右耳机上的麦克风之间。神经网络实时分析该信号,以识别与该特定人相关的特定语音特征。然后,该数据被发送到另一个神经网络,该网络的任务是不断将目标扬声器的信号与其他一切分开。

整个注册过程只需要大约三到五秒钟。一旦注册并专注于目标扬声器,系统实际上会随着时间的推移而改进,因为它会不断接收越来越多的实时训练数据。耳机佩戴者也不需要笨拙地保持静止盯着一个人的眼睛,系统就可以工作。在短暂的初始注册过程之后,研究人员表示,人工智能耳机系统能够“锁定”语音信号,即使佩戴者转过头也能继续跟踪它。这意味着佩戴耳机的人即使不再与扬声器面对面,也能听到孤立的声音…

研究人员写道:“我们这种方法的优点是,佩戴者只需要看着目标说话者几秒钟,在此期间我们会注册目标说话者。”“随后,佩戴者可以向任何方向看,移动他们的头,或者在仍然听到目标说话者的同时四处走动。”

在上面的视频中,华盛顿大学博士生马利克·伊塔尼演示了在一个充满其他人的校园公共空间里,用耳机锁定一名同事。在看了他的同事几秒钟后,说话者有点柔和的声音突破了消除噪音的雾,被清晰地听到了。两人在外面再次重复了测试,这次是在一个嘈杂的喷泉前,结果相似。一旦注册,耳机佩戴者就会远离目标扬声器,当他们漫步在大学校园时,可以继续听到他的声音。

“耳机系统使用人工智能技术提取马利克想要听到的声音,同时从那时起忽略环境中的所有声音,”华盛顿大学博士生和论文合著者班德哈夫·韦卢里说。

目标语言听力可以证明在便利性和可访问性方面都很有用

以前,像这样的系统会首先尝试从扬声器捕获干净、无噪音的音频,并使用保持系统身份作为扬声器特征的音频。 在这里,研究人员采取了不同的方法,选择建立一个系统,即使扬声器被嘈杂的环境包围,也能快速捕捉信号。结果意义重大。研究人员声称,他们的系统使用不到5秒的训练数据,实现了7.01分贝的信号清晰度提升。在更人性化的层面上,研究人员让21名不同的测试对象在现实世界的室外和室内环境中使用修改后的耳机时,花费大约420分钟来评估信号清晰度。平均而言,这些测试对象在使用系统时对目标扬声器声音质量的评价几乎是没有系统时的两倍。

这个系统并不完美。目前,只有当目标说话者是房间里最大的声音时,注册过程才有效。尽管如此,研究人员乐观地认为,他们可以修改未来的系统来解决这个缺点。有一天,旅行者可以用这些耳机专注于导游,同时在繁忙的博物馆里屏蔽背景对话。一对朋友在繁忙的城市街道上散步,也可以同样使用这项技术继续对话,不受潜在的破坏性交通噪音的影响。展望未来,研究人员表示,他们正在探索将这一新词干嵌入品牌耳机和耳塞的可能性。他们希望有一天,该系统可能会作为助听器的辅助功能包含在内。

“人工智能,尤其是神经网络,在语音处理方面取得了长足的进步,”韦卢里说。“这个应用程序非常令人兴奋,对有听力挑战的人来说尤其有用,他们想放大他们想听的人的声音。”

“这可能很大,可能会影响很多人,”伊塔尼补充道。

© 版权声明

相关文章

欧特克为全球150m学生和教育工作者提供免费软件和技术

该公司宣布,欧特克已向全球150m学生和教育工作者免费提供其软件和技术 十多年来,欧特克免费向经认证的机构和经过验证的学生和教育工作者提供其专业级工具,使他们能够获得世界各地建筑师、工程师、制造商和创造者使用的相同技术。
2026-01-29

人工智能耳机可以在人群中调谐成一个声音 暂无评论