我们想让阿列克谢模仿任何人的声音吗?是的,也不是。
合成声音和真实声音之间的界限多年来一直很模糊。我们经常在客户服务热线听到电脑生成的声音,或者在网上大声朗读文章给我们听。众所周知,英国公司Sonric克隆了瓦尔·基尔默的声音,因为喉癌手术导致他无法说话。公众第一次听到这种声音是在纪录片《瓦尔》中,但在今年夏天的《壮志凌云:特立独行》中,这种声音达到了数千万。
上周三,亚马逊宣布了一项举措,将此类技术的覆盖范围扩大到其Alexa智能助手的用户。这项技术即将进行的更新将允许他们用任何人的标准声音取代标准声音,包括已故的亲人。该公司声称,这项尚未确定发布日期的技术可以用短短一分钟的音频生成一个人的声音克隆。不管人们会觉得人工智能生成的奶奶阅读《伟大的超越》中的睡前故事的想法令人毛骨悚然还是可爱,此举代表着在让合成声音更容易获得方面向前迈出了一步。
就在四年前,捕捉一个人足够多的声音模式和语调是一个漫长得多的过程。例如,为患有导致他们无法说话的疾病的客户提供合成声音的公司Voice alID需要数百个句子的数据来准确再现一个人的声音。大约在同一时间,一个名为语音变形的类似产品需要大约一个小时的脚本输入。
然而,合成变得越来越容易和普遍。2018年,中国公司百度的Deep Voice技术演示成为头条新闻,该技术只需要60秒的音频就可以合成声音。如今,威瑞通平台允许名人出售他们声音的合成版本,用于代言交易。Descript公司的Overdub功能让播客工程师可以修复录音中的声带或全力替换单词,而无需将主持人拉回演播室。
对于那些因受伤或生病而失去说话能力的人来说,重塑声音是一个强大的工具。美国的一些200万需要所谓的自适应替代通信(AAC)的帮助才能说话。语言障碍的原因很广泛——从影响脑瘫等运动控制的疾病到脑损伤或中风等事件——因此,更多的人可能会从这项技术的普及中受益。一项估计认为,大约500万美国人和全世界9700万人可以从AAC中受益。使用定制和个性化的声音而不是开箱即用的通用“机器人声音”的能力可能是变革性的。
然而,重要的是要认识到,语音合成可能不仅仅用于纯粹的利他方式。在深度伪造中使用公众人物或名人声音的合成版本的潜力是显而易见的——毕竟,基尔默的声学提供的声音是使用现有的镜头和音频创建的。与此同时,我们仍然在寻找一个节目、品牌或导演在使用人工智能生成的声音时应该何时以及如何披露的护栏。当导演摩根·内维尔在纪录片《跑路者》中使用合成声音生成安东尼·鲍代恩的三行对话时,这部电影没有披露这些台词是如何制作的,引起了强烈反对。
对于那些通过阿列克谢这样的平台与这项技术进行日常互动的人来说,更常见的风险是陷入恐怖的山谷,令人毛骨悚然。如果娱乐没有达到目标,即使是轻微的,人工声音也可能会打破平衡。“当然有一些风险,比如声音和由此产生的人工智能互动与亲人对那个人的记忆不太匹配,”专注于元宇宙等新兴互联网技术的分析师迈克尔·井上告诉美国有线电视新闻网。
我们想让阿列克谢模仿任何人的声音吗?是的,也不是。