Spotify如何训练AI转录音乐

AI资讯 2026-01-28 12:11:58 叶才宏

在电子音乐成为一种独特的现代音乐类型的总括类别之前,这个术语指的是一种制作音乐的技术,包括将现实生活中乐器发出的音频转换成可以录制在磁带上或通过放大器和扬声器播放的波形。在20世纪初至中期,特殊的电子乐器和音乐合成器开始流行起来。这些机器连接到计算机上,可以通过电子方式生成和修改各种乐器的声音。

但是有一个问题:几乎每家公司都使用他们自己的计算机编程语言来控制他们的数字乐器,这使得音乐家很难将不同制造商制造的不同乐器组合在一起。所以,在1983年,这个行业聚集在一起,创建了一个称为乐器数字接口或MIDI的通信协议,来标准化外部音频源如何向计算机传输信息,反之亦然。

MIDI的工作原理就像一个命令,它告诉计算机演奏了什么乐器,乐器上演奏了什么音符,声音有多大,播放了多长时间,以及如果有的话,使用了哪些效果。这些指令涵盖了各个乐器的各个音符,并允许准确地播放声音。当歌曲存储为MIDI文件而不是常规音频文件(如mp3或CD)时,音乐家可以轻松地编辑音轨的节奏、键和乐器。他们还可以取出单个音符、整个乐器部分、更改乐器类型或复制主要的人声轨道并将其转换为和声。因为MIDI跟踪什么乐器在什么时间播放什么音符,所以它本质上是一个数字乐谱,像Notation Player这样的软件可以毫不费力地将MIDI文件转录成乐谱。

[相关:界面音乐:电子乐器控制简介]

尽管MIDI方便的原因有很多,但它通常需要音乐家有某种界面,比如MIDI控制器键盘,或者如何手动编写音符的知识。但是今年夏天,Spotify和Soundtrap的工程师公开了一个名为Basic Pitch的工具,承诺简化这个过程,并为缺乏专业设备或编码经验的音乐家开放这个工具。

参与该项目的Spotify科学家雷切尔·比特纳在9月份的一篇博客文章中说:“就像你让语音助手识别你所说的单词并理解这些单词背后的含义一样,我们正在使用神经网络来理解和处理音乐和播客中的音频。”“这项工作将我们的机器学习研究和实践与音频领域的知识相结合——理解音乐工作的基本原理,如音高、音调、节奏、不同乐器的频率等等。”

Bittner设想该工具可以作为艺术家在当下进行转录的“起点”,从而省去手写笔记和旋律的麻烦。

这个开源工具使用机器学习将任何音频转换为MIDI格式。

[相关内容:为什么Spotify的音乐推荐看起来总是如此准确]

之前对这一领域的研究在一定程度上使构建这一模型的过程变得更加容易。有一种叫做Disklaviers的设备可以记录实时钢琴演奏,并将其存储为MIDI文件。此外,研究人员可以使用许多录音和配对的MIDI文件来创建算法。“还有其他工具可以完成基本音高的许多部分,”比特纳在播客NerdOut@Spotify中说。“我认为基本音高的特别之处在于,它可以在一个工具中做很多事情,而不必为不同类型的音频使用不同的工具。”

此外,与其他音符检测系统相比,它的一个优势是它可以同时跟踪来自多个乐器的多个音符。因此,它可以同时转录声音、吉他和唱歌(这是该团队今年发表的一篇关于这背后技术的论文)。由于音高弯曲检测机制,Basic Pitch还可以支持颤音(音符上的摆动)、滑音(在两个音符之间滑动)、弯曲(音高波动)等音效。

为了理解模型中的组件,这里有一些关于音乐的基本知识:感知音高是基本频率,也称为振动物体(如小提琴弦或声带)的最低频率。 音乐可以用一束正弦波来表示,每个正弦波都有自己特定的频率。在物理学中,我们听到的大多数高音都有其他谐波间隔在它上面。比特纳指出,音高跟踪算法必须做的一件困难的事情是将所有额外的音高打包成一个主要的音高。该团队使用了一种叫做谐波常数-Q变换的东西,通过谐波、频率和时间来模拟高音中的结构。

Spotify团队希望使模型快速且低能耗,因此它必须降低计算成本,并使更少的输入走得更远。这意味着机器学习模型本身必须具有简单的参数和较少的层。Basic Pitch基于卷积神经网络(CNN),其峰值内存不到20 MB,参数不到17,000个。有趣的是,它是已知的第一批擅长检测图像的模型之一。对于这款产品,Spotify在各种开放数据集上训练和测试了其CNN,涵盖许多音乐流派的人声、原声吉他、钢琴、合成器、管弦乐队。“为了允许小型模型,Basic Pitch构建了一个谐波堆叠层和三种类型的输出:开始、音符和音高弯曲,”Spotify工程师在一篇博客文章中写道。

[相关:观鸟者请看:康奈尔大学的梅林应用程序现在是鸟类识别的一站式商店]

那么,在这样的任务中使用机器学习有什么好处呢?比特纳在播客中解释说,他们可以通过在一个房间的麦克风上使用一个乐器的音频片段来构建一个简单的音高表示。但是机器学习允许他们识别相似的潜在模式,即使他们必须使用不同的乐器、麦克风和房间。

与基于MusicNET数据训练的2020年多乐器自动音乐转录模型相比,Basic Pitch在检测音符方面具有更高的准确性。然而,与经过训练以检测吉他和钢琴等特定乐器音符的模型相比,Basic Pitch的表现更差。Spotify工程师承认该工具并不完美,他们渴望听到社区的反馈,看看音乐家如何使用它。

想知道它是如何工作的吗?在这里试试——你可以直接在门户网站上录制声音或上传音频文件。

© 版权声明

相关文章

欧特克为全球150m学生和教育工作者提供免费软件和技术

该公司宣布,欧特克已向全球150m学生和教育工作者免费提供其软件和技术 十多年来,欧特克免费向经认证的机构和经过验证的学生和教育工作者提供其专业级工具,使他们能够获得世界各地建筑师、工程师、制造商和创造者使用的相同技术。
2026-01-29

Spotify如何训练AI转录音乐 暂无评论