Music transcription modelling and composition using deep learning

2016年，被引用数153

第1页

使用深度学习的音乐转录建模和作曲

Bob L. Sturm 1、Joao Felipe Santos 2、Oded Ben-Tal 3 和 Iryna Korshunova 4？1 伦敦玛丽女王大学数字音乐中心 2 INRS-EMT，加拿大蒙特利尔 3 英国金斯顿大学音乐系 4 ELIS，比利时根特大学

摘要

我们将深度学习方法，特别是长短期记忆 (LSTM) 网络应用于音乐转录建模和作曲。我们使用大约 23,000 个用高级词汇表（ABCnotation）表达的音乐转录来构建和训练 LSTM 网络，并使用它们来生成新的转录。我们的实际目标是创建在特定音乐创作环境中有用的音乐转录模型。我们从三个角度展示结果：1）在人口层面，比较训练转录集和生成转录集的描述性统计数据；2）在个人层面，检查生成的转录如何反映训练转录中的音乐实践惯例（凯尔特民谣）；3）在应用层面，使用系统foridea generation inmusic composition。
我们将我们的数据集、软件和声音示例开放并可用：https://github.com/IraKorshunova/folk-rnn。

关键词：深度学习、循环神经网络、音乐建模、算法作曲

1 引言

人工神经网络在音乐建模、作曲和声音合成中的应用并不新鲜，例如，[9,17,27,37,38]；但新的是前所未有的资源可访问性：从计算能力到数据，从卓越的培训方法到开放和可重复的研究。这种可访问性是“深度学习”方法 [8, 25] 在机器学习的许多应用（例如图像内容分析 [24]、语音处理 [19] 和识别 [ 16]、文本翻译 [35]，以及更具创造性的艺术风格迁移 [13]，以及 Google 的 Deep Dream。

第2页
2 Sturm、Santos、Ben-Tal 和 Korshunova 深度学习现在被应用于音乐数据，从分析和建模录音内容 [22,23,26,32–34,40,41] 到生成新音乐 [3, 5, 33]。探索这些方向的途径对许多人开放，因为强大的软件工具是免费且可访问的，例如 Theano [1]，并且兼容的计算机硬件，例如图形处理单元，价格低廉。这导致了各种描述的“花园棚实验”及时发布在各种公共博客上。
6 我们在此描述的工作超越了我们的非正式实验 7 做出了一些贡献。
特别是，我们构建了具有三个隐藏层的长短期记忆 (LSTM) 网络，每个隐藏层 512 个 LSTM 块，并使用大约 23,000 个用文本词汇表（ABC 符号）表示的音乐转录来训练它们。我们使用这些数据是因为它是可用的，就其转录的音乐而言是高水平的，并且就音乐的风格惯例而言非常同质（它是由演奏“会话”音乐的音乐家众包的，例如凯尔特人、Morris 等）。我们采用两种方法来训练我们的模型：一种是基于字符的，其中系统在给定前 50 个字符的情况下构建每个文本字符的联合概率模型；另一种是基于“token”的，其中系统计算每个token（可以是多个字符）给定所有先前的tokens的联合概率。训练的结果是一个生成系统，它输出类似于训练材料中的转录。我们的实际目标是创建音乐转录模型，这些模型在音乐创作的特定环境中、在训练数据特有的文体惯例内外都有用。
在下一节中，我们将查看深度学习和 LSTM，以及过去将此类网络应用于音乐建模和生成的工作。第 3 节描述了我们构建的特定模型。在第 4 节中，我们从三个角度分析我们的生成模型：1）我们比较了训练转录集的描述性统计数据和模型生成的转录；2）我们检查生成的转录如何反映训练转录中音乐实践的惯例（例如，凯尔特人 [18]） ; 3）我们在训练数据的风格惯例之外使用了一个音乐创作模型。我们的贡献包括通过使用更大的网络和更多的数据（参见第 2.2 节），通过研究我们的模型在辅助音乐创作中的实际应用，以及通过免费提供我们的数据集和软件来扩展类似的过去工作。

2 背景

2.1 长短期记忆 (LSTM) 网络

深度神经网络是一种在其输入和输出层之间具有多个隐藏层的单元（神经元）[25]。本质上，神经网络通过一系列级联的非线性操作来转换输入。

第 3 页
使用深度学习 3 神经网络 (RNN) 的音乐转录建模和作曲是任何神经网络，它具有从至少一个单元的输出到位于比其自身更浅层（更靠近输入）的另一个单元的输入的定向连接。Adeep RNN 是多个 RNN 层的堆栈，其中每个隐藏层生成一个输出序列，然后将其用作更深层的顺序输入。对于更深层次的架构，人们期望网络的每一层都能够学习输入数据及其短期和长期关系的更高层次的表示。
RNN 中的递归（反馈）允许它考虑过去的输入和新的输入。本质上，RNN 预测给定输入序列的符号序列。训练它需要修改其转换的参数，以减少其对已知序列数据集的预测误差。然而，基本的循环结构在训练过程中存在与梯度爆炸和消失相关的问题 [20, 30]，这可能导致解决方案缺乏收敛性。这些问题可以通过巧妙地定义隐藏层激活函数来规避。一种这样的方法定义了长短期记忆（LSTM）“细胞”，这增加了训练中要估计的参数数量，但控制了进出每个细胞的信息流，以极大地帮助收敛 [16, 21]。
尽管 RNN 和 LSTM 并不是什么新鲜事物，但高效训练算法的最新进展和数据的普及在将它们应用于许多领域的顺序数据处理时取得了巨大的成功，例如连续手写 [15]、语音识别 [16]、和机器翻译[35]。在下一小节中，我们将描述循环网络过去在音乐转录建模和生成中的应用。

2.2 使用 RNN 和 LSTM

进行音乐建模和生成将音乐描述为符号序列使 RNN 立即适用于模型[3,4,10–12,17,29,36]。Todd[36] 构建和测试的 RNN 由一个输入层组成19 个单元，一个包含 8-15 个单元的隐藏层，以及一个 15 个单元的输出层。每个输入和输出层中的一个单元是“音符开始”状态；其他 14 个单位代表音高，从 D4 到 C6 各一个（无临时记号）。其他四个输入单元识别一个特定的单音训练旋律，其中有四个，每个 34 个音符长。Todd 对时间进行划分，使得模型的每个时间步长代表一个八分音符持续时间。
Mozer [29] 使用分布式音乐编码方法构建 RNN 来建模和生成旋律。这些系统在音符级别而不是以统一的时间步长生成输出。每个音高都根据其基频、半音等级和在五度音圈中的位置进行编码。音符时长使用类似的方法进行编码。和弦伴奏是根据存在的音高编码的。一些输入单位表示拍号、键和强拍。Mozer 的 RNN 使用具有 O(10) 个单元的单个隐藏层。培训材料包括人工序列（音阶、随机游走）、10 段 JS 旋律
巴赫（最长 190 个音符）、25 首欧洲民间旋律和 25 首华尔兹。Mozer 发现这些系统在模拟旋律的局部特征时可以成功，例如，逐步运动，但无法捕捉更长的结构，例如，短语、节奏、分辨率。

第4页
4 Sturm、Santos、Ben-Tal 和 Korshunova Mozer 的发现为 Eck 和 Schmidhuber[11] 的工作提供了动力，这是第一个将 LSTM 网络应用于音乐建模和生成的人。
与 Todd[36] 类似，他们采用本地音乐编码方法，使用 13 个单元代表 13 个音高（半音八度），并使用最小持续时间（例如十六分音符）来划分时间。他们还使用 12 个输入单元来指定伴随和声的音高。隐藏层由两个块组成，每个块包含 8 个 LSTM 单元，一个块用于旋律，另一个用于和声。它们从旋律块到和声块之间建立了反复的联系，但反之则不然。他们用 6 分钟的 12 小节布鲁斯旋律和和弦伴奏训练系统，以每小节 8 个时间步长编码。每首训练歌曲有 96 个时间步长。与 Mozer [29] 的结果相比，Eck 和 Schmidhuber 发现 LSTM 网络展示了建模和重现这种风格的长期惯例的能力。同样的方向，
Chen 和 Miikkulainen [4] 使用适应度函数“进化”了一个 RNN，该函数可以量化旋律的成功与否，例如，短期运动，以及音高和节奏的多样性。他们定义了其中一些限制以支持 Bartok 的主题旋律风格，例如五声音阶模式。Chenand Miikkulainen 似乎使用 16 对音高间隔和持续时间对旋律进行了明智的编码。输出单元以线性方式读取，具有间隔和持续时间对，直到完成完整测量的长度。
Eck 和 Lapamle [10] 将 LSTM 网络应用于爱尔兰民间音乐转录的长期惯例建模。他们的音乐编码将时间划分为八分音符持续时间，每个音符（C3-C5 之间）和和弦都有自己的位。一个新颖的方面是 LSTM 网络输入是当前音符和过去音符的线性组合，这些音符来自度量相关时间，例如之前的 4、8 和 12 个小节。他们训练他们的系统对转置到相同键的卷轴转录：56 个来自 http://thesession.org（我们的训练数据的来源），435 个来自另一个数据库。他们注意在转录边界处重置训练错误传播。
最近，Boulanger-Lewandowski 等人。[2] 将 RNN 应用于建模和生成复音音乐转录。它们通过绝对音高（从 A0 到 C8 的 88 个音符）编码音乐，量化到最接近的四分音符持续时间。
他们在不同的数据集上训练了几个网络，例如古典钢琴音乐、民间曲调、巴赫合唱，并发现生成的音乐缺乏长期结构。（我们在上面脚注 4 的链接中听到了这样的结果。）

3 创建我们的生成式 LSTM 网络

我们所有的 LSTM 网络都有相同的架构，但是使用不同的词汇表进行操作并且接受不同的训练。我们构建的一种，我们称之为 char-rnn，对单个字符的词汇表进行操作，并在一个连续的文本文件上进行训练。我们构建的第二种类型，folk-rnn，对转录标记的词汇表进行操作，并在单个完整转录上进行训练。
接下来讨论我们的训练数据，然后是我们系统的架构和训练，最后是我们如何使用它们来生成新的转录。

第5页

3.1 音乐转录数据

我们的转录数据来自 https://thesession 的每周存储库。
org/, 8 一个在线平台，用于分享和讨论“传统音乐会议”（通常是凯尔特人和莫里斯）中播放的音乐。该合集不仅包括音乐转录，还包括讨论、笑话、伴奏建议等。所有转录均以“ABC”符号表示。
优雅的音符、连音线和和弦。大多数转录是单音的，但有些确实指定了多个声音。许多转录的 ABC 格式不正确、缺少小节线、有多余的临时记号、小节数错误等等。
我们按照以下方式创建用于训练我们的 char-rnn 模型的数据。我们只保留五个 ABC 字段（标题、米、键、单位音符长度和转录），并用空行分隔每个贡献。上面的两个条目因此变为： T：A Cup Of Tea M：4/4 L：1/8 K：Amix |:eA (3AAA g2 fg|eA (3AAA BGGf|eA (3AAA g2 fg|1afge d2 gf:| 2afge d2 cd|| |:eaag efgf|eaag edBd|eaag efge|afge dgfg:| T: 一杯茶 M: 4/4 L: 1/8 K: Ador eAAa _g2fg|eAA2 BGBd|eA~ A2 ~g2fg|1af (3gfe dG~G2:|2af (3gfe d2^cd|| eaag efgf|eaag ed (3Bcd|eaag efgb|af (3gfe d2^cd:| 这给我们留下了一个包含 13,515,723 个字符的文本文件)总共出现了 47,924 次 T:。
10 有 135 个唯一字符，例如“A”、“:”和“^”，每个字符都成为我们 char-rnn 模型词汇表的一个元素。
8 https://github.com/adactio/TheSession-data 9 http://abcnotation.com/wiki/abc:standard:v2.1 10 这不是数据中的转录数，因为它还包括以下内容特定曲调的用户讨论和伴奏建议。

第6页
6 Sturm、Santos、Ben-Tal 和 Korshunova 我们通过以下方式创建用于训练我们的folk-rnn 模型的数据。我们删除标题字段和装饰。在考虑重复时，我们会删除所有少于 7 个度量的转录（以删除不是完整转录的贡献，而是建议的结尾、变体等的转录）。我们会删除所有超过一米或一键的转录。
11 我们将所有剩余的转录 (23,636) 转置为具有根 C 的键。因此，所有转录都处于四种模式之一（百分比显示在括号中）：major (67%)、minor (13%)、dorian (12%) ) 和 mixolydian (8%)。我们强加了一个转录标记词汇表——每个标记由一个或多个字符组成——用于以下七种类型（带括号中的示例）：meter（“M:3/4”）、key（“K:Cmaj”）、measure（ “😐”和“|1”），音高（“C”和“^c’”），分组（“（3”），持续时间（“2”和“/2”），和转录（“”和“”）。
上面的两个转录因此表示为 M:4/4 K:Cmix |: gc (3 cccb 2 ab | gc (3 cccd BB a | gc (3 cccb 2 ab |1 c’ abgf 2 ba 😐 |2 c’ abgf 2 ef |: g c’ c’ bgaba | g c’ c’ bgfdf | g c’ c’ bgabg | c’ abgfbab 😐 M:4/4 K:Cdor gcc c’ b 2 ab | gcc 2 d B df | gcc 2 b 2 ab |1 c’ a (3 bagf BB 2 😐 |2 c’ a (3 bagf 2 =ef | g c’ c’ bgaba | g c’ c’ bgf (3 def | g c’ c’ bgab d’ | c’ a (3 bagf 2 =ef 😐 我们的数据集有 4,056,459 个标记，其中 2,816,498 个是音高，602,673 个是持续时间，520,290 个是度量。 23,636 个转录由 150 个或更少的标记组成；75% 的标记不超过 190 个。有 137 个独特的标记，每个标记都成为我们的folk-rnn 模型的词汇元素。

3.2 架构

我们构建的每个 LSTM 网络都有三个隐藏层，每个隐藏层有 512 个 LSTM 块，输入和输出单元的数量等于其词汇表中字符或标记的数量。我们以本地方式对转录进行编码，例如在 [11, 36] 中，其中词汇表中的每个元素都映射到输入和输出单元。（这也称为“单热编码”。）每个网络的输出是其词汇表上的概率分布。我们的 char-rnn 模型中的参数总数为 5,585,920；在我们的folk-rnn模型中是5,621,722。

3.3 训练

我们使用“char-rnn”实现来构建和训练我们的 char-rnn 模型。
12 这采用了 RMSprop 算法 13 使用 50 个样本的小批量，每个样本包含 50 个字符，并采用梯度裁剪策略来避免爆炸 11 通过将剩余的转录转换为 MIDI，我们发现以下内容： 78,338 个长度不正确的度量（音符计数错误，其中725,000 多个测量符号）、4,761 个不成对的重复符号和 3,057 个不正确的变体（错误指定的重复）。我们不试图纠正这些问题。
12 https://github.com/karpathy/char-rnn 13 T. Tielemanand G. Hinton，“将梯度除以最近量级的运行平均值”，Coursera “NeuralNetworksfor MachineLearning”的第 6.5 讲，2012。

第7页
在 LSTM 中使用深度学习 7 梯度问题进行音乐转录建模和作曲。我们将学习率初始化为 0.002，并在前 10 个 epoch 后应用 0.95 的衰减率。我们使用我们自己的实现来构建和训练我们的民俗-rnn 模型。这也采用了 RMSprop 算法，但每组有 64 个解析的转录本。由于数据集中的转录具有不同的长度（以令牌数量计），我们使用分桶策略生成小批量，该策略将长度大致相同的小批量序列放在一起，使用“空”令牌将它们填充到最大长度，然后使用掩码策略在计算输出和损失函数时忽略空标记。我们以 0.003 的学习率开始训练，在第 20 个 epoch 之后应用了 0.97 的速率衰减。
对于这两个模型，我们将 [−5, 5] 之外的梯度剪裁到极限，并在每个 LSTM 隐藏层之后采用 0.5 的 dropout 率。我们总共训练每个模型 100 个 epoch。我们使用 95% 的数据集作为训练数据，5% 作为验证数据（后者用于衡量预测字符或标记的进度）。通过训练，我们的 char-rnn 模型学习了一个“语言模型”来生成 ABC 字符。相反，我们的folk-rnn 模型学习了一个更特定于转录的词汇表中的语言模型，即有效的转录以开头，然后一个时间签名令牌，一个密钥令牌，然后是来自 4 种类型的一系列令牌。我们的folk-rnn 模型没有体现char-rnn 所具有的含义模糊性，例如，C 可以表示音高、音高的一部分（^C）、标题中的字母（一杯茶）或部分键名称 (K:Cmin)。

3.4 生成转录

使用我们训练的模型，让它们生成输出是一件简单的事情：我们只需从模型输出的概率分布中对其词汇表进行采样，并将每个选定的词汇表元素用作后续输入。我们可以随机初始化每个模型的内部状态，也可以通过输入有效的“种子”序列（例如，以开头）。重复 N 个时间步长的采样过程除了种子序列外，还会产生 N 个字符/标记。

4 生成 LSTM 网络的演示

4.1 输出的统计分析

将系统输出的描述性统计与其训练数据的描述性统计进行比较是评估其内部模型的一种直接方法，但它与音乐体验的相关性是非常值得怀疑的。我们使用我们的folk-rnn 系统并让它生成6,101 个完整的转录。米和模式的比例接近训练数据集中的比例。图 1 显示了特定标记长度的转录比例，以及与特定音高的比例。末端音高分布似乎在两者之间匹配，但不是转录标记长度。我们目前不知道这是什么原因。我们还发现（通过查看重复符号的出现）大约 68% 的民间循环网络转录使用度量标记创建一个结构 AABB，每个部分有 8 个小节长；训练数据中 54% 的转录具有这种结构。这种结构在爱尔兰民间音乐中很常见
第8页
8 Sturm、Santos、Ben-Tal 和 Korshunova 代币数量 55 65 75 85 95 105 115 125 135 145 155 165 175 185 195 205 215 225 235 245 转录百分比 (%) 0 2 4 6 8 10 202 1 folk-rnn thesession.org C c DGFB d EA z B, A, G, fegab c’ 转录的比例 (%) 0 5 10 15 20 25 30 35folk-rnn thesession.org 图 1. 顶部：分布我们的folk-rnn系统创建的6,101个转录的转录中的标记数，与那些初始化（转置）训练数据集相比。底部：在给定音高上结束的转录比例。
[18]。当涉及到错误时，16 个生成的转录具有标记 |1（第一个结尾），后跟 |1 而不是 |2；和 6 只指定了 |1 或 |2。
三个转写的和弦指定不完整，即 ] 出现时没有伴随的 [。（我们在为该模型创建训练数据时纠正了这些问题。）

4.2 输出的音乐分析

我们从我们的 char-rnn 模型生成了 72,376 个音调转录，并自动合成了其中的 35,809 个（仅因空间限制而停止）。
14 我们使用这些结果创建了“The Endless Traditional MusicSession”，15 每五分钟循环一次以七组随机选择的转录为一组。我们与 session.org 的在线社区分享了这一点。
一位用户听了几首，并确定了下面的例子，他说：“在下面的曲调中，前两个短语作为一个生成想法非常有趣，可以‘人工创作’其余部分！我知道这当然不是重点。仍然有 14 我们使用 abc2midi 将每个转录转换为 midi，然后使用 python-midi 处理 midi 以将其人性化，用于几种随机选择的乐器，例如小提琴、盒子、吉他/班卓琴和鼓，然后使用 timidity、sox 和 lame 来合成, 掌握, 并压缩为 mp3。
15 http://www.eecs.qmul.ac.uk/~sturm/research/RNNIrishTrad/index.html
第9页
char-rnn (thesession.org) 2 3 4 IV 4 4 5 6 7 8 IV IV VIVI 1 2 9 10 11 12 3 3 I IV I ii V 13 14 15 16 IVIVI 图。 2. “The Mal’s Copporim”的符号，我们添加了隐含的和声。
尝试在竖琴上打开这首曲子很有趣。” 这是我们的 char-rnn 模型的准确输出（在图 2 中用隐含的和声标注）：16 T：Mal’s Copporim，The M：4/4 L：1/8 K：Dmaj |: a>g | f2 f>e d2 d>B | A>BAe | f2 d>f ed | e>dc>B Agfe | f2 f>e d2 d>B | A2 A>G F2 F2 | G2 B>A d2 c>d |[1 e>dc>A d2 😐[2 e2 d2 d2 || |: f<g | a>Ag>A f>Ae>A | d>gd>B d2 g>A | f>Af>e d>ed>c | e>ed>c (3Bcd (3efg | a2 a>g f2 e2 | d2 A>d f2 f>g | a2 g>f e2 f>g | a2 A2 D2 || 以作曲老师的身份查看这个输出结果会是学生的作业，我们不会发现明显的错误: 所有的措施都有正确的持续时间，考虑到两个拾音条。只有转弯开始的重复符号是不平衡的。我们看到这首乐曲是坚定的 D 大调（但请参阅下面的和声讨论），每个部分都以一个决议结束，最有力的是结论。旋律在这些端点处适当放慢。这首曲子展示了一种非常常见的传统爱尔兰音乐结构 [18]：重复的 8 小节“曲调”，然后是重复的 8 小节“转”。这是建议改变的一点：就像曲调一样，给转弯两个结尾，使已经存在的那个成为最后一个，并作为第一个组成一个不太确定的解决方案。
从曲调和转身的旋律特征来看，主要的轮廓是下降。乐曲开头的 3 个逐步音符，连同它们的节奏，形成了一个基本概念，在多个地方逐字重复或换位。这首曲子清楚地使用了重复和变化：转身保持了曲调的点节奏，但有一个新的旋律理念（对于乐句的第一部分）。虚线节奏经常重复，但 16 事实上，系统已经学会为它产生的每个转录创建一个标题字段，因为我们将它包含在我们的 char-rnn 模型的训练数据中。

第10页
10 Sturm、Santos、Ben-Tal 和 Korshunova 各不相同。偶尔的 iamb 增加了多样性，避免了旋律变得过于单调，又不破坏强烈的格律特征，但在前 3 小节之后，这个想法就被放弃了。虽然它在 m 中很好用。2&3, iamb 变体在乐观到转牌时效果较差。
曲调和转音相关，转角随着曲调的逐步运动变化而变化。小节 9 和 10 轮流改变曲调的第 3 小节和第 4 小节；和米。13 转而回忆起这首曲子的开头和它的基本思想。总的来说，转角在后半段听起来相当漫无目的，考虑到大部分乐曲的渐变，最后小节的巨大跳跃是出乎意料的。
这是我们可以改进作曲的第二点：使转角的第 5 小节与其第一个小节的关系更密切，并将第二个小节的节奏改变为曲调的节奏。最后一个小节中的巨大飞跃应该通过上面第一个建议的新的第一个结尾来更好地准备。最后，在米。6、将trochee节奏改为iamb，将升F降到D。
17 转录可能是单音的，但旋律中隐含着和声。
（自 20 世纪初期以来，Cordalaccompaniment 在合奏音乐中流行 [18]。）在这首曲子中，I（Dmajor）是最常见的，（例如，m. 1-3），V（Amajor）也出现（例如， m. 3&4) 和 IV (Gmajor) 出现在 m. 10. 有一些尴尬的和声时刻：V 似乎在 m 中来得太早了半个小节。3；m 的前半部分。10 是 IV，但最后一拍是切换到 V，还是保持 IV 并忽略旋律 A？m 中的和声。12 可能是 ii（Eminor）——这首曲子中唯一的小和弦——它留下了 m。13 节奏为 VI，但节拍较弱。转弯的后半段是相当静态的谐波，这导致其漫无目的的质量。
这是我们可以改进构图的第三点。
18 有人可能会问，在其“The Mal’s Copporim”这一代中，系统是否只是在复制其训练数据集的一部分。一个特征元素是后半部分的标量运行。12. 我们发现这在 9 次训练转录中出现了 13 次，只有 3 次出现了高 A。另一个特征模式是 m。9，它仅出现（转置）在一个训练转录中，19 但在 v（小调）的上下文中，然后与“The Mal’s Copporim”中的情况完全不同。另一个特征元素是结束测量，它不存在于训练转录中。我们只找到一个 m 的实例。2, 20 但没有 m 的实例。3&4。

4.3 生成系统的音乐创作

我们现在描述一个使用我们的 char-rnn 系统来协助创作一段新音乐的例子。这个过程从给系统播种一个想法的转录开始，从它的输出中判断和选择，然后使用扩展的转录重新播种。我们使用以下种子初始化模型，其中包括两个条：17 例如，A>B A<G F2 D2。
18 一种可能性是改变 m。13&14 到 a2 a>g f>A e>A | d2 A>d e2 f>g。
19 “安德伍德” https://thesession.org/tunes/5677 20 “达勒姆游骑兵队”第 3 版 https://thesession.org/tunes/3376
第11页
使用深度学习的音乐转录建模和作曲 11 T：Bob’s Idea M：4/4 L：1/8 K：Cmaj |：CcDB E^A=AF | d2 cB c2 E2 | 它生成 1000 个新字符，其中包括种子后面的 18 个小节以完成曲调。我们在下面用种子（m. 1&2）记下其中的一部分： 4 4 我们保持种子之后的度量，组成另一个改变 m 的度量。2、用这四项措施为系统播种。然后系统产生两个四小节结尾： 1 4 4 2 我们保留第二个结尾的音乐，并为系统播种 T：Bob’s Idea M：4/4 L：1/8 K：Cmaj |：CcDB E^ A=AF | d2 cB c2 E2 | Gc_Bc EFAc | f2 ed e2 _B2 | B^ABc E2 A2 | dcde f4 | cBAG ^F2 Ec | dcBA G4 | 这产生了另外 8 个度量，其中一些我们在下面注明（m. 9-11）： 2 3 4 5 6 4 4 7 8 9 10 11 我们保留 m。9&10，改变它们以创建两个新条，然后再组合一些小节来调制到 V 的 V，然后重复前 15 个小节，将前 15 个小节调高一整步。通过更多的编辑，我们创作了“深度学习进行曲”，图 3，这听起来与训练数据转录中的音乐完全不同。

5 讨论与反思

我们工作的直接实际目标是创建音乐转录模型，以促进特定惯例内外的音乐创作。为此，我们使用深度学习方法和大量的民间文本转录构建了两种不同类型的生成系统
第12页
12 Sturm、Santos、Ben-Tal 和 Korshunova 匿名 + char-rnn (thesession.org) 2 3 4 5 6 7 4 4 8 9 10 11 12 13 14 3 15 16 17 18 19 20 等等调制到 E、# F, …, C 8 5 4 4 图 3. 在 char-rnn 模型的帮助下组成的“深度学习进行曲”的开头与训练数据中的音乐类型完全不同。
音乐，并从三个角度展示了它们的效用。我们将生成输出的统计数据与培训材料的统计数据进行比较。我们分析了由其中一个系统（在图 2 中注明）生成的特定转录，就其作为乐曲的优点和缺点，以及它如何使用传统凯尔特音乐中的惯例。我们使用其中一个系统来帮助创作一段新的音乐（如图 3 所示）。
21 folk-rnn 系统输出的统计数据表明它已经学会了计数，以数据集中存在的各种仪表中每个小节的音符数量来表示。这与之前关于 RNN [14] 的发现一致。
我们还可以看到音高的分布与训练数据的分布一致。
民间 rnn 系统似乎已经学会了在补品上结束转录；并使用小节标记创建具有 AABB 结构的转录，每个部分有 8 个小节长。在我们最新的实验中，我们训练了一个民间循环神经网络系统，其转录拼写出重复的措施（用重复的材料替换每个重复符号）。我们发现许多生成的转录（见图 4）与 AABB 形式密切相关，这表明该系统正在学习重复而不是重复标记出现的位置。
然而，统计学的观点只能反映学习算法对训练数据集的特定信息的判断程度，从而产生“有效的”ABC 输出。要了解有关这些系统如何促进音乐创作的更多具体信息，请查看单个转录的水平。我们担任作文老师评估学生作业的角色。虽然创造力和作曲教学的问题并非没有争议（例如，[28] 和 [7]），但许多音乐系在标记 21 时使用了创造力、想象力、原创性和创新性等标准纯粹是因为我们对 LSTM 网络的初步实验涉及到 char-rnn。我们的结果使我们改进了folk-rnn的转录词汇和训练方案。

第13页
使用深度学习的音乐转录建模和作曲 13 8 6 图 4. 对具有重复的转录进行训练的folk-rnn 模型的标注输出。
作文作业。因此，我们可以将作曲老师的观点视为对这些系统能力的一种专家意见，但要小心承认两件事：1）西方音乐文化中存在一种关于个人重要性的遗传偏见。嗓音; 2）虽然风格意识为音乐作品的讨论提供了信息，但坚持风格的惯例通常不是随后讨论的主要焦点。
“The Mal’s Copporim”（在图 2 中注明）是一种非常合理的音乐转录，几乎“准备就绪”。通过我们自己对数百个结果的试听，我们还发现了其他具有类似合理性的结果。当然，我们的系统产生的许多转录也不太可信。当然，判断转录是合理的自然是主观的；但我们在这里提出的论点是，这些系统正在产生似乎在音乐上有意义的音乐转录（重复、变化、旋律轮廓、结构、进展、分辨率）。我们不能免除策展人识别作品好坏的需要。或让作曲家/表演者更正或改进输出。
当我们应用我们的系统在 Sec 中创作一首新音乐时，作曲家的角色很明确。4.3. 我们使用（图 3）开头的两个条形来播种系统的目的是查看系统如何响应与其训练数据中的风格约定不完全一致的输入。即使输入模式与学习材料不太接近，它是否能够应用模式变化？通过我们的经验，我们发现嵌入系统中的知识在作曲家的指导下转化为不同的上下文。在这种相对受限的作曲方法中，我们发现我们的系统可用于协助音乐素材的生成，而这些音乐素材的生成朝着我们认为很少采取的方向发展。
到目前为止，我们的工作只是检查了这些深度学习方法对 ABC 转录进行建模的能力，但进一步的工作是明确的。首先，我们将在 session.org 社区中引发关于由folk-rnn 生成的转录的讨论，以及如何在风格和性能约定方面对其进行改进。高瓴 [18] 提到 session mu 的开放性
第14页
14 位 Sturm、Santos、Ben-Tal 和 Korshunova 科学家将新曲调纳入他们的演奏曲目，因此我们有兴趣看看是否有任何人纳入我们的一些结果。其次，我们将对会话音乐家进行采访，以分析民间 rnn 转录的风格惯例，以及专家如何更改转录以更好地适应风格。这将为改进转录模型提供机会。第三，我们将建立一个界面，让用户可以探索系统以创作新音乐（就像我们在Sec.
4.3），然后测量它对构图的促进程度。我们还寻求使模型适应其他类型的风格惯例的方法，并分析模型参数和网络层对数据集中隐含的音乐知识的重要性。

6 结论

得益于数据的可用性和深度学习研究的出色可重复性，我们的工作扩展了过去将 RNN 和 LSTM 网络应用于音乐建模和作曲的研究 [4, 10–12, 29, 36]大小：虽然过去的工作只使用了几十个单元的几个隐藏层和几百个训练示例，为了只生成几个示例序列，但我们已经构建了包含数千个单元的网络，训练了数万个训练示例，并生成了数以万计的转录。我们以多种方式探索学习模型。除了比较生成的转录和训练数据的统计数据外，我们还采用与我们的目标相关的批判性观点：创建促进音乐创作的音乐转录模型，
我们没有声称我们正在对音乐创造力进行建模 [39]。就目前而言，这些模型是包含使用概率规则排列标记的代理的黑盒 [31]。需要策展、作曲和表演才能使生成的转录变成音乐。然而，在转录水平上，我们发现结果的集合在合理性和有意义的变化方面具有一致性。这些 LSTM 网络能够将转录的音乐理念转化为有意义的方式。此外，我们的模型似乎非常适用于传统凯尔特音乐实践的背景下，因为从业者的创造性实践在于他们能够对熟悉的元素进行新的重组 [6]。发现一致性和变化之间的良好平衡是作曲家内心监视器发展的一部分，也是作曲家自己风格的一个促成因素。这代表了我们的系统可以做出积极贡献的独特点。然而，作曲家仍然需要学习何时以及如何改变或打破规则来创作具有持久兴趣的音乐。机器学习的应用是不可替代的。

An end-to-end neural network for polyphonic piano music transcription

2016年，被引用数305

第0页
用于复调钢琴音乐转录的端到端神经网络

摘要

我们提出了一种用于复调钢琴音乐转录的监督神经网络模型。所提出模型的架构类似于语音识别系统，包括声学模型和音乐语言模型。声学模型是用于估计音频帧中音高概率的神经网络。语言模型是一个循环神经网络，它模拟音高组合之间随时间的相关性。所提出的模型是通用的，可用于转录复调音乐，而不会对复调施加任何限制。声学和语言模型预测使用概率图形模型进行组合。使用光束搜索算法对输出变量进行推断。我们进行两组实验。我们研究了声学模型的各种神经网络架构，并研究了使用所提出的架构结合声学和音乐语言模型预测的效果。我们将基于神经网络的声学模型与两种流行的无监督声学模型的性能进行比较。我们研究了声学模型的各种神经网络架构，并研究了使用所提出的架构结合声学和音乐语言模型预测的效果。我们将基于神经网络的声学模型与两种流行的无监督声学模型的性能进行比较。我们研究了声学模型的各种神经网络架构，并研究了使用所提出的架构结合声学和音乐语言模型预测的效果。我们将基于神经网络的声学模型与两种流行的无监督声学模型的性能进行比较。
结果表明，卷积神经网络声学模型在所有评估指标中都产生了最佳性能。我们还观察到音乐语言模型的应用提高了性能。最后，我们提出了一种有效的波束搜索变体，它可以提高性能并将运行时间减少一个数量级，使该模型适用于实时应用。
索引词——自动音乐转录、深度学习、循环神经网络、音乐语言模型。

一、引言

自动音乐转录（AMT）是音乐信息检索（MIR）中的一个基本问题。AMT 旨在在给定和弦声学信号的情况下生成象征性的、类似乐谱的转录。即使是人类专家，音乐转录也被认为是一个难题，而当前的音乐转录系统无法与人类的表现相匹配[1]。
复音 AMT 是一个困难的问题，因为同时从一个或多个乐器发出的音符会导致声音信号中谐波的复杂交互和重叠。
输入信号的可变性还取决于所使用的特定仪器类型。此外，带有 Manuscript 的 AMT 系统于 2015 年 8 月 7 日收到；2015 年 12 月 11 日和 2016 年 2 月 8 日修订；2016 年 2 月 11 日接受。发表日期 2016 年 2 月 23 日；当前版本的日期为 2016 年 3 月 23 日。E. Benetos 的工作得到了皇家工程学院研究奖学金的支持，资助下授予 RF/128。负责协调本手稿审阅和批准出版的副主编是 Matthew EP Davies 博士。
作者在英国伦敦 E1 4NS 伦敦玛丽女王大学电子工程与计算机科学学院数字音乐中心工作（电子邮件：sssigtia@qmul.ac.uk；emmanouil.benetos@qmul.ac .uk；sedixon@qmul.ac.uk)。
本文中一个或多个图形的彩色版本可在 http://ieeexplore.ieee.org 在线获取。
数字对象标识符 10.1109/TASLP.2016.2533858 无约束复音具有组合非常大的输出空间，这进一步使建模问题复杂化。
通常，输入信号的可变性由旨在学习被转录乐器的音色特性的模型捕获 [2]、[3]，而与大输出空间相关的问题通过将模型约束为具有最大复音 [4], [5]。
当前的大多数 AMT 系统都基于将输入幅度谱图描述为对应于音高的基谱的加权组合的原理。基谱可以通过各种技术来估计，例如非负矩阵分解（NMF）和稀疏分解。无监督 NMF 方法 [6]、[7] 旨在从训练示例中学习音高谱字典。然而，纯粹的无监督方法通常会导致基数与音高不对应，因此会导致在测试时解释结果出现问题。通过在训练算法 [8]、[9] 中加入谐波约束来解决无监督频谱图分解方法的这些问题。通过引入概率潜在成分分析 (PLCA) [10]，扩展了基于频谱分解的技术。PLCA 旨在将潜在变量概率模型拟合到归一化的频谱图。
基于 PLCA 的模型易于使用期望最大化 (EM) 算法进行训练，并且已被扩展并广泛应用于 AMT 问题 [3]、[11]。
作为频谱分解技术的替代方法，人们对 AMT 的判别方法非常感兴趣。判别方法旨在直接将从音频帧中提取的特征分类到输出音高。这种方法的优点是，可以使用大量训练数据来训练复杂的分类器，而不是构建特定于仪器的生成模型，以捕获输入的可变性。当使用判别方法时，分类器的性能取决于从信号中提取的特征。最近，神经网络已被应用于原始数据或低级表示，以共同学习任务的特征和分类器[12]。
多年来，已经有许多评估 AMT 判别方法的实验。Poliner 和 Ellis [13] 使用支持向量机 (SVM) 对归一化幅度谱进行分类。南等。人。[14] 在深度信念网络 (DBN) 上叠加一个 SVM，以学习 AMT 任务的特征。类似地，在 [15] 中，双向递归神经网络 (RNN) 被应用于多音转录的幅度谱图。
在大词汇量语音识别系统中，仅声学信号中包含的信息通常是不够的 2329-9290 © 2016 IEEE。允许个人使用，但再版/再分发需要 IEEE 许可。
有关详细信息，请参阅 http://www.ieee.org/publications_standards/publications/rights/index.html。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第1页
928 IEEE/ACM 音频、语音和语言处理交易，卷。24，没有。2016 年 5 月 5 日，以解决可能的输出之间的歧义。语言模型用于在给定句子中先前单词的情况下提供当前单词的先验概率。统计语言模型对于大词汇量语音识别至关重要 [16]。与语音类似，音乐序列表现出时间结构。除了准确的声学模型之外，捕捉音乐时间结构的模型或音乐语言模型 (MLM) 可能有助于提高 AMT 系统的性能。与语音不同，语言模型在大多数 AMT 模型中并不常见，因为对复调音乐的组合大输出空间进行建模具有挑战性的问题。通常，声学模型的输出由音高特定处理，对输出音高 [3]、[13] 强制平滑和持续时间约束的两态隐马尔可夫模型 (HMM)。然而，将其扩展到对复音 AMT 系统的高维输出进行建模已被证明具有挑战性，尽管有一些研究探索了这一想法。[17] 中使用动态贝叶斯网络来估计基于 NMF 的转录框架中音符组合的先验概率。类似地，在 [18] 中，基于循环神经网络 (RNN) 的 MLM 与 PLCA 声学模型一起用于估计音符序列的先验概率。[19] 中提出了一个序列转导框架，其中声学和语言模型组合在一个 RNN 中。将其扩展到对复音 AMT 系统的高维输出进行建模已被证明具有挑战性，尽管有一些研究探索了这一想法。[17] 中使用动态贝叶斯网络来估计基于 NMF 的转录框架中音符组合的先验概率。类似地，在 [18] 中，基于循环神经网络 (RNN) 的 MLM 与 PLCA 声学模型一起用于估计音符序列的先验概率。[19] 中提出了一个序列转导框架，其中声学和语言模型组合在一个 RNN 中。将其扩展到对复音 AMT 系统的高维输出进行建模已被证明具有挑战性，尽管有一些研究探索了这一想法。[17] 中使用动态贝叶斯网络来估计基于 NMF 的转录框架中音符组合的先验概率。类似地，在 [18] 中，基于循环神经网络 (RNN) 的 MLM 与 PLCA 声学模型一起用于估计音符序列的先验概率。[19] 中提出了一个序列转导框架，其中声学和语言模型组合在一个 RNN 中。在基于 NMF 的转录框架中估计音符组合的先验概率。类似地，在 [18] 中，基于循环神经网络 (RNN) 的 MLM 与 PLCA 声学模型一起用于估计音符序列的先验概率。[19] 中提出了一个序列转导框架，其中声学和语言模型组合在一个 RNN 中。在基于 NMF 的转录框架中估计音符组合的先验概率。类似地，在 [18] 中，基于循环神经网络 (RNN) 的 MLM 与 PLCA 声学模型一起用于估计音符序列的先验概率。[19] 中提出了一个序列转导框架，其中声学和语言模型组合在一个 RNN 中。
本文提出的想法是[20]中初步实验的扩展。我们提出了一种端到端架构，用于联合训练 AMT 任务的声学模型和语言模型。我们在复调钢琴音乐数据集上评估了所提出模型的性能。
我们训练神经网络声学模型来识别音频帧中的音高。理论上，判别分类器可以在仪器源的复杂混合上进行训练，而不必分别考虑每个仪器。神经网络分类器可以直接应用于时频表示，无需单独的特征提取阶段。除了 [20] 中的深度前馈神经网络 (DNN) 和 RNN 架构之外，我们还探索使用卷积神经网络 (ConvNets) 作为声学模型。
ConvNets 最初被提出作为计算机视觉中对象识别的分类器，但在语音识别中的应用越来越多[21]、[22]。尽管 ConvNets 已应用于 MIR [23]、[24] 中的一些问题，但它们在转录任务中仍未得到探索。我们还包括与两种在 AMT 文献中流行的最先进的基于频谱分解的声学模型 [3]、[8] 的比较。如前所述，声学模型的高维输出对语言建模提出了挑战。我们建议使用 RNN 作为阶乘 HMM [25] 和动态贝叶斯网络 [17] 等状态空间模型的替代方案，用于对音乐中音符的时间结构进行建模。在 [18] 中，基于 RNN 的语言模型首先与 PLCA 声学模型一起使用。然而，在那个设置中，
在混合框架中，使用光束搜索对输出变量进行近似推断。然而，当用于解码长时间序列时，波束搜索的计算量可能会很大。我们应用[26]中提出的高效散列波束搜索算法进行推理。新的推理算法将解码时间减少了一个数量级，并使所提出的模型适用于实时应用。我们的结果表明，卷积神经网络声学模型在许多评估指标上都优于其他声学模型。我们还观察到音乐语言模型的应用提高了性能。
论文的其余部分安排如下：第二节描述了实验中使用的神经网络模型，第三节讨论了所提出的模型和推理算法，第四节详细介绍了模型评估和实验结果。第五节介绍了讨论、未来的工作和结论。

二、背景

在本节中，我们描述了用于声学和语言建模的神经网络模型。尽管神经网络是一个古老的概念，但它们最近已被广泛应用于机器学习问题并取得了巨大成功[12]。他们最近成功的主要原因之一是大型数据集和大规模计算基础设施的可用性[27]，这使得训练具有数百万个参数的网络成为可能。任何神经网络架构的参数通常使用数值优化技术进行估计。一旦定义了合适的成本函数，使用反向传播算法 [28] 找到成本相对于模型参数的导数，并使用随机梯度下降 (SGD) [29] 更新参数。SGD 的有用特性是使用小批量数据迭代更新模型参数。这允许训练算法扩展到非常大的数据集。神经网络的分层结构使得端到端训练成为可能，这意味着可以训练网络从低级输入预测输出，而无需提取特征。这与许多其他机器学习模型形成对比，后者的性能取决于从数据中提取的特征。它们联合学习特征转换和分类器的能力使神经网络特别适合 MIR [30] 中的问题。神经网络的层次结构使端到端训练成为可能，这意味着可以训练网络从低级输入预测输出而无需提取特征。这与许多其他机器学习模型形成对比，后者的性能取决于从数据中提取的特征。它们联合学习特征转换和分类器的能力使神经网络特别适合 MIR [30] 中的问题。神经网络的层次结构使端到端训练成为可能，这意味着可以训练网络从低级输入预测输出而无需提取特征。这与许多其他机器学习模型形成对比，后者的性能取决于从数据中提取的特征。它们联合学习特征转换和分类器的能力使神经网络特别适合 MIR [30] 中的问题。

A. 声学模型

深度神经网络：DNN 是强大的机器学习模型，可用于分类和回归任务。DNN 的特点是具有一层或多层非线性变换。形式上，DNN 的一层执行以下转换：h l+1 = f(W lhl + bl )。(1) 在等式 (1) 中，W l ,bl 是层 l 的权重矩阵和偏置，0 ≤ l ≤ L 和 fi 是按元素应用的一些非线性函数。对于第一层，h 0 = x，其中 x 是输入。在我们所有的实验中，我们将 f 固定为 sigmoid 授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第2页
SIGTIA 等人：用于复音钢琴音乐转录的端到端神经网络 929 图 1. 用于声学建模的神经网络架构。
函数 (f (x)= 1 1+e -x )。最后一层的输出 h L 根据给定问题进行转换，以产生输出变量 P (y|x, θ) 的后验概率分布。参数 θ = {W l ,bl } L 0 是数值估计的使用反向传播算法和 SGD。图 1a 显示了 DNN 架构的图形表示，虚线箭头表示中间隐藏层。对于声学建模，DNN 的输入是特征帧，例如幅度谱图或恒定 Q 变换 (CQT)，并且 DNN 被训练以预测帧 p(yt |xt) 中存在的音高概率一段时间t。

2）循环神经网络：DNN 是固定数据（如图像）的良好分类器。但是，它们并非旨在考虑顺序数据。RNN 是 DNN 的自然扩展，旨在处理顺序或时间数据。这使得它们更适合 AMT 任务，因为连续的音频帧同时表现出短期和长期的时间模式 [31]。RNN 的特征在于某个时间 t 的隐藏层激活与 t-1 的隐藏层激活之间的递归连接，如图 1b 所示。形式上，RNN 的隐藏层在时间 t 执行以下计算：ht l+1 = f(W flhtl + W rlht−1 l + bl )。(2) 在等式 (2) 中，W fl 是从输入到隐藏单元的权重矩阵，W rl 是循环连接的权重矩阵，bl 是第 l 层的偏差。从等式（2），我们可以看到隐藏状态在时间 t 的递归更新意味着 ht 隐含地是直到时间 t, xt 0 的所有输入的函数。与 DNN 类似，RNN 由一层或多层隐藏单元组成。最后一层的输出使用合适的函数进行转换，以在输出上产生所需的分布。RNN 参数 θ =  W fl , W rl ,bl  L 0 使用反向传播时间算法 (BPTT) [32] 和 SGD 计算。对于声学建模，RNN 作用于一系列输入特征以在输出 P (yt |xt 0 ) 上产生概率分布，其中 xt 0 = {x 0 ,x 1 ,…,xt }。RNN 由一层或多层隐藏单元组成。最后一层的输出使用合适的函数进行转换，以在输出上产生所需的分布。RNN 参数 θ =  W fl , W rl ,bl  L 0 使用反向传播时间算法 (BPTT) [32] 和 SGD 计算。对于声学建模，RNN 作用于一系列输入特征以在输出 P (yt |xt 0 ) 上产生概率分布，其中 xt 0 = {x 0 ,x 1 ,…,xt }。RNN 由一层或多层隐藏单元组成。最后一层的输出使用合适的函数进行转换，以在输出上产生所需的分布。RNN 参数 θ =  W fl , W rl ,bl  L 0 使用反向传播时间算法 (BPTT) [32] 和 SGD 计算。对于声学建模，RNN 作用于一系列输入特征以在输出 P (yt |xt 0 ) 上产生概率分布，其中 xt 0 = {x 0 ,x 1 ,…,xt }。
3）卷积网络：卷积网络是具有独特结构的神经网络。卷积层专门设计用于保留输入的空间结构。在卷积层中，一组权重作用于输入的局部区域。然后将这些权重重复应用于整个输入以生成特征图。卷积层的特点是在整个输入中共享权重。如图 1c 所示，ConvNets 由交替的卷积层和池化层组成，然后是一个或多个全连接层（与 DNN 相同）。形式上，共享权重对输入信号的重复应用构成了卷积运算：hj,k = f   r W r,jx r+k−1 + bj  。(3) 输入 x 是来自不同通道的输入向量，例如图像的 RGB 通道。正式地，
每个输入波段 xi 都有一个关联的权重矩阵。卷积层的所有权重共同表示为一个四维张量。给定来自特征图 h 的 m × n 区域，最大池化函数返回该区域中的最大激活值。在任何时间 t，ConvNet 的输入是 2k +1 个特征帧 x t+kt−k 的窗口。最后一层的输出产生后验分布分布 P (yt |x t+kt-k )。
使用 ConvNets 进行声学建模有几个动机。MIR 中有许多实验表明，与其对单个输入帧进行分类，不如通过在多个输入帧上合并信息来实现更好的预测精度 [26]、[33]、[34]。通常，这是通过在输入帧周围应用上下文窗口或通过计算帧窗口上的统计矩来随时间聚合信息来实现的。围绕一帧低级光谱特征应用上下文窗口，如短时傅立叶变换 (STFT) 会导致非常高维的输入，这是不切实际的。其次，采用均值、标准差或其他统计矩对授权许可使用的分布进行了非常简单的假设：北京航空航天大学。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第 3 页
930 IEEE/ACM 音频、语音和语言处理交易，卷。24，没有。5、2016 年 5 月相邻帧中随时间变化的数据。ConvNets，由于其架构 [12]，可以直接应用于多个输入帧，以沿时间轴和频率轴学习特征。此外，当使用像 CQT 这样的输入表示时，ConvNets 可以学习音高不变的特征，因为音乐信号中的谐波间距在对数频率上是恒定的。最后，与完全连接的 DNN 相比，权重共享和池化架构减少了 ConvNet 参数的数量。这是一个有用的属性，因为对于大多数 MIR 问题，包括 AMT，很难获得大量的标记数据。

B. 音乐语言模型

给定一个序列 y = yt 0 ，我们使用 MLM 来定义一个先验概率分布 P (y)。yt 是一个高维二进制向量，表示在 t 处播放的音符（钢琴卷表示的一个时间步长）。输出空间的高维性质使得建模 yta 具有挑战性的问题。大多数后处理算法都做了简化假设，即所有音高都是独立的，并使用独立模型来模拟它们的时间演变[13]。然而，对于复调音乐，同时活跃的音高是高度相关的（和声、和弦）。在本节中，我们将描述 [35] 中首次引入的 RNN 音乐语言模型。

1）生成式 RNN：前面部分定义的 RNN 用于将输入序列 x 映射到输出序列 y。在每个时间步 t，RNN 输出条件分布 P (yt |xt 0 )。然而，RNN 可用于定义某个序列 y 上的分布，方法是将 t - 1 处 RNN 的输出连接到 t 处 RNN 的输入，从而得到以下形式的分布：P (y)=P (y 0 )  t>0 P (yt |yt−1 0 ) (4) 尽管 RNN 以高维输入 yt−1 0 为条件预测 yt，但各个音高输出 yt (i) 是独立的，其中 i 是音高索引（第 IV-C 节）。
如前所述，这不适用于复调音乐。
布朗热-莱万多夫斯基等。人。[35] 证明，不是预测独立分布，更复杂的参数输出分布的参数可以以 RNN 隐藏状态为条件。在我们的实验中，我们使用 RNN 来输出神经自回归分布估计器 (NADE) [35] 的偏差。
2）神经自回归分布估计器：NADE是高维二进制数据的分布估计器[36]。NADE 最初被提议作为受限玻尔兹曼机 (RBM) 的一种易于处理的替代方案。NADE 估计高维二元变量的联合分布如下：P (x)=  i P (xi |xi-1 0 )。
NADE 类似于完全可见的 sigmoid 信念网络 [37]，因为 xi 的条件概率是 xt 0 的非线性函数。NADE 根据以下公式计算条件分布： hi = σ(W :,<ixi−1 0 + bh ) (5) P (xi |xi−1 0 )=σ(V ihi + biv ) (6) 其中 W， V 是权重矩阵，W:,<i 是 W 的子矩阵，表示前 i-1 列，bh,bv 分别是隐藏和可见偏差。可以准确地找到似然函数 P (x) 相对于模型参数 θ = {W, V, bh , bv } 的梯度，这对于 RBM [36] 是不可能的。此属性允许 NADE 轻松与其他模型结合，并且可以使用基于梯度的优化器联合训练模型。

3）RNN-NADE：为了学习 MLM 的高维时间分布，我们将 NADE 和 RNN 结合起来，如 [35] 中提出的。生成的模型产生一系列以 RNN 为条件的 NADE，描述了复调音乐序列的分布。通过让每个时间步的 NADE 的参数成为 RNN 隐藏状态 θ t NADE = f(ht ) 的函数来获得联合模型。ht 是在时间 t 的 RNN（等式（2））最后一层的隐藏状态。为了限制模型中自由参数的数量，我们只允许 NADE 偏差是 RNN 隐藏状态的函数，而其余参数 (W, V) 随着时间的推移保持不变。我们将 NADE 偏差计算为 RNN 隐藏状态的线性变换加上附加的偏差项 [35]：btv = bv + W 1 ht (7) bth = bh + W 2 ht (8) W 1 和 W 2 分别是从 RNN 隐藏状态到可见和隐藏偏差的权重矩阵。可以使用链式法则轻松计算所有模型参数的梯度，并使用 BPTT 算法 [35] 训练联合模型。

三、提议的模型

在本节中，我们回顾了针对复音 AMT 提出的神经网络模型。如前所述，该模型包括声学模型和音乐语言模型。除了 [20] 中的声学模型之外，我们还建议使用 ConvNets 来识别输入音频信号中存在的音高，并将它们的性能与各种其他声学模型进行比较（第 IV-F 节）。声学和语言模型使用混合 RNN 架构结合在一个训练目标下，从而为具有无约束复音的 AMT 生成端到端模型。我们首先描述混合 RNN 模型，然后描述所提出的推理算法。

A. 混合

RNN 混合 RNN 是一种图形模型，它将任意帧级声学模型的预测与基于 RNN 的语言模型相结合。令 x = x T 0 为授权许可使用序列，仅限于：BEIHANG UNIVERSITY。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第4页
SIGTIA 等人：用于复音钢琴音乐转录的端到端神经网络 931 图 2. 混合架构的图形模型。
输入并令 y = y T 0 为相应的转录。y, x 的联合概率可以分解如下： P (y, x)=P (y 0 …y T ,x 0 …x T ) (9) = P (y 0 )P (x 0 |y 0 ) T  t=1 P (yt |yt−1 0 )P (xt |yt )。
等式 (9) 中的因式分解做出以下独立性假设： P (yt |yt−1 0 ,xt−1 0 )=P (yt |yt−1 0 ) (10) P (xt |yt 0 ,xt−1 0 )=P (xt |yt ) (11) 这些独立性假设类似于 HMM [38] 中的假设。图 2 是混合模型的图形表示。在等式 (9) 中，P (xt |yt ) 是给定输出 yt 的输入的发射概率。使用贝叶斯规则，条件分布可写为： P (y|x) ∝ P (y 0 |x 0 ) T  t=1 P (yt |yt−1 0 )P (yt |xt ), ( 12) 假设边际 P (yt ) 和先验 P (y 0 ), P (x 0 ) 是固定的模型参数。
通过对联合分布的重新表述，我们观察到条件分布 P (y|x) 与两个分布的乘积成正比。先验分布 P (yt |yt−1 0 ) 是使用生成 RNN（第 II-B1 节）获得的，并且可以使用任何基于帧的分类器对音符组合 P (yt |xt ) 上的后验分布进行建模。混合 RNN 图模型类似于 HMM，其中 HMM P (yt |yt−1 ) 的状态转移概率已被泛化为包括来自所有先前输出的连接，从而导致 P (yt |yt−1 0 )等式 (12) 中的项。
对于自动音乐转录问题，输入时频表示形成输入序列 x，而输出钢琴卷序列 y 表示转录。先验 P (yt |yt−1 0 ) 从 RNNNADE MLM 获得，而后验分布 P (yt |xt ) 从声学模型获得。然后可以通过找到声学和语言模型目标相对于模型参数的导数并使用梯度下降进行训练来训练模型。声学和语言模型的独立训练是一个有用的属性，因为与计算机视觉和语音中的数据集相比，可用于音乐转录的数据集的大小要小得多。
然而，大量的 MIDI 音乐在互联网上相对容易找到。因此理论上，MLM 可以在大量 MIDI 音乐上进行训练，类似于语音中的语言模型训练。

B. 推理

在测试时，我们想找到条件输出分布的模式： −1 0 )，将声学模型 P (yt |xt ) 的预测与直到时间 t 所做的所有预测联系起来。这个先前的术语鼓励随着时间的推移预测之间的连贯性，并允许语言模型学习的音乐结构影响连续的预测。然而，这种更一般的结构导致在测试时更复杂的推理（或解码）过程。这是因为在时间 t，历史 yt-1 0 尚未被最优确定。因此，yt 的最佳选择取决于所有过去的模型预测。通过选择优化 P (yt |xt ) 的 yt 以按时间顺序贪婪地进行，不一定会产生好的解决方案。我们对全局优化 p(y|x) 的解决方案感兴趣。但是穷举地寻找最佳序列是难以处理的，因为 yt 的可能配置数量是输出音高数的指数（2 n 用于 n 音高）。
束搜索是一种图搜索算法，通常用于解码 RNN [19]、[26]、[39] 的条件输出。波束搜索可扩展到任意长的序列，计算成本与精度的权衡可以通过波束的宽度来控制。推理算法由以下步骤组成：在任何时间 t，该算法最多维持 w 个部分解，其中 w 是波束宽度或波束容量。梁中 t 处的解对应于长度为 t 的子序列。接下来，枚举光束中 w 个部分解的所有可能后代，然后按对数似然降序排序。从这些候选解决方案中，前 w 个解决方案被保留为光束条目以供进一步搜索。波束搜索可以很容易地应用于每个步骤的候选解决方案数量有限的问题，例如语音识别 [40] 和音频和弦估计 [26]。然而，使用波束搜索来解码具有大输出空间的序列是非常低效的。
当候选解的空间很大时，算法可以被限制为只考虑光束中每个部分解的 K 个新候选，其中 K 被称为分支因子。可以根据给定的问题设计选择 K 个候选者的过程。对于混合架构，从方程 (12) 我们注意到： P (yt 0 |xt 0 ) ∝ P (yt−1 0 |xt−1 0 )P (yt |yt−1 0 )P (yt |xt ) ( 14) 在时间 t，光束中的部分解对应于 yt−1 0 的配置。因此，给定 P (yt−1 0 |xt−1 0 )，最大化 P (yt |yt−1 0 )P (yt |xt ) 的 K 个配置将是 yt 候选的合适选择。但是对于许多授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第5页
932 IEEE/ACM 音频、语音和语言处理交易，卷。24，没有。2016 年 5 月 5 日算法 1. 高维光束搜索找到最可能的序列 y，给定 x，光束宽度为 w，分支因子为 K。
beam ← new beam object beam.insert(0, {}) for t =1toT do new_beam ← new beam object for l, s, ma ,ml in beam do for k =1to K do y  = ma .next_most_probable() l  =logP l (y  |s)P a (y  |xt ) − log P (y  ) m  l ← ml with yt := y  m  a ← ma with x := x t+1 new_beam .insert(l + l  , {s, y  },ma ,ml ) beam ← new_beam 返回 beam.pop() 分布族，可能无法按可能性降序枚举 yt。在 [19] 中，作者建议通过从条件输出分布中抽取随机样本来形成 K 个候选池。然而，随机抽样可能效率低下，并且对于许多类型的分布而言，获得独立样本可能非常昂贵。
作为替代方案，我们建议从声学模型 P (yt |xt ) [20] 的后验分布中采样解决方案。
这样做有两个主要动机。首先，声学模型的输出是独立的类别概率。
因此，很容易以对数似然的降序枚举样本[19]。其次，我们避免了 RNN 预测中误差随着时间的推移而累积 [41]。给定真实输出 yt−1 0 ，RNN 模型被训练来预测 yt 。
然而，在测试时，从 RNN 采样的输出作为下一个时间步的输入反馈。训练和测试目标之间的这种差异会导致预测误差随着时间的推移而累积。
尽管从声学模型生成候选者会产生良好的结果，但它需要使用较大的波束宽度。
这使得推理过程在计算上很慢并且不适合实时应用[20]。在这项研究中，我们建议使用 [26] 中提出的散列波束搜索算法。
在解码长时间序列时，束搜索从根本上受到限制。这是因为仅在几个时间步长上不同的解决方案会使光束饱和。这导致算法搜索非常有限的可能解决方案空间。这个问题可以通过有效的剪枝来解决。散列波束搜索算法通过修剪与具有更高可能性的解决方案相似的解决方案来提高效率。确定序列相似性的度量可以以问题相关的方式选择，并以局部敏感散列函数的形式编码[26]。在算法 1 中，我们概述了用于我们实验的波束搜索算法算法，而算法 2 描述了哈希表波束对象。
在算法 1 和 2 中，s 是一个序列 yt 0 ，l 是 s 的对数似然，ma ,ml 是声学和语言模型对象，fh 是散列函数。
算法 1 和 [20] 中的算法有两个关键区别。首先，存储光束的优先级队列算法 2. 给定 w, fh ,k 的光束对象的描述初始化光束对象 beam.hashQ = 优先级队列的默认字典 * beam.queue = 长度为 w 的索引优先级队列 * * 插入 l, s进入 beam key= fh (s) queue = beam.queue hashQ = beam.hashQ[key] fits_in_queue = not queue.full() or l≥queue.min() min() 如果 fits_in_queue 和 fits_in_hashQ 然后 hashQ.insert(l, s) 如果 hashQ.overfull() 然后 item = hashQ.del_min() queue.remove(item) queue.insert(l, s) 如果 queue.overfull()那么 item = queue.del_min() beam.hashQ[fh (item.s)].remove(item) * 长度为 k 的优先级队列始终保持前 k 个条目。

索引优先级队列允许有效的随机访问和删除。
由哈希表梁对象替换（参见算法 2）。
其次，对于梁中的每个条目，我们评估 K 个候选解决方案。这与 [20] 中的算法形成对比，在该算法中，一旦光束充满，每次迭代仅评估 w 个候选解决方案。看起来散列搜索算法可能更昂贵，因为它评估 w * K 个候选而不是 wcandidates。然而，通过有效地修剪相似的解决方案，该算法对于更小的 w 值产生更好的结果，从而显着提高效率（第 IV-F 节，图 3）。
算法 2 描述了散列表梁对象。与标准波束搜索算法相比，散列波束搜索算法提供了几个优点。解决方案相似性的概念可以以散列函数的形式进行编码。对于音乐转录，我们选择相似函数作为序列 s 中的最后 n 帧。n = 1 对应于动态规划，如解码（类似于 HMM），其中所有具有相同最终状态 yt 的序列被认为是等价的，并保留具有最高对数似然的序列。n = len(sequence) 对应于常规的波束搜索。此外，散列束搜索算法可以通过称为链接[42]的过程为每个散列键维护≥1个解决方案。

四、评估

在本节中，我们描述了如何针对复音转录任务评估所提出模型的性能。
A. 数据集我们在 MAPS 数据集 [43] 上评估提出的模型。
该数据集包含授权许可使用的音频和相应注释，仅限于：BEIHANG UNIVERSITY。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第6页
SIGTIA 等人：用于复音钢琴音乐转录的端到端神经网络 933 个独立的声音、和弦和完整的钢琴音乐片段。对于我们的实验，我们仅使用完整的音乐片段来训练和测试神经网络声学模型和 MLM。
该数据集由 270 首古典音乐和 MIDI 注释组成。对应不同钢琴类型和录音条件的录音分为9个类别，每个类别30个录音。7 类音频由软件钢琴合成器产生，而 2 组录音来自 Yamaha Disklavier 立式钢琴。因此，数据集由 210 个合成录音和 60 个真实录音组成。
我们在本文中进行了 2 组调查。第一组实验研究了 RNN MLM 对声学模型预测的影响。对于这个任务，我们将整个数据集分成 4 个不相交的训练/测试分割，以确保折叠与音乐片段无关。具体来说，对于数据集中的一些乐曲，每首乐曲的音频都使用不止一架钢琴进行渲染。因此，在创建拆分时，我们确保训练和测试数据不包含任何重叠部分 1 。对于每个拆分，我们选择 80% 的数据用于训练（216 首乐曲），剩下的用于测试（54 首乐曲）。从每个训练拆分中，我们拿出 26 个轨迹作为验证集，用于选择训练算法的超参数（第 IV-D 节）。
从现在开始，这个评估配置将被命名为配置 1。
尽管上述实验设置对于研究 RNN MLM 的有效性很有用，但训练集包含用于测试的钢琴模型示例。这在实践中通常是不正确的，因为测试时的仪器模型/来源是未知的，并且通常与用于训练的仪器不一致。大多数使用 MAPS 数据集的实验在不相交的仪器类型上训练和测试模型 [2]、[3]、[44]。因此，我们进行了第二组实验，以比较不同神经网络声学模型在更真实的环境中的性能。我们使用使用合成钢琴创建的 210 条音轨（180 条用于训练的音轨和 30 条用于验证的音轨）训练声学模型，并在从 Yamaha Disklavier 钢琴录音（模型“ENSTDkAm”和“ENSTDkCl”中获得的 60 条录音上测试声学模型在 MAPS 数据库中）。在这个实验中，我们不应用语言模型，因为训练集和测试集包含重叠的音乐片段。除了神经网络声学模型之外，我们还对两个实验中的两个最先进的无监督声学模型 [3]、[8] 进行了比较。该仪器源独立评估配置从现在起将命名为配置 2。我们不应用语言模型，因为训练集和测试集包含重叠的音乐片段。除了神经网络声学模型之外，我们还对两个实验中的两个最先进的无监督声学模型 [3]、[8] 进行了比较。该仪器源独立评估配置从现在起将命名为配置 2。我们不应用语言模型，因为训练集和测试集包含重叠的音乐片段。除了神经网络声学模型之外，我们还对两个实验中的两个最先进的无监督声学模型 [3]、[8] 进行了比较。该仪器源独立评估配置从现在起将命名为配置 2。
B. 度量我们使用基于框架和基于注释的度量来评估所提出系统的性能[45]。基于帧的评估是通过逐帧比较转录的二进制输出和 MIDI 地面实况来进行的。对于基于音符的评估，1 详细信息请访问：http://www.eecs.qmul.ac.uk/sss31/TASLP/info.html 系统返回音符列表，以及相应的音高、开始和偏移时间. 我们使用 F-measure、precision、recall 和accuracy 进行基于框架和注释的评估。
形式上，基于帧的度量定义为： P = T  t=1 TP[t] TP[t]+FP[t] R = T  t=1 TP[t] TP[t]+FN[t ] A = T  t=1 TP[t] TP[t]+FP[t]+FN[t] F = 2 ∗P∗RP + R 其中 TP[t] 是事件在t，FP 是误报数，FN 是误报数。对整个测试数据进行 T 的求和。类似地，可以定义类似的基于笔记的指标[45]。如果一个音符事件的预测音高开始在地面实况开始的 ±50 ms 范围内，则假定它是正确的。
C. 预处理我们将输入音频转换为时频表示，然后输入到声学模型中。在 [20] 中，我们使用幅度短时傅里叶变换 (STFT) 作为声学模型的输入。然而，这里我们尝试使用恒定 Q 变换 (CQT) 作为输入表示。这样做有两个动机。首先，CQT 从根本上更适合作为音乐信号的时频表示，因为频率轴在音高上是线性的 [46]。使用 CQT 的另一个优点是生成的表示比 STFT 的维度低得多。在使用神经网络声学模型时，具有较低维度的表示很有用，因为它减少了模型中的参数数量。
我们将音频从 44.1 kHz 降采样到 16 kHz。然后，我们计算超过 7 个八度音程的 CQT，每个八度音程有 36 个 bin，跳跃大小为 512 个样本，从而得到一个 252 维的实数值输入向量，帧速率为每秒 31.25 帧。此外，我们计算训练集上每个维度的均值和标准差，并通过减去均值和标准差来转换数据。
这些预处理向量用作声学模型的输入。对于语言模型训练，我们以与音频相同的速率（32 ms）对训练数据的 MIDI ground truth 转录进行采样。我们获得了用于训练 RNN-NADE 语言模型的 88 维二进制向量序列。
88 个输出对应钢琴上的 A0-C8 音符。
测试音频以 100 Hz 的帧速率进行采样，每个测试文件产生 100 * 30 = 3000 帧。对于超过 4 个分割的 54 个测试文件，我们在测试时间 2 获得总共 648, 000 帧。
2 应该注意的是，如 [47] 所述，在多音高检测的背景下，在轨道级别上进行统计显着性测试过于简单化。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第7页
934 IEEE/ACM 音频、语音和语言处理交易，卷。24，没有。5，2016 年 5 月 D. 网络训练在本节中，我们将详细描述各种声学模型架构和 RNN-NADE 语言模型的训练过程。所有的声学模型在输出层都有 88 个单元，对应 88 个输出音高。最后一层的输出通过 sigmoid 函数进行转换，并产生独立的音高概率 P (yt (i)=1|x)。通过最大化训练集中所有示例的对数似然来训练所有模型。

DNN 声学模型：对于 DNN 训练，我们将模型的所有隐藏层限制为具有相同数量的单元，以简化对良好模型架构的搜索。
我们对以下参数执行网格搜索：层数 L ∈{1, 2, 3, 4}，隐藏单元数 H ∈{25, 50, 100, 125, 150, 200, 250}，隐藏单元激活act ∈{ReLU, sigmoid}，其中 ReLU 是修正后的线性单元激活函数 [48]。我们发现 Dropout [49] 对于提高泛化性能至关重要。输入层和网络的所有隐藏层使用 0.3 的 Dropout 率。我们没有使用学习率和动量更新计划，而是使用 ADADELTA [50] 来适应迭代的学习。除了 Dropout 之外，我们还使用提前停止来最小化过度拟合。如果验证集的成本在 20 个 epoch 内没有减少，则停止训练。我们使用大小为 100 的小批量进行 SGD 更新。

RNN 声学模型：对于 RNN 训练，我们将所有隐藏层约束为具有相同数量的单元。我们对以下参数执行网格搜索：L ∈{1, 2, 3}, H ∈{25, 50, 100, 150, 200, 250}。我们将循环层的隐藏激活固定为双曲正切函数。
我们发现 ADADELTA 并不是特别适合训练 RNN。我们使用 0.001 的初始学习率，并在 1000 次迭代中将其线性降低到 0。我们使用 0.9 的恒定动量率。训练序列被进一步划分为长度为 100 的子序列。SGD 一次更新一个子序列，没有任何小批量。
与 DNN 类似，如果验证成本在 20 次迭代后没有降低，我们会使用提前停止和停止训练。为了防止在训练的早期阶段出现梯度爆炸，我们使用梯度裁剪[51]。当梯度的范数大于 5 时，我们剪裁了梯度。
3）ConvNet 声学模型：ConvNet 的输入是帧的上下文窗口，目标是窗口中的中心帧[26]。音频开头和结尾的帧被零填充，以便可以将上下文窗口应用于每个帧。尽管可以沿两个轴执行池化，但我们仅在频率轴上执行池化。我们对以下参数进行了网格搜索：窗口大小 ws ∈{3, 5, 7, 9} 卷积层数 L c ∈{1, 2, 3, 4}，每层的过滤器数量 nl ∈{10， 25, 50, 75, 100}，全连接层数 L fc ∈{1, 2, 3}，全连接层中隐藏单元数 H ∈{200, 500, 1000}。卷积激活函数被固定为双曲正切函数，而所有全连接层激活被设置为 sigmoid 函数。所有卷积层的池化大小固定为 P =(1, 3)。将速率为 0.5 的 Dropout 应用于所有卷积层。我们尝试了卷积层的窗口形状的大排列，下面的窗口形状子集产生了很好的结果：w ∈{(3, 3), (3, 5), (5, 5), (3, 25), (5, 25), (3, 75), (5, 75)}。我们观察到分类性能在频率轴上较长的滤波器急剧恶化。0.5 Dropout 应用于所有全连接层。模型参数使用 SGD 和 256 的批大小进行训练。初始学习率 0.01 在 1000 次迭代中线性降低到 0。我们尝试了卷积层的窗口形状的大排列，下面的窗口形状子集产生了很好的结果：w ∈{(3, 3), (3, 5), (5, 5), (3, 25), (5, 25), (3, 75), (5, 75)}。我们观察到分类性能在频率轴上较长的滤波器急剧恶化。0.5 Dropout 应用于所有全连接层。模型参数使用 SGD 和 256 的批大小进行训练。初始学习率 0.01 在 1000 次迭代中线性降低到 0。我们尝试了卷积层的窗口形状的大排列，下面的窗口形状子集产生了很好的结果：w ∈{(3, 3), (3, 5), (5, 5), (3, 25), (5, 25), (3, 75), (5, 75)}。我们观察到分类性能在频率轴上较长的滤波器急剧恶化。0.5 Dropout 应用于所有全连接层。模型参数使用 SGD 和 256 的批大小进行训练。初始学习率 0.01 在 1000 次迭代中线性降低到 0。
所有更新都使用恒定的动量率 0.9。如果在整个训练集的 20 次迭代后验证错误没有减少，我们就会停止训练。

RNN-NADE 语言模型：RNN-NADE 模型使用 SGD 和长度为 100 的序列进行训练。我们对以下参数进行了网格搜索：循环单元数 H RNN ∈{50, 100, 150, 200, 250, 300} 和 NADE H NADE 的隐藏单元数 ∈{50, 100, 150, 200, 250, 300}。模型以 0.001 的初始学习率进行训练，在 1000 次迭代中线性降低到 0。在整个训练过程中应用了 0.9 的恒定动量率。
我们通过对本节前面描述的参数值执行网格搜索来选择模型架构。在一次训练/测试拆分上评估各种模型，然后将性能最佳的架构用于所有其他实验。表 IV 中列出了性能最佳的架构。
E. 比较方法出于比较目的，两种最先进的复调音乐转录方法被用于实验 [3]、[8]。
在这两种情况下，都提取了上述方法的非二进制基音激活输出，用于与所提出的神经网络模型进行深入比较。
[8] 的多音高检测方法基于非负矩阵分解 (NMF)，并通过将输入时频表示分解为一系列基谱（表示音高）和分量激活（表示跨时间的音高活动）来进行操作。该方法将每个基谱建模为代表几个相邻谐波部分的窄带谱的加权和，从而增强谐波和谱平滑度。作为输入时频表示，使用等效矩形带宽 (ERB) 滤波器组。由于该方法依赖于（手工制作的）窄带谐波谱字典，因此两种评估配置的系统参数保持相同。
[3] 的多乐器转录方法基于移位不变的 PLCA（NMF 的卷积和概率对应物）。在该模型中，输入时频表示被分解为每个音高和乐器源的一系列基谱，这些基谱在对数频率上移动，从而支持调谐变化和频率调制。
输出包括音高激活分布和每个音高的乐器源贡献。与[8]的参数模型相反，基础光谱是从孤立的授权许可使用中预先提取的，仅限于：北京航空航天大学。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第8页
SIGTIA 等人：用于复音钢琴音乐转录的端到端神经网络 935 表 I 使用 EVA L UAT ION CONFIGURATION 对地图数据 ET 进行多音高检测的方法 1 乐器声音。与所提出的方法一样，[3] 的输入时频表示是 CQT。对于 MLM 的研究（配置 1），PLCA 模型在来自 MAPS 数据库的所有 9 个钢琴模型的孤立声音示例上进行训练（为了使实验与所提出的方法具有可比性）。对于研究模型的泛化能力的第二组实验（配置 2），PLCA 声学模型在来自合成钢琴的孤立声音上进行训练，并在使用 Yamaha Disklavier 钢琴创建的录音上进行测试。
F. 结果在本节中，我们展示了 MAPS 数据集的实验结果。如前所述，所有结果都是在 4 个不同的训练/测试拆分上计算的各种指标的平均值。声学模型产生了单个音高处于活动状态的概率序列（后置图）。后处理方法用于将后置图转换为二进制钢琴卷表示。然后通过将系统的输出与基本事实进行比较来计算各种性能指标（基于框架和注释）。
我们考虑了 3 种后处理方法。最简单的后处理方法是将阈值应用于从声学模型获得的输出音高概率。
我们选择在整个训练集上最大化 F 度量的阈值，并使用该阈值进行测试。
概率大于阈值的音高设置为 1，而其余的音高设置为 0。所考虑的第二种后处理方法使用单个音高 HMM 进行类似于 [13] 的后处理。HMM 参数（转换概率、音高边缘）是通过计算 MIDI 地面实况数据上每个事件的频率来获得的。二进制音高输出是使用维特比解码 [38] 获得的，其中缩放的可能性用作发射概率。最后，我们将声学模型预测与 RNN-NADE MLM 相结合，并使用波束搜索获得二进制转录。
在表 I 中，我们展示了所有声学模型和使用配置 1 的 3 种后处理方法的 F 分数（基于帧和音符）。从表中，我们注意到所有神经网络模型都优于 PLCA 和 NMF 模型就基于帧的 F 测量而言，提高了 3% - 9%。DNN 和 RNN 声学模型性能相似，而 ConvNet 图 3. 使用评估配置 1. k =2,K =4,fh = yt 时波束宽度 (w) 对 F-measure 的影响。
声学模型明显优于所有其他模型。与其他神经网络模型相比，ConvNets 产生了约 5% 的绝对改进，同时在逐帧 F-measure 中优于频谱分解模型约 10%。
对于基于音符的 F-measure，RNN 和 ConvNet 模型的性能优于 DNN 声学模型。这主要是因为这些模型在其输入中包含上下文信息，这隐含地平滑了输出预测。
我们通过观察表 I 的行来比较配置 1 的不同后处理方法。我们注意到，对于所有声学模型，MLM 可以提高基于帧和基于音符的 F 测量的性能。基于音符的 F 度量的性能提升更大。
与 RNN 和 ConvNet 相比，DNN 声学模型的性能相对提升最大。
这可能是由于 RNN 和 ConvNet 违反了方程 (11) 中的独立性假设，它们在进行预测时包含上下文信息。
这导致某些因素被计算两次，在这种情况下我们观察到较小的性能改进。从表 I 的第 1 行和第 2 行中，我们观察到 RNN-NADE MLM 为 PLCA 和 NMF 声学模型带来了性能提升，尽管与神经网络声学模型相比，相对改进较少。这可能是因为与神经网络模型不同，这些模型没有经过训练以在给定声学输入的情况下最大化输出音高的条件概率。另一个促成因素是授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第9页
936 IEEE/ACM 音频、语音和语言处理交易，卷。24，没有。5, May 2016 表 II P 使用混合架构 (w =10,K=4,k=2,fh (yt 0 )=yt ), 使用 EVA L 对地图数据集进行多音高检测的精度、调用和准确性UAT ION 配置 1 表 III FM EASURES 用于在合成钢琴上训练并在真实录音上测试的声学模型（EVA L UAT ION CONFIGURATION 2）PLCA 和 NMF 后置图表示音高上的能量分布，而不是明确的音高概率，这会导致许多激活大于 1。当在混合 RNN 框架中使用时，这种声学和语言预测规模的差异导致预测的权重不相等。在表 I 中，我们观察到 [8] 中的声学模型在基于音符的 F-measure 上优于所有其他声学模型，而基于帧的 F-measure 显着降低。这可以归因于使用 ERB 滤波器组输入表示，它为较低频率的 CQT 提供了改进的时间分辨率。
在表 II 中，我们使用配置 1 为使用 RNN-MLM 解码后的所有声学模型提供了额外的指标（精度、召回率和准确率）。我们观察到 NMF 和 PLCA 模型具有低基于帧的精度和高召回率和基于注释的精度相反。对于神经网络模型，我们观察到基于帧和基于注释的精度和召回值之间的差异较小。在所有神经网络模型中，我们观察到 ConvNet 在所有指标上都优于所有其他模型。
在表 III 中，我们提供了实验的 F 度量，其中声学模型在合成数据上进行训练并在真实数据上进行测试（配置 2）。从表中我们注意到，DNN 和 RNN 模型的基于帧的 F-measure 类似于 PLCA 模型和 [8] 中的模型。我们注意到，ConvNet 在基于帧的 Fmeasure 上优于所有其他模型约 5%。在基于注释的评估中，我们观察到 RNN 和 DNN 都优于所有其他模型。ConvNet 的性能类似于 PLCA 模型，而来自 [8] 的声学模型在基于音符的指标上再次具有最佳性能。
我们现在讨论推理算法的细节。高维散列波束搜索算法具有以下参数：波束宽度 w、分支因子 K、每个散列表条目的条目数 k 和相似性度量 fh（算法 2）。我们观察到 K ≥ 4 的值产生了表 IV 模型配置以获得最佳性能架构的良好结果。较大的 K 值不会产生显着的性能提升并导致运行时间更长，因此我们将所有实验的 K = 4。我们观察到较小的 k 值（每个哈希表条目的解决方案数）1 ≤ k ≤ 4 产生了良好的结果。正如 [26] 中所观察到的，对于较大的 k 值，解码精度会急剧下降。
因此，我们为所有实验设置每个哈希键 k = 2 的条目数。我们让相似度度量为最后 n 个发射符号，fh (yt 0 )=ytt−n 。我们尝试改变 n 的值，并观察到我们能够在小 n 时获得良好的性能，1 ≤ n ≤ 5。我们没有观察到大 n 的任何性能改进，因此对于所有实验，我们修复 fh (yt 0 ) =yt。图 3 显示了光束宽度 w 对转录性能的影响。结果是 4 次分割的解码精度平均值。我们在 [20] 中比较了散列波束搜索与高维波束搜索的性能。从图 3 中我们观察到散列波束搜索算法能够以显着更小的波束宽度实现性能改进。
例如，高维波束搜索算法需要 20 小时解码整个测试集，w = 100，而散列波束搜索需要 22 分钟，w = 10，并获得更好的解码精度。
图 4 是 ConvNet 声学模型输出的图形表示。我们观察到一些较长的音符是碎片化的，并且偏移量估计不正确。
造成这种情况的一个原因是，ground truth 偏移不一定与声学信号中的偏移相对应（由于延音踏板的影响），这意味着授权许可使用中的噪声偏移仅限于：BEIHANG UNIVERSITY。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第10页
SIGTIA et al.: End-TO-END NEURAL NETWORK FOR POLYPHONIC PIANO MUSIC TRANSCRIPTION 937 图 4.a) 由 ConvNet 声学模型生成的 MAPS_MUS-chpn_op27_2_AkPnStgb 轨道前 30 秒的音高激活（后置图）矩阵。
b) 在使用 RNN MLM 和波束搜索进行后处理后，从 a) 中的后置图中获得的二进制钢琴卷转录。c) 对应的ground truth 钢琴卷表示。
基本事实。我们还观察到，该模型在其预测中并没有产生很多谐波错误。

V. 结论和未来的工作

在本文中，我们提出了一种混合 RNN 模型，用于钢琴音乐的和弦 AMT。该模型包括神经网络声学模型和基于 RNN 的音乐语言模型。我们建议使用 ConvNet 进行声学建模，据作者所知，这在 AMT 之前没有尝试过。我们在 MAPS 数据集上的实验表明，神经网络声学模型，尤其是 ConvNet，优于 AMT 文献中的 2 个流行的声学模型。我们还观察到 RNN MLM 在所有评估指标上不断提高性能。
所提出的带有哈希束搜索的推理算法能够以显着更短的运行时间产生良好的解码精度，使该模型适用于实时应用。
我们现在讨论所提出模型的一些限制。如前所述，深度神经网络成功的主要因素之一是非常大的数据集的可用性。然而，可用于 AMT 研究的数据集远小于语音、计算机视觉和自然语言处理 (NLP) 中可用的数据集。因此，深度神经网络对声学建模的适用性仅限于具有大量标记数据的数据集，这在 AMT 中并不常见（至少在非钢琴音乐中）。尽管神经网络声学模型具有竞争力，但它们的性能可以在许多方面进一步提高。可以将噪声或变形添加到训练示例中，以鼓励分类器对常见的输入变换保持不变。此外，CQT 输入表示可以替换为授权许可使用仅限于：BEIHANG UNIVERSITY。从 IEEE Xplore 于 2022 年 7 月 18 日 14:09:32 UTC 下载。有限制。
第11页
938 IEEE/ACM 音频、语音和语言处理交易，卷。24，没有。5，2016 年 5 月，具有更高的时间分辨率（如 ERB 或可变 Q 变换），以提高基于音符的指标的性能。
丰富的乐谱数据和神经网络 NLP 任务的最新进展为进一步研究 AMT 的 MLM 提供了强大的动力。尽管我们的结果表明 MLM 的转录性能有所改善，但仍然存在一些限制和悬而未决的问题。MLM 使用从 MIDI 基本事实采样的二进制向量进行训练。根据采样率，大多数音符事件在此表示中重复多次。给定二进制音符组合的输入序列，MLM 被训练来预测下一帧音符。在相同音符重复多次的情况下，可以通过重复先前的输入来轻松地最大化对数似然。这导致 MLM 执行平滑操作，而不是在输出上施加任何类型的音乐结构。一个潜在的解决方案是为训练和测试数据执行节拍对齐的语言建模，而不是以任意采样率对 MIDI 进行采样。此外，RNN 可以扩展为包含每个音高输出的持续时间模型，类似于二阶 HMM。然而，这是一个具有挑战性的问题，目前仍未探索。
鼓励 RNN 通过将 RNN 控制器与外部存储单元 [52] 连接来学习更长的时间音符模式，并在 MLM 的输入表示中加入计时或计量器的概念，这也是很有趣的。
应进一步研究音调对 MLM 性能的影响。理想情况下，MLM 应该对于将乐曲转换为不同音高是不变的。MIDI ground truth 可以很容易地转换为任何音调。可以在具有转调音调的输入上训练 MLM，或者可以训练每个键的单个 MLM。
此外，RNN MLM 的全连接输入层可以用卷积层代替，沿音高轴进行卷积以鼓励网络对音高转置保持不变。
所提出的混合模型的另一个限制是，等式 (11) 中的条件概率是通过假设时间 t 的预测只是 t 的输入的函数并且独立于所有其他输入和输出而得出的。违反这一假设会导致某些因素被计算两次，因此会降低传销的影响。结果清楚地表明，当声学模型是基于帧的时，MLM 的改进是最大的。

Onsets and frames: Dual-objective piano transcription

2017年，引用数217

第0页
起点和框架：双目标钢琴转录 Curtis Hawthorne ? † 埃里希·埃尔森？宋佳林？‡ Adam Roberts Ian Simon Colin Raffel Jesse Engel Sageev Oore Douglas Eck GoogleBrain Team，山景城，美国被训练来联合预测起始点和帧。我们的模型预测音高开始事件，然后使用这些预测来调节逐帧音高预测。在推理过程中，我们通过不允许新音符开始来限制逐帧检测器的预测，除非起始检测器也同意帧中存在该音高的anonset。我们专注于改善开始和抵消，而不是孤立，因为我们相信这与人类的音乐感知有更好的相关性。我们的方法导致在 MAPS 数据集上的音符 F1 分数（带有偏移量）相对提高了 100% 以上。此外，我们扩展模型以预测归一化音频的相对速度，从而产生更自然的转录。

引言自动音乐转录（AMT）旨在从原始音频创建符号音乐表示（例如，MIDI）。将音乐的录音转换为符号形式使音乐信息检索 (MIR) 中的许多任务更容易完成，例如搜索常见的和弦进行或对音乐主题进行分类。提供更多的象征性音乐也拓宽了可能的计算音乐学研究的范围[8]。
由于其固有的复音性质，钢琴音乐转录即使对人类来说也是一项艰巨的任务。音符开始后能量衰减的方式使准确的音符识别更加复杂，因此转录模型需要适应具有不同幅度和谐波的音符。非负矩阵分解 (NMF) isan ? 同等贡献。
‡ Workdone 作为 GoogleBrain 实习生。
c  Curtis Hawthorne、Erich Elsen、宋佳林、Adam Roberts、Ian Simon、Colin Raffel、Jesse Engel、Sageev Oore、Douglas Eck。根据知识共享署名 4.0 国际许可 (CC BY 4.0) 获得许可。署名：Curtis Hawthorne、Erich Elsen、JialinSong、AdamRoberts、IanSimon、ColinRaffel、Jesse Engel、Sageev Oore、Douglas Eck。“Onsets and Frames: Dual-Objective Piano Transcription”，第 19 届国际音乐信息检索学会会议，巴黎，法国，2018。
用于复调音乐转录任务的早期流行方法[19]。随着深度学习的最新进展，神经网络越来越受到 AMT 社区的关注 [13, 18]。特别是，卷积神经网络 (CNN) 用于图像分类任务 [21] 的成功启发了将 CNN 用于 AMT，因为二维时频表示（例如，常数 Q 变换 [5]）是常见的输入表示用于音频。在 [13] 中，作者展示了单个基于 CNN 的声学模型完成复调钢琴音乐转录的潜力。[18] 考虑了一种受语音识别中使用的常见模型启发的方法，其中 CNN 声学模型和循环神经网络 (RNN) 语言模型相结合。在本文中，
音符开始检测仅查找音符的开头。直观地说，钢琴音符的开头更容易识别，因为该音符的振幅处于峰值。对于钢琴音符，起始也是打击乐，并具有独特的宽带频谱。一旦模型确定了开始事件，我们就可以根据这些知识来调节逐帧音符检测任务。以前，[6, 27] 展示了在 NMF 和 CNN 框架中明确建模发病事件的前景。在这项工作中，我们证明了一个以起始为条件的模型通过对所有衡量转录质量的常见指标：框架、音符和带偏移的音符有很大的优势来实现最先进的性能。
我们还扩展了我们的模型来预测每个发作的相对速度。力度捕捉按下钢琴键的速度，并与该音符的响度直接相关。在转录中包含力度信息对于描述钢琴演奏的表现力至关重要，并且会产生更自然的声音转录。
数据集和指标我们使用 MAPS 数据集 [9]，其中包含音频和独立音符、和弦和完整钢琴曲的相应注释。数据集中的完整钢琴曲目包括由软件合成器渲染的曲目和由 Yamaha Disklavier 演奏钢琴演奏的曲目的录音。正如[18]中提出的，我们使用合成片段集作为训练分割，并将在 Disklavier 上播放的片段集作为测试分割。构建 arXiv 时：1710.11153v2 [cs.SD] 2018 年 6 月 5 日
第1页
这些数据集，我们还确保同一音乐作品不会出现在多个集合中。不包括训练集中的 Disklavier 录音、单个音符或和弦更接近真实世界的测试环境，因为我们在训练时通常无法访问测试钢琴的录音。对 Disklavier 录音的测试也更加真实，因为许多最有趣的转录录音都是在真实钢琴上演奏的。
在处理 MAPS MIDI 文件以进行训练和评估时，我们首先将“延音踏板”控制更改转换为更长的音符持续时间。如果在延音打开时某个音符处于活动状态，则该音符将被延长，直到延音关闭或再次播放相同的音符。这个过程给出了与数据集中包含的文本文件相同的音符时长。
用于评估模型的指标是帧级和注释级指标，包括精度、召回率和 F1 分数。我们使用 mir eval 库 [16] 来计算基于音符的精度、召回率和 F1 分数。按照标准，我们计算了两种版本的音符指标：一种要求起始点在参考标准的 ±50ms 范围内，但忽略偏移量；另一种还要求偏移量导致音符持续时间在参考标准的 20% 或 50ms 以内，以较大者为准。基于框架的分数是使用 [2] 中定义的标准度量计算的。我们还为速度转录引入了一个新的音符度量，将在第 3.1 节中进一步描述。框架和音符分数都是按件计算的，这些每件得分的平均值表示为给定作品集合的最终度量。
我们的目标是生成包含录音中所有与感知相关的演奏信息的钢琴转录，而无需事先了解有关录音环境的信息，例如乐器的特征。
我们需要与这个感知目标相关的数字测量。由于短杂音和应保留的重复音符，质量差的转录仍然会导致高帧分数。音符的开头很重要，但只有开头信息的乐曲要么必须完全断奏，要么使用某种启发式方法来确定何时释放音符。高音符偏移分数将对应于听起来不错的转录，因为它从开始和持续时间都捕获了感知信息。向该度量添加速度要求可确保同时捕获片段的动态。更感知准确的指标可能是可能的，需要进一步研究。在这项工作中，我们专注于提高 note-with-offset 分数，
3.模型配置逐帧钢琴转录任务通常处理原始音频帧并产生音符激活帧。以前的逐帧预测模型 [13, 18] 将帧视为独立且同等重要，至少在被单独的语言模型处理之前。我们建议某些帧比其他帧更重要，特别是任何给定音符的起始帧。钢琴音符的能量在开始后立即开始衰减，因此开始既是最容易识别的框架，也是最有感知意义的。
我们通过训练一个专用的音符起始检测器并使用该检测器的原始输出作为逐帧音符激活检测器的附加输入来利用起始帧的重要性。我们还在推理过程中使用了起始检测器的阈值输出，类似于 [24] 中描述的并行研究。仅当起始检测器同意起始存在于该帧中时，才允许来自帧检测器的激活开始音符。
我们的起始和框架检测器建立在[13]中提出的卷积层声学模型架构之上，并进行了一些修改。我们使用 librosa [15] 来计算梅尔缩放频谱图的相同输入数据表示，其中输入原始音频的对数幅度具有 229 个对数间隔的频率箱，跳数为 512，FFT 窗口为 2048，采样率为16kHz。我们向网络展示了整个输入序列，这允许我们将卷积前端的输出馈送到循环神经网络（如下所述）。
起始检测器由声学模型组成，然后是一个双向 LSTM [17]，在前向和后向都有 128 个单元，然后是一个具有 88 个输出的完全连接的 sigmoid 层，用于表示 88 个钢琴键中的每个键的一个非集合的概率。
帧激活检测器由一个单独的声学模型组成，然后是一个具有 88 个输出的全连接 sigmoid 层。它的输出与起始检测器的输出连接在一起，然后是一个双向 LSTM，前向和后向都有 128 个单元。最后，该 LSTM 的输出之后是具有 88 个输出的全连接 sigmoid 层。在推理过程中，我们使用 0.5 的阈值来确定起始检测器或帧检测器是否处于活动状态。
在长序列上训练 RNN 可能需要大量内存，并且通常使用更大的批量更快。为了加快训练，我们将训练音频分割成更小的文件。但是，当我们进行这种拆分时，我们不想在音符期间剪切音频，因为起始检测器会错过起始点，而帧检测器仍然需要预测音符的存在。我们发现 20 秒的拆分使我们能够在至少 8 次的训练期间实现合理的批量大小，同时也仅在少数笔记活跃的地方强制拆分。当音符处于活动状态并且我们必须拆分时，我们选择音频信号的过零。推理是在原始且未拆分的音频文件上执行的。
我们的基本事实注释标签是连续时间的，但音频处理的结果是在频谱图帧中。所以，我们量化我们的标签来计算我们的训练损失。量化时，我们使用与
第2页
Log Mel-Spectrogram Conv StackConv Stack BiLSTM BiLSTM Onset Loss Frame Loss Onset Predictions Frame Predictions FC Sigmoid FC Sigmoid FC Sigmoid 图 1. Diagramof NetworkArchitecture 输出频谱图。但是，在计算指标时，我们会将推理结果与原始的连续时间标签进行比较。
我们的损失函数是两个交叉熵损失的总和：一个来自起始侧，一个来自音符侧。
L total = L onset + L frame (1) L onset = p max X p=p min TX t=0 CE (I onset (p, t), P onset (p, t)) (2) 其中 p min/ max 表示钢琴卷的 MIDI 音高范围，T 是示例中的帧数，I onset (p, t) 是指示函数，当在音高 p 和帧 t 处存在 ground truth onset 时为 1，P onset ( p, t) 是模型在音高 p 和帧 t 处输出的概率，CE 表示交叉熵。起始损失的标签是通过在量化之前将音符长度截断为 min（音符长度，起始长度）来创建的。我们对起始长度进行了粗略的超参数搜索（我们尝试了 16、32 和 48 毫秒），发现 32 毫秒效果最好。事后看来，这并不奇怪，因为它也是我们帧的长度，所以几乎所有的起始点最终都会恰好跨越两个帧。由于音频和标签可能未对齐，因此仅标记包含确切开头的帧效果不佳。我们尝试要求一个音符在被标记之前必须出现在框架中的最短时间，但发现最佳值是包含任何存在。
此外，在基于帧的损失项 L frame 中，我们应用加权来提高注释开头的准确性。一个音符从 t 1 帧开始，在 t 2 帧结束，在 t 3 帧结束。因为权重向量为音符的早期帧分配了更高的权重，所以激励模型准确地预测音符的开始，从而保留乐曲中最重要的音乐事件。首先，我们将 rawframe loss 定义为： L frame = p max X p=p min TX t=0 CE (I frame (p, t), P frame (p, t)) (3) 其中 I frame (p, t)当pitch p在第t帧的ground truth有效时为1，P帧(p, t)是模型输出的pitch p在第t帧有效的概率。然后，我们将加权帧丢失定义为： L frame (l, p) =      cL 0 frame (l, p) t 1 ≤ t ≤ t 2 ct−t 2 L 0 frame t 2 < t ≤ t 3 L 0 帧 (l,
3.1 速度估计我们通过添加另一个堆栈来进一步扩展模型，以预测每个起始点的速度。该堆栈与其他堆栈相似，由相同的卷积层组成。此堆栈不连接到其他两个。速度标签是通过将所有速度除以片段中存在的最大速度来生成的。最小速度不会变为零，而是变到 v min v max 。对堆栈进行训练，在批次中平均损失以下损失： L vel = p max X p=p min TX t=0 I onset (p, t)(vp,t label − vp,t predicted ) 2 (5) At推理时间输出被裁剪为 [0, 1]，然后通过以下映射转换为amidi速度： v midi = 80v predicted + 10 (6) 最终映射是任意的，但我们发现这会导致令人愉悦的音频渲染。
虽然各种研究都考虑了在给定分数的情况下对录音中的动态（注意强度或速度）的估计 [10,22, 26]，但据我们所知，文献中没有考虑对动态以及音高和时间信息的估计的工作。结果，正如贝内托斯等人。[3] 在 2013 年的评论论文中指出，“评估当前 [自动音乐转录] 系统的性能以估计音符动态的问题尚未得到解决。”为了评估我们的速度感知模型，我们因此为音符提出了一个额外的标准-levelprecision、recall 和 F1scores。
评估速度预测并不简单，因为与音高和时间不同，速度没有绝对意义。例如，如果两个转录包含相同的速度，只是它们被偏移或按一个常数因子缩放，那么尽管报告每个音符的速度完全不同，但它们实际上是等效的。为了解决这些问题，我们首先将转录中的所有地面真实速度重新缩放到范围内
第 3 页
[0, 1]。在根据音高和开始/偏移时间匹配音符后，我们为匹配的音符组装参考（真实）和估计速度对，分别称为 vr 和 ve。然后我们执行线性回归来估计全局尺度和偏移参数，使得参考和估计速度对之间的平方差最小化： m, b = arg min m,b MX i=1 kv r (i) - (mv e (i ) + b)k 2 (7) 其中 M 是匹配的数量（即 inv r 和 ve 的条目数）。这些标量参数用于重新缩放 v e 的条目以获得 ^v e = {mv e (i) + b, i ∈ 1, . . . , M} (8) 最后，一个匹配 i 现在只被认为是正确的，如果除了它的音高和时间匹配之外，它还满足 |^v e (i) − vr (i)| < τ 对于某个阈值 τ。我们在所有评估中使用 τ = 0.1。
实验我们使用 TensorFlow[1] 在第 2 节中描述的训练数据集上使用 8 的批大小、0.0006 的学习率和 3 的梯度裁剪 L2 范数训练我们的起始和帧模型。进行超参数搜索以找到最优学习率。我们使用 Adam 优化器 [14] 并训练 50,000 步。在 3 个 P100 GPU 上训练需要 5 个小时。相同的超参数被用来训练所有模型，包括那些来自消融研究的模型，除了在复制 [18] 和 [13] 的结果时，使用了来自各自论文的超参数。我们模型的源代码可在 https://goo.gl/magenta/onsets-frames-code 获得。
为了比较，我们重新实现了[13,18]中描述的模型，以确保评估的一致性。我们还与商业软件 Melodyne 版本 4.1.1.011 1 进行了比较。我们也希望像 [25] 中描述的那样与 AnthemScore 2 进行比较，但是因为它产生一个带有量化音符持续时间的 MusicXML 乐谱，而不是一个带有毫秒级定时的 MIDI 文件，所以不可能进行准确的比较。
这些评估的结果总结在表 1 中。我们的起始和框架模型不仅产生更好的基于音符的分数（仅考虑起始），它还产生最佳的帧级分数和包括偏移量的基于音符的分数。
图 2 显示了一个示例输入频谱图、音符和起始输出后验图，以及从训练集外部记录的推断转录。在推断期间基于起始预测限制帧激活的重要性很明显：倒数第二个图像（“ Estimated Onsets and Notes”）显示 1 http://www.celemony.com/en/melodyne 2 https://www.lunaverus.com/ 来自框架和发病预测因子的结果。有几个音符示例要么仅持续几帧，要么在活动一段时间后短暂重新激活。受到起始检测器限制后的帧结果以洋红色显示。许多仅在几帧内处于活动状态的音符没有相应的起始检测并被删除，以青色显示。
尽管没有针对推理速度进行优化，但我们的网络在 Tesla K40c 上的执行速度比实时速度快 70 倍。我们的推理实验产生的 MIDI 文件可在 https://goo.gl/magenta/onsets-frames-examples 获得。
消融研究为了了解我们模型中每个部分的个体重要性，我们进行了消融研究。我们考虑完全移除起始检测器（即，仅使用帧检测器）（a），在推理期间不使用起始信息（b），使双向 RNN 单向（c，d），从起始检测器中完全移除 RNN （e），预训练起始检测器而不是与帧检测器联合训练（f），平等地加权所有帧（g），在两个检测器之间共享卷积特征（h），在训练期间去除起始检测器和帧检测器之间的连接（ i)，使用 ConstantQ-Transform (CQT) 输入表示而不是 mel 缩放的频谱图 (j)，最后移除所有 LSTM 并共享卷积特征 (k)。
这些结果表明了起始信息的重要性——在推理过程中不使用起始信息 (b) 导致音符起始分数相对降低 18%，而有偏移分数的音符相对降低 31%，同时略微增加框架分数。尽管提高了帧分数，但输出听起来明显更糟。在我们看来，转写质量的下降最能反映在带偏移的音符上。
完全没有起始检测器的模型 (a)——由卷积组成，后跟一个双向 RNN，然后是一个逐帧损失——在所有指标上都是最差的，尽管它仍然优于 [13] 中的基线模型。其他消融表明每个组件的影响很小（< 6%）。令人鼓舞的是，仅前向 RNN 对准确性的影响很小，因为它们可以用于在线钢琴转录。
我们尝试了许多其他未在表中列出的架构和数据增强策略，但都没有任何改进。重要的是，通过添加归一化、混响、压缩、噪声以及与其他合成器合成训练 MIDI 文件来增强训练音频没有任何区别。我们相信这些结果表明需要更大的真实钢琴录音训练数据集，这些数据集具有完全准确的标签对齐。当前的 MAPS 数据集不能满足这些要求，因为它的 270 个录音中只有 60 个来自真实钢琴，而且 MusicNet [23] 也不能满足这些要求，因为它的对齐并不完全准确（例如，
第4页
Frame Note Notew/ offset Notew/ offset& velocity PR F1 PR F1 PR F1 PR F1 Sigtiaet al.,2016 [18] 71.99 73.32 72.22 44.97 49.55 46.58 17.64 19.71 18.38 — — — Kelzet al.,2016 [13] 81.294 65.276 7. 50.94 20.13 27.80 23.14 — — — Melodyne(decay mode) 71.85 50.39 58.57 62.08 48.53 54.02 21.09 16.56 18.40 10.43 8.15 9.08 Onsetsand Frames 88.53 70.89 78.30 84.24 80.67 82.29 51.32 49.31 50.22 35.52 30.80 35.39 Table 1. Precision,Recall, andF1 Resultson MAPSconﬁguration 2test dataset （ENSTDkCland ENSTDkAmfull-length .wav 文件）。由 mir eval 库计算的基于注释的分数，如 [2] 中定义的基于框架的分数。最终指标是每件计算得分的平均值。用于计算这些分数的 MIDI 文件可在 https://goo.gl/magenta/onsets-frames-examples 获得。
频率输入频谱图 C3 C4 C5 C6 Note Note Prediction Posteriorgram C3 C4 C5 C6 Note Onset Prediction Posteriorgram C3 C4 C5 C6 Note Estimated Onsets and Notes 0 1 2 3 4 5 6 Time (seconds) C3 C4 C5 C6 Note Estimated and Reference Transcription 图 2 . 推理 6 秒 MAPS MUS-mz 331 3 ENSTDkCl.wav（不在训练集中的录音）。
从上到下，我们展示了对数幅度 mel 频谱图输入、我们的模型产生的逐帧音符概率和起始概率“后验图”、阈值后相应的估计起始集和音符，最后是我们的模型产生的估计转录以及参考转录。在起始和注释图中（倒数第二个），起始预测显示为黑色。带有相应首发预测的音符以洋红色显示，而由于没有预测该音符的首发而被过滤掉的音符以青色显示。在底部图中，估计的转录以蓝色显示，参考以红色显示。Figurebest 查看彩色。

第5页
在序列 2533 中的 1:24 处钢琴音频和 MIDI 之间存在可听时间差）。其他方法，例如 seq2seq [20] 可能不需要完全准确的对齐。
F1 Frame Note Note with offset Onset andFrames 78.30 82.29 50.22 (a)Frame-only LSTM 76.12 62.71 27.89 (b)No OnsetInference 78.37 67.44 34.15 ©Onset forwardLSTM 75.98 80.77 46.36 (d)Frame forwardLSTM 796.30 (9e)NosetLSTM 76.30 (9e)Noset.2 80.99 46.14（f）预处理发动75.56 81.95 48.02（g）无权重越多75.54 80.54 80.07 48.55（h）共享CORV 76.85 81.64 43.61 43.61（i）断开连接的检测器73.91 82.67 44.83（j）cs c s c Q Q Q Q Q Q Q Q Q Q Q Q Q Q Q Q Q Q Q Q 73.74.83 41 not 7. 67.60 75.34 37.03 表 2. 消融研究结果。
6. 需要更多数据，更严格的评估评估钢琴转录任务的最常见数据集是 MAPS 数据集，特别是 MUS 作品集的 ENSTDkCl 和 ENSTDkAm 渲染。这个集合有几个理想的属性：这些作品是真实的音乐而不是随机生成的序列，这些作品是在真实的物理钢琴上演奏而不是合成器，并且可以使用多种录音环境（“关闭”和“环境”配置）。这个数据集的主要缺点是它只包含 60 条记录。为了最好地衡量转录质量，需要一个新的、更大的数据集。但是，在此之前，评估应充分利用当前可用的数据。
许多论文，例如 [7,12,18,27]，通过仅使用“关闭”集合和/或仅使用每个文件的前 30 秒或更短的时间进一步限制了评估中使用的数据。
我们相信这种方法导致的评估不能代表真实世界的转录任务。例如，仅评估“关闭”集合将我们的 noteF1 分数从 82.29 提高到 84.34，并且仅评估前 30 秒将其进一步提高到 86.38。作为比较，[27] 在此设置中取得了 80.23 的注 F1 分数。
[12] 中的模型也使用“关闭”集合中的 30 秒剪辑进行了评估，但它还使用来自测试钢琴的数据进行了额外训练。这种方法限制了模型的普遍性，但产生了 85.06 的 F1 分数。
除了少量的 MAPS Disklavier 录音外，我们还注意到 Disklavier 似乎跳过了一些低速播放的音符的情况。例如，在贝多芬第 9 奏鸣曲第 2 乐章的开头，音频中明显缺少几个在 20 年代中期以 MIDI 速度演奏的 A[ 音符（https://goo.gl/magenta/onsets-frames -例子）。需要更多的分析来确定遗漏音符的发生频率，但我们注意到我们的模型在基本真值速度低于 30 的音符上表现特别差。
最后，我们认为社区应该采用更严格的衡量标准。如第 2 节所述，帧和音符起始分数不足以确定转录是否从表演中捕获了所有与音乐相关的信息。我们在 https://goo.gl/magenta/onsets-frames-examples 提供了几个音频示例来说明这一点。
在当前可用的指标中，我们认为带有偏移量和速度的注释是比较未来模型的最佳方式。
类似地，当前使用 50mstolerance 来保证音符起始正确性的做法会导致过多的时间抖动。说明这一点的音频示例可在上述 URL 中找到。我们建议未来的工作应该评估具有更严格时序要求的模型。这里还有很多工作要做，因为正如 [4] 中所观察到的，随着时序精度的提高，实现高精度变得越来越困难，部分原因是当前可用数据集的时序精度有限 [11]。当我们以 24 毫秒的分辨率训练我们的模型时，我们使用现有 50 毫秒度量的分数并不总是那么高：Frame76.87，Note F1 82.54，Note-with-offset 49.99。此更高分辨率模型的音频示例也可在上述 URL 中获得。在示例中，较高的时间分辨率是显而易见的，但该模型也会产生更多的无关注释。
7. 结论和未来的工作我们提出了一个联合训练的起始和框架模型，用于转录复调钢琴音乐，它通过使用起始信息产生了显着的改进。该模型在不同的训练和测试分布之间很好地转移。我们模型输出的当前质量处于启用下游应用程序的风口浪尖，例如符号 MIR 和自动音乐生成。为了进一步改进结果，我们需要创建一个更大、更能代表各种钢琴录音环境和音乐流派的新数据集，用于训练和评估。将改进的声学模型与语言模型相结合是很自然的下一步。另一个方向是超越音频信号的传统频谱表示。
非常值得听听转录的例子。考虑莫扎特奏鸣曲 K331，第三乐章。
我们的系统在捕捉和声、旋律、节奏甚至动态方面做得很好。如果我们将此转录与其他系统进行比较，差异是非常明显的。我们还成功地使用该模型从 Musopen.org 网站转录与我们的训练数据集完全无关的录音。该模型甚至可以很好地转录大键琴录音。音频示例可在 https://goo.gl/magenta/onsets-frames-examples 获得。

Automatic music transcription: An overview

2018年，被引用数163

音乐信号处理将音乐音频转录为乐谱的能力是人类智能的一个引人入胜的例子。它涉及感知（分析复杂的听觉场景）、认知（识别音乐对象）、知识表示（形成音乐结构）和推理（测试替代假设）。自动音乐转录（AMT），即设计计算算法以将声学音乐信号转换为某种形式的音乐符号，是信号处理和人工智能中的一项具有挑战性的任务。它包括几个子任务，包括多音高估计 (MPE)、起始和偏移检测、仪器识别、节拍和节奏跟踪，富有表现力的时间和动态的解释以及乐谱排版。鉴于它包含的子任务数量及其广泛的应用范围，它被认为是音乐信号处理和音乐信息检索领域的一个基本问题[1]，[2]。由于音乐信号的本质，它通常包含多个声源（例如乐器和声音），这些声源会产生一个或多个同时发生的声音事件（例如音符和敲击声），这些声音事件意味着在时间和时间上都高度相关。频率，AMT 在文献中仍然被认为是一个具有挑战性和开放性的问题，特别是对于包含多种乐器和许多同时音符的音乐（在音乐信号处理文献中称为复调音乐）[2]。表达时间和动态的解释，以及乐谱排版。鉴于它包含的子任务数量及其广泛的应用范围，它被认为是音乐信号处理和音乐信息检索领域的一个基本问题[1]，[2]。由于音乐信号的本质，它通常包含多个声源（例如乐器和声音），这些声源会产生一个或多个同时发生的声音事件（例如音符和敲击声），这些声音事件意味着在时间和时间上都高度相关。频率，AMT 在文献中仍然被认为是一个具有挑战性和开放性的问题，特别是对于包含多种乐器和许多同时音符的音乐（在音乐信号处理文献中称为复调音乐）[2]。表达时间和动态的解释，以及乐谱排版。鉴于它包含的子任务数量及其广泛的应用范围，它被认为是音乐信号处理和音乐信息检索领域的一个基本问题[1]，[2]。由于音乐信号的本质，它通常包含多个声源（例如乐器和声音），这些声源会产生一个或多个同时发生的声音事件（例如音符和敲击声），这些声音事件意味着在时间和时间上都高度相关。频率，AMT 在文献中仍然被认为是一个具有挑战性和开放性的问题，特别是对于包含多种乐器和许多同时音符的音乐（在音乐信号处理文献中称为复调音乐）[2]。鉴于它包含的子任务数量及其广泛的应用范围，它被认为是音乐信号处理和音乐信息检索领域的一个基本问题[1]，[2]。由于音乐信号的本质，它通常包含多个声源（例如乐器和声音），这些声源会产生一个或多个同时发生的声音事件（例如音符和敲击声），这些声音事件意味着在时间和时间上都高度相关。频率，AMT 在文献中仍然被认为是一个具有挑战性和开放性的问题，特别是对于包含多种乐器和许多同时音符的音乐（在音乐信号处理文献中称为复调音乐）[2]。鉴于它包含的子任务数量及其广泛的应用范围，它被认为是音乐信号处理和音乐信息检索领域的一个基本问题[1]，[2]。由于音乐信号的本质，它通常包含多个声源（例如乐器和声音），这些声源会产生一个或多个同时发生的声音事件（例如音符和敲击声），这些声音事件意味着在时间和时间上都高度相关。频率，AMT 在文献中仍然被认为是一个具有挑战性和开放性的问题，特别是对于包含多种乐器和许多同时音符的音乐（在音乐信号处理文献中称为复调音乐）[2]。它被认为是音乐信号处理和音乐信息检索领域的一个基本问题[1]，[2]。由于音乐信号的本质，它通常包含多个声源（例如乐器和声音），这些声源会产生一个或多个同时发生的声音事件（例如音符和敲击声），这些声音事件意味着在时间和时间上都高度相关。频率，AMT 在文献中仍然被认为是一个具有挑战性和开放性的问题，特别是对于包含多种乐器和许多同时音符的音乐（在音乐信号处理文献中称为复调音乐）[2]。它被认为是音乐信号处理和音乐信息检索领域的一个基本问题[1]，[2]。由于音乐信号的本质，它通常包含多个声源（例如乐器和声音），这些声源会产生一个或多个同时发生的声音事件（例如音符和敲击声），这些声音事件意味着在时间和时间上都高度相关。频率，AMT 在文献中仍然被认为是一个具有挑战性和开放性的问题，特别是对于包含多种乐器和许多同时音符的音乐（在音乐信号处理文献中称为复调音乐）[2]。
AMT 系统中使用的典型数据表示如图 1 所示。通常，AMT 系统将音频波形作为输入 [图 1(a)]，计算时频表示 [图 1(b)]，然后输出随时间变化的音高表示[也称为钢琴卷表示，图 1©] 或排版乐谱 [图 1(d)]。

在本文中，我们提供了 AMT 的高级概述，强调了该主题的智力价值和更广泛的影响，并将 AMT 与更广泛的数字信号处理领域中发现的其他问题联系起来。我们概述了 AMT 的方法，详细介绍了两个主要方法系列中使用的方法，分别基于深度学习和非负矩阵分解 (NMF)。最后，我们提供数字对象标识符 10.1109/MSP.2018.2869928 发布日期：2018 年 12 月 24 日自动音乐转录概述 ©istockphoto.com/traffic_analyzer 授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第1页
21 IEEE 信号处理杂志 | 2019 年 1 月 | 广泛讨论 AMT 面临的开放性挑战。关于本文的范围，我们强调了转录由音高乐器和声音产生的复调音乐的方法。本文的范围之外是转录非音高声音的方法，例如鼓，在“打击乐和无音高声音”部分中给出了简要概述，以及转录复音混合物中特定来源的方法，例如旋律和低音线。
应用和影响一个成功的 AMT 系统将实现人与音乐之间广泛的互动，包括音乐教育（例如，通过自动乐器辅导系统）、音乐创作（例如，口授即兴音乐创意和自动音乐伴奏）、音乐制作（例如，音乐内容可视化和基于内容的智能编辑）、音乐搜索（例如，按旋律、贝司、节奏或和弦进行的音乐索引和推荐）和音乐学（例如，分析爵士乐即兴创作和其他非注释音乐）。因此，AMT 是一种赋能技术，具有明显的经济和社会影响潜力。
AMT 与其他音乐信号处理任务 [3] 密切相关，例如音源分离，它还涉及从混合观察中估计和推断源信号。它对于音乐信息检索 [4] 中的许多高级任务也很有用，例如结构分割、翻唱歌曲检测和音乐相似性评估，因为一旦知道音符，这些任务就更容易解决。因此，AMT 提供了音乐信号处理和符号音乐处理（即乐谱处理和音乐语言建模）领域之间的主要联系。通过 AMT 整合上述两个领域将在“进一步扩展和未来工作”部分讨论。鉴于 AMT 的潜在影响，除了学术研究之外，这个问题还引起了商业兴趣。虽然提供商业 AMT 软件的完整列表超出了本文的范围，但常用的应用程序包括 Melodyne (http://www.celemony.com/en/melodyne)、AudioScore (http://www.sibelius. com/products/audioscore/)、ScoreCloud (http://scorecloud.com/)、AnthemScore (https://www.lunaverus.com/) 和 Transcribe！（https://www.seventhstring.com/xscribe/）。值得注意的是，文献中的 AMT 论文没有与商业上可用的音乐转录软件进行明确的比较，可能是因为商业和学术工具在范围和目标应用上的差异。

类比其他领域 AMT 与其他信号处理问题有着密切的关系。在语音处理领域，AMT 被广泛认为是自动语音识别 (ASR) 的音乐等价物，因为这两项任务都涉及将声学信号转换为符号序列。就像演讲中的鸡尾酒会问题一样，音乐通常涉及多个同时出现的声音，但与演讲不同的是，这些声音在时间和频率上高度相关（参见“关键挑战”部分的挑战 2 和 3）。此外，AMT 和 ASR 系统都受益于语言建模组件，这些组件与声学组件相结合以产生合理的结果。因此，AMT 与更广泛的自然语言处理 (NLP) 领域之间也有明确的联系，音乐有自己的语法规则或统计规律，类似于自然语言 [5]。“进一步扩展和未来工作”部分详细介绍了 AMT 语言模型的使用。在新兴的声音场景分析领域中，AMT 和声音事件检测 (SED) [6] 之间有直接的类比，特别是复音 SED，它涉及从音频中检测和分类多个重叠事件。虽然日常和自然声音没有表现出与音乐信号相同程度的时间规律性和源间频率依赖性，但存在密切的相互作用 MIDI 音高频率 (Hz) 幅度 500 1,000 1,500 2,000 -0.2 0 0.2 40 60 80 12345 1234 56 123时间 (s) © (d) 时间 (s) (b) 时间 (s) (a) 456 图 1. AMT 系统中表示的数据：(a) 输入波形，(b) 内部时频表示，© 输出钢琴卷表示，和 (d) 输出乐谱，音符 A 和 D 用灰色圆圈标记。这个例子对应于西澳莫扎特钢琴奏鸣曲第 6 号的前 6 秒。13、第三乐章。（图片由 MIDI Aligned Piano Sounds 数据库提供。） MIDI：乐器数字接口。
AMT 是一种赋能技术，具有明显的经济和社会影响潜力。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第2页
正如文献 [6] 中所观察到的，就所使用的方法而言，这两个问题之间存在差异。
此外，AMT 与图像处理和计算机视觉有关，因为音乐对象（例如音符）可以被识别为时频表示中的二维模式。与图像处理和计算机视觉相比，遮挡是一个常见问题，AMT 系统经常受到占据相同时频区域的音乐对象的影响（这在“关键挑战”部分中有详细说明）。
主要挑战与音乐信号处理领域或更广泛的信号处理学科中的其他问题相比，有几个因素使 AMT 特别具有挑战性： 1) 复音音乐包含具有不同音高的多个同时源（例如乐器和人声）的混合、响度和音色（音质），每个音源产生一个或多个音乐声音。从混合信号中推断音乐属性（例如，音高）是一个非常未确定的问题。

重叠的声音事件之间经常表现出谐波关系。对于任何辅音音程，基频形成小的整数比，因此它们的谐波在频率上重叠，使得声音的分离更加困难。以 C 大调和弦为例，其 C:E:G 三个音符的基频比为 4:5:6，与其他音符重叠的和声位置的百分比分别为 46.7%、33.3% 和C、E 和 G 分别为 60%。

乐声的时间由音乐的规律韵律结构支配。特别是，音乐家密切关注不同声音之间的起始和偏移的同步，这违反了源之间统计独立性的普遍假设，否则会促进分离。

复调音乐的真实转录注释非常耗时，需要很高的专业知识。缺乏此类注释将强大的监督学习技术的使用限制在特定的 AMT 子问题上，例如钢琴转录，由于某些钢琴模型可以自动捕获演奏数据，因此注释可以自动化。[7] 中提出了一种规避这个问题的方法，但它需要专业的音乐表演者和彻底的乐谱前后处理。我们注意到，活页乐谱通常不能为 AMT 提供良好的真实注释；它与音频信号没有时间对齐，通常也不能准确表示表演。即使存在准确的转录，识别相应的音频文件和乐谱对并非易事，因为音乐发行商提供的任何给定音乐作品的版本众多。充其量，乐谱可以被视为弱标签。
这些关键挑战在当前的 AMT 系统中通常没有完全解决，导致 AMT 输出中的常见问题，例如八度音阶错误、半音错误、遗漏音符（特别是在存在密集和弦的情况下）、额外音符（通常表现为存在看不见的音色时的谐波错误）、合并或碎片化的音符、不正确的起始/偏移或错误分配的流 [1]、[2]。本文的其余部分将重点介绍解决前面提到的挑战的方法，以及讨论用于创建强大的 AMT 系统的其他开放问题。
AMT 方法概述在过去的四个十年中，针对复调音乐的 AMT 开发了许多方法。虽然 AMT 的最终目标是将原声音乐录音转换为某种形式的音乐符号，但大多数方法旨在实现某个中间目标。根据抽象级别和为实现这些目标需要建模的结构，AMT 方法通常可以分为四类：框架级别、注释级别、流级别和符号级别。
帧级转录或 MPE 是对每个时间帧中同时存在的音符的数量和音高的估计（大约 10 毫秒）。这通常在每一帧中独立执行，尽管有时通过在后处理阶段过滤帧级音高估计来考虑上下文信息。图 2(a) 显示了帧级转录的示例，其中每个黑点是音高估计。此类别中的方法不构成音符的概念，并且很少模拟任何高级音乐结构。大部分现有的 AMT 技术都在这个级别上运行。最近的方法包括传统的信号处理方法 [11]、[12]、概率建模 [8]、贝叶斯方法 [13]、NMF [14]-[17] 和神经网络 (NN) [18]、[19]。所有这些方法都有利有弊，研究并未集中在单一方法上。例如，传统的信号处理方法简单快速，可以更好地泛化到不同的乐器，而深度神经网络方法通常在特定乐器（例如钢琴）上实现更高的精度。贝叶斯方法提供了声音生成过程的全面建模，但模型可能非常复杂和缓慢。对不同方法的性能比较感兴趣的读者可以参考年度音乐信息检索评估交换 (MIREX) (http://www.music-ir.org/mirex) 的多基频估计和跟踪任务。然而，
就估计结构的丰富性而言，笔记级转录或笔记跟踪比 MPE 高一级。它不仅估计每个时间范围内的音高，而且还将随着时间的推移将音高估计连接到音符中。在 AMT 文献中，AMT 提供了音乐信号处理和符号音乐处理领域之间的主要联系。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第 3 页
23 IEEE 信号处理杂志 | 2019 年 1 月 | 一个音符通常由三个要素来表征：音高、开始时间和偏移时间 [1]。由于音符偏移可能不明确，因此在评估音符跟踪方法时有时会忽略它们，因此，一些音符跟踪方法仅估计音符的音高和起始时间。图2（b）显示了一个音符级转录的示例，其中每个音符显示为一个红色圆圈（起始），然后是一条黑色线条（音高轮廓）。许多音符跟踪方法通过后处理 MPE 输出（即，单个帧中的音高估计）形成音符。在这种情况下使用的技术包括中值滤波 [12]、隐马尔可夫模型 (HMM) [20] 和 NNs [5]。这种后处理经常独立地为每个乐器数字接口 (MIDI) 音高执行，而不考虑同时音符之间的相互作用。这通常会导致虚假或丢失的音符与正确估计的音符共享谐波。已经提出了一些方法来通过谱似然模型 [9] 或音乐语言模型 [5]、[18] 考虑音符交互（参见“传销”部分）。另一个方法子集直接从音频信号中估计音符，而不是基于 MPE 输出。一些方法首先检测起始，然后在每个起始间隔内估计音高 [21]，而另一些方法则在同一框架内估计音高、起始和有时偏移 [22]-[24]。这通常会导致虚假或丢失的音符与正确估计的音符共享谐波。已经提出了一些方法来通过谱似然模型 [9] 或音乐语言模型 [5]、[18] 考虑音符交互（参见“传销”部分）。另一个方法子集直接从音频信号中估计音符，而不是基于 MPE 输出。一些方法首先检测起始，然后在每个起始间隔内估计音高 [21]，而另一些方法则在同一框架内估计音高、起始和有时偏移 [22]-[24]。这通常会导致虚假或丢失的音符与正确估计的音符共享谐波。已经提出了一些方法来通过谱似然模型 [9] 或音乐语言模型 [5]、[18] 考虑音符交互（参见“传销”部分）。另一个方法子集直接从音频信号中估计音符，而不是基于 MPE 输出。一些方法首先检测起始，然后在每个起始间隔内估计音高 [21]，而另一些方法则在同一框架内估计音高、起始和有时偏移 [22]-[24]。另一个方法子集直接从音频信号中估计音符，而不是基于 MPE 输出。一些方法首先检测起始，然后在每个起始间隔内估计音高 [21]，而另一些方法则在同一框架内估计音高、起始和有时偏移 [22]-[24]。另一个方法子集直接从音频信号中估计音符，而不是基于 MPE 输出。一些方法首先检测起始，然后在每个起始间隔内估计音高 [21]，而另一些方法则在同一框架内估计音高、起始和有时偏移 [22]-[24]。
流级转录，也称为多音高流 (MPS)，目标是将估计的音高或音符分组到流中，其中每个流通常对应于一种乐器或音乐声音，并且与乐器源分离密切相关。图 2© 显示了流级转录的示例，其中不同乐器的音高流具有不同的颜色。与音符级转录相比，每个流的音高轮廓比单个音符长得多，并且包含由静音、非音高声音和突然频率变化引起的多个不连续性。因此，通常用于音符级转录的技术通常不足以对具有长且不连续轮廓的音高进行分组。MPE 和音符跟踪中未探索的 MPS 的一个重要提示是音色。与不同流中的音符相比，同一流（源）的音符通常显示出相似的音色特征。因此，流级转录在文献中也称为音色跟踪或乐器跟踪。这个级别的现有作品很少，以[10]、[16]和[25]为例。
从帧级别到音符级别再到流级别，转录任务变得更加复杂，因为需要对更多的音乐结构和提示进行建模。但是，这三个级别的转录输出都是参数转录，是对音频内容的参数化描述。图 1© 中显示的 MIDI 钢琴卷帘就是这种转录的一个很好的例子。它确实是音乐音频的抽象，但还没有达到音乐符号的抽象水平。时间仍然以秒为单位而不是节拍；音高以 MIDI 数字而不是与键兼容的拼写音符名称来衡量（例如，CD 与）；DB 以及节拍、小节、节拍、键、和声和流的概念都缺乏。
记谱级转录旨在将音乐音频转录成人类可读的乐谱，例如西方古典音乐中广泛使用的五线谱。此级别的转录需要对音乐结构有更深入的了解，包括和声、节奏和流结构。谐波结构，例如键和和弦，会影响每个 MIDI 音高的音符拼写；节拍和小节等节奏结构有助于量化音符的长度；流结构有助于将音符分配给不同的五线谱。已经有一些关于从音频或 MIDI 估计音乐结构的工作 80 70 60 50 40 0123 456 Pitch (MIDI Number) 80 70 60 50 40 0123 456 Pitch (MIDI Number) 80 70 60 50 40 0123 456 Pitch (MIDI Number ) 时间 (s) © 时间 (s) (b) 时间 (s) (a) 图 2. (a) 帧级示例，(b) 音符级和 © 流级转录，分别通过运行 [8]、[9] 和 [10] 中提出的方法产生，来自Bach10 数据集。所有三个级别都是音乐表演的参数描述。从帧级别到音符级别再到流级别，转录任务变得更加复杂，因为需要对更多的音乐结构和提示进行建模。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第4页
24 IEEE 信号处理杂志 | 2019 年 1 月 | 表演的表现形式。例如，已经提出了从执行的 MIDI 文件中进行音高拼写 [26]、时间量化 [27] 和语音分离 [28] 的方法。然而，很少有工作将这些结构整合到完整的音乐符号转录中，特别是对于复调音乐。包括 Finale、GarageBand 和 MuseScore 在内的几个软件包提供了将 MIDI 文件转换为乐谱的功能，但结果通常并不令人满意，并且不清楚在转录过程中估计和集成了哪些音乐结构。科利亚蒂等人。[29] 提出了一种将 MIDI 演奏转换为乐谱的方法，基于与上述软件的转录性能的系统比较。在音频到符号的转录方面，Carvalho 和 Smaragdis [30] 提出了一种使用端到端 NN 的概念验证工作，可以直接将音乐音频映射到音乐符号中，而无需显式建模音乐结构。
最先进的技术尽管有广泛的适用方法，但在过去十年中，AMT 一直由两个算法系列主导：NMF 和 NN。这两个系列都被用于各种任务，从语音和图像处理到推荐系统和 NLP。尽管有这种广泛的适用性，但这两种方法都提供了一系列属性，使它们特别适合在音符级别对音乐录音进行建模。
AMT 的 NMF NMF 及其变体背后的基本思想是表示给定的非负时频表示，VR MN 0 ！# $ 例如，幅度谱图，作为两个非负矩阵的乘积：字典 DR MK 0 ！# $ 和一个激活矩阵 AR KN 0 ！# $（参见图 3）。在计算上，目标是最小化 V 和 DA 之间关于 D 和 .A 的距离（或发散）作为解决这个最小化问题的直接方法，乘法更新规则一直是 NMF 成功的核心。例如，V 和 DA 之间的广义 Kullback-Leibler 散度在以下更新下是非增加的，并保证 D 和 A 的非负性，只要两者都用正实值初始化 [31]：和 AA DJ D DA V DD JA达瓦！！99 << << ``jj 其中 9 运算符表示逐点乘法，JR MN ！# 表示1的矩阵，除法是逐点的。直观地说，更新规则可以通过选择一个 MIDI Pitch 频率 (Hz) 12 3 时间 (s) (a) 456 500 1,000 1,500 2,000 频率 (Hz) MIDI Pitch 500 1,000 1,500 2,000 频率 (Hz) 12 3 时间 (s ) (b) 456 123 时间 (s) (d)© 456 500 1,000 1,500 2,000 40 60 80 40 60 80 图 3. NMF 示例，使用与图 1 中相同的音频记录：(a) 输入频谱图、V (b) 近似频谱图、DA © 字典 D（预提取）和 (d) 激活矩阵。A 虽然有广泛的适用方法，但在过去十年中，AMT 一直由两个算法家族主导： NMF 和 NN。# 表示1的矩阵，除法是逐点的。直观地说，更新规则可以通过选择一个 MIDI Pitch 频率 (Hz) 12 3 时间 (s) (a) 456 500 1,000 1,500 2,000 频率 (Hz) MIDI Pitch 500 1,000 1,500 2,000 频率 (Hz) 12 3 时间 (s ) (b) 456 123 时间 (s) (d)© 456 500 1,000 1,500 2,000 40 60 80 40 60 80 图 3. NMF 示例，使用与图 1 中相同的音频记录：(a) 输入频谱图、V (b) 近似频谱图、DA © 字典 D（预提取）和 (d) 激活矩阵。A 虽然有广泛的适用方法，但在过去十年中，AMT 一直由两个算法家族主导： NMF 和 NN。# 表示1的矩阵，除法是逐点的。直观地说，更新规则可以通过选择一个 MIDI Pitch 频率 (Hz) 12 3 时间 (s) (a) 456 500 1,000 1,500 2,000 频率 (Hz) MIDI Pitch 500 1,000 1,500 2,000 频率 (Hz) 12 3 时间 (s ) (b) 456 123 时间 (s) (d)© 456 500 1,000 1,500 2,000 40 60 80 40 60 80 图 3. NMF 示例，使用与图 1 中相同的音频记录：(a) 输入频谱图、V (b) 近似频谱图、DA © 字典 D（预提取）和 (d) 激活矩阵。A 虽然有广泛的适用方法，但在过去十年中，AMT 一直由两个算法家族主导： NMF 和 NN。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第5页
25 IEEE 信号处理杂志 | 2019 年 1 月 | 基于梯度（或更确切地说，坐标）下降的散度最小化中的特定步长[31]。
在 AMT 上下文中，两个未知矩阵都有直观的解释。,V 的第 n 列，即时间点 n 处的光谱，在 NMF 中建模为 ,D 的 K 列的线性组合，相应的 K 系数由 .A 的第 n 列给出。 D 的每一列通常称为频谱模板，通常表示与在特定乐器上演奏的特定音符相关的预期频谱能量分布。对于每个模板，A 中的对应行被称为关联激活，并编码该音符随时间播放的时间和强度。鉴于非负性约束，NMF 产生纯粹的建设性表示，即由一个模板建模的光谱能量不能被另一个模板抵消。
在图 3 中，说明了基于 NMF 的分解。图 3(a) 所示的幅度谱图 V 被建模为字典 D 和激活矩阵 rix 的乘积，A 分别如图 3© 和 (d) 所示。产品 DA 在图 3(b) 中给出。在这种情况下，模板对应于各个音高，具有清晰可见的基频和谐波。此外，将 A 与图 1© 中所示的钢琴卷表示进行比较表明 NMF 激活与基础乐谱之间的相关性。
虽然图 3 说明了 NMF 背后的原理，但它也说明了 AMT 为何如此困难。实际上，常规的 NMF 分解很少看起来像图 3 中那样干净。与语音分析相比，音乐中的声音对象是高度相关的。例如，即使在图 1 所示的简单乐曲中，大多数同时出现的音符都由辅音音程分隔，这在声学上意味着它们的许多分音重叠 [例如，4 秒左右的 A 和 D 音符，用灰色圆圈标记在图 1(d) 中，共享大量的部分]。在这种情况下，很难弄清楚有多少能量属于哪个音符。由于音符的频谱时间属性在不同的音高、演奏风格、动态和录音条件之间存在很大差异，这项任务变得更加复杂。此外，弦的刚度特性会根据横波的频率影响横波的传播速度。结果，在基本频率的完美整数倍处找不到像钢琴这样的乐器的分音。由于这种称为不和谐性的特性，各个钢琴之间的分音位置不同（参见图 4）。
为了应对这些挑战，基本的 NMF 模型已通过鼓励字典中的额外结构和激活来扩展。例如，一个重要的原则是在 A 中强制执行稀疏性以获得由少量但大量的激活支配的解决方案；稀疏性的成功为一系列稀疏编码方法铺平了道路，其中字典大小 K 可以大大超过输入维度 M [32]。其他扩展侧重于字典设计。在监督 NMF 的情况下，字典是使用额外可用的培训材料预先计算和修复的。例如，给定 K 个录音，每个录音只包含一个音符，图 3（b）所示的字典是通过从每个录音中提取一个模板来构建的。这边走，保证模板不受其他注释的干扰，并有清晰的解释。作为另一个示例，图 5 说明了一个扩展，其中每个 NMF 模板都表示为固定窄带子模板 [15] 的线性组合，它为所有 NMF 模板强制执行谐波结构。这样，字典可以适应要转录的录音，同时保持其清晰、可解释的结构。
在移位不变字典中，可以使用单个模板来表示一系列不同的基频。特别是，使用对数频率轴，谐波声音的各个部分之间的距离是固定的，因此在频率上移动模板允许对不同音高的声音进行建模。事实证明，以这种方式在不同间距之间共享参数对于增加模型容量是有效的（例如，参见 [16] 和 [17]）。此外，谱时字典缓解了 NMF 模型的特定弱点。在 NMF 中，很难表达音符通常具有特定的时间演变。例如，音符的开头（或起音阶段）可能具有与中央部分（衰减阶段）完全不同的频谱特性。
用于 AMT 的 NN 对于与模式识别相关的许多任务，NN 近年来对音乐转录问题和一般音乐信号处理产生了相当大的影响。NN 能够通过优化算法（例如随机梯度下降 [33]）从输入到输出学习非线性函数（或函数的组合）。与包括图像处理在内的其他领域相比，用于音乐转录的神经网络的进展较慢，我们将讨论一些根本原因。
0 –2 –4 –6 –8 dbFS 0 100 200 300 400 500 频率 (Hz) 600 700 800 图 4. 非谐性示意图：钢琴演奏的 1CD 音符的频谱。弦的刚度导致分音从基频的完美整数倍（显示为垂直虚线）偏移。在这里，第 23 分音位于预期 24 次谐波的位置。请注意，缺少 34.65 Hz 的基频，因为钢琴音板通常不会在频率小于 0.50 Hz 的模式下产生共振。授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第6页
26 IEEE 信号处理杂志 | 2019 年 1 月 | 基于 NN 的最早方法之一是 Marolt 的 Sonic 系统 [21]。这种方法的一个核心组成部分是使用时间延迟网络，它类似于时间方向上的卷积网络 [33]，用于分析自适应振荡器的输出，以跟踪和分组 gammatone 滤波器组输出中的部分。尽管它最初于 2001 年发布，但该方法仍然具有竞争力，并且仍然出现在最近的出版物中 [23] 的比较中。
在最近 NN 复兴的背景下，Böck 和 Schedl [34] 提出了第一个成功的系统。核心思想之一是使用两个频谱图作为输入，以使网络能够同时利用高时间精度（在估计音符开始位置时）和高频率分辨率（当在较低频率范围内解开音符时）。该输入使用一个（或多个）长短期记忆（LSTM）层[33]进行处理。使用 LSTM 层的潜在好处是双重的。首先，音符的光谱属性会随着输入帧的变化而变化，并且 LSTM 网络能够对此类序列进行紧凑建模。其次，可以潜在地捕获笔记之间的中长期依赖关系。例如，基于流行的和弦序列，在听到 C 和 G 大和弦后跟 A 小调后，一个可能的继任者是 F 大调和弦。然而，对这种长期依赖关系是否确实被建模的调查不在这项工作的范围内。
Sigtia 等人。[18] 通过将声学前端与类似于语言模型的符号级模块相结合，专注于音乐中的长期依赖性，如语音处理中使用的那样。使用从 MIDI 文件中获得的信息，一个循环神经网络 (RNN) 被训练来预测下一个时间帧中的活动音符，给定过去的那些音符。这种方法需要学习和表示一个非常大的联合概率分布，即跨时间的活动和非活动音符的每个可能组合的概率。请注意，即使在单个帧中，钢琴上也有 2 88 种可能的音符组合。为了使建模如此巨大的概率空间的问题易于处理，该方法采用了特定的 NN 架构（神经自回归分布估计器，也称为 NADE），它将大联合概率表示为条件概率的长乘积，这种方法与最近由著名的 WaveNet 架构推广的想法非常相似。尽管使用了专门的音乐语言模型，该模型在相对较大的基于 MIDI 的数据集上进行了训练，但只能观察到对 HMM 基线的适度改进，因此关于确实捕获到何种程度的远程依赖关系的问题仍然悬而未决.
为了进一步区分声学前端与语言模型对性能潜在改进的影响，Kelz 等人。[19] 专注于声学建模，报告大规模超参数搜索的结果，并描述单个系统组件的影响。使用这种仔细和广泛的程序进行训练，生成的模型在合理的范围内优于现有模型。换句话说，虽然在语音处理中，语言模型已经导致性能的大幅提升，但同样的效果仍有待在 AMT 系统中得到证明，我们将在后面更详细地讨论这一挑战。
基于 NN 的 AMT 方法的开发仍在继续。Google Brain [24] 提出了当前最先进的通用钢琴转录方法。这种方法结合和扩展了现有方法的想法，结合了两个网络（图 6）。一个检测音符开始，其输出用于通知第二个网络，该网络专注于感知音符长度。这可以从概率的角度来解释。与逐帧音符活动检测相比，音符开始是罕见的事件。因此，分割成两个网络分支可以解释为将相对复杂的联合概率分布在起始和帧活动上的表示拆分为起始概率和帧活动概率，以起始 c 1 = 0.8 c 2 = 0.6 为条件c 3 = 0.3 c 4 = 0.2 2,500 2, 000 1,500 1,000 500 0 频率 (Hz) +++= 图 5. 谐波 NMF [15] 的示意图。每个 NMF 模板（最右边）都表示为固定窄带子模板的线性组合。生成的模板被限制为通过构造来表示谐波。
与包括图像处理在内的其他领域相比，用于音乐转录的神经网络的进展较慢。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第7页
27 IEEE 信号处理杂志 | 2019 年 1 月 | 分配。由于起始和框架活动的时间动态完全不同，因此联合训练时，这可以改善整个网络的学习行为。
NMF 和 NN 模型的比较鉴于 NMF 和基于 NN 的 AMT 方法的流行，讨论它们的差异很有趣。特别是，忽略非负性约束，NMF 是一个线性的生成模型。鉴于基于 NMF 的方法越来越多地被基于 NN 的方法所取代，因此出现了一个问题，线性度在何种情况下可能成为 AMT 模型的限制。
为了研究这个问题，假设我们有一个 NMF 字典，每个音高都有两个频谱模板。为了表示单个音高 C4 的观察频谱，我们可以线性组合与 C4 相关的两个模板。然而，C4 音符的有效光谱集（或流形）很复杂，因此，在大多数情况下，我们的线性插值不会对应于 C4 的真实记录。我们可以增加模板的数量，以便它们的插值可能更接近真实的 C4——但是与有效光谱的数量相比，我们可以表示的无效光谱的数量增加得更快。近年来，深度网络已经显示出相当大的潜力，可以以一种稳健且相对有效的方式隐含地表示这种复杂的流形 [33]。
然而，尽管有这些相当原则性的限制，基于 NMF 的方法仍然具有竞争力，甚至超过了使用 NN 取得的结果。目前，基于 NN 的方法面临两个主要挑战。首先，只有少数几个相对较小的注释数据集可用，而且这些数据集通常存在严重的偏差 [7]。最大的公开数据集 [11] 包含几个小时的钢琴音乐——但所有这些都只记录在七种不同的基于合成器的真实钢琴上。虽然典型的数据增强策略，例如音高转换或模拟不同的房间声学，可能会减轻一些影响，但仍然存在相当大的风险，即网络过度拟合这些特定乐器的声学特性。对于许多类型的仪器，即使是小型数据集也不可用。
第二个相当大的挑战是对新声学条件的适应性。仅提供要转录的乐器的孤立音符的几个示例，就可以观察到基于 NMF 的模型的性能有相当大的改进。目前没有相应的、同样有效的机制来重新训练或调整基于 NN 的 AMT 系统对几秒钟的音频。因此，非自适应网络的错误率可能比自适应 NMF 系统的错误率高一个数量级 [23]、[24]。总体而言，由于这两个挑战都不容易克服，因此基于 NMF 的方法可能在特定用例中仍然具有相关性。
在图 7 中，我们定性地说明了基于监督 NMF 和 NN 的系统行为的一些差异。这两个系统都经过专门培训用于转录钢琴录音，我们公开了录制风琴的方法。像钢琴一样，管风琴是用键盘演奏的，但它的声学特性却大不相同。Conv Stack Bi LSTM FC Sigmoid Conv Stack Bi LSTM FC Sigmoid Onset Predictions Frame Predictions Log Mel Spectrogram 图 6. Google Brain 的 Onset 和 Frames 网络的谐波。输入由检测音符开始的初始网络处理。结果被用作第二个网络的辅助信息，该网络专注于估计音符长度。Bi LSTM：双向LSTM层；FC Sigmoid：全连接sigmoid层；Conv Stack：一系列卷积层。（图片经 [24] 许可改编。）时间 (s) MIDI 音高 MIDI 音高 12 34 56 时间 (s) (b) (a) 12 34 56 40 60 80 40 60 80 图 7。为管风琴录制的巴赫作品 (BWV 582) 的前 6 秒。黑色对应于正确检测到的音高，红色对应于误报，蓝色对应于误报。(a) 在钢琴模板上训练的 NMF 模型的输出。(b) [24] 的受钢琴音乐训练的 NN 模型的输出。授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。黑色对应于正确检测到的音高，红色对应于误报，蓝色对应于误报。(a) 在钢琴模板上训练的 NMF 模型的输出。(b) [24] 的受钢琴音乐训练的 NN 模型的输出。授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。黑色对应于正确检测到的音高，红色对应于误报，蓝色对应于误报。(a) 在钢琴模板上训练的 NMF 模型的输出。(b) [24] 的受钢琴音乐训练的 NN 模型的输出。授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第8页
28 IEEE 信号处理杂志 | 2019 年 1 月 | 器官能量丰富，覆盖全谱；音符的能量不会随着时间的推移而衰减，并且开始不太明显。通过这个实验，我们想了解当系统遇到钢琴声音流形之外但在音乐上仍然有效的声音时，系统会如何优雅地失败。将图 7(a) 中的 NMF 输出和图 7(b) 中的 NN 输出与基本事实进行比较，我们发现这两种方法都检测到额外的音符（以红色显示），主要是在正确基本音的上下八度音阶处。鉴于丰富的能量分布，这种行为是意料之中的。虽然我们为 NMF 使用了一个简单的基线模型——因此一些错误可能归因于该选择——但 NN 更优雅地失败了。那是，观察到更少的八度音阶错误和更少的虚假短音符检测。（然而，就召回而言，基于 NMF 的方法识别出额外的正确音符。）很难争论为什么网络中的声学模型应该为这种情况做好更好的准备。然而，结果表明该网络学到了一些额外的东西：网络中使用的 LSTM 层（比较图 6）似乎已经了解了典型的钢琴音符如何随时间演变，因此大多数音符长度看起来合理且不那么虚假。类似地，NN 发生八度音阶错误的带宽更窄，这可能表明网络模拟了同时出现的音符的可能性，或者换句话说，简单的音乐语言模型 (MLM)。这使我们开始讨论 AMT 中剩余的重要挑战。
进一步的扩展和未来的工作 MLM 如“其他领域的类比”部分所述，AMT 与 ASR 密切相关。与典型的 ASR 系统由声学组件和语言组件组成的方式相同，AMT 系统可以随时间对声学序列以及音符和其他音乐线索的基本序列进行建模。因此，AMT 系统结合了 MLM，用于在复音上下文中对音符序列进行建模，目的是提高转录性能。深度学习方法对高维序列建模的能力最近使复调音乐序列预测成为可能。Boulanger-Lewandowski 等人。[5] 将受限玻尔兹曼机 (RBM) 与 RNN 结合用于复调音乐预测，用于对 AMT 系统的声学输出进行后处理。Sigtia 等人。[18] 还使用上述 RNN-RBM 作为 MLM，并使用概率图形模型结合声学和语言预测。虽然这些初步工作显示出有希望的结果，但传销的未来研究有几个方向。这些包括创建统一的声学和语言模型（而不是使用 MLM 作为后处理步骤）和建模其他音乐提示，例如和弦、键和米（而不是简单地建模音符序列）。
乐谱通知转录如果演奏已知乐曲，乐谱为转录提供了强有力的先验。在许多情况下，乐谱和给定的音乐表演之间存在差异，这可能是由于表演者的特定解释或表演错误造成的。对于像音乐教育这样的应用程序，通过将乐谱合并为额外的先验信息来简化转录过程（基于乐谱的音乐转录[35]）来识别这种差异是很有用的。通常，用于此类转录的系统使用乐谱到音频对齐方法作为预处理步骤，在执行转录之前将乐谱与输入音乐音频对齐，如 [35] 中所示。虽然已经为某些乐器（钢琴和小提琴）开发了此类系统的具体实例，
特定于上下文的转录虽然尚未实现在没有特定音乐风格、乐器和录音条件知识的情况下创建盲多乐器 AMT 系统，但在特定于上下文的转录问题上已经取得了相当大的进展，其中先前了解特定乐器型号或制造商的声音以及录音环境。对于特定于上下文的钢琴转录，多音高检测精度可以超过 90% [22]、[23]，使得此类系统适用于面向用户的应用程序。本主题中的开放工作包括为多种仪器创建特定于上下文的 AMT 系统。
非西方音乐从调查 AMT 文献可以看出，绝大多数方法仅针对西方（或欧洲基因）音乐。这允许对所使用的乐器以及音乐的表现和制作方式进行若干假设。典型假设包括包含 12 个等距音高的八度音阶；两种模式，主要和次要；标准调谐频率为 4 440AHz。
= 然而，这些假设不适用于来自世界各地的其他音乐风格，其中八度音阶通常分为微音（例如，阿拉伯音乐理论基于四分音）或西方音乐中未使用的模式（例如，古典印度音乐识别数百种模式，称为 ragas）。因此，自动转录非西方音乐仍然是一个悬而未决的问题，面临着几个挑战，包括设计适当的信号和音乐符号表示，同时避免所谓的西方偏见 [36]。另一个主要问题是缺乏非西方音乐的注释数据集，从调查 AMT 文献可以看出，绝大多数方法仅针对西方（或欧洲基因）音乐。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第9页
29 IEEE 信号处理杂志 | 2019 年 1 月 | 使数据密集型机器学习方法的应用变得困难。
富有表现力的音高和时间西方记谱法将音乐概念化为保持固定持续时间的不变音高序列，并且几乎没有空间来表达对微音和微时间的表达使用或对音色和动态的详细记录。自动转录的研究遵循了这种狭隘的观点，用离散的音高加上开始和偏移时间来描述音符。例如，对于最普遍的音乐制作形式，表演歌唱没有合适的符号。同样，对于其他没有固定音高或具有其他表现技巧的乐器，也需要更好的表现形式。然后，如果需要，可以通过对音乐知识和风格惯例建模，将这些更丰富的表示简化为西方乐谱符号。
打击乐和无音调的声音音乐信号处理文献中的一个活跃问题是检测和分类音乐信号中的无音调声音 [1, Ch. 5]。在大多数情况下，这表现为鼓的转录问题，因为绝大多数当代音乐都包含由鼓组产生的有音调的声音和无音调的声音的混合。鼓组组件通常包括底鼓、小鼓、踩镲、钹和嗵鼓。这种情况下的问题是检测敲击声音并将其分类为上述声音类别之一。鼓转录问题使其特别具有挑战性的元素是音乐信号中同时存在几种谐波、非谐波和非谐波声音，以及与典型的多音高检测系统相比，鼓转录系统需要提高时间分辨率。音高乐器转录和鼓转录的方法在很大程度上是独立开发的，创建一个支持音高和非音高声音的强大音乐转录系统仍然是一个悬而未决的问题。
评估指标大多数 AMT 方法是使用为 MIREX 多 F0 估计和笔记跟踪公共评估任务 (http://www.music-ir.org/mirex/) 提出的一组指标进行评估的。包括三种类型的指标：基于帧的、基于注释的和基于流的，反映了“最新技术”部分中介绍的帧级、注释级和流级转录类别。虽然上述指标集都有其优点，但可以说它们与人类对音乐转录准确性的感知不相符，例如，额外的音符可能被视为比遗漏的音符更严重的错误，或者与关键错误相比，非关键音符错误可能会受到更多惩罚。所以，
结论几十年来，AMT 在音乐信号处理和音乐信息检索领域一直是一个活跃的研究领域，在音乐之外的其他领域和领域也有一些潜在的好处。如本文所述，仍有几个障碍需要克服，即在建模音乐信号和数据可用性方面，如“关键挑战”部分所述；关于最先进方法的局限性，如“NMF 和 NN 模型的比较”部分所述；最后，关于现有任务当前领域之外的扩展，如“进一步扩展和未来工作”部分所述。我们相信，解决这些挑战将导致创建完整的音乐转录系统并释放音乐信号处理技术的全部潜力。可以在配套网站 (http://c4dm.eecs.qmul.ac.uk/spm-amt-overview/) 上找到与本文相关的补充音频材料。
致谢 Emmanouil Benetos 得到英国 RAEng 研究奖学金 RF/128 的支持。作者按字母顺序列出。
作者 Emmanouil Benetos (emmanouil.benetos@qmul.ac.uk) 获得了理学学士学位。和理学硕士分别于 2005 年和 2007 年在希腊塞萨洛尼基亚里士多德大学获得信息学学位，并获得博士学位。2012 年获得伦敦玛丽女王大学电子工程学士学位。他是伦敦玛丽女王大学数字音乐中心的讲师和皇家工程学院研究员，以及艾伦图灵研究所的图灵研究员。2013年至2015年在伦敦城市大学计算机科学系任大学研究员。他发表了 80 多篇经过同行评审的论文，涉及音频和音乐信号处理的多个主题。他的研究重点是用于音乐和音频分析的信号处理和机器学习，以及在音乐信息检索、声学场景分析和计算音乐学中的应用。他是IEEE的成员。
Simon Dixon (sedixon@qmul.ac.uk) 获得了理学学士学位。（荣誉）和博士学位。分别于 1989 年和 1994 年在澳大利亚悉尼大学获得计算机科学学位。他在悉尼新南威尔士音乐学院学习古典吉他，并分别于 1987 年和 1988 年获得了 A.Mus.A 和 L.Mus.A 学位。他是伦敦玛丽女王大学数字音乐中心的副主任，同时也是该校的教授。他的研究领域是音乐信息学，包括高级音乐信号分析、音乐知识的计算建模和音乐表演研究。重点领域包括自动音乐转录、节拍跟踪、音频对齐以及语调和气质分析。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:52:18 UTC 下载。有限制。
第10页
30 IEEE 信号处理杂志 | 2019 年 1 月 | Music Information Retrieval (ISMIR) 是 Transactions of ISMIR 的创始编辑，在音乐信息学领域发表了 200 多篇参考论文。
段志尧 (zhiyao.duan@rochester.edu) 分别于 2004 年和 2008 年在中国清华大学获得自动化学士学位和控制科学与工程硕士学位，并获得博士学位。2013 年在伊利诺伊州埃文斯顿的西北大学获得计算机科学学位。他是纽约罗切斯特大学电气与计算机工程系的助理教授。他的研究兴趣是广泛的计算机试听领域，即设计能够理解声音的计算系统，包括音乐、语音和环境声音。他在 2015 年国际音乐信息检索协会 (ISMIR) 会议上共同发表了关于自动音乐转录的教程。
Sebastian Ewert (sewert@spotify.com) 获得了理学硕士/文凭和博士学位。分别于 2007 年和 2012 年获得德国波恩大学计算机科学学位（以优异成绩）。2012年，他获得了德国交流学术服务奖学金，并加入了伦敦玛丽女王大学数字音乐中心。在那里，他于 2015 年成为信号处理讲师，并且是机器听力实验室的创始成员之一，该实验室专注于开发用于音频和音乐应用的机器学习和信号处理方法。他现在是 Spotify 的高级研究科学家，并且是 IEEE 的成员。

Multi-Instrument Automatic Music Transcription With Self-Attention-Based Instance Segmentation

2020年，引用数20

第0页
2796 IEEE/ACM 音频、语音和语言处理交易，卷。2020 年 28 月 28 日，具有基于自我注意的实例分割的多乐器自动音乐转录 Yu-Te Wu，Berlin Chen，IEEE 成员和 Li Su，IEEE 成员摘要—多乐器自动音乐转录（AMT）是一种关键但在音乐信息检索（MIR）领域的研究较少。鉴于传统 AMT 研究面临的所有困难，多乐器 AMT 需要进一步研究高级音乐语义建模、多属性的有效训练方法以及系统性能评估的清晰问题场景。在本文中，我们提出了一种多仪器 AMT 方法，包括指定音高显着性的信号处理技术、新颖的深度学习技术、以及部分受计算机视觉中的多对象识别、实例分割和图像到图像转换的启发。所提出的方法对于多仪器 AMT 中的所有子任务都是灵活的，包括多仪器音符跟踪，这是以前很少研究的任务。在多音高流的子任务中也报告了最先进的性能。
索引词——自动音乐转录、深度学习、多音高估计、多音高流、自注意力。

I. 引言

自动音乐转录（AMT）是将原声音乐信号转换为乐谱的任务，是音乐信息检索（MIR）、音乐生成、音乐搜索、音乐教育和音乐学 [1]、[ 2]。这些应用场景的乐谱粒度可能有很大的不同，从音高、起始、偏移、动态和音色等局部属性到语音、节拍和结构等全局属性。为了处理如此复杂的问题，AMT 研究通常分为四个不同的层次：音高的帧级转录，也称为多音高估计（MPE）；音高、开始和持续时间的音符级转录，也称为音符跟踪 (NT)；笔记和流属性的流级转录，也称为多音高流 (MPS)；和人类可读分数的符号级转录[1]。关于 AMT 的综合评论可以在 [1]、[2] 中找到。
由于 Manuscript 于 2020 年 4 月 23 日收到的各种问题，AMT 被认为是音乐聆听中的圣杯 [3]；于 2020 年 7 月 30 日和 2020 年 9 月 14 日修订；2020 年 9 月 14 日接受。出版日期 2020 年 10 月 13 日；当前版本的日期为 2020 年 10 月 26 日。这项工作得到了 MOST Taiwan 的部分支持，合同号为 MOST 106-2218-E-001-003-MY3。Stefan Bilbao 教授负责协调对该手稿的审阅并批准其发表。（通讯作者：李苏。）吴玉德和陈柏林，台湾师范大学计算机科学与信息工程系，台湾台北市台铁皮 116（邮箱：freedombluewater@gmail.com；berlin@ntnu. edu.tw）。
Lisu 就职于台湾台北 115 中央研究院信息科学研究所（电子邮件：lisu@iis.sinica.edu.tw）。
Digital Object Identifier 10.1109/TASLP.2020.3030482 范围、复音信号的高度复杂性、谐波分量高度重叠以及标记数据的缺乏，这些都是文献 [1]、[2]、 [4]。大多数以前的 AMT 研究只关注单乐器转录（例如，钢琴独奏），或者在 MPE 水平上，然而，后者是一项过于简单的任务，它本身不能带来真正的符号音乐符号。在深度学习出现之前，将 MPE 与起始/偏移检测 [5]-[7] 或仪器分类 [8] 相结合来执行 NT 或 MPS 任务相对较少见。深度学习在多任务学习 (MTL) [9] 中提供了前所未有的灵活性，因为它允许以端到端的方式同时优化多个目标函数。例如，最先进的钢琴转录方法采用两个双向长短期记忆 (BLSTM) 循环神经网络 (RNN) 来共同预测音符级属性，包括音高、音高的时间连续性、起始点、偏移量，以及动态的起始和帧的双目标函数[10]，[11]。如此丰富的标签集比单个标签集更好地指导模型，从而将性能提升到适合自动音乐生成的水平[12]。类似的原则也适用于最先进的多乐器识别 [13]、[14] 和多乐器 MPE [15]，其中音高和乐器类别与基于卷积神经网络 (CNN) 的模型联合预测）。这些事实表明联合转录音符级属性的新机会（即，音高、起始、偏移）和多乐器声音中音符的乐器级别属性（即乐器类别），这是克服 AMT 挑战的进一步步骤，但研究相对较少。在下文中，我们将此类任务称为多仪器 AMT 任务。
1 多仪器 AMT 是 MPS 任务的一种特殊情况，其中每个流代表一个仪器类。
2 以前关于 MPS 的研究主要集中在识别从 MPE 获得的每个音高事件的流（例如，乐器）属性；然而，这些仍然是帧级转录。据我们所知，除了少数先驱尝试外，文献中尚未研究过转录原声音乐信号的音符和乐器[8]。为了将该任务与典型的帧级 MPS 任务（简称 MPS）区分开来，在本文中，我们 1 在本文中，多仪器 AMT 是输入信号和输出符号都是多仪器的转录任务（见表一）。
2 一般而言，流可以是复调音乐中的语音、音轨或乐器类。在本文中，我们考虑流是一种工具的特殊情况，以便于讨论。
2329-9290 © 2020 IEEE。允许个人使用，但再版/再分发需要 IEEE 许可。
有关详细信息，请参阅 https://www.ieee.org/publications/rights/index.html。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第1页
WU 等人：具有基于自我注意的实例分段的多乐器自动音乐转录 2797 将音符级 MPS 任务称为音符流 (NS)。
MPS 和 NS 任务的挑战是多方面的。从音乐信号处理的角度来看，模型需要从声音混合物中区分出类似乐器（例如小提琴和中提琴）的音色。从音乐语言建模的角度来看，该模型需要跟踪具有各种音符长度、过渡、静音、复音甚至与其他流交织的音符流[16]。此外，不同仪器的可用数据量通常高度不平衡；这可能会导致偏向于钢琴或小提琴等大多数乐器类别。
这项工作也代表了首次尝试通过多任务深度学习系统地处理多仪器 AMT 的 MPS 和 NS 任务。所提出的解决方案部分受到计算机视觉 (CV) 技术的启发。基于深度学习的 CV 技术，如 U-net [17] 已被证明在音乐源分离 [18]、旋律提取 [19]、MPE [20] 和 MPS [15] 中很有用。这些音乐处理任务被认为是二维信号表示的语义分割任务，通常利用多个通道来强调时频平面上的音高显着性[15]、[20]。同样，MPS 和 NS 任务也与 CV [21] 中的实例分割或多目标检测问题有一些相似之处。更具体地说，NS 的目标是识别每个已知音符的每个时频像素的每个音符实例。当音符实例以起始、偏移和音高值为界时，它类似于多对象检测。当音符是具有已知起点和终点的音高轮廓时，它的行为类似于实例分割。用相关的CV技术解决MPS/NS问题是一个可行的思路。
我们的方法基于 [15] 中的先前工作，但有一些关键扩展。首先，为了改进音乐信号的序列建模，我们在 [15] 的 U-net 模型中加入了一种有效的自注意力序列建模机制 [22]，并提出了一种具有增强性能的新型 AMT 模型。
其次，在训练过程中引入了标签平滑（LS）技术，以减轻数据不平衡问题并提高罕见仪器类的性能。更重要的是，针对 AMT 在涉及仪器信息时的复杂性，我们首先明确了多仪器 AMT 中的问题场景和子任务，然后基于这些问题场景提出了 MPS 和 NS 任务的评估方法，命名为与仪器无关和仪器知情的场景。
最后，基于[4]，我们提出了一个新的扩展数据集，用于多仪器AMT研究。具体而言，本文在几个方面做出了贡献，包括： r 定义多仪器 AMT 的问题场景和评估方法；r 提出一种改进的多仪器 AMT 系统，该系统适用于所有问题场景，并在多仪器音符跟踪方面实现最先进的性能；r 通过提高仪器识别精度来展示自我注意机制在多仪器 AMT 上的有效性；和 r 为多仪器 AMT 提出扩展数据集。
本文的其余部分安排如下。第二节详细说明了多仪器 AMT 的问题场景。之后，第三节回顾了多仪器 AMT 的相关工作。第 IV 节介绍了建议的方法，随后的第 V-VII 节报告了性能研究并讨论了相关结果。最后，我们在第八节结束我们的工作。

二、问题场景

为了研究乐器类别的信息如何挑战多乐器 AMT 任务，我们考虑了多乐器音乐的三种不同转录场景： r 乐器通知转录：假设测试音乐片段中存在的乐器类别是已知的。这通常是已知音乐流派的情况；例如，如果要转录的乐曲是小提琴奏鸣曲，那么我们可以直接关闭除小提琴和钢琴之外的所有通道以简化任务。
r 与乐器无关的转录：测试乐曲中存在的乐器类别是未知的，需要模型预测的最具挑战性的情况。这里，唯一的假设是乐器类的闭集识别，这意味着测试乐曲的乐器类是训练集中类的子集。开放集识别（即预测训练数据中不存在的仪器类别）超出了本文的范围。
r 无论测试乐曲是单乐器还是多乐器，都不会转录乐器类别。这种情况相当于 AMT 研究中传统的 MPE（帧级）或 NT（笔记级）任务。
将第一节中讨论的不同级别的 AMT 子任务（即 MPE、NT、MPS 和 NS）与上面提到的三个转录场景相结合，会产生以下任务：1）MPE，2）NT，3）仪器通知 MPS ，4）instrumentinformed NS，5）instrument-agnostic MPS，和6）instrumentagnostic NS。表 I 突出显示了这些情景的比较。

三、相关工作

在本节中，将重点介绍多仪器 AMT 和多仪器识别 (MIC) 任务。鼓励读者参考 [1] 以获得对一般 AMT 研究的全面和更新的评论。
文献中提出的大多数 AMT 系统仅专用于单乐器输入，例如钢琴独奏，或仅用于忽略乐器信息的单轨输出。仍然有广泛使用的 AMT 数据集，它们配备了多乐器信号以及每个音符的完整乐器/音轨标签，例如 MIREX 多基频估计 (MF0) 测试集、3 Bach10 数据集 [23]、Su 数据集[4]、RWC 古典音乐数据集 [24]、MusicNet 数据集 [25] 和 Slakh 数据集 [26] 等等。然而，这些数据集提供的仪器标签很少使用，除了在某些关于 MPS 的研究中[27]-[29]。
3 [在线]。可用：https://www.music-ir.org/mirex 授权许可使用仅限于：北京航空航天大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第2页
2798 IEEE/ACM 音频、语音和语言处理交易，卷。2020 年 2 月 28 日多仪器 AMT 的表 IP 问题情景具有讽刺意味的是，长期以来，人们一直认为仪器信息在 AMT 模型中是必不可少的。乐器类别的光谱模式是指导模型在给定混合光谱中定位该乐器类别的时间和音高的关键因素。这个想法已经在 AMT 系统中使用非负矩阵分解 (NMF) [30] 和概率潜在成分分析 (PLCA) [31] 等频谱分解模型反复证明是成功的。在这些研究中，混合频谱图是基于仪器感知模板分解的，这些模板通常在具有各种仪器类别的单音数据上进行训练或采样。例如，[31] 中演示的 AMT 系统使用包含 11 类仪器的光谱模式的模板。如果没有提供单音数据，也可以对频谱包络和频谱平滑度施加约束，以指导模型捕获不同仪器类别的模式 [8]、[30]、[32]。
在这些情况下，仪器感知模板仅用于分解输入频谱图。在这个方向上只有少数研究进一步向多仪器 AMT 迈进，这需要对单个仪器模板贡献的输出进行更详细的调查。示例包括独立子空间分析 (ISA) 和阶乘隐马尔可夫模型 (FHMM) [33]、谐波时间聚类 (HTC) [34]、具有高阶 HMM 的 MPS [35]、维特比算法 [36]、约束聚类 [27] ]–[29]、PLCA [8]、[37]、[38]、神经网络 [15] 等。
MIC 任务旨在识别单乐器或多乐器合奏录音中乐器的帧级活动。MIR 研究中使用的数据集包括 MedleyDB 数据集 [39]、Open-MIC 数据集 [40]、Mixing Secret 数据集 [41]、IRMAS 数据集 [42] 等。其中一些数据集（例如 MedleyDB）还为特定音轨提供音高注释。上述多乐器 AMT 数据集都可以用于 MIC 研究，因为还提供了每个音符的乐器类别标签。作为与多仪器 AMT 密切相关的任务，MIC 任务也已通过特征分类、频谱分解 [8] 以及最近的深度学习方法 [43]-[45] 得到解决。最近，还提出了一种利用音高信息来增强帧级 MIC 的 MTL 方法 [13]、[14]，在这种情况下，

四、方法

所提出的多仪器 AMT 系统包括三个阶段：预处理、神经网络模型和后处理。给定输入信号 x 是单声道音乐信号，系统预测一组音符事件 N := {ni } |N| i=1 从 x。神经网络模型预测一组有限的仪器类 S，这取决于训练数据中提供的类标签。一个音符事件 ni 包含四个属性，用 ni := (pi ,t on i ,t off i ,si ) 表示，其中 pi ∈ [21, 108] 是以 MIDI 编号表示的音高值，t on i ∈ R + 是开始时间，t off i ∈ R + 是偏移时间，si ∈Si 是 ni 的仪器类别。

A. 数据表示

将多仪器 AMT 作为输入信号时频表示上的实例分割任务，以区分基频对象（即时频表示上的显着区域）和谐波对象时频表示很重要。继 [15]、[46] 之后，这项工作中采用的数据表示是基于组合频率和周期性 (CFP) 方法 [47]。用作模型输入的数据表示 Z 来自 x 的短时傅里叶变换 (STFT) 矩阵，用 X 表示。为简单起见，仅使用正频率范围内的 STFT。
Z 包含两个通道，即频率表示 Z f 和周期性表示 Z f 。它们是从具有广义倒谱 [48]、高通滤波器 W f 和 W t [46]、[47] 以及对数频率滤波器组 Q f 和 Q q 的 X 推导出来的：Z f := Q f |W f X| γ f , (1) Z q := Q q   W q F -1 Z f   γ q , (2) 式中 Z f , Z q ∈ RK×N , N 和 K 是次数和Z中的频率箱，分别。Z f 的广义倒谱是|F -1 Z f | γ F，其中 F 表示离散傅里叶变换 (DFT) 矩阵，|·| γ 是一个元素级的幂次非线性函数，使得 |x| γ = x γ 如果 x ≥ 0，并且 |x| 如果 x<0，则 γ =0。正如 [49] 中所建议的，我们设置参数 (γ f ,γ q )=(0.24, 0.6)。W f 和 W t 是两个高通滤波器，用于去除 Z 中的低变化分量，这些分量通常与音高无关。Q f 和 Q q 是两个三角形滤波器组：Q f 将特征从频域映射到对数频域，Q q 将特征从时域映射到对数频域。两个滤波器组都有 352 个三角形滤波器，范围从 27.5 Hz (A0) 到 4,435 Hz（低于#C8 的四分之一半音），分辨率为每八度音程 48 个半音。总之，Z f 揭示了信号中的基频及其谐波，Z q 揭示了基频及其次谐波 [47]、[50]。这意味着，Z f 和 Z q 的“共识”是音高 [46]、[47]、[50] 的表示。Z f 和 Z q 上出现的峰值往往位于真实音高激活的位置，如图 1 所示，其中 Z f 和 Z q 的共同峰值有效地定位了信号中三个音高的位置。这样，考虑到授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第 3 页
WU et al.: MULTI-INSTRUMENT AUTOMATIC MUSIC TRANSCRIPTION WITH SELF-BASED INSTANCE SEGMENTATION 2799 图 1. 功率谱（Z f ，上）、广义倒谱（Z q ，中）和地面实况（下灰色，与 Z f 和 Z q 重叠）。
为了更好地说明，幅度重新缩放为任意单位。在 MusicNet 数据集中的测试剪辑“2628.wav”中，在 11.0 秒时从帧中采样的数据。
图 2. 所提出模型的架构。
超出感兴趣的音高范围的谐波或次谐波不再是强制性的。这种数据表示已被证明在 MPE 中很有用，并已应用于其他数据表示，例如谐波常数 Q 变换 (HCQT) [20] 和多层倒谱 (MLC) [51]。
输入音频记录为单声道，采样率为 44.1 kHz。STFT 使用大小为 0.18 秒的 Blackman-Harris 窗口计算，即 7,939 个样本。STFT 的跳数为 0.02 秒。

B. 模型

图 2 说明了所提出的多仪器 AMT 模型，表 II 显示了模型架构的详细设置。
一般来说，该模型包含一个编码器、一个解码器和两个连接编码器和解码器的自注意力块。
编码器包含四个块组，每个块组分别由 2、3、4 和 5 个编码器块组成。每组编码器块都有一个对应的解码器块，并在它们之间通过跳跃连接链路连接[19]，从而形成U-net结构[17]。表 IID 详细模型架构的结构图 3. 编码器块和解码器块内的层。残差连接与图 2 所示的连接相同。
编码器块/解码器块对如图 3 所示。跳过连接是通过将每个编码器块输出连接到其相应的解码器块来实现的。每个隐藏层的前两个维度是与输入相同的 K × N。这意味着输出通道和输入通道具有相同的维度。
该模型源自 DeepLabV3+ [52]，这是一种最先进的图像语义分割方法，由具有编码器-解码器架构的全卷积神经网络构建。在[52]中，编码器和解码器之间使用了多孔空间金字塔池（ASPP）机制。它使用扩张卷积来扩大接收场，使得卷积核可以通过改变扩张r的大小来捕获各种尺度的物体：y[i, j]=  m,lu[i + rm, j + rl]w [m, l] , (3) 其中 u 和 y 分别表示输入和输出二维特征图，w 是要学习的卷积滤波器，[i, j] 表示特征图上的位置。标准卷积是 r =1 时的一种特殊情况。然后，ASPP 执行具有多种扩张大小的扩张卷积，并将生成的授权许可使用限制为：北京航空航天大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第4页
2800 IEEE/ACM 音频、语音和语言处理交易，卷。2020 年 2 月 28 日图 4. 自注意块的机制。输入的特征图被分割成重叠的块，这些块以光栅扫描的顺序被送入自注意力层。
特征图在一起。在 [19] 和 [15] 中，ASPP 已应用于旋律提取和 AMT。
由于时间建模在音乐转录中很重要，因此在本文中，我们还利用了自注意力机制，该机制已被证明在各种序列建模问题中有效。如图 2 所示，DeepLabV3+ 模型中的 ASPP 块被替换为自注意力块。我们采用基于自注意力的图像生成框架 Image Transformer [22] 来实现自注意力层。它使用多头自注意力机制进行实例化： Attention (Q, K, V)=softmax  QK T √ n  V , (4) 其中 Q、K 和 V 是原始特征图的线性变换输入，n代表正面的数量。在本文中，我们设置 n =8。要将self-attention机制应用到特征图上，最直接的方法是将大小为d×K×N的特征图展平为大小为d×KN的序列，
然而这是不切实际的，因为在我们的例子中，序列的长度超过 50,000（K = 384 和 N = 128），而台式计算机无法承受二次项 QK T 的内存消耗。为了克服这个问题，[22] 提出了将特征图划分为查询块以表示局部信息的想法，并将自我注意应用于查询块的序列。这不仅节省了内存空间，而且还支持并行计算，因为该机制以批量块的形式工作。具体来说，self-attention 层 M 的输入本质上是一个查询块，具有填充感受野的记忆法兰，如图 4 所示。在将 M 输入到 (4) 之前，它的时间和音高维度为变平。扁平化向量乘以三个不同的可学习权重 WQ 、 WK 和 WV ，因此，结果分别是 (4) 的 Q、K 和 V。所有查询块都是批量处理的。然后将自注意力块表示为 [22]： qa =layernorm(q + dropout(Attention (Q, K, V))) , (5) q  =layernorm(qa +dropout(W 1 ReLu(W 2 qa ))) , (6) 其中 Q = WQ q, K = WK q 和 V = WV q。WQ 、 WK 、 WV 、 W 1 和 W 2 是要学习的参数。在 (5) 中，q 是由内存边界限制的扁平化特征图。等式（6）是一个前馈神经网络，其中 W 1 和 W 2 是层中所有位置共享的参数。在本文中，使用两个这样的自注意力块来连接编码器和解码器，如图 3 所示。值得注意的是，与 [22]、[53] 不同，在这项工作中不使用位置嵌入向量.

C. 输出

所提出模型的输出是多通道表示，其中每个通道也是大小为 K × N 的时频图像。模型预测 |S| 乐器类别，对于每个乐器类别 s ∈S，我们使用两个事件类型通道来表示音符事件在特定时间和音高发生的可能性，一个用于音符开始（表示为 s 上的 Y），另一个用于音高激活（即音符开始和音符偏移事件之间的过程，表示为 Y act s ）。后处理阶段根据这两个通道识别音符偏移和整个音符事件。我们进一步在输出中添加一个通道来表示“其他”的类别。总共有 2|S| +1 通道在模型的输出。
和弦音乐信号的标签分布高度不平衡。首先，时频平面上的大多数音高激活和起始标签都是零值的（即静音）。钢琴卷轴上的一个音符事件只是二维数组中的一条线，它的起始点甚至只占一个像素。当使用逐像素二进制交叉熵作为损失函数时，使用此类标签训练的模型倾向于将所有示例预测为零。因此，我们引入了焦点损失[54]来解决这个问题。在计算机视觉中，焦点损失已被证明在具有极其密集的背景类示例而稀疏的前景类示例的单阶段密集对象检测问题中有效。在音频处理中，焦点损失在人声旋律提取 [19] 和 MPE [15] 中也被证明是有用的。对于一个像素处的预测值 p 及其基本事实 y，焦点损失定义为 FL(pt )=−α t (1 - pt ) γ log(pt ) 。(7) 焦点损失由权重因子 α ∈ [0, 1] 和聚焦因子 γ ∈ [0, 1] 参数化，并且在 (7) 中，如果 y =1 且 αt =1 - α 否则 pt = p 如果 y =1 并且 pt = 1 - p 否则。参数 α 用于平衡激活和静音示例的损失，项 (1 - pt ) γ 用于平衡正确预测示例和错误预测示例的损失。如果 y = 1，则 pt = p，否则 pt = 1 - p。参数 α 用于平衡激活和静音示例的损失，项 (1 - pt ) γ 用于平衡正确预测示例和错误预测示例的损失。如果 y = 1，则 pt = p，否则 pt = 1 - p。参数 α 用于平衡激活和静音示例的损失，项 (1 - pt ) γ 用于平衡正确预测示例和错误预测示例的损失。
正如 [54] 建议的那样，我们在这项工作中设置 α t =0.25 和 γ =2。
因此，总损失函数是 (7) 中所有像素和通道（包括起始通道和激活通道）的值的总和。
除了激活和静音事件之间的数据不平衡外，仪器类别的分布也高度不平衡。正如我们将在表 III 中看到的，大多数乐器类别属于极少数。在这种情况下，模型往往过于自信地将所有工具预测到大多数类别。这个问题不仅发生在多乐器转录的情况下。相反，在钢琴独奏转录的情况下，“钢琴”类和“其他”类之间仍然存在数据不平衡。为了解决这个问题，标签平滑（LS）方法通过对过度自信的输出施加惩罚来平滑标签分布。更具体地说，给定一个带有样本 x、标签 ys 和 |S| 的数据集不同的类别，1 ≤ s ≤|S|。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第5页
WU et al.: MULTI-INSTRUMENT AUTOMATIC MUSIC TRANSCRIPTION WITH Self-Attention-Based Instance Segmentation 2801 表 III I NSTRUMENT CLASSES, 缩写, 和 The Portion of note Length in each Multi-Instrument DataS ET 使用预测的标签 ˆy s则标签分布为 D(^y s |x)=Φ ^y s ,y ，其中 Φ ^y s ,ys =1 对于 ^y s = ys 和 Φ ^y s ,ys = 0。在标签平滑方案中，考虑了修改后的标签分布： p(·) 是一个先验标签分布，通常假设在 |S| 上是均匀分布的。类，这意味着在概率 λ 下，标签分布是均匀的。尽管最近已经讨论了其他类型的分布 [55]，但我们遵循这个假设并设置 p(|S|)=1/|S|。对于平滑参数λ，本研究将λ设置为0.1。关于标签平滑方法的更多细节可以在[56]、[57]中找到。
D. 音符和乐器提取 s [k, n] 和 Y act s [k, n] 上的输出值 Y 分别代表乐器类 s 的开始和激活的可能性。
Y on s 决定一个音符的开始时间，Y act s 决定一个音符的持续时间。它们的值介于 0 和 1 之间。为了量化转录结果，需要一个阈值来对输出值进行二值化。最简单的方法是设置一个恒定阈值并将输出值限制为零或一。然而，这种方式在多乐器转录中无效，因为输出值的分布可能随乐器类别而变化。因此需要额外的处理来自适应地确定阈值。这个过程包含四个步骤：全局归一化、仪器选择、局部归一化和音符推断。详细说明如下。
1）全局归一化：所有通道的所有输出值通过z-scoring一起归一化，使得输出的均值为零，标准差为1。
2）仪器选择：这个过程遵循全单原则：预测结果中出现的仪器类是由一个全局阈值θ ins 选择的。我们将仪器类别 s 的置信度值 vs 定义为 Y on s 中的元素的标准偏差（表示为 σ on s ）加上 Y act s 中的元素（表示为 σ act s ）在所有元素上的标准偏差该通道，导致 vs := σ on s + σ act s 。 vs 的低值意味着 Y on s 和 Y act s 近似于全零预测，这意味着仪器类 s 可能不存在。另一方面，vs 的高值表示该音乐片段中使用了 s。因此，所选仪器 S p 的集合是那些 vs 值大于阈值 θ ins 的类别。那些 vs 值低于 θ ins 的类被认为不存在于该音乐片段中。θ ins 的值是从验证集微调的。

局部归一化：再次应用 z-score 归一化过程，但这次它以通道方式应用于每个选定仪器类别 Y 在 s  和 Y act s  , s  ∈S p 上的输出. 在这个归一化过程之后，我们分别过滤出小于阈值 θ on s 和 θ act s 的起始通道和激活通道的值。阈值是从验证集中微调的。

音符推断：在归一化和阈值处理之后，得到的 Y on s  [k, n] 和 Y act s  [k, n] 然后用于起始和音符持续时间推断。在 Y on s  [k, n] 处于局部最大值的位置检测到一个音符起始位置 [k on ,n on ]，设置两个连续峰值之间的最小距离为 η = 50 ms；这可以通过在长度为 2η = 100 ms 的滑动窗口上找到最大值来完成。
当检测到一个起始事件时，它会触发一种机制在 Y act s  中找到其对应的偏移事件。此偏移事件在 [k on ,n on + δ] 处，其中音符持续时间 δ 由引入从 n on + δ 开始的大于 60 ms 的静音间隔 ξ 的最小值确定。

V. E 实验

A. 设置

我们比较了与第四节中讨论的标签平滑策略一起工作的不同模型。更具体地说，我们考虑以下三个设置： r 使用 ASPP 连接编码器和解码器。在训练过程中不应用标签平滑。由于该模型是一个全卷积网络，因此这种设置在下文中用 Conv 表示。
r 使用 ASPP 连接编码器和解码器。标签平滑应用于训练过程。然后将此设置称为 Conv-LS。
r 使用self-attention机制连接encoder和decoder。标签平滑应用于训练过程。此设置被指定为 Attn-LS。在这种情况下，不使用 ASPP 层。
使用所提出的模型有两种不同的方法来执行与仪器无关的转录。第一种是直接用单仪器输出训练模型（例如，|S| =1），第二种是用多仪器输出训练模型，但最后将不同通道上的所有结果相加。在本文中，我们考虑后一种。更具体地说，我们确实比较了三个模型在 MPE、NT、仪器通知 MPS/NS 和仪器无关 MPS/NS 上的性能（见第二节），但是所有三个模型都只针对多仪器 NS 进行了训练任务。即 MPE 和 NT 的结果都来源于 NS 任务的结果。MPE结果是通过对所有通道的输出求和获得的，并以与之前在第 IV-D 节中描述的求和通道相同的方式执行归一化和阈值化。对于 NT，起始和授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第6页
2802 IEEE/ACM 音频、语音和语言处理交易，卷。28, 2020 音高激活通道单独汇总为两个通道。归一化和阈值化在两个通道上独立应用。我们没有专门针对 MPE 和 NT 训练模型，原因有两个：1) 在 [15] 中证明了在 MPE 上使用所提出模型的有效性，以及 2) 有充分的理由报告退化（显然被低估）的性能的 MPE 和 NT 以证明所提出模型的泛化能力。

B. 数据集

我们在单仪器和多仪器数据集上执行仪器无关转录，并在多仪器数据集上执行仪器通知和仪器无关转录。一般而言，选择的多仪器数据集还包含一些单仪器剪辑。数据集的细节介绍如下。
实验中使用的单仪器数据集是 MAPS 数据集 [58] 的一个子集。该子集包含 60 个钢琴独奏录音（ENSTDkCl 和 ENSTDkAm），通常用作钢琴独奏转录的基准 [58]。遵循最先进的钢琴转录方法，我们在 MAESTRO 数据集 [11] 上训练我们的模型，这是一个外部数据集，包含从 International Piano-e-Competition 收集的 1,184 个真实钢琴演奏录音，总长度为 172.3 小时. 由于该数据集是单仪器，因此仅报告 MPE 和 NT 结果。
使用了三个多仪器数据集。第一个是 MusicNet [59] 数据集，其中包含 330 首独奏和合奏音乐。这些音乐作品都是真实世界的表演，而事实是由音频到乐谱的对齐产生的。该数据集包含 11 类乐器，即钢琴（pn）、小提琴（vn）、中提琴（va）、大提琴（vc）、长笛（f）、圆号（hn）、巴松管（bn）、单簧管（cl）、大键琴(hpd)、低音提琴 (db) 和双簧管 (ob)。我们遵循 [59] 中使用的训练集和测试集的划分：320 块用于训练，其余 10 块用于测试。如上所述，不同仪器样本的数量是高度不平衡的。表三显示了不同仪器类型的总长度部分。长度是通过累加每个音符长度来计算的，而不仅仅是考虑乐曲中每种乐器的外观长度。由于模型应该在 AMT 中同时预测多个音符，因此对于这个事实，应该分别计算音符。从表 III 中可以看出，钢琴录音比数据集中的其他录音所占的比例要大得多，而低音提琴对长度几乎没有贡献。请注意，训练集包含所有 11 个仪器类，而测试集仅包含其中 7 个类，见表 IV。为了验证阈值，我们从训练集中随机选取 40 块作为验证集。第二个数据集是 Su 数据集的扩展，自 2015 年以来已被纳入 MIREX MF0 活动。原始 Su 数据集包含三个钢琴独奏、三个弦乐四重奏、两首钢琴五重奏，两首小提琴奏鸣曲，共10首。真实标签由人类专家使用 [4] 中描述的“协同执行”过程进行注释，并以多轨格式制作。在本文中，我们在 MUSICNET 测试集中表 IVI 乐器类信息介绍了扩展的 Su 数据集，该数据集包含 30 首西方古典音乐录音，带有用相同过程注释的多轨标签。
4 该数据集包含四首交响曲、八首钢琴五重奏、九首弦乐四重奏、五首小提琴奏鸣曲和四首木管五重奏的节选，涵盖了 MusicNet 数据集中的 10 个乐器类别。剪辑总长度为852秒，音符总长度为3124.68秒。我们在原始 Su（以下称为 Su-10）数据集上评估 MPE 和 NT 任务，并在扩展 Su（以下称为 Ext-Su）数据集上评估 MPS 和 NS 任务。
使用的第三个数据集是多模态音乐表演 (URMP) 数据集 [60]。该数据集包含 44 个合奏表演的音乐、真实 MIDI 和视频剪辑。我们将音乐录音和真实情况用于我们的实验。
我们删除了所有包含 MusicNet 数据集中不可见的乐器类的剪辑，并将剩余的 22 个剪辑用于实验。我们将这个剩余的集合表示为 URMP-22。
请注意，URMP-22 数据集仅包含乐器的 7 个类别，并且 URMP-22 中的一些多数类别（例如，长笛，占总长度的 15.37%）在 MusicNet 中是少数（仅占 1.62%）。这些数据集的详细统计数据见表 III。我们使用在 MusicNet 训练集上训练的模型并在 Ext-Su 和 URMP 数据集上进行测试。也就是说，后两个数据集被评估为外部数据，它们具有不同的仪器类别部分，如表 III 所示。

C. 训练

模型的输入是第四节介绍的 CFP 表示。每个输入段的维度为 352 × 128 × 2，其中 128 是时间帧的数量，352 是音高值的总数（即每倍频程 48 个 bin），2 是通道数。地面实况激活通道是具有相同大小和分辨率的钢琴卷表示。
假设理想的调音，放置地面实况音高。为了便于训练过程，每个单帧起始标签扩展到三个具有淡出边界的帧：对于时间步 ni 的起始事件，ni - 1、ni 和 ni + 1 处的帧都标记为一，而在 ni ± 2、ni ± 3 和 ni ± 4 的帧分别标记为 1/2、1/3 和 1/4。4 为了包含更多的多乐器录音，在扩展的 Su 数据集中，我们从原始 Su 数据集中移除了三个钢琴独奏。
授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第7页
WU et al.: MULTI-INSTRUMENT AUTOMATIC MUSIC TRANSCRIPTION WITH Self-Attention-Based INSTANCE SEGMENTATION 2803 默认跳数为 20 ms。批量大小设置为 8，而每个 epoch 为 3,000 步。我们使用 Adam 优化器对模型进行微调，初始学习率设置为 0.001。最大训练 epoch 数设置为 20，在验证准确度达到最大值 6 epoch 后具有提前停止机制。该模型在 Ubuntu18.04 机器上的两个 RTX-2080 GPU 卡、一个具有 20 个内核的 i9-9820X CPU 和 128 GB RAM 上进行训练。通常，完成模型的训练过程大约需要 12 个小时。所有实验代码和检查点都可以在：https://github.com/BreezeWhite/Music-Transcription-with-Semantic-Segmentation 上找到。

D. 评估指标

据我们所知，尚未系统地讨论多仪器 AMT 的评估。以前的 MPS 方法是通过流的所有可能排列的最高帧级精度值来评估的 [8]、[27]。然而，这种评估方法不适用于需要转录特定类别乐器的场景。因此，我们考虑一种更严格的方法，其中帧或音符级别的预测结果仅在其所有属性（即，用于帧级预测的音高和乐器类别；音高，起始，以及用于音符级别预测的乐器类别）都被正确预测。这里，术语“正确预测”意味着 1) 音高在真实音高的半个半音内，2) 它的开始在真实音符开始的 ±50 ms 范围内，并且 3) 它的乐器类别与真实的乐器类别相同。需要注意的是，仅使用 1) 等效于传统的 MF0 评估，使用 1) 和 2) 等效于 MIREX MF0 运动中的“仅发病”NT 的情况。
5 另请注意，在 MPS 和 NS 情况下，如果预测的乐器类别不正确，则具有正确开始时间和音高的预测音符仍将被识别为错误预测。
准确率、召回率和 F 值是所有评估的指标。这些指标是通过计算测试数据中所有帧/注释上的真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 的数量来计算的：P = TP/(TP + FP),R= TP /(TP + FN)，并且 F1 =2PR/(P + R)。
我们使用 mir_eval 库来计算这些指标 [61]。
6 由于库将 10 ms 作为默认时间分辨率，我们对转录结果应用三次样条插值，将时间分辨率从 20 ms 更改为 10 ms。结果是通过微调验证集上的输出阈值 θ on 、 θ act 和 θ ins 获得的。采用导致最高 F1 分数的阈值。对于所有笔记级别的转录任务，我们报告平均重叠率 (AOR)。给定 t on p 和 t off p 是预测的开始和偏移时间，t on g 和 t off g 分别是真实的开始和偏移时间。重叠率定义为重叠率：= min{t off g ,t off p }−max{t on g ,t on p } max{t off g ,t off p }−min{t on g ,t on p } 。(9) 5 [在线]。可用：https://www.music-ir.org/mirex/wiki/2020:Multiple_Fundamental_Frequency_Estimation_%26_Tracking 6 [在线]。可用：https://craffel.github.io/mir_eval/ 剪辑的 AOR 值是该剪辑中所有 TP 音符的平均值。因此，要报告的最终结果是数据集中所有剪辑的精度、召回率、F1 分数和 AOR 值的平均值。对于仪器评估，我们首先计算每个剪辑中每个仪器类别的精度、召回率、F1 分数和 AOR，然后报告具有该仪器类别的所有剪辑的这些值的平均值。
我们考虑了另外两个指标，这些指标揭示了模型转录仪器信息的能力。首先，我们考虑测试集中存在的所有仪器类 S 的 F1 分数 (σ F1 ) 的标准差： σ F1 :=  1 |S| − 1  s∈S (F s − ¯ F) 2 , (10) 其中 F s 是仪器类别 s 的 F1 分数，而 ¯ Fi 是所有仪器类别的 F1 分数的平均值。较大的 σ F1 值意味着该模型偏向于某些特定工具，而较小的 σ F1 意味着该模型是公平的。
其次，乐器精度（A ins ）是模型在预测乐曲中存在的乐器类别时的精度。该指标用于衡量模型在仪器选择过程（即选择活动输出通道）中的表现，如第 IV-D 节所述。对于乐器类别为 S g 且预测乐器类别为 S p 的乐曲，乐器精度为 A ins := |S p ∩S g | |S p ∪S g | . (11) 六。实验结果 A. 与仪器无关的转录：MPE 和 NT 我们首先评估忽略仪器信息的 AMT 场景。表 V 列出了钢琴独奏数据集（即 MAPS）和两个多乐器数据集（即 MusicNet 和 Su-10）上三种设置（即 Conv、Conv-LS 和 Attn-LS）的 MPE 和 NT 结果. 表 V 底部列出了三种基线方法以供比较。首先，[15] 可以看作是 Conv 的简化版本；它仅针对 MPE 任务进行训练，并在 MAPS 数据集 [62] 中的配置 II 训练集上进行训练，而不是在外部 MAESTRO 数据集上进行训练。其次，[10] 是 Onsets and Frames 方法，这是最先进的钢琴转录方法。第三种基线方法 [25] 是一种新的基于 CNN 的 AMT 方法，对原始音频信号进行操作。Su-10 上 [25] 的 F1 分数直接根据论文中报告的精度和召回率计算得出。再次注意，单乐器钢琴独奏 AMT 和多乐器 AMT 的模型是在不同的数据集上训练的（参见第 VB 节）。它仅针对 MPE 任务进行训练，并在 MAPS 数据集 [62] 中的配置 II 训练集上进行训练，而不是在外部 MAESTRO 数据集上进行训练。其次，[10] 是 Onsets and Frames 方法，这是最先进的钢琴转录方法。第三种基线方法 [25] 是一种新的基于 CNN 的 AMT 方法，对原始音频信号进行操作。Su-10 上 [25] 的 F1 分数直接根据论文中报告的精度和召回率计算得出。再次注意，单乐器钢琴独奏 AMT 和多乐器 AMT 的模型是在不同的数据集上训练的（参见第 VB 节）。它仅针对 MPE 任务进行训练，并在 MAPS 数据集 [62] 中的配置 II 训练集上进行训练，而不是在外部 MAESTRO 数据集上进行训练。其次，[10] 是 Onsets and Frames 方法，这是最先进的钢琴转录方法。第三种基线方法 [25] 是一种新的基于 CNN 的 AMT 方法，对原始音频信号进行操作。Su-10 上 [25] 的 F1 分数直接根据论文中报告的精度和召回率计算得出。再次注意，单乐器钢琴独奏 AMT 和多乐器 AMT 的模型是在不同的数据集上训练的（参见第 VB 节）。第三种基线方法 [25] 是一种新的基于 CNN 的 AMT 方法，对原始音频信号进行操作。Su-10 上 [25] 的 F1 分数直接根据论文中报告的精度和召回率计算得出。再次注意，单乐器钢琴独奏 AMT 和多乐器 AMT 的模型是在不同的数据集上训练的（参见第 VB 节）。第三种基线方法 [25] 是一种新的基于 CNN 的 AMT 方法，对原始音频信号进行操作。Su-10 上 [25] 的 F1 分数直接根据论文中报告的精度和召回率计算得出。再次注意，单乐器钢琴独奏 AMT 和多乐器 AMT 的模型是在不同的数据集上训练的（参见第 VB 节）。
表 V 显示，对于 MAPS 数据集，三个提出的模型在 MPE 上具有相似的 F1 分数。然而，在 NT 上，ConvLS 和 Attn-LS 分别优于 Conv 10.49% 和 8.45%。这表明标签平滑确实为音符级转录带来了好处，可能是因为起始标签比音高激活标签稀疏。在多仪器数据集中也可以观察到使用标签平滑的改进。对于 MusicNet，使用标签平滑可提高 MPE 性能授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第8页
2804 IEEE/ACM 音频、语音和语言处理交易，卷。2020 年 2 月 28 日，多音高估计 (MPE) 的表 VR 结果和跟踪 NT 表 VIC 罗斯数据集评估结果。粗体值代表每个数据 ET 的最佳模型 6.21% 和 NT 性能 9.88% ，分别。对于 Su-10，使用标签平滑分别将 MPE 性能提高了 4.69%，NT 性能提高了 3.14%。Attn-LS 在 MusicNet 上表现更好，但在其他两个数据集上表现更差。
应该再次指出，上述结果是仅发病 NT 的情况。我们的实验表明，对于 MAPS 上的 Attn-LS，起始偏移 F1 分数为 30.31%，该值远低于仅起始 F1 分数的 79.57%，并且在起始偏移 NT 中表现出挑战。
在查看基线方法的结果时，它表明在 MPE 中，我们之前的方法 [15] 在 MAPS 上优于 [10]，在 MusicNet 测试集上优于 [25]。这表明了 Conv 的有效性，因为 [15] 也是基于 ASPP 和 U-net 的模型。此外，Conv-LS 在 Su-10 数据集上优于所有其他模型。至于 NT 任务，据我们所知，这是第一次在音符级别上进行评估，[10] 在 MAPS 上的表现优于其他人，而 Attn-LS 在 MusicNet 和 Su-10 上的表现优于其他人。总之，我们提出的设置在两个多仪器数据集上优于基线方法，在这些评估中，在 MPE 上使用 ASPP 效果更好，在 NT 上使用 self-attention 效果更好。另一方面，我们的设置在单仪器 MAPS 数据集上效果较差。[15] 实现了高 MPE 性能，因为它过度拟合了 MAPS 训练集。然后，在 MAESTRO 数据集上进行训练时，它变得不那么有效。[10] 优于所有的另一个原因是它仅设计用于钢琴转录而不是通用转录系统。在 [10] 中使用了一个损失函数来模拟钢琴的音符起音和衰减。
B. MPS 和 NS：跨数据集评估表 VI 列出了基于仪器的 MPS 和 NS 以及与仪器无关的 MPS 和 NS 的平均精度、召回率、F1 分数、仪器准确度和 AOR。在 MusicNet 训练集上训练的模型在 MusicNet 测试集、Ext-Su 和 URMP-22 上进行评估。后两个数据集的评估可以看作是泛化测试的跨数据集评估。
与单仪器 AMT 的结果类似，标签平滑始终提高所有任务的 F1 分数和 AOR。表 VI 中的一个主要发现是，与其他两个基于卷积的模型相比，自注意力机制始终如一地提高了仪器精度 (A ins )。Attn-LS 甚至在内部测试集上实现了 100% 的 A ins；这意味着该模型成功识别了 MusicNet 测试集的 10 个测试片段中的 32 个单独的乐器标签（见表 IV）。
这也意味着仪器知情和仪器不可知场景变得等价，因此具有相同的 P、R、F1 和 AOR。相反，对于其他仪器准确率大多低于 70% 的案例，仪器通知转录之间存在巨大差距（即 F1 分数差异为 4-27%，AOR 差异为 8-32%）和仪器无关的转录。另请注意，在 NS 任务中，仪器通知转录和仪器无关转录之间的差距小于 MPS 任务中的差距，这可能是因为 NS 任务的主要瓶颈是起始检测而不是仪器识别。
表 VI 还显示，Attn-LS 并没有比 Conv-LS 提高 MPE/NT 性能，但可以极大地提高仪器精度。一个可能的原因是，与扩张卷积相比，self-attention 具有更广泛的感受野。
如此广泛的感受野可以引导模型学习全局信息，例如音色、音高范围和不同乐器的排列。另一方面，卷积更好地关注局部信息，例如音符开始。此外，仪器授权许可使用仅限于：北京航空航天大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第9页
WU et al.: MULTI-INSTRUMENT AUTOMATIC MUSIC TRANSCRIPTION WITH self-attention-based instance Segmentation 2805 表 VIII NSTRUMENT-WISE EVA L UAT ION Results on the MUSICNET Test Set accuracy and AOR in the NS tasks。因此，Conv-LS 模型不仅在帧级转录，而且在音符级转录中仍然具有竞争力，因为它在音符时长估计方面的有效性。URMP-22 的行为不同于 MusicNet 和 Ext-Su。这可能是因为数据集不匹配：由于 URMP 数据集中的音乐片段主要用于视频中的姿势估计，因此音符长度通常足够长，以提供更好的慢动作姿势估计质量。
C. 不同仪器的比较为了进一步讨论单个仪器的性能，我们重点比较了 MusicNet 测试集上的 Conv-LS 和 Attn-LS，这是我们的模型达到 100% 仪器准确度的唯一数据集。表 VII 列出了 MusicNet 测试集中七个乐器类的结果。不出所料，与其他类别相比，大多数类别的乐器（即钢琴和小提琴）的识别实现了高性能，但 F1 最低的乐器类别并不是数据集中最罕见的乐器类别。这将在第 VI-D 节中讨论。
所有类都存在仪器通知和仪器无关场景之间的性能差距。甚至，对于 NS 任务，Conv-LS 无法识别三种少数乐器类别（即喇叭、巴松管和单簧管）；它们在第 IV-D2 节中描述的仪器选择过程中被遗漏。这三种乐器的注释只有在通知乐器类别信息的情况下才能转录。
Attn-LS 模型缩小了这样的差距——通过自我注意机制，成功选择了测试集中的所有仪器通道。这再次揭示了乐器识别在乐器级转录中的重要性。
F1 分数的标准差 (σ F1 ) 揭示了模型在转录不同工具时执行的公平性。
可以观察到，Attn-LS 是一个比 Conv-LS 更公平的模型，因为它对于所有四种多仪器 AMT 场景都具有较低的 σ F1 值。这也可以通过在 Instrument-informed NS 上比较 Conv-LS 和 Attn-LS 来看出；它们的 F1 分数相似（分别为 57.66% 和 57.87%；见表 VI），但表 VIII C ONFUSION MAT RIX Attn-LS 的 σ F1 值较小，其中巴松管的 F1 分数提高最多（从29.9% 至 40.1%）。
D. 混淆矩阵分析讨论多仪器 AMT 中仪器类别的混淆并非易事。在多乐器识别中，错误检测的示例总是会导致两个不同乐器类别之间的混淆，但在 AMT 中，错误检测和乐器类别混淆之间的关系是复杂的，因为有多种原因（例如，音高值或起始点的差异）时间）导致错误检测。我们的方法是只讨论乐器类之间的混淆；例如，如果预测的音符有错误的音高、起始和乐器类别，则应将其排除在混淆矩阵的讨论之外，因为它会引入其他类型的错误。对于每个乐器类 s ∈S，我们指定以下三种类型的预测音符： r Type-A：
r Type-B：预测的假样本在 ˆs ∈ S\s 上，但如果将它们的乐器类别更改为 s，它们的音高和起始点是固定的，则可能变为真阳性。
r Type-C：s 上的其他预测错误示例。
我们只讨论 B 类示例贡献的仪器类之间的混淆，而 C 类示例仅列出以供参考。表 VIII 显示了 MusicNet 测试集中七个乐器类的混淆矩阵，用于使用 Attn-LS 的乐器无关 NS 任务。表八行授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第10页
2806 IEEE/ACM 音频、语音和语言处理交易，卷。2020 年 2 月 28 日图 5. 输入数据表示、Attn-LS 的输出、最终输出和从“2628.wav”（贝多芬的小提琴奏鸣曲第 10 号）剪辑的片段（10-13 秒）的基本事实的图示在 G 大调，乐章 3，谐谑曲：快板 - 三重奏）在 MusicNet 测试集中。顶行，从左到右：频谱（Z f ），钢琴的输出激活通道（Y act pn ），小提琴的输出激活通道（Y act vn ），钢琴的预测音符，小提琴的预测音符。底行，从左到右：倒谱（Z q ），钢琴的输出起始通道（Y on pn ），小提琴的输出起始通道（Y on vn ），钢琴的真实音符，真实音符的小提琴。深灰色线：预测的音符激活。浅灰色线条：真实笔记激活。蓝点：注意开始。红点：音符偏移。
表示真实仪器类，列表示预测类。Type-C 笔记（用“unk”表示，意思是“未知”）列在最右边一列以供参考。每个类别的百分比是根据 A 型、B 型和 C 型音符的总和计算的。例如，第一行解释为：对于所有与钢琴相关的音符，根据上述条件，72.6%为真阳性，0.1%预测为小提琴但应预测为钢琴，其余27.3%预测为钢琴但由于各种原因是错误的。
表 VIII 显示了中提琴的 F1 分数是如何在所有乐器类别中最低的，尽管它不是极少数。首先，中提琴音符的一部分被错误分类为其他两种类似的弦乐器，小提琴和大提琴（相对于 28% 的真阳性音符，分别为 5.0% 和 12.0%）。其次，中提琴通道中 54.5% 的音符为 C 型，这是所有乐器类别中最高的。在圆号、巴松管和单簧管中也可以看到乐器类别的混淆。在三种管乐器中，圆号的 B 型音符（13.7% 预计为巴松管，25.3% 预计为单簧管）和 C 型音符（50.6%）的比例最大。解释这种现象的另一种方法是注意到中提琴和圆号通常都作为合奏音乐的内部部分。这些部分很可能与其他乐器重叠或交织在一起。总而言之，我们确定了影响多仪器 AMT 中单个仪器性能的三个因素：1）与其他仪器的信号级相似性，2）与其他仪器的语义级关系，以及 3）训练数据量.
E. 插图图 5 显示了 MusicNet 测试集中包含钢琴和小提琴的片段的输入数据表示、Attn-LS 的输出、最终输出和ground truth；有关详细信息，请参阅标题。频谱和广义倒谱是相互抵消的两个特征：一个抑制谐波，另一个抑制次谐波。神经网络模型的输出通道显示了两种仪器开始和激活的可能性。可以看出，模型学习了起始和激活之间的关系：起始事件比激活事件出现得更早。然而，起始预测的分布不是很局部，可能是因为起始标签不是在单个时间步分配的，而是在训练期间的一个区间内分配的。将后处理后的最终输出音符事件与真实音符进行比较，我们观察到该模型有效地捕捉了钢琴的最低声部和小提琴演奏的主要旋律。另一方面，无法识别钢琴的最高声部，该声部中的某些音符被识别为小提琴。重复钢琴 C4 音符的声音也无法识别。此外，该模型不断高估音符的持续时间。这些观察清楚地表明了识别复调音乐的内部部分和音符的偏移事件的困难。这个声音中的一些音符被识别为小提琴。重复钢琴 C4 音符的声音也无法识别。此外，该模型不断高估音符的持续时间。这些观察清楚地表明了识别复调音乐的内部部分和音符的偏移事件的困难。这个声音中的一些音符被识别为小提琴。重复钢琴 C4 音符的声音也无法识别。此外，该模型不断高估音符的持续时间。这些观察清楚地表明了识别复调音乐的内部部分和音符的偏移事件的困难。
七。讨论在本节中，我们将讨论在多仪器 AMT 系统的开发中发现的重要但超出本文范围的关键问题。
第一个问题是多仪器 AMT 的感知和功能评估方法。尽管多仪器 AMT 系统可能会打开多种应用场景，但尚不清楚 F1-score 和 AOR 等传统指标是否能有效地揭示系统在目标应用程序上的性能。值得一提的是，表 V-VII 中报告的精确召回对是高度不平衡的，并且在不同的设置下会有所不同。一个有趣的趋势是，在验证集上微调 F1 分数时，授权许可使用仅限于：北航大学。从 IEEE Xplore 于 2022 年 7 月 18 日 13:57:46 UTC 下载。有限制。
第11页
WU et al.: MULTI-INSTRUMENT AUTOMATIC MUSIC TRANSCRIPTION WITH SELF-BASED INSTANCE SEGMENTATION 2807 音符级转录往往具有高准确率和低召回率，而帧级转录往往具有高召回率和低准确率。然而，这种微小的差异在某些应用场景中是至关重要的。例如，对于声音化转录结果的聆听体验，首选高精度，因为它可能会消除烦扰听众的不需要的音符，而对于转录结果的编辑体验，有时首选高召回率，因为删除不需要的音符可能比删除不需要的音符更容易。为编辑添加未检测到的注释。如何以及在何种程度上可以验证和量化这些将需要进一步的主观测试 [63] 和用户研究 [64]，而不仅仅是比较精度和召回值。另一个含义是，低级语义（例如，帧级）的转录在某些实际应用中仍然具有其自身的优点，这取决于它如何与高级转录结果有效结合以及结果如何在感知和功能上进行评估。
第二个问题是过度拟合。实验结果清楚地表明，与拟合 MAESTRO 数据集相比，[15] 过拟合了 MAPS 数据集，与拟合 Ext-Su 和 URMP-22 数据集相比，本工作中提出的模型也过拟合了 MusicNet 数据集。比较 Attn-LS 和 [15]（参见表 V），[15] 中的过度拟合问题在多仪器数据（即 MusicNet 和 Su-10）中的严重程度低于单仪器数据（即，地图）。这证实了第一节中提到的多任务学习的假设：对多组标签进行训练可以减少对单个标签的过度拟合。然而，这样的假设在多标签预测（即 MPS 和 NS）任务中并没有很好的帮助，因为在跨数据集评估中仍然观察到严重的过度拟合。这可能归因于不同数据集（见表 III）和测试样本（见表 IV）之间仪器分布的差异，这导致了不同数据集之间不匹配的额外维度。在这种情况下，使用独立的多仪器识别模型（例如 [13]）可能是避免此问题的解决方案。
最后但并非最不重要的问题是训练数据的质量。事实上，这项工作中使用的数据集大多以半自动方式进行注释，并且没有手动检查（而且不可能这样做）。我们发现了几个可能在起始检测中引入错误评估的错误（例如，地面实况偏移了 50 毫秒）。由于手动标记很难，使用 A/S 模型 [65] 或弱监督学习 [66] 自动生成的训练数据，[67] 应该是多仪器 AMT 未来工作的核心问题。

八。结论

我们已经明确描述了多仪器 AMT 的广义问题场景，并描述了它们之间的关系。我们提出的框架在三个层面上在技术上是有效的：首先，它对特定的多仪器 AMT 任务的新问题场景进行基准测试，例如仪器通知和仪器无关的笔记流任务；其次，它在帧级 MPS 上优于基线方法；第三，它的退化版本在没有对模型进行任何重新训练的情况下，仍然与其他单仪器 AMT 方法具有竞争力。根据实验结果，我们建议基于 CV 的实例分割解决方案，例如具有标签平衡焦点损失和标签平滑的图像到图像翻译网络，非常适合多仪器 AMT。另一方面，我们的调查表明，到目前为止，多仪器 AMT 仍然是一个具有挑战性的问题，尤其是在过度拟合、注释质量以及感知和功能方面的评估方法等问题上。解决这些问题是将 AMT 技术应用于实际应用的关键步骤。

A Lightweight Instrument-Agnostic Model for Polyphonic Note Transcription and Multipitch Estimation

2022年，无引用

第0页
1 简介2 背景和相关工作3 模型4 实验4.1 注释转录基线比较4.2 消融实验4.3 与仪器特定方法的比较4.4 MPE 基线4.5 效率5 结论6 参考文献
第1页

用于复音音符转录和多音调的轻量级仪器不可知模型 Rachel M. Bittner [ , Juan José Bosch [ , David Rubinstein [ , Gabriel Meseguer-Brocal ] , Sebastian Ewert [ [ Spotify, ] IRCAM ABSTRACT AutomaticMusic Transcription (AMT) 已被公认为具有广泛范围的关键支持技术应用程序。鉴于任务的复杂性，最好的结果通常报告为关注特定设置的系统，例如，特定于仪器的系统往往会比与仪器无关的方法产生更好的结果。
类似地，当仅估计逐帧f 0 值而忽略更难的音符事件检测时，可以获得更高的准确度。
尽管它们的准确性很高，但这样的专业系统通常无法在现实世界中部署。存储和网络约束禁止使用多个专用模型，而内存和运行时约束限制了它们的复杂性。在本文中，我们提出了一种用于乐器转录的轻量级神经网络，它支持复音输出并泛化到各种乐器（包括人声）。我们的模型经过训练，可以联合预测逐帧起始、多音高和音符激活，我们通过实验证明这种多输出结构提高了最终的帧级音符精度。尽管它很简单，但基准结果显示我们的系统的音符估计大大优于可比较的基准，并且其帧级精度仅略低于专门的最先进的 AMT 系统。
版权所有 2022IEEE。发表于 ICASSP2022 -2022 IEEE 国际声学、语音和信号处理会议 (ICASSP)，计划于 2022 年 5 月 7 日至 13 日举行虚拟会议；2022 年 5 月 22 日至 27 日在新加坡举行。个人使用这种材料是允许的。但是，为了广告或促销目的或创建新的集体作品以转售或重新分发到服务器或列表，或在其他作品中重复使用本作品的任何受版权保护的组件，必须从 IEEE 获得许可，以便重新打印/重新发布此材料。联系人：版权和许可经理/ IEEE 服务中心/ 445Hoes Lane /POBox 1331/ Piscataway,NJ 08855-1331,USA。电话：+国际。908-562-3966。
索引词——自动音乐转录、音符估计、多音高估计、和弦、低资源 1. 引言音乐的自动转录已经研究了四十多年[1]。在此期间，系统得到了显着改进，特别是自深度学习兴起以来。然而，该任务仍未解决，部分原因在于各种内在挑战[1]，但也由于缺乏人类一致同意的客观事实[2]。由于任务的内在难度，AMT 系统通常被设计成有限的范围，并且专注于一个子任务。AMT 中有许多常见的子任务，它们沿三个维度分支：（1）输出复音的程度（单音，复音）（2）要估计的输出类型（音符，f 0 ），以及（3）输入音频的类型（pop歌曲，钢琴独奏，吉他独奏，爵士乐团等）。例如，专门针对特定乐器类允许模型利用特定乐器的特征来提高转录准确性，例如钢琴[3-5]、吉他[6,7]或歌声[8,9]。类似地，为估计特定输出类型而构建的模型，或者仅限于单声道设置 [10] 可以进一步提高这些场景的准确性。在许多实际应用中，部署大量专用系统变得难以处理，例如由于存储、网络和维护限制。此外，对于许多仪器来说，创建一个足够大的数据集来训练现代方法是一项挑战。9]。类似地，为估计特定输出类型而构建的模型，或者仅限于单声道设置 [10] 可以进一步提高这些场景的准确性。在许多实际应用中，部署大量专用系统变得难以处理，例如由于存储、网络和维护限制。此外，对于许多仪器来说，创建一个足够大的数据集来训练现代方法是一项挑战。9]。类似地，为估计特定输出类型而构建的模型，或者仅限于单声道设置 [10] 可以进一步提高这些场景的准确性。在许多实际应用中，部署大量专用系统变得难以处理，例如由于存储、网络和维护限制。此外，对于许多仪器来说，创建一个足够大的数据集来训练现代方法是一项挑战。
应用程序还可以对模型的大小、其（峰值）内存消耗和运行时间添加额外的限制。因此，最新发布的最先进技术与实际可在各种环境中部署的模型之间通常存在差距。
在这项工作中，我们考虑了一个广泛的场景：一个与乐器无关的 1 复音 AMT 模型，它估计音符和多音高输出。所提出的模型是一个轻量级的神经网络，由于其低内存和处理时间要求，它可以在低端设备上高效运行。除非另有说明，否则我们处理单个乐器类别的复音录音（例如
钢琴独奏、小提琴合奏、独唱、合唱团等），但不限制我们考虑的课程。它被联合训练来预测帧级别的起始、多音高和音符后验图。在推理过程中，我们对帧级后部图进行后处理以获得音符事件和多音高信息。研究了所提出的模型无需重新训练即可转录各种乐器和人声的能力，并与最近的与乐器无关的复音音符估计的基线模型进行比较。此外，我们通过消融研究评估了所提出模型的组件的贡献。本文中讨论的所有代码和训练模型均已公开 2 。此外，我们仅使用公共数据集进行培训和评估，以促进可重复性。
2. 背景和相关工作关于 AMT 有大量工作。由于篇幅限制，我们参考 [1, 11] 以获得更全面的概述。如前所述，AMT 系统具有三个维度：（1）考虑的输出复音程度，（2）估计的输出类型和（3）输入音频的类型。在这项工作中，我们考虑了复音设置，其中一次输出中可能存在多个音符/音高；请注意，单声道 AMT 是复音 AMT 的严格子集，因此我们也支持单声道源。
AMT 输出通常是帧级多音高估计 (MPE) 或音符级估计，它们以不同的粒度级别转录复调音乐 [1]。两者都有用，具体取决于应用程序：MPE 提供较低级别的表现性能信息（例如颤音、滑音），而音符级别估计提供更接近乐谱的信息。MPE 方法预测在给定时间范围内有效的基本频率（f 0 s）（请注意，即使不是严格等价，我们也可以按照该领域的文献 [1] 互换使用音高和 f 0）。他们通常首先估计一个音调后验图[12, 13]，其中每个时间频率区间都被分配一个估计该基频在给定时间处于活动状态的可能性。此类矩阵 1 “与仪器无关”是指“不特定于仪器类”。
2 https://github.com/spotify/basic-pitch arXiv:2203.09893v2 [cs.SD] 2022 年 5 月 12 日
第2页
通常包含多个箱体 persemitone，它允许估计音高的小（“连续”）变化。各种方法旨在估计和随后将来自复音录音的 MPE 输出分组为音符事件[14-18]，或尝试将音高分组为轮廓 [11,12,19]。音符估计（或音符跟踪）方法旨在估计音符事件（定义为：音高、开始时间、偏移时间）。音符不能从 MPE 系统的输出中简单地估计，因为 MPE 信息不编码集合/偏移，并且保留不应总是量化到最近半音的音高波动。尤其是歌声很难估计音符，与钢琴等乐器相比，歌声可能在中心音高[9] 附近有很大的波动。已经提出了多种方法来从音高后验图中估计音符，例如使用中值滤波 [11]、隐马尔可夫模型 [16] 或神经网络 [20, 21]。虽然大多数方法独立考虑每个半音，但一些方法尝试使用谱似然模型 [1, 18] 或音乐语言模型 [3, 17] 对音符之间的交互进行建模。Transformers 最近被应用于 AMT，直接从钢琴音乐中的频谱图预测类似 MIDI 的音符事件[5]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。隐马尔可夫模型[16] 或神经网络[20, 21]。虽然大多数方法独立考虑每个半音，但一些方法尝试使用谱似然模型 [1, 18] 或音乐语言模型 [3, 17] 对音符之间的交互进行建模。Transformers 最近被应用于 AMT，直接从钢琴音乐中的频谱图预测类似 MIDI 的音符事件[5]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。隐马尔可夫模型[16] 或神经网络[20, 21]。虽然大多数方法独立考虑每个半音，但一些方法尝试使用谱似然模型 [1, 18] 或音乐语言模型 [3, 17] 对音符之间的交互进行建模。Transformers 最近被应用于 AMT，直接从钢琴音乐中的频谱图预测类似 MIDI 的音符事件[5]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。虽然大多数方法独立考虑每个半音，但一些方法尝试使用谱似然模型 [1, 18] 或音乐语言模型 [3, 17] 对音符之间的交互进行建模。Transformers 最近被应用于 AMT，直接从钢琴音乐中的频谱图预测类似 MIDI 的音符事件[5]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。虽然大多数方法独立考虑每个半音，但一些方法尝试使用谱似然模型 [1, 18] 或音乐语言模型 [3, 17] 对音符之间的交互进行建模。Transformers 最近被应用于 AMT，直接从钢琴音乐中的频谱图预测类似 MIDI 的音符事件[5]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。使用谱似然模型 [1, 18]，或音乐语言模型 [3, 17]。Transformers 最近被应用于 AMT，直接从钢琴音乐中的频谱图预测类似 MIDI 的音符事件[5]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。使用谱似然模型 [1, 18]，或音乐语言模型 [3, 17]。Transformers 最近被应用于 AMT，直接从钢琴音乐中的频谱图预测类似 MIDI 的音符事件[5]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。少数 AMT 模型同时执行音符和音高估计 [14, 18, 22]，并且大多数使用单音数据。关于输入音频特性，传统的基于信号处理的 AMT 方法比最近的方法更能推广到多种仪器，并且更简单、更快速 [1, 12]。然而，性能最好的系统是以更高的计算要求和对仪器特定系统的关注为代价的[4]。
3. 模型我们的目标是创建一个 AMT 模型，该模型可以在不重新训练的情况下泛化一组复音（或单音）乐器，同时又足够轻巧，可以在低资源环境下运行。我们在运行推理时同时考虑速度和峰值内存使用量，并故意将自己限制在浅层架构中以保持较低的内存需求。请注意，模型的参数数量不一定与其内存使用相关；例如，卷积层需要很少的参数，但由于特征映射大小，内存使用率仍然很高。
谐波叠加。
给定输入音频，该模型首先计算一个常数 QTransform (CQT)，每个半音为 3 个 bins，跳频大小约为 11ms。我们没有使用例如 amel 频谱图并最终使用 Dense 或 LSTM 层（这要求模型具有全频率接收场）[4] 学习投影到输出对数空间频率尺度上，而是从具有所需频率尺度的表示开始。谐波 CQT（HCQT）[13] 是 CQT 的一种变换，它沿三维对齐谐波相关频率，允许小的卷积核捕获谐波相关信息。作为HCQT 的有效近似，在[23] 之后，我们复制CQT 并将其垂直移动对应于每个谐波的频率段数。在这项工作中，我们使用了 7 个谐波和 1 个次谐波。
建筑学。
架构如图所示。图 1 是一个完全卷积模型，以音频为输入并产生三个后验图输出，总共只有 16,782 个参数。该模型的三个输出后部图是时频矩阵，如果 (1) 一个音符的开始正在发生 (Y o ) (2) 一个音符是活跃的 (Y n ) 和 (3) 一个音高是活跃的 (Y p )。所有输出都具有与输入 CQT 相同的时间帧数，并且在频率上，Y o 和 Y n 的分辨率均为每半音 1 bin，而 Y p 的分辨率为每半音 3 bin。
除了具有不同的频率分辨率，Y n 和 Y p 被训练来捕捉不同的概念：Y n 捕捉帧级音符事件图1。NMP 架构。矩阵后验图输出 Y o 、Y p 和 Y n 用绿色标出。σ 表示 sigmoid 激活。
信息在时间和频率上被“音乐量化”，而 Y p 编码帧级多音高信息，捕捉颤音等细节。在训练期间，这些输出中的每一个的目标都是从音符和音高注释生成的二进制矩阵。
该架构的结构是为了利用三个输出的不同属性。我们假设 Y p 是与输入音频“最接近”的输出。估计 Y p 的架构类似于 [13] 的架构，但使用更少的卷积层来减少内存使用。值得注意的是，我们使用相同的八度音阶加上一个半音大小的内核频率，我们发现这有助于避免八度音阶错误。这个卷积堆栈执行“去噪”的形式，以强调多音高后输出并淡化瞬态、谐波和其他非音高内容。
在频率中使用有限感受域的另一个好处是，它消除了对音高移位数据增强的需要。
Y p 后跟两个小的卷积层用于估计 Y n 。这些卷积可以被视为“音乐量化”层，学习如何将多音高后验图进行非平凡分组为音符事件后验图。最后，如 [24] 中，Y o 是使用 Y n 和从音频计算的卷积特征作为输入来估计的，这是识别瞬态所必需的。
训练。
使用二元交叉熵作为每个输出的损失函数，总损失是三个损失的总和。然而，对于 Y o ，存在严重的类别不平衡，导致模型在任何地方输出 Y o = 0。作为对策，我们使用了类平衡交叉熵损失，其中负类的权重为 0.05，正类的权重为 0.95（通过观察所得 Y o 的属性来根据经验设置），这有助于模型在保持稀疏的同时捕获初始值。在训练期间，模型输入是 2 秒的音频，采样率为 22050 Hz。我们以 16 的批大小训练模型，并使用学习率为 0.001 的 Adam 优化器。
在训练期间，对音频应用随机的标签保留增强，包括添加噪声、均衡滤波器和混响。
2
第 3 页
后置图后处理。
与许多音符或轮廓创建后处理方法类似，我们通过使用 Y o 和 Y n 作为输入 [1] 运行后处理步骤来创建由开始时间 t 0 、结束时间 t 1 和音高 f 定义的音符事件，遵循一个过程类似于 Onsets 和 Frames [4] 中描述的内容。一组起始候选者 {(t 0 i , fi )} 由跨时间的峰值选择 Y o 填充，并丢弃可能性 < 0.5 的峰值。音符事件是按照 t 0 i 的降序为每个 i 创建的，通过在时间上向前跟踪 Y n 直到可能性低于阈值 τ n 的时间超过允许的容差（11 帧），然后结束音符。创建音符时，Y n 的所有相应帧的似然性更新为 0。使用所有起始点后，通过迭代 Y n 的可能性 > τ n 降序的 bin 来创建额外的音符事件，遵循相同的笔记创建过程，但在时间上向前和向后跟踪。最后，删除短于 ≈ 120 ms 的音符事件。多音高估计是通过简单地在频率上拾取 Y p 并保留所有大于 τ n 的峰值来创建的。
4. 实验在本节中，我们检查了所提出的方法“Notes and Multipitch”（NMP）的性能，重点关注音符估计任务，但也简要评论了 MPE 任务。AMT 方法通常使用为 MIREX 3 评估任务提出的一组指标进行评估。在这项工作中，我们报告了音符级别 F 小节 ( F )，如果音高在四分之一音内，开始在 50 毫秒内，并且偏移在音符持续时间的 20% 以内，则音符被认为是正确的，音符级别 F 小节无偏移 ( Fno ) 具有与 F-measure 相同的标准，但忽略偏移量和帧级音符精度 (Acc)，这是针对跳数为 10 ms 的帧计算的。我们使用 Fno 作为整体音符估计准确度的主要衡量标准，因为偏移量的定义不如 onsets 客观（例如，由于混响、延音踏板、注释程序）[25]。我们使用 mir_eval [26] 计算这些指标。对于 NMP 和每个消融研究，我们在验证数据集上微调音符创建参数 τn，使其最大化 Fno。
为了评估 NMP 和基线在不同仪器类别中的表现如何，我们使用了 mirdata [27] 库，使用了跨越多种仪器类型的各种训练和测试数据，总结在表 1 中（有关更多具体细节，请参阅引用的论文）。训练集中随机 5% 的轨道用于验证。我们注意到一些数据集的一些额外细节：我们使用去重的“redux”版本的 Slakh，并在一个仪器平衡的 120 个非敲击测试集词干子集上进行测试，并以最少的静音；MedleyDB 和 iKala 中的音符注释是使用 pyin-notes [22] 自动生成的；MedleyDB 的音频文件取自音高跟踪子集 4，对于 iKala，我们使用孤立的人声；对于 Phenicx，我们使用 42 个乐器部分分组的词干（例如小提琴、巴松管）和注释。
4.1。NoteTranscriptionBaseline 比较我们将我们的模型与最近的强基线模型 MIMT [34] 进行比较，这是一种复音的、与乐器无关的音符估计方法。它使用具有注意力机制的 U-Net 架构，并输出一个总参数超过 20M 的音符激活后图，在 MAESTRO 和 MusicNet 上训练。后处理音符后图以创建音符事件。
3 http://www.music-ir.org/mirex/ 4 https://zenodo.org/record/2620624 数据集复调乐器标签火车测试 Molina [28] Mono Vocals N - 38 GuitarSet [29] Mono/ Poly Ac . 吉他 N+ P 648 72 MAESTRO [4] Poly Piano N 1154 128 Slakh [30] Poly Synthesizers N 1590 120 Phenicx [31] Poly Orchestral N - 42 iKala [32] Mono Vocals N+ P 252 MedleyDB [33] Mono Multiple N+ P 103表格1 。使用的数据集摘要。Train 和Test 列表示轨道数。标签列指示可用的注释类型：(N) 注释，§ 多音高。
我们提出的方法和 MI-AMT 的结果列在表 2 中。我们首先注意到 NMP 在所有测试数据集和指标上都大大优于基线 MI-AMT，除了 MAESTRO（钢琴）和 Slakh（合成器）上的可比 Acc。
NMP 对于具有复音乐器（MAESTRO、Slakh、Phenicx、1 ⁄ 2 of GuitarSet）以及单音（Molina 和 1 ⁄ 2 of GuitarSet）的数据集表现强劲，尽管没有对输出音符估计施加单音约束。此外，我们看到具有不同仪器类型的数据集具有一致的性能，验证了 NMP 性能良好而无需特定于仪器。
Molina GuitarSet Maestro Slakh Phenicx Acc Fno F Acc Fno F Acc Fno F Acc Fno F Acc Fno F MI-AMT .48 .31 .11 .43 .59 .27 .39 .30 .07 .40 .23 .07 .13 . 12 .05 NMP .63 .52 .35 .70 .79 .56 .38 .71 .11 .44 .42 .21 .53 .49 .35 NMP-P .60 .55 .38 .67 .78 .55 . 36 .65 .12 .40 .43 .23 .50 .51 .36 NMP-H .45 .36 .20 .50 .65 .40 .27 .48 .10 .33 .36 .17 .37 .39 .23表 2。基线算法、建议方法和消融实验的所有测试数据集的平均音符事件指标。每个列的最佳得分是粗体的。绿色阴影表示得分来自最好得分，最差得分为白色。
通过配对 t 检验，与 NMP（每个指标/数据集）相比，所有未加下划线的结果在统计学上显着不同，p < 0.05。
4.2. 消融实验谐波叠加。
为了检查谐波堆叠作为输入表示的使用，我们训练了一个模型，该模型省略了谐波堆叠层但在其他方面是等效的，在表 2 中表示为 NMP-H。不出所料，鉴于较小的感受野，根据 [13, 23] 中进行的类似实验的结果，谐波叠加的省略大大降低了所有指标和数据集的性能。这表明 Harmonic Stacking 有效地允许模型使用更小的卷积核，同时仍能捕获相关信息。这种比较的一个限制是，当省略谐波叠加时，通道数会减少，这反过来又会降低模型的容量。
Y p 的影响。我们通过训练一个等效模型来测量监督瓶颈层 Y p 对 Y n 的影响，其中 Y p 不受监督，其中 Y n 是其之前的卷积堆栈的输出，图 1 中的 Batch Norm → ReLu → 1 Conv2D (5x5) 层。 1 省略。此条件的结果在表 2 中表示为 NMP - P。我们首先看到 Y p 引入的约束在所有数据集上始终提高 Acc，但是对 Fno 和 F 的影响是混合的；GuitarSet、Slakh 和 Phenicx 没有显着差异，Y p im3
第4页
证明了 MAESTRO 的性能略有下降，而 Molina 的性能略有下降。这表明即使额外的监督对于开始/偏移检测是中性的，它也有助于识别音符音高，并且我们会受益于额外的输出，其中包含一些关于修饰和表现力的信息。
4.3. 与特定仪器的 capproaches Molina (Vocano) GS-solo (TENT) Maestro (OF) Acc Fno F Acc Fno F Acc Fno F Baseline 61.6 64.2 51.3 63.2 76.3 54.6 43.8 95.2 36.4 NMP 62.6 52.3 34.6 71.7 71.7 84.0.9.5.0 NMP 上的平均音符事件度量与人声、吉他和钢琴的乐器特定模型。每列的最佳分数以粗体显示。比较的仪器特定型号名称显示在括号中的列标题中。通过配对 t 检验与 NMP 相比，所有未加下划线的结果在统计学上显着不同，p < 0.05。
我们已经看到，所提出的模型在各种数据集上优于可比较的与仪器无关的基线。为了进一步了解我们模型的上限，我们提供了与最近的开源仪器特定模型的比较。
Onsets and frames(OF) [4] 是一种在 MAESTRO 数据集上训练的复音钢琴转录方法，该方法使用由大约 18M 参数组成的 CNN 和 RNN 共同预测起始和音符后验图，然后是音符创建后处理阶段。
Vocano [9] 是一种单声道人声转录方法，它首先执行声源分离，然后应用预训练的音高提取器，然后是音符分割神经网络，在单声数据上进行训练。
TENT [6] 是一种单音独奏吉他转录方法，它首先执行旋律轮廓提取，然后使用 CNN 架构检测常用吉他元素（如弦曲、滑动和颤音）的演奏技术，以及根据旋律轮廓和识别不同演奏技巧的后处理阶段获得最终音符在每个时间范围内。因此，我们只报告吉他集的独奏、单声道半音部分的结果。
对于吉他，NMP 在所有指标上都优于 TENT，更重要的是，这些是我们所知的吉他集上最先进的结果。Forvocals (Molina), Vocano 在 Fno 和 F 中优于 NMP，但帧级音高精度 (Acc) 与 NMP 相当，这表明 Fno 可以随着起始检测的改进而增加。NMP 和特定乐器方法之间的最大性能差异在于 MAESTRO 数据集与 OF 相比，OF 专门针对钢琴转录进行了训练，并达到了 95.2% 的 Fno ，与我们的方法的 70.9% 相比（这对于这项任务来说仍然是一个相当高的分数）。性能差异的主要原因似乎在于 OF 中更高的起始检测准确度，因为两种方法的 Acc 更相似（OF 为 42.8%，NMP 为 37.5%）。
5 版本 4.1.1.011，http://www.celemony.com/en/melodyne 4.4。MPEBaseline 在这里，我们简要验证 NMP 在 MPE 上的表现，将 NMP 的 MPE 输出与深度显着性模型 [13] 的输出进行比较。我们报告了 Bach 10 [12] 和 Su [2] 数据集的结果，每个数据集都包含 10 个复调西方古典室内乐合奏录音。NMP 的 MPE 输出优于 Bach10 数据集的深度显着性，帧级精度为 72.5±3.8，而深度显着性为 55.7±2.9。然而，深度显着性在 Su 43.6± 7.9 上取得了更好的结果，其中 NMP 为 37.7± 15.4。
虽然这是一个小规模的验证，但这些结果表明 Y p 捕获的信息是有意义的，并且可能与强大的基线模型竞争。虽然每半音 3-bin 分辨率的后验图对于此任务可能看起来分辨率相对较低，但它们可用于估计连续的多音高估计，通过使用估计的 f 0 bin 及其相邻频率 bin 的幅度值。请注意，尽管没有接受过多乐器混合训练，但它似乎取得了令人信服的结果。
4.5. 效率为了说明 NMP 的计算效率，我们将峰值内存使用率和总运行时间与 MI-AMT 进行比较。基准测试是在配备 3.1GHz 四核 Intel Core i7 CPU 和 16GB 2133MHz LPDDR3 内存的 2017 Macbook Pro 上进行的。所有基准测试均使用第一个“短”（0.35 秒）白噪声文件来近似系统的开销，以及来自 Slakh 数据集的“长”（7 分 45 秒）文件，以便为每种方法显示更真实的输入。音频文件在测量前被重新采样到该方法的预期采样率。我们发现两种方法的估计开销相当，NMP 使用 490 MB 峰值内存，使用 7 和 MI-AMT，使用 561 MB，耗时 10 秒；然而，在长文件中，NMP 的性能大大优于 MI-AMT，仅使用 951 MB 峰值内存并耗时 24 秒，而 MI-AMT 使用 3.3 GB 并耗时 96 秒。
5. 结论我们证明了所提出的基于低资源神经网络的模型 (NMP) 可以成功地应用于与乐器无关的复音音符转录和 MPE。NMP 在五个不同的数据集上优于最近的强基线音符估计模型，并且表现类似于 MPE 的深度显着性。此外，我们看到谐波堆叠的使用允许我们的模型在保持其性能的同时保持低资源。与特定于乐器的模型相比，我们看到 NMP 在 GuitarSet 上取得了最先进的结果。然而，它在钢琴和人声方面的表现并不优于乐器专用模型。然而，NMP 具有“一刀切”解决方案的优点，并且计算要求低得多。我们希望鼓励对低资源的进一步研究，
未来的工作可以探索包含许多乐器的音频混合物的低资源转录，以及在这种低资源环境中使用偏移预测。提出的笔记事件创建方法是基于启发式的，更精心设计的类似于 [16, 17] 的模型可能会导致笔记事件创建的改进。虽然这项工作旨在从一开始就创建一个轻量级模型，但我们并没有探索经典的模型修剪或压缩技术，这将进一步提高效率。最后，4
第5页
可以探索音符和多音高输出之间的交互，例如，估计音符级别的弯音。

music transcription