基于递归神经网络人工智能技术的音乐创作

数据库技术电子技术与软件工程
Database Technology Electronic Technology & Software Engineering
基于递归神经网络人工智能技术的音乐创作
马鹏程1 卢树强1 王晓岸1 李晓东2 宋涵宇3
（1. 北京脑陆科技公司北京市 100083 2. 前瑞丽杂志、寺库北京市 100176）
（3. 中央民族大学音乐学院北京市 100081）
摘　要：本文通过循环神经网络结构（RNN）构建长短期记忆网络（LSTM）深度学习算法，附加一种监管员机制（Monitor

Mechanism）实现了高效端到端的多维声波时间序列生成模型 Music-coder，通过该模型生成了著名歌手周杰伦的音乐风格乐曲，与真实
周杰伦音乐数据集量化相似度达到最大 97.73%，并且，80% 的生成音乐通过了专业音乐人测评。本文方案显示，智能算法作为作曲工具进
行音乐生成与创作，是一种有效的音乐制作方案，将会给音乐制作带来新发展。
关键词：智能算法；多维声波；时序模型；循环神经网络
1 简介实现分类目标。有鉴于此，这种端到端的数据模型技术能够极大地
音乐创作（music creation）是指音乐专业人员或作曲家创造具为不同的基于数据应用的场景和任务提供极大的便利和效率。而深
有音乐美的乐曲的复杂的精神与技能生产过程 [1]。主要方式是按照度学习对于音乐创作与生成的场景任务，通过有效的进行音乐数据
不同音节对应时间序列关系进行组合，如旋律和和声，并配以相宜集的构造和模型的设计选择，从而生成新的音乐。这也将使得音乐
的节奏进行组织产生的具有特殊音色和纹理动态声波。音乐创作通创作对于更多的人能够完成，也能够为人类带来更多不同类型和不
常是由受过专业音乐培训和教育的作曲家创造具有音乐美的乐曲，同风格的优美音乐。如文献 [10] 构建了一种基于神经网络结果的生
是一项极其复杂的技术和任务。成模型，能够生成像人类创作出的和谐和优美的音乐。文献 [11] 中
随着人工智能深度学习算法在图像识别 [2][3][4]，视频检测 [5]，基于 RNN 深度神经网络结构设计的模型结合音乐先验知识生成了
自然语言处理 [6][7] 及语音处理 [8] 等方面的优秀表现和对应行业的广 pop music。文献 [12] 通过神经网络进行了序列建模，基于简单的音
泛应用，深度学习模型技术的发展完善及应用的场景正在越来越多乐数据样本集进行了辅助音乐创作。文献 [13] 通过双向长短时记忆
地被挖掘。深度学习算法 [9] 是一种新兴的多层神经网络降维算法，（BLSTM）网络结构模型和对应的数据集，进行了和弦音乐的生
通过组建含有多个隐层的神经网络深层模型，对输入的高维数据逐成。文献 [14] 中通过弱监督深度递归神经网络，以音频能量功率谱
层提取特征，以发现数据的低维嵌套结构，形成更加抽象有效的高作为输入，进行了舞曲生成。文献 [15] 中基于深度学习中的自编码
层表示。如图 1 所示，一个具有三层卷积连接层和两层全连接层的机（VAEs）和对抗生成网络模型（GANs），进行了音乐分格迁移
神经网络结构，每层对输入的数据自动实现了抽象特征提取，最后生成。
图 1：神经网络结构示例
176
电子技术与软件工程数据库技术
Electronic Technology & Software Engineering Database Technology
图 2：Music-Coder 音乐生成流程
2 本文工作说明
通过第一章我们看到对应于不同的音乐素材和类型及任务，可
以选择不同的生成模型和方案。这篇文章中，我们主要实现通过神
经网络模型生成特定作曲家类型音乐风格的音乐。由于音乐的载体
是声音，而声音类型的数据可以看作是一种定长的时序数据。基于
此，所以我们选择了可以处理时间序列数据类型的一种神经网络结
构 LSTM[16][17] 来实现了通过一种附加约束的监管员机制的音乐生成
器（Music-coder），并进行音乐生成，并且取得了优秀的音乐生成
效果。Music-coder 音乐生成器的主要工作流程如图 2 所示。本文
主要工作为：
（1）通过应用一种 LSTM 深度学习模型，实现了对特定作曲
分格的音乐生成。
（2）并对生成的音乐集进行了与原创音乐集相似度计算，在
生成音乐特征分布于相似度 2 个指标上都达到了较好的效果。
（3）通过真实音乐人与作曲家对生成音乐数据进行双盲监测，
平均通过率达到了 80% 以上。
3 音乐生成方案设计
3.1 数据集选择与处理
图 3：RNN 模型结构示意
我们收集了著名音乐人周杰伦（由于周杰伦的作曲风格具有个
人特色，且类型相对较丰富）的 midi 格式作曲素材，总共 250 首，需要对应的约束条件，如定义 3 所述。
平均每首时长约 2-4mins，从其中选择了满足 3-4Mins 时长的 60 首定义 1：如果 M 为音乐数据，则 Mt∈N，N 为有限数集，Mt
作为训练数据集 1（DataSet1）。除此之外，对 60 首 midi 作曲进为 t 时刻该音乐的音节；
行了分轨提取与处理，总共提取 XXX 轨，将轨音乐作为训练数据定义 2：如果 M 为序列数据集，则 Mt=f(M（t-1），M（t-2）…….
集 2（DataSet2）。 M(t-n)；
定义 3：如果 M 为音乐数据，则 f(M)≤C，C 为约束条件集；
3.2 数据预处理与算法设计
基于上述定义 1，定义 2，定义 3 的音乐数据结构的特性，潜
3.2.1 音乐数据结构分析与模型选择在的满足处理该类特征数据的模型方案有基于 RNN 结构的深度学
音乐数据结构是一种标准化的时序数据，不同的时刻数据对应习模型 [18]，基于专家设计的音乐规则组合模型的生生成模型 [19]，
的是一个有限集，即如定义 1 所述。同时，音乐又是一种时序关联基于神经网络进行音乐生成的模型 [20]，基于隐马尔科夫 HMM 的
数据，所具有的特性如定义 2 所述。最后，由于音乐的生产最后是音乐序列生成模型 [21]，基于神经网络和搜索树结合的音乐生成模
需要满足一定美学和艺术功能和需求的，所以音乐数据本身最后得型 [22]，基于蒙特卡洛模拟采样进行的音乐生成模型 [23]，基于对抗
生成网络 GAN 进行的音乐生成 [24] 等。
177
表 1：LSTM 结构设置
输出结构
神经网络层类型参数
网络结构特征网络结构特征网络结构特征
Embedding 层 2 256 2048 86016
LSTM 第一层 2 256 256 2360320
Dropout 层 2 256 256 0
LSTM 层 2 256 256 525312
Dropout 层 2 256 256 0
LSTM 层 2 256 256 525312
Dropout 层 2 256 256 0
TimeDist 层 2 256 42 10794
表 2：生成音乐集 G 测试结果
检测音乐集最大相似度最小相似度平均相似度

G/G 100% 0.11% 60.64%
S/S 100% 30.37% 82.80%
G/S 97.73% 8.89% 60.13%
表 3：专业音乐人员测试结果
测试人员编号 S 音乐集的检测准确率 G 音乐集检测通过率 T 音乐集检测通过率

A 100% 76% 88%
B 100% 78% 89%
C 100% 86% 93%
均值 100% 80% 90%
格就能知道最后一节的音节。在这种情况下，相关信息与需要该信
息的位置距离较近，而 LSTM 能够学习利用以前的信息来对当前任
务进行相应的操作。
不管是 RNN 还是 LSTM 及其衍生主要是随着时间推移进行顺
序处理，长期信息及 t-n 时刻信息需在进入 t 时刻单元前顺序遍历
所有单元，这会存在梯度消失的问题。同时，LSTM 能够记住长期
的信息，但是它们只能记住 100 个量级的序列，或者更长的序列，
这对长序列音乐生成会有一定的限制。同时，对 LSTM 模型的训练
它们对硬件的要求非常高，即对计算单元要求比较多，这使得计算
图 4：LSTM 模型结构
时间会较慢。
结合文章生成音乐任务需求，除了满足时序特征处理的功能，所以本文以选择以 LSTM 作为主要模型架构并结合，并通过监
还需要基于处理建模后进行音乐生成，本文选择能够捕捉更多时序管器机制（Monitor Mechanism）来进行音乐条件约束，从而使得
信息的 RNN 结构的 LSTM 模型进行音乐生成。 LSTM 处理序列要求降短，从而能够在音乐生成效率上进行提高，
基于 RNN 机制的深度学习模型将是可行的音乐处理与生成以此来在满足音乐生成性能的规避 LSTM 模型本身的局限。
选择，鉴于此，在各类时序任务上比较常用的 Long Short Term 为了机器算法计算方便，我们将 Dataset1 和 Dataset2 数据集从
Memory networks（以下简称 LSTM）模型架构将成为非常有希望 MIDI 格式转换为 ABC 文件格式，提供给人工智能模型进行训练计
的模型之一。LSTM，是一种特殊的 RNN 网络，该网络设计出来算。
是为了解决长依赖问题。该网络由 Hochreiter 和 Schmidhuber(1997) 3.2.2 模型结构设计与配置
引入，并有许多人对其进行了改进和普及。他们的工作被用来解决
（1）LSTM 结构。LSTM 的关键是元胞状态（Cell State），
了各种各样的问题，直到目前还被广泛应用。所有循环神经网络都
这种传送带结构直接穿过整个流程链，同时只有一些较小的线性交
具有神经网络的重复模块链的形式。在标准的 RNN 中，该重复模
互。上面承载的信息可以很容易地传递到下一个计算单元而不改变。
块将具有非常简单的结构，例如单个 tanh 层。标准的 RNN 网络模
同时 LSTM 有能力对元胞状态添加或者删除信息，这种能力通过门
型如图 3 所示。
结构来控制 [24]，它们由一个 Sigmoid 神经网络层 [25] 和一个元素级
对应的 LSTM 结构是基于 RNN 结构的改良模型，LSTM 网络
相乘操作组成，能够选择性让信息通过。一个完整 LSTM 有 3 个门
能通过一种被称为门的结构对细胞状态进行删除或者添加信息，门
结构，来保护和控制元胞状态，如图 4 所示。
能够有选择性的决定让哪些信息通过，本身可以实现遗忘和记忆机
LSTM 用两个门来控制单元状态 c 的内容，一个是遗忘门（forget
制。所以利用其在进行音乐时序数据处理时，是可以将以前的信息
gate），它决定了上一时刻的单元状态有多少保留到当前时刻。另
与当前的任务进行连接，例如使用以前的音乐帧来帮助网络理解当
一个是输入门（input gate），它决定了当前时刻网络的输入有多少
前音乐帧。有时我们需要利用近期的信息来执行来处理当前的任务。
保存到单元状态。LSTM 用输出门（output gate）来控制单元状态
例如，考虑用一个音乐模型通过利用以前的音乐序列信息来预测下
有多少输出到 LSTM 的当前输出值。W 为计算过程权重矩阵，tanh
一个音节和音符，有时我们不需要其他的信息，通过前面的音乐风
178
电子技术与软件工程数据库技术
Electronic Technology & Software Engineering Database Technology
图 5：监管员机制
为激活函数，C 为单元状态，f 为遗忘门，h 为隐藏信息，x 为特定 4.2 定性分析-生成音乐专家测评统计

时刻的输入信息。基于此，最后我们使用的 LSTM 结构如表 1 所示。除上文的量化相似性计算我们也通过人工领域专家的测试来评
（2）Music Coder 结构的监管员机制。监管员机制（Monitor 估我们生成音乐的有效性。我们对生成数据集进行音乐领域专家交
mechanism）主要是为了对 LSTM 的中间生产序列结果（中间计算叉测试，通过对种子音乐集 S（S 音乐集包含 50 首）与生成音乐数
音乐序列）进行一次检查，对不满足监管规则（音乐特征约束，主据集 G（G 音乐集包含 50 首）进行随机混合处理，作为整体测试集 T，
要配置为音调约束和音乐风格约束）的序列进行剔除，这种机制会编号为 T1，T2……T100。我们邀请了 3 位音乐专业音乐人员分别
使得 LSTM 的输入单个音乐序列不用过长，就能够达到特定的生成是中央民族大学音乐学院音乐专业学生，海蝶音乐制作人，瑞丽时
效果。这种模式使得 LSTM 处理速度和效率提升，从而使得生成训尚音乐人依次编号为 A,B,C，通过试听来判断测试 T 中音乐是否为
练过程更快收敛，如图 5 所示。原创音乐，测试结果如表 3 所示。音乐参与者完成了随机混合了原
3.3 模型训练与音乐生成始音乐集合生成音乐集共 100 首音乐，每个测试者分别试听 100 首
我们在人工智能模型训练过程中使用 4 卡英伟达 TitanXP GPU 音乐，并对每首音乐是否为周杰伦原创音乐做出判断。测试结果如
深度学习服务器，进行了 10000 次迭代训练，通过控制模型损失函表 3 所示。
数（Loss Function）和 Softmax 函数进行模型准确率优化提高，最通过表 2 和表 3，我们发现原始音乐数据集本身的音乐风格
后使得模型有效率达到 90% 以上，模型训练整个耗时 35 小时。基变化差异较大，分布较广包含多种个人不同风格的音乐（平均相
于数据集 1 和数据集 2 训练的深度学习模型，我们得到混轨音乐和似度 60.64%，差异度 98.9%）。而基于 Music coder 生成的音乐集
单轨音乐，通过音乐修剪，将单轨作为整体音乐的补充合并，最后本身相对原始音乐集来说特征和风格分布较为集中，但也存在较
得到生成的音乐。好的风格多样性（平均相似度 82.80%，差异度达 69.63%）。对应
的生成音乐集与原始音乐集平均相似度为 60.13%，最大差异度为
4 生成音乐结果分析
88.84%，平均相似度为 60.13%，较为接近原始音乐集的风格与特
4.1 定量分析-生成音乐相似性计算征分布，并且能够较好的通过专业音乐人的检测。
本文通过生成音乐与原始音乐的相似度计算来进行音乐生成效 5 总结与讨论
果量化评估，通过计算每首生成音乐与原始音乐集中的每一首音乐本文主要基于深度学习模型 LSTM 构造的音乐生成器，进行了
的相似度，选取相似度最高的一首对应的相似度作为最终相似度。特定音乐风格的音乐生成，并且在不同的测试方案上取得了良好的
基于训练好的生成模型，我们生成 50 首乐，每首约 2-3 分钟，生表现。根据测试结果评估来看，该模型能够较好的进行音乐创作，
成速度为 10s 以内，同时选择皮尔森相似度对生成音乐数据集与测从而为未来更多的基于人工智能算法进行音乐创作的可行性提供了
试数据集（原创音乐）进行相似性计算与效果评估。有力的支持。
从原有真实创作音乐 100 首随机选取 50 首为种子集 S，编号当前本文实现了基于单类音乐风格进行的音乐生成创作，未来
S1,S2……S50，进行相似计算基准。对于生成音乐，随机从 50 首我们将尝试根据用户不同心情下的机器实时作曲。进一步实现对抑
生成音乐选取生成 30 首为生成集 G，编号 G1,G2……G30，进行与郁、焦虑等心情的量化有效的音乐干预方案，以创作出根据用户个
种子集相似度计算，并作为参考计算种子音乐集 S 自身的相似性。人喜好而促进大脑多巴胺分泌的性能优良的音乐生成器，通过音乐
分别计算 G 音乐集对应的最大相似度，最小相似度以及平均相似度， + 人工智能提高人类幸福感。
检测结果统计如表 2 所示。
179
致谢：本文研究得到了皓橙娱音文化传媒有限公司的王乐然先 [16]Sepp Hochreiter and Jürgen Schmidhuber, “Long

生等专家及单位鼎力支持，为本文音乐规则设计及性能测评提供了 short-term memory,” Neural computation, vol. 9, no. 8,
宝贵的意见。特别鸣谢周杰伦先生和无数音乐人，创作出各种类型 pp. 1735–1780, 1997.
的歌曲，陪伴一代代人的成长，鼓励我们探寻人生和科学高峰，是 [17]Jimmy Ren, Yongtao Hu, Yu-Wing Tai, Chuan Wang, Li
机器永远无法替代的，特此致谢。 Xu, WenxiuSun,andQiongYan, “Look,listenandlearn–
amultimodal lstm for speaker identification,” in
参考文献 Thirtieth AAAI Conference on Artificial Intelligence,
[1] 李贞华 . 音乐分析与创作导论 [M]. 百花文艺出版社 ,2006. 2016.
[2]Krizhevsky A, Sutskever I,Hinton G E. Imagenet [18]Nicolas Boulanger-Lewandowski, Yoshua Bengio, and
classification with deep convolutional Pascal Vincent. Modeling temporal dependencies in high-
neuralnetworks[C]. Advances in neural information dimensional sequences: Application to polyphonic music
processing systems, 2012:1097-1105. generation and transcription. Proceedings of the 29th
[3]He K, Zhang X, Ren S, etal. Deep residual International Conference on Machine Learning, (29),
learning for image recognition[J]. arXiv 2012.
preprintarXiv:1512.03385,2015. [19]Michael Chan, John Potter, and Emery Schubert.
[4]Taigman, Y., Yang, M., Ranzato, M. & Wolf, L. Deepface: Improving algorithmic music composition with machine
closing the gap to human-level performance in face learning. In 9th International Conference on Music
verification. In Proc. Conference on Computer Vision and Perception and Cognition, 2006.
Pattern Recognition 1701–1708 (2014). [20]Jamshed J. Bharucha and Peter M. Todd. Modeling
[5]Ba, J., Mnih, V. & Kavukcuoglu, K. Multiple object the perception of tonal structure with neural nets.
recognition with visual attention. In Proc. Computer Music Journal, 13(4):44–53, 1989.
International Conference on Learning Representations [21]M. Allan, “Harmonising chorales in the style of
http:// arxiv.org/abs/1412.7755 (2014). johann sebastian bach,” Master’s Thesis, School of
[6]Mikolov, T., Deoras, A., Povey, D., Burget, L. & Informatics, University of Edinburgh, 2002.
Cernocky, J. Strategies for training large scale neural [22]D. Silver, A. Huang, C. J. Maddison, A. Guez, L.
network language models. In Proc. Automatic Speech Sifre, d. D. G. Van, J. Schrittwieser, I. Antonoglou, V.
Recognition and Understanding 196–201 (2011). Panneershelvam, and M. Lanctot, “Mastering the game of
[7]Bordes, A., Chopra, S. & Weston, J. Question answering go with deep neural networks and tree search.” Nature,
with subgraph embeddings. In Proc. Empirical Methods vol. 529, no. 7587, pp. 484–489, 2016.
in Natural Language Processing http:// arxiv.org/ [23]Arnaud Doucet and Adam M Johansen. A tutorial on
abs/1406.3676v3 (2014). particle filtering and smoothing: Fifteen years later.
[8]Sainath, T., Mohamed, A.-R., Kingsbury, B. & Handbook of nonlinear filtering, 12(656-704):3, 2009.
Ramabhadran, B. Deep convolutional neural networks for [24]Chris Donahue, Julian McAuley, and Miller Puckette.
LVCSR. In Proc. Acoustics, Speech and Signal Processing Synthesizing audio with generative adversarial
8614-8618 (2013). networks. arXiv preprint arXiv:1802.04208, 2018.
[9]Yoshua Bengio, Learning Deep Architectures for AI, [25]JunyoungChung, CaglarGulcehre, KyunghyunCho,
Foundations and Trends in Machine Learning, 2(1), 2009. YoshuaBengio. Gated Feedback Recurrent Neural Networks.
[10]Allen Huang and RaymondWu: “DeepLearningforMusic,” https://arxiv.org/pdf/1502.02367.
CoRR arXiv:1606.04930,2016 [26] 付学志 , 刘忠 , 李朝旭 .Sigmoid 函数变步长 LMS 自适应算法
[11]HangChu,RaquelUrtasun,SanjaFidler :“ SONG FROM PI: A 的抗干扰性能改进 [J]. 北京邮电大学学报 ,2011,34(06):112-
MUSICALLY PLAUSIBLE NETWORK FOR POP MUSIC GENERATION” 115+120.
CoRR arXiv :1611.03477,2016. [27]Paul, Jaccard. THE DISTRIBUTION OF THE FLORA IN THE
[12]Christian Walder , Dongwoo Kim. Computer Assisted ALPINE ZONE .onlinelibrary.wiley.com.1912.2.
Composition with Recurrent Neural Networks . JMLR:
Workshop and Conference Proceedings 80:1-16, 2017. 作者简介
[13]Hyungui Lim, Seungyeon Rhyu,Kyofu Lee.CHORD GENERATION 马鹏程（1990-），男，河北省人。中科院自动化所，硕士学位。
FROM SYMBOLIC MELODY USING BLSTM NETWORKS” CoRR 研究方向为人工智能与脑机交互。
arXiv:1712.01011,2017. 卢树强（1987-），男，甘肃省人。清华大学，博士。研究方向为
[14]Nelson Yalta, Shinji Watanabe, Kazuhiro Nakadai and 人工智能与认知神经学。
Tetsuya Ogata :“ Weakly-Supervised Deep Recurrent 王晓岸（1992-），男，北京市人。哈佛大学，硕士学位。研究方
Neural Networks for Basic Dance Step Generation” CoRR 向为大数据与人工智能。
arXiv：1807.01126,2018. 李晓东（1979-），男，内蒙古自治区人。前瑞丽杂志 / 前寺库编
[15]Gino Brunner, Yuyi Wang, Roger Wattenhofer and Sumu 辑部主任，学士。研究方向为媒体与时尚。
Zhao：“Symbolic Music Genre Transfer with CycleGAN” 宋涵宇（1992-），男，北京市人。中央民族大学音乐学院，学士。
CoRR arXiv :1809.07575,2018. 研究方向为音乐与作曲。
180

基于递归神经网络人工智能技术的音乐创作

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于递归神经网络人工智能技术的音乐创作

Uploaded by

Copyright:

Available Formats

数据库技术电子技术与软件工程

Database Technology Electronic Technology & Software Engineering

摘　要：本文通过循环神经网络结构（RNN）构建长短期记忆网络（LSTM）深度学习算法，附加一种监管员机制（Monitor

检测音乐集最大相似度最小相似度平均相似度

测试人员编号 S 音乐集的检测准确率 G 音乐集检测通过率 T 音乐集检测通过率

为激活函数，C 为单元状态，f 为遗忘门，h 为隐藏信息，x 为特定 4.2 定性分析-生成音乐专家测评统计

致谢：本文研究得到了皓橙娱音文化传媒有限公司的王乐然先 [16]Sepp Hochreiter and J¨urgen Schmidhuber, “Long

You might also like

基于递归神经网络人工智能技术的音乐创作

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于递归神经网络人工智能技术的音乐创作

Uploaded by

Copyright:

Available Formats

数据库技术 电子技术与软件工程

Database Technology Electronic Technology & Software Engineering

摘 要： 本 文 通 过 循 环 神 经 网 络 结 构（RNN） 构 建 长 短 期 记 忆 网 络（LSTM） 深 度 学 习 算 法， 附 加 一 种 监 管 员 机 制（Monitor

检测音乐集 最大相似度 最小相似度 平均相似度

测试人员编号 S 音乐集的检测准确率 G 音乐集检测通过率 T 音乐集检测通过率

为激活函数，C 为单元状态，f 为遗忘门，h 为隐藏信息，x 为特定 4.2 定性分析-生成音乐专家测评统计

致谢：本文研究得到了皓橙娱音文化传媒有限公司的王乐然先 [16]Sepp Hochreiter and J¨urgen Schmidhuber, “Long

You might also like

数据库技术电子技术与软件工程

摘　要：本文通过循环神经网络结构（RNN）构建长短期记忆网络（LSTM）深度学习算法，附加一种监管员机制（Monitor

检测音乐集最大相似度最小相似度平均相似度