You are on page 1of 5

数据库技术 电子技术与软件工程

Database Technology Electronic Technology & Software Engineering

基于递归神经网络人工智能技术的音乐创作
马鹏程1 卢树强1 王晓岸1 李晓东2 宋涵宇3
(1. 北京脑陆科技公司 北京市 100083 2. 前瑞丽杂志、寺库 北京市 100176)
(3. 中央民族大学音乐学院 北京市 100081)

摘  要: 本 文 通 过 循 环 神 经 网 络 结 构(RNN) 构 建 长 短 期 记 忆 网 络(LSTM) 深 度 学 习 算 法, 附 加 一 种 监 管 员 机 制(Monitor


Mechanism)实现了高效端到端的多维声波时间序列生成模型 Music-coder,通过该模型生成了著名歌手周杰伦的音乐风格乐曲,与真实
周杰伦音乐数据集量化相似度达到最大 97.73%,并且,80% 的生成音乐通过了专业音乐人测评。本文方案显示,智能算法作为作曲工具进
行音乐生成与创作,是一种有效的音乐制作方案,将会给音乐制作带来新发展。
关键词:智能算法;多维声波;时序模型;循环神经网络

1 简介 实现分类目标。有鉴于此,这种端到端的数据模型技术能够极大地
音乐创作(music creation)是指音乐专业人员或作曲家创造具 为不同的基于数据应用的场景和任务提供极大的便利和效率。而深
有音乐美的乐曲的复杂的精神与技能生产过程 [1]。主要方式是按照 度学习对于音乐创作与生成的场景任务,通过有效的进行音乐数据
不同音节对应时间序列关系进行组合,如旋律和和声,并配以相宜 集的构造和模型的设计选择,从而生成新的音乐。这也将使得音乐
的节奏进行组织产生的具有特殊音色和纹理动态声波。音乐创作通 创作对于更多的人能够完成,也能够为人类带来更多不同类型和不
常是由受过专业音乐培训和教育的作曲家创造具有音乐美的乐曲, 同风格的优美音乐。如文献 [10] 构建了一种基于神经网络结果的生
是一项极其复杂的技术和任务。 成模型,能够生成像人类创作出的和谐和优美的音乐。文献 [11] 中
随着人工智能深度学习算法在图像识别 [2][3][4],视频检测 [5], 基于 RNN 深度神经网络结构设计的模型结合音乐先验知识生成了
自然语言处理 [6][7] 及语音处理 [8] 等方面的优秀表现和对应行业的广 pop music。文献 [12] 通过神经网络进行了序列建模,基于简单的音
泛应用,深度学习模型技术的发展完善及应用的场景正在越来越多 乐数据样本集进行了辅助音乐创作。文献 [13] 通过双向长短时记忆
地被挖掘。深度学习算法 [9] 是一种新兴的多层神经网络降维算法, (BLSTM)网络结构模型和对应的数据集,进行了和弦音乐的生
通过组建含有多个隐层的神经网络深层模型,对输入的高维数据逐 成。文献 [14] 中通过弱监督深度递归神经网络,以音频能量功率谱
层提取特征,以发现数据的低维嵌套结构,形成更加抽象有效的高 作为输入,进行了舞曲生成。文献 [15] 中基于深度学习中的自编码
层表示。如图 1 所示,一个具有三层卷积连接层和两层全连接层的 机(VAEs)和对抗生成网络模型(GANs),进行了音乐分格迁移
神经网络结构,每层对输入的数据自动实现了抽象特征提取,最后 生成。

图 1:神经网络结构示例

176
电子技术与软件工程 数据库技术
Electronic Technology & Software Engineering Database Technology

图 2:Music-Coder 音乐生成流程

2 本文工作说明
通过第一章我们看到对应于不同的音乐素材和类型及任务,可
以选择不同的生成模型和方案。这篇文章中,我们主要实现通过神
经网络模型生成特定作曲家类型音乐风格的音乐。由于音乐的载体
是声音,而声音类型的数据可以看作是一种定长的时序数据。基于
此,所以我们选择了可以处理时间序列数据类型的一种神经网络结
构 LSTM[16][17] 来实现了通过一种附加约束的监管员机制的音乐生成
器(Music-coder),并进行音乐生成,并且取得了优秀的音乐生成
效果。Music-coder 音乐生成器的主要工作流程如图 2 所示。本文
主要工作为:
(1)通过应用一种 LSTM 深度学习模型,实现了对特定作曲
分格的音乐生成。
(2)并对生成的音乐集进行了与原创音乐集相似度计算,在
生成音乐特征分布于相似度 2 个指标上都达到了较好的效果。
(3)通过真实音乐人与作曲家对生成音乐数据进行双盲监测,
平均通过率达到了 80% 以上。
3 音乐生成方案设计

3.1 数据集选择与处理
图 3:RNN 模型结构示意
我们收集了著名音乐人周杰伦(由于周杰伦的作曲风格具有个
人特色,且类型相对较丰富)的 midi 格式作曲素材,总共 250 首, 需要对应的约束条件,如定义 3 所述。
平均每首时长约 2-4mins,从其中选择了满足 3-4Mins 时长的 60 首 定义 1:如果 M 为音乐数据,则 Mt∈N,N 为有限数集,Mt
作为训练数据集 1(DataSet1)。除此之外,对 60 首 midi 作曲进 为 t 时刻该音乐的音节;
行了分轨提取与处理,总共提取 XXX 轨,将轨音乐作为训练数据 定义 2:如果 M 为序列数据集,则 Mt=f(M(t-1),M(t-2)…….
集 2(DataSet2)。 M(t-n);
定义 3:如果 M 为音乐数据,则 f(M)≤C,C 为约束条件集;
3.2 数据预处理与算法设计
基于上述定义 1,定义 2,定义 3 的音乐数据结构的特性,潜
3.2.1 音乐数据结构分析与模型选择 在的满足处理该类特征数据的模型方案有基于 RNN 结构的深度学
音乐数据结构是一种标准化的时序数据,不同的时刻数据对应 习模型 [18],基于专家设计的音乐规则组合模型的生生成模型 [19],
的是一个有限集,即如定义 1 所述。同时,音乐又是一种时序关联 基于神经网络进行音乐生成的模型 [20],基于隐马尔科夫 HMM 的
数据,所具有的特性如定义 2 所述。最后,由于音乐的生产最后是 音乐序列生成模型 [21],基于神经网络和搜索树结合的音乐生成模
需要满足一定美学和艺术功能和需求的,所以音乐数据本身最后得 型 [22],基于蒙特卡洛模拟采样进行的音乐生成模型 [23],基于对抗
生成网络 GAN 进行的音乐生成 [24] 等。

177
数据库技术 电子技术与软件工程
Database Technology Electronic Technology & Software Engineering

表 1:LSTM 结构设置

输出结构
神经网络层类型 参数
网络结构特征 网络结构特征 网络结构特征
Embedding 层 2 256 2048 86016
LSTM 第一层 2 256 256 2360320
Dropout 层 2 256 256 0
LSTM 层 2 256 256 525312
Dropout 层 2 256 256 0
LSTM 层 2 256 256 525312
Dropout 层 2 256 256 0
TimeDist 层 2 256 42 10794

表 2:生成音乐集 G 测试结果

检测音乐集 最大相似度 最小相似度 平均相似度


G/G 100% 0.11% 60.64%
S/S 100% 30.37% 82.80%
G/S 97.73% 8.89% 60.13%

表 3:专业音乐人员测试结果

测试人员编号 S 音乐集的检测准确率 G 音乐集检测通过率 T 音乐集检测通过率


A 100% 76% 88%
B 100% 78% 89%
C 100% 86% 93%
均值 100% 80% 90%

格就能知道最后一节的音节。在这种情况下,相关信息与需要该信
息的位置距离较近,而 LSTM 能够学习利用以前的信息来对当前任
务进行相应的操作。
不管是 RNN 还是 LSTM 及其衍生主要是随着时间推移进行顺
序处理,长期信息及 t-n 时刻信息需在进入 t 时刻单元前顺序遍历
所有单元,这会存在梯度消失的问题。同时,LSTM 能够记住长期
的信息,但是它们只能记住 100 个量级的序列,或者更长的序列,
这对长序列音乐生成会有一定的限制。同时,对 LSTM 模型的训练
它们对硬件的要求非常高,即对计算单元要求比较多,这使得计算
图 4:LSTM 模型结构
时间会较慢。
结合文章生成音乐任务需求,除了满足时序特征处理的功能, 所以本文以选择以 LSTM 作为主要模型架构并结合,并通过监
还需要基于处理建模后进行音乐生成,本文选择能够捕捉更多时序 管器机制(Monitor Mechanism)来进行音乐条件约束,从而使得
信息的 RNN 结构的 LSTM 模型进行音乐生成。 LSTM 处理序列要求降短,从而能够在音乐生成效率上进行提高,
基于 RNN 机制的深度学习模型将是可行的音乐处理与生成 以此来在满足音乐生成性能的规避 LSTM 模型本身的局限。
选 择, 鉴 于 此, 在 各 类 时 序 任 务 上 比 较 常 用 的 Long Short Term 为了机器算法计算方便,我们将 Dataset1 和 Dataset2 数据集从
Memory networks(以下简称 LSTM)模型架构将成为非常有希望 MIDI 格式转换为 ABC 文件格式,提供给人工智能模型进行训练计
的模型之一。LSTM,是一种特殊的 RNN 网络,该网络设计出来 算。
是为了解决长依赖问题。该网络由 Hochreiter 和 Schmidhuber(1997) 3.2.2 模型结构设计与配置
引入,并有许多人对其进行了改进和普及。他们的工作被用来解决
(1)LSTM 结构。LSTM 的关键是元胞状态(Cell State),
了各种各样的问题,直到目前还被广泛应用。所有循环神经网络都
这种传送带结构直接穿过整个流程链,同时只有一些较小的线性交
具有神经网络的重复模块链的形式。在标准的 RNN 中,该重复模
互。上面承载的信息可以很容易地传递到下一个计算单元而不改变。
块将具有非常简单的结构,例如单个 tanh 层。标准的 RNN 网络模
同时 LSTM 有能力对元胞状态添加或者删除信息,这种能力通过门
型如图 3 所示。
结构来控制 [24],它们由一个 Sigmoid 神经网络层 [25] 和一个元素级
对应的 LSTM 结构是基于 RNN 结构的改良模型,LSTM 网络
相乘操作组成,能够选择性让信息通过。一个完整 LSTM 有 3 个门
能通过一种被称为门的结构对细胞状态进行删除或者添加信息,门
结构,来保护和控制元胞状态,如图 4 所示。
能够有选择性的决定让哪些信息通过,本身可以实现遗忘和记忆机
LSTM 用两个门来控制单元状态 c 的内容,一个是遗忘门(forget
制。所以利用其在进行音乐时序数据处理时,是可以将以前的信息
gate),它决定了上一时刻的单元状态有多少保留到当前时刻。另
与当前的任务进行连接,例如使用以前的音乐帧来帮助网络理解当
一个是输入门(input gate),它决定了当前时刻网络的输入有多少
前音乐帧。有时我们需要利用近期的信息来执行来处理当前的任务。
保存到单元状态。LSTM 用输出门(output gate)来控制单元状态
例如,考虑用一个音乐模型通过利用以前的音乐序列信息来预测下
有多少输出到 LSTM 的当前输出值。W 为计算过程权重矩阵,tanh
一个音节和音符,有时我们不需要其他的信息,通过前面的音乐风

178
电子技术与软件工程 数据库技术
Electronic Technology & Software Engineering Database Technology

图 5:监管员机制

为激活函数,C 为单元状态,f 为遗忘门,h 为隐藏信息,x 为特定 4.2 定性分析-生成音乐专家测评统计


时刻的输入信息。基于此,最后我们使用的 LSTM 结构如表 1 所示。 除上文的量化相似性计算我们也通过人工领域专家的测试来评
(2)Music Coder 结构的监管员机制。监管员机制(Monitor 估我们生成音乐的有效性。我们对生成数据集进行音乐领域专家交
mechanism)主要是为了对 LSTM 的中间生产序列结果(中间计算 叉测试,通过对种子音乐集 S(S 音乐集包含 50 首)与生成音乐数
音乐序列)进行一次检查,对不满足监管规则(音乐特征约束,主 据集 G(G 音乐集包含 50 首)进行随机混合处理,作为整体测试集 T,
要配置为音调约束和音乐风格约束)的序列进行剔除,这种机制会 编号为 T1,T2……T100。我们邀请了 3 位音乐专业音乐人员分别
使得 LSTM 的输入单个音乐序列不用过长,就能够达到特定的生成 是中央民族大学音乐学院音乐专业学生,海蝶音乐制作人,瑞丽时
效果。这种模式使得 LSTM 处理速度和效率提升,从而使得生成训 尚音乐人依次编号为 A,B,C,通过试听来判断测试 T 中音乐是否为
练过程更快收敛,如图 5 所示。 原创音乐,测试结果如表 3 所示。音乐参与者完成了随机混合了原
3.3 模型训练与音乐生成 始音乐集合生成音乐集共 100 首音乐,每个测试者分别试听 100 首
我们在人工智能模型训练过程中使用 4 卡英伟达 TitanXP GPU 音乐,并对每首音乐是否为周杰伦原创音乐做出判断。测试结果如
深度学习服务器,进行了 10000 次迭代训练,通过控制模型损失函 表 3 所示。
数(Loss Function)和 Softmax 函数进行模型准确率优化提高,最 通过表 2 和表 3,我们发现原始音乐数据集本身的音乐风格
后使得模型有效率达到 90% 以上,模型训练整个耗时 35 小时。基 变化差异较大,分布较广包含多种个人不同风格的音乐(平均相
于数据集 1 和数据集 2 训练的深度学习模型,我们得到混轨音乐和 似度 60.64%,差异度 98.9%)。而基于 Music coder 生成的音乐集
单轨音乐,通过音乐修剪,将单轨作为整体音乐的补充合并,最后 本身相对原始音乐集来说特征和风格分布较为集中,但也存在较
得到生成的音乐。 好的风格多样性(平均相似度 82.80%,差异度达 69.63%)。对应
的生成音乐集与原始音乐集平均相似度为 60.13%,最大差异度为
4 生成音乐结果分析
88.84%,平均相似度为 60.13%,较为接近原始音乐集的风格与特
4.1 定量分析-生成音乐相似性计算 征分布,并且能够较好的通过专业音乐人的检测。
本文通过生成音乐与原始音乐的相似度计算来进行音乐生成效 5 总结与讨论
果量化评估,通过计算每首生成音乐与原始音乐集中的每一首音乐 本文主要基于深度学习模型 LSTM 构造的音乐生成器,进行了
的相似度,选取相似度最高的一首对应的相似度作为最终相似度。 特定音乐风格的音乐生成,并且在不同的测试方案上取得了良好的
基于训练好的生成模型,我们生成 50 首乐,每首约 2-3 分钟,生 表现。根据测试结果评估来看,该模型能够较好的进行音乐创作,
成速度为 10s 以内,同时选择皮尔森相似度对生成音乐数据集与测 从而为未来更多的基于人工智能算法进行音乐创作的可行性提供了
试数据集(原创音乐)进行相似性计算与效果评估。 有力的支持。
从原有真实创作音乐 100 首随机选取 50 首为种子集 S,编号 当前本文实现了基于单类音乐风格进行的音乐生成创作,未来
S1,S2……S50,进行相似计算基准。对于生成音乐,随机从 50 首 我们将尝试根据用户不同心情下的机器实时作曲。进一步实现对抑
生成音乐选取生成 30 首为生成集 G,编号 G1,G2……G30,进行与 郁、焦虑等心情的量化有效的音乐干预方案,以创作出根据用户个
种子集相似度计算,并作为参考计算种子音乐集 S 自身的相似性。 人喜好而促进大脑多巴胺分泌的性能优良的音乐生成器,通过音乐
分别计算 G 音乐集对应的最大相似度,最小相似度以及平均相似度, + 人工智能提高人类幸福感。
检测结果统计如表 2 所示。

179
数据库技术 电子技术与软件工程
Database Technology Electronic Technology & Software Engineering

致谢:本文研究得到了皓橙娱音文化传媒有限公司的王乐然先 [16]Sepp Hochreiter and J¨urgen Schmidhuber, “Long


生等专家及单位鼎力支持,为本文音乐规则设计及性能测评提供了 short-term memory,” Neural computation, vol. 9, no. 8,
宝贵的意见。特别鸣谢周杰伦先生和无数音乐人,创作出各种类型 pp. 1735–1780, 1997.
的歌曲,陪伴一代代人的成长,鼓励我们探寻人生和科学高峰,是 [17]Jimmy Ren, Yongtao Hu, Yu-Wing Tai, Chuan Wang, Li
机器永远无法替代的,特此致谢。 Xu, WenxiuSun,andQiongYan, “Look,listenandlearn–
amultimodal lstm for speaker identification,” in
参考文献 Thirtieth AAAI Conference on Artificial Intelligence,
[1] 李贞华 . 音乐分析与创作导论 [M]. 百花文艺出版社 ,2006. 2016.
[2]Krizhevsky A, Sutskever I,Hinton G E. Imagenet [18]Nicolas Boulanger-Lewandowski, Yoshua Bengio, and
classification with deep convolutional Pascal Vincent. Modeling temporal dependencies in high-
neuralnetworks[C]. Advances in neural information dimensional sequences: Application to polyphonic music
processing systems, 2012:1097-1105. generation and transcription. Proceedings of the 29th
[3]He K, Zhang X, Ren S, etal. Deep residual International Conference on Machine Learning, (29),
learning for image recognition[J]. arXiv 2012.
preprintarXiv:1512.03385,2015. [19]Michael Chan, John Potter, and Emery Schubert.
[4]Taigman, Y., Yang, M., Ranzato, M. & Wolf, L. Deepface: Improving algorithmic music composition with machine
closing the gap to human-level performance in face learning. In 9th International Conference on Music
verification. In Proc. Conference on Computer Vision and Perception and Cognition, 2006.
Pattern Recognition 1701–1708 (2014). [20]Jamshed J. Bharucha and Peter M. Todd. Modeling
[5]Ba, J., Mnih, V. & Kavukcuoglu, K. Multiple object the perception of tonal structure with neural nets.
recognition with visual attention. In Proc. Computer Music Journal, 13(4):44–53, 1989.
International Conference on Learning Representations [21]M. Allan, “Harmonising chorales in the style of
http:// arxiv.org/abs/1412.7755 (2014). johann sebastian bach,” Master’s Thesis, School of
[6]Mikolov, T., Deoras, A., Povey, D., Burget, L. & Informatics, University of Edinburgh, 2002.
Cernocky, J. Strategies for training large scale neural [22]D. Silver, A. Huang, C. J. Maddison, A. Guez, L.
network language models. In Proc. Automatic Speech Sifre, d. D. G. Van, J. Schrittwieser, I. Antonoglou, V.
Recognition and Understanding 196–201 (2011). Panneershelvam, and M. Lanctot, “Mastering the game of
[7]Bordes, A., Chopra, S. & Weston, J. Question answering go with deep neural networks and tree search.” Nature,
with subgraph embeddings. In Proc. Empirical Methods vol. 529, no. 7587, pp. 484–489, 2016.
in Natural Language Processing http:// arxiv.org/ [23]Arnaud Doucet and Adam M Johansen. A tutorial on
abs/1406.3676v3 (2014). particle filtering and smoothing: Fifteen years later.
[8]Sainath, T., Mohamed, A.-R., Kingsbury, B. & Handbook of nonlinear filtering, 12(656-704):3, 2009.
Ramabhadran, B. Deep convolutional neural networks for [24]Chris Donahue, Julian McAuley, and Miller Puckette.
LVCSR. In Proc. Acoustics, Speech and Signal Processing Synthesizing audio with generative adversarial
8614-8618 (2013). networks. arXiv preprint arXiv:1802.04208, 2018.
[9]Yoshua Bengio, Learning Deep Architectures for AI, [25]JunyoungChung, CaglarGulcehre, KyunghyunCho,
Foundations and Trends in Machine Learning, 2(1), 2009. YoshuaBengio. Gated Feedback Recurrent Neural Networks.
[10]Allen Huang and RaymondWu: “DeepLearningforMusic,” https://arxiv.org/pdf/1502.02367.
CoRR arXiv:1606.04930,2016 [26] 付学志 , 刘忠 , 李朝旭 .Sigmoid 函数变步长 LMS 自适应算法
[11]HangChu,RaquelUrtasun,SanjaFidler :“ SONG FROM PI: A 的抗干扰性能改进 [J]. 北京邮电大学学报 ,2011,34(06):112-
MUSICALLY PLAUSIBLE NETWORK FOR POP MUSIC GENERATION” 115+120.
CoRR arXiv :1611.03477,2016. [27]Paul, Jaccard. THE DISTRIBUTION OF THE FLORA IN THE
[12]Christian Walder , Dongwoo Kim. Computer Assisted ALPINE ZONE .onlinelibrary.wiley.com.1912.2.
Composition with Recurrent Neural Networks . JMLR:
Workshop and Conference Proceedings 80:1-16, 2017. 作者简介
[13]Hyungui Lim, Seungyeon Rhyu,Kyofu Lee.CHORD GENERATION 马鹏程(1990-),男,河北省人。中科院自动化所,硕士学位。
FROM SYMBOLIC MELODY USING BLSTM NETWORKS” CoRR 研究方向为人工智能与脑机交互。
arXiv:1712.01011,2017. 卢树强(1987-),男,甘肃省人。清华大学,博士。研究方向为
[14]Nelson Yalta, Shinji Watanabe, Kazuhiro Nakadai and 人工智能与认知神经学。
Tetsuya Ogata :“ Weakly-Supervised Deep Recurrent 王晓岸(1992-),男,北京市人。哈佛大学,硕士学位。研究方
Neural Networks for Basic Dance Step Generation” CoRR 向为大数据与人工智能。
arXiv:1807.01126,2018. 李晓东(1979-),男,内蒙古自治区人。前瑞丽杂志 / 前寺库编
[15]Gino Brunner, Yuyi Wang, Roger Wattenhofer and Sumu 辑部主任,学士。研究方向为媒体与时尚。
Zhao:“Symbolic Music Genre Transfer with CycleGAN” 宋涵宇(1992-),男,北京市人。中央民族大学音乐学院,学士。
CoRR arXiv :1809.07575,2018. 研究方向为音乐与作曲。

180

You might also like