【】基于神经网络的振动光谱预测和结构识别李浩

中图分类号：Q819 单位代码：10425
学号：Z17030373
基于神经网络的振动光谱预测和结构识别
Vibrational spectra prediction and structure recognition using

neural networks
学科专业：生物工程
研究方向：生物材料工程
作者姓名：李浩
指导教师：黄方教授
任浩副教授
现场导师：姜进举高级工程师
二〇二〇年五月
neural networks
A Thesis Submitted for the Degree of Engineering Master
Candidate: Li Hao
Supervisor: Prof. Huang Fang

Assoc. Prof. Ren Hao
SN ENGR Jiang JinJu
College of Chemical Engineering
China University of Petroleum (East China)

关于学位论文的独创性声明


本人郑ｆ
ｉ声明：
所呈交的论文是本人在指导教师指导下独立进行研宂工作所取得的


成果论文中有关资料和数据是实琪求足的尽我所知除文中已经加以标注和致谢外
，？， 

．
本论文不包含苒他人已经发表或撰写的研宄成果，也不包含本人或他人为获得中国石油


大学（
华东）或其它教育机构的学位或学历证书而使用过的材料。
与我
一
同工作的同志


对研究所做的任何贡献均己在论文中作出了明确的说明 

＊
若有不实之处，
本人愿意承担相关法律资任 

，
学位论文作者签名  日期：
：２０２０年 ５月２９ 

日
学位论文使用授权书


本人完全同意中国石油大学（华东）有权使用本学位论文（包括但不限于其印刷版


和电子版）》使用方式包括但不限于：
保留学位论文ｔ按规定向国家有关部门（机构＞ 

送
交、赠送和交换学位论文，
允许学位论文被査阅、借阅和复印，
将学位论文的全部或部


分内容编入有关数据库进行检索，采用影印、缩印或其他复制手段保存学位论文，授权


Ｍ
但不限于清华大学
”
中国学术期刊光盘版电子杂志社（）和北京万方数据股份有限公司


用于出版和编入ＣＮＫＩＣ
中国知识资源总库》、《中国学位论文全文数据库》等系列数据库 

》
（保密的学位论文在解密后适用本授权书 

）
学位论文作者签名
指导教师签名： 
Ｉ ４＆

日期：２０２０年５月２９日

 
 日期：
２０２０年 ５月２９ 

日
摘要
振动光谱是工业生产和基础研究中最常用的表征工具之一。振动光谱的获取过程繁
琐，分析依赖人工。这两点大大影响了振动光谱在工业上的应用。如何提升振动光谱获
取效率，降低时间和人力成本，是领域内亟待解决的问题。
本论文主要依靠人工神经网络这一计算机科学领域的前沿先进技术，构建振动光谱
预测模型与结构识别模型，以期解决工业上光谱应用的相关问题。具体研究内容如下：
第一，本论文利用构建好的分子数据集量子机器（Quantum Machine 9, QM9）和 N-
甲基乙酰胺（N- methylacetamide, NMA）重水分子体系构建从结构向振动光谱的映射模
型，并比较不同分子描述符对光谱预测的预测精度造成的影响，其次我们还研究了化学
环境对分子振动光谱预测所造成的影响，探究其中蕴含的基本原理。结果表明，神经网
络算法应用于振动光谱的预测精度高且具有可解释性。另外，我们构建的神经网络预测
模型还具有一定的迁移预测能力。
第二，本论文利用数据集 QM9 来构建基于振动光谱（红外和拉曼）识别微观结构
的神经网络模型，预测分子内是否存在羟基或者羰基。我们发现人工神经网络模型结构
识别的准确率较高，且具有优秀的迁移识别能力。研究结果证明了人工神经网络可以从
光谱中学习到光谱知识，从而代替具有化学直觉的经验丰富的专家。
我们的工作证明了机器学习模型在光谱预测与识别领域的重大潜力，为后续在工业
生产与科学研究中的运用（如高通量筛选或活性分子自动在线识别等）打下了基础。
关键词：神经网络，振动光谱，光谱预测，结构识别
i
neural networks
Li Hao (Biochemical engineering)
Directed by Prof. Huang Fang and Assoc. Prof. Ren Hao
Abstract
Vibrational spectroscopy is one of the most commonly used characterization tools in

industrial production and basic research. The process of acquiring vibrational spectra is
cumbersome, and analysis depends on human labor. These two points greatly affect the
application of vibrational spectroscopy in industry. How to improve the efficiency of
vibrational spectrum acquisition and reduce the time and labor cost is an urgent problem in the
field.
This thesis mainly relies on artificial neural network, a cutting-edge advanced technology
in the field of computer science, to construct a vibrational spectrum prediction model and a
structural recognition model, in order to solve the related problems of industrial spectrum
application. The specific research contents are as follows:
First, this paper uses the constructed molecular data set Quantum Machine 9, QM9 and N-
methylacetamide (NMA) heavy water molecular system to construct a mapping model from
structure to vibrational spectrum, and compare The influence of different molecular descriptors
on the prediction accuracy of the spectrum prediction. Secondly, we also studied the influence
of the chemical environment on the prediction of the molecular vibrational spectrum, and
explored the basic principles contained therein. The results show that the neural network
algorithm applied to the vibrational spectrum has high prediction accuracy and is interpretable.
In addition, the neural network prediction model we constructed also has a certain ability of
migration prediction.
Second, this paper uses the data set QM9 to construct a neural network model that
recognizes microstructures based on vibrational spectroscopy (infrared and Raman) to predict
whether hydroxyl or carbonyl groups are present in the molecule. We found that the accuracy
of the artificial neural network model structure recognition is high, and it has excellent
migration recognition capabilities. The research results prove that the artificial neural network
can learn spectrum knowledge from the spectrum, thus replacing the experienced experts with
chemical intuition.
ii
Our work proves the great potential of machine learning models in the field of spectral
prediction and recognition, and lays the foundation for subsequent applications in industrial
production and scientific research (such as high-throughput screening or automatic online
recognition of active molecules, etc.).
Key words: Vibrational spectra, neural network, spectra prediction, structure

recognition
iii
目录
摘要 .............................................................................. i
第一章前言 ......................................................................... 1
1.1 选题背景与意义................................................................. 1
1.2 国内外研究现状................................................................. 2
1.2.1 利用反向传递获得振动光谱 ................................................... 4
1.2.2 利用分子动力学模拟预测振动光谱 ............................................. 5
1.2.3 利用分子结构直接得到分子光谱 ............................................... 7
1.3 课题的研究内容与特色 ........................................................... 9
1.3.1 研究内容 ................................................................... 9
1.3.2 创新点 ..................................................................... 9
第二章人工神经网络 ................................................................ 10
2.1 机器学习与人工神经网络 ........................................................ 10
2.2 神经网络的基本原理 ............................................................ 11
2.2.1 神经元模型 ................................................................ 11
2.2.2 神经网络的结构 ............................................................ 12
2.2.3 神经网络的计算 ............................................................ 13
2.2.4 神经网络中参数的求解 ...................................................... 14
2.2.5 神经网络的学习过程 ........................................................ 17
2.3 其它形式的神经网络 ............................................................ 17
2.3.1 卷积神经网络 .............................................................. 18
2.3.2 循环神经网络 .............................................................. 18
2.4 神经网络预测分子性质的步骤 .................................................... 19
第三章小分子从结构到光谱的模拟 .................................................... 20
iv
3.1 引言.......................................................................... 20
3.2 模型与研究方法................................................................ 20
3.2.1 理论计算过程 .............................................................. 20
3.2.2 提取官能团振动信息 ........................................................ 21
3.2.3 选取分子描述符 ............................................................ 22
3.3 结果与讨论.................................................................... 28
3.3.1 使用库伦矩阵描述符预测振动 ................................................ 28
3.3.2 使用对称函数描述符预测振动 ................................................ 30
3.3.3 最佳截断半径和物理量的局域性 .............................................. 36
3.4 本章小结...................................................................... 39
第四章生物分子从结构到光谱的模拟 .................................................. 40
4.1 引言.......................................................................... 40
4.2 模型与研究方法................................................................ 40
4.2.1 理论计算过程 .............................................................. 40
4.2.2 提取官能团振动信息 ........................................................ 41
4.2.3 选取分子描述符 ............................................................ 42
4.3 结果与讨论.................................................................... 44
4.3.1 使用内坐标预测振动 ........................................................ 44
4.3.2 使用对称函数预测振动 ...................................................... 48
4.4 本章小结...................................................................... 51
第五章通过光谱预测分子结构 ........................................................ 52
5.1 引言.......................................................................... 52
5.2 模型与研究方法................................................................ 52
5.3 结果与讨论.................................................................... 53
v
5.3.1 使用振动光谱预测结构信息 .................................................. 53
5.3.2 神经网络结构识别的迁移性 .................................................. 57
5.4 本章小结...................................................................... 59
第六章结论 ........................................................................ 60
参考文献 ........................................................................... 61
攻读硕士学位期间研究取得的学术成果 ................................................. 66
致谢 ............................................................................. 67
vi
中国石油大学（华东）工程硕士学位论文
第一章前言
1.1 选题背景与意义
分子光谱通过测量宏观对象对电磁辐射的响应成为探测微观结构和动力学的有力
工具。根据研究对象与电磁辐射的作用类型和能量尺度不同，可大致分为光电子能谱、
电子光谱、振动-转动光谱和微波光谱等。其中，振动光谱是目前基础研究和工程应用中
采用最广泛的表征技术之一。振动谱无处不在的应用可以归功于它的内在优势，如设备
成本相对较低、可以利用电磁波或实物粒子等探测分子振动。振动光谱的样品适用性广
泛，适合固态、液态或气态样品的检测，用于表征无机、有机、高分子等各类物质。振
动谱的优势来源于其特征信号对局域化学环境高度敏感，结合现代超快光谱技术或扫描
探针技术能够提供化学键尺度的结构信息和飞秒尺度的动力学信息。
振动光谱在基础科研、工业生产、医学健康、甚至日常生活中的应用日益广泛，如
何解释所测得的谱学信号并将其与微观结构相关联，仍然是一个挑战。目前，对振动谱
的解释和识别通常依赖于与标准物质对照和查阅标准谱的方法，但是该方法对于样品的
要求较高或依赖于标准谱图库的大小。如果在谱图库中无法检索到一致的谱图，则需进
行人工解谱，这就需要长期积累的经验和化学直觉，并结合高精度量子化学从头计算，
这导致解谱工作往往需要较高的时间和人力成本，且难以保证结果的准确性[1]。此外，
分子振动谱的获取也面临一些问题：一方面，实验测量难以避免各类误差和噪声；另一
方面，通过理论方法精确计算分子振动谱需要消耗大量计算资源。这些问题都限制了振
动光谱在相关领域的高效应用[2,3]。
如上所述，分子振动光谱具有无可比拟的优势，然而具体应用仍存在一些难以解决
的问题[4-7]。其一是从已知结构获取振动光谱的过程中，仪器测量和理论计算都将消耗大
量的时间和人力成本；其二是从光谱解析和识别结构的过程中，极为依赖具有相关知识
背景和经验的谱学专家，且准确性难以保证。机器学习是一类传统的数据分析方法，近
年来随着计算机硬件和软件的发展获得了越来越多的应用，如数据挖掘，计算机视觉，
自然语言处理等[8,9,10]。深度学习是一类基于深度神经网络的机器学习技术，可以从数据
中自动分析获得规律，并利用所得规律对未知数据进行预测，尤其适合归纳、总结等经
验性知识获取方法[11,12,13]。得益于基于 GPU 加速的高效深度学习框架，一旦训练成功，
深度学习模型对新数据的分析和处理速度远高于传统的量子化学高精度计算[8,14,15,16]。这
1
第一章前言
一方面可以降低传统光谱计算对计算资源的消耗，更重要的是能够缩短解谱过程中进行
谱学信号比对周期，大大提高解谱效率[17]。
相对于由已知结构进行光谱信号预测，在实际生产和科研活动中，更重要也更困难
的是由实验测得的谱学信号进行结构识别[18,19,20]。作为光谱预测问题的逆问题，结构识
别只能通过大量比对结合相关光谱学经验和化学知识完成。在具有大量可靠数据的基础
上，机器学习技术尤其适合此类工作：将光谱信号看做频域空间的序列，原则上可将机
器学习领域针对有序数列的模型算法移植至谱学结构识别领域[21,22]。或将光谱信号看做
具有特定模式的数据集合，而机器学习主要应用领域便是模式识别，原则上利用谱学信
号内在的特征模式与已知结构的关联训练机器学习模型，可用来对未知光谱进行微观结
构识别，建立光谱学自动识别专家系统[23,24]。
将机器学习与生物、医药、化学、材料等学科的结合已经成为一个热门的研究领域
[25–27,28]
。到目前为止，机器学习已经被成功地应用到量子化学计算中，解决了生物、谱
学相关的一系列问题。然而，目前将机器学习应用到光谱领域的工作还很少。特别地，
利用机器学习来进行结构识别的工作比较少[28–30,31]。这主要是因为现在还缺乏机器学习
所必需的可靠光谱数据集，且光谱作为一种维度较高的数据，比较难以处理[1,32–34,35]。
本论文所包含的工作将从构建分子振动光谱数据库开始，逐步把机器学习方法应用
到振动光谱领域。本论文主要包含两个部分的工作，其一是利用分子的三维结构，利用
机器学习方法进行振动光谱预测；其二是通过机器学习方法分析分子的振动光谱，提取
振动光谱数据中含有的化学信息，以得到分子主要的官能团信息，进行结构识别。论文
涉及的工作，尤其是结构识别部分，是利用人工智能和机器学习技术进行光谱学自动解
析的第一步，对提高生物医药、化工生产以及基础研究等领域中涉及光谱学表征的环节
提高生产研发效率、降低成本有重要的潜在价值。
1.2 国内外研究现状
近年来，将机器学习，尤其是深度学习方法应用到理论与计算化学已经成为该领域
研究的热点问题[31,36,37]。传统的计算化学通常基于现有的理论，如第一性原理，半经验
方法，分子动力学方法对特定的化学问题进行研究。理论上讲，对任何分子都可以采用
相当精确的理论方法进行计算。很多计算软件中也已经包括了这些精确的方法，但由于
这些方法的计算量随电子数的增加成指数或更快的速度增长，所以他们只能应用于很小
的分子[38–40,41]。对更大的体系，往往需要采取其他一些更大程度近似的方法，以在计算
2
量和结果的精确度之间寻求平衡。更少的假设和经验值带入能够得到更精确的结果，但
是却会消耗更多的计算资源。科学家们迫切的希望寻找一种计算方法，使获得的最终结
果更加准确，且消耗的计算资源更少。
机器学习，尤其是新兴的深度学习，尤其擅长在已有的数据的基础上归纳总结数据
间的规律与联系，并利用规律对未知的数据进行预测[9,37,42,43]。此外，深度学习所构造出
的模型，本质上来说是一种高维多项式，而并非复杂的数学形式。深度学习的这些特点，
刚好可以用于代替精度高却计算量大的理论，比方说第一性原理，又可以在使用深度学
习模型来预测未知数据时花费更少的计算资源。更进一步的，由于计算机科学的发展和
进步，实施机器学习项目所需的学习成本和设备成本也在逐步降低[10,44,45]。这些情况都
使机器学习方法成为解决理论化学计算所面临问题的重要潜在手段。
近年来，将机器学习尤其是深度学习方法应用到计算化学中的工作和成果越来越多。
这些成果主要集中在通过分子结构来预测分子某种物理化学性质的方向上。特别是能量
的预测，在这一方面，国内外多个课题组已经取得了系列成果 [12,23]。比如，Rupp 和
Tkatchenko 等人利用机器学习模型来预测有机小分子的原子化能，且误差低于 10
kcal/mol[46,47]。随后，Hansen 等人比较了多种机器学习方法在预测分子原子化能方面的
运用，结果表明，神经网络在预测分子原子化能上有更好的效果 [48,49] 。Montavon 和
Hansen 等人采用了随机库伦矩阵的分子表示方法，进一步解决了由于分子几何非向量
性所造成的分子表示方法问题，并且把预测能量的精度提升到了 3.51 kcal/mol 的水平，
这与化学精度所需的 1 kcal/mol 非常接近了[13]。
预测能量的目的是为了构建分子的势能面，或者说力场。分子的物理化学性质，都
可以通过分子的能量进一步求得，所以得到分子准确的能量值颇为重要。传统的计算化
学求取分子的能量值，往往要在精度和计算时间上选取平衡。研究人员希望能有一种方
法，快速得到分子的能量，且精度达到密度泛函理论的程度，而所花费的计算时间要与
力场计算能量相仿。利用机器学习来构建分子势能面的成果有很多[10,45,50,50,51]。Behler 提
供了一种利用深度学习神经网络来构建分子势能面的方法 [27–29,30] 。通过对称函数
（Symmetry function）来描述分子的化学环境，利用神经网络来构建分子的势能面模型，
精度能够达到 10meV/atom。Gastegger 等人在 Behler 的基础上，进一步发展了对称函数
描述符，使得描述符的计算更加简单，势能面精度也变得更高。[44,52]
光谱是物质的指纹，是研究生命科学、医疗诊断、大气环境监测，工业过程控制、
原子分子物理和化学反应动力学的重要手段。分子光谱理应受到人们的重视，然而，目
3
第一章前言
前只有很少的工作将机器学习方法应用到光谱学上，运用到振动光谱上的工作几乎没有。
下面介绍一下针对不同光谱不同体系前人所做的相关工作。
1.2.1 利用反向传递获得振动光谱
理论上来说，红外光谱的频率可以依靠能量对于坐标的导数求得，而吸收强度则与
偶极矩对于坐标的导数有关，所以获得分子的红外光谱可以通过分子的总能和偶极矩为
媒介，利用总能和偶极矩的梯度来分别求取红外光谱的频率和强度。依据这种原理，Yao
等人利用神经网络构建了从分子结构到能量和偶极矩的映射关系[53]。这种映射关系基于
对称方程描述符和神经网络模型，其中，对称方程描述符用来描述分子，神经网络用来
构建描述符到能量的映射关系。更重要的是，由于神经网络构建的这种映射关系，本质
上是一种高维多项式，而分子结构到描述符的映射关系，也是有具体数学形式的。这两
者都是数学可导的，所以利用梯度反向传递以及链式法则来求取能量导数，进而获得分
子的红外光谱。
具体来说，Yao 等人设计的映射模型由两部分构成，第一部分是由分子各原子的带
电荷数通过神经网络获得分子的偶极矩，第二部分是利用分子三维结构通过神经网络获
得分子的总能，而分子的力则通过分子总能的一阶导数求得。红外光谱的振动频率通过
力对于坐标的导数求得，吸收强度通过偶极矩对于坐标的导数求得。用这种方法预测含
有 370000 个水分子的数据集，能量均方根误差为 0.054 kcal/mol，能量一阶梯度（能量）
误差为 0.49 kcal/mol·Å，而偶极矩误差为 0.0082 Debye。利用这个神经网络模型来获得
红外光谱，对于 10 水分子体系误差为 33.2 cm-1，对于 20 水分子体系，误差为 16.2 cm-
1
，这与高精度的水分子力场精度相当[3,35]。
4
图 1-1 上方：10 水分子体系 TensorMol 力场生成的红外光谱（蓝色实线）与 ωB97X-D/6-311G**
下生成的红外光谱（橙色虚线）；下方：20 水分子体系 TensorMol 力场生成的红外光谱（蓝色实
线）与 ωB97X-D/6-311G**下生成的红外光谱（橙色虚线）
Fig. 1-1 The simulated harmonic IR spectra of a 10 water cluster (top panel) and a 20 water cluster
(bottom panel) gen erated using ωB97X-D/6-311G** (dashed orange line) and the TensorMol force
field (solid blue line)
1.2.2 利用分子动力学模拟预测振动光谱
分子动力学是获得红外光谱的一种途径。依据这种方式求取红外光谱必须要有精度
高的力场，研究人员利用机器学习力场进行分子动力学模拟，得到了很多成果。
Gastegger 等人利用神经网络构建高维神经网络势能面（HDNNPs），利用这种高精
度的势能面来加速从头计算分子动力学，获得分子动力学模拟的红外光谱，并于密度泛
函理论计算的红外光谱进行比较 [44,52] 。对于研究的甲醇体系，频率的平均绝对误差为
31.38 cm-1。另外，作者将这种计算方法扩展到了大分子如蛋白质体系的计算上面，仍然
取得了不错的效果。
5
第一章前言
图 1-2 甲醇的红外光谱。红色为利用从头计算分子动力学计算的机器学习红外光谱；蓝色为高精
度的 BP86 红外光谱。两种红外光谱都与 600 cm-1-4100 cm-1 的实验光谱（灰色）相吻合
Fig. 1-2 IR spectra of the methanol molecule. The ML spectrum (red) is able to reproduce the AIMD
spectrum (blue) obtained with BP86 with high accuracy. In addition, both theoretical spectra agree
well with the experimental one recorded in the regions between 600 cm−1 to 4100 cm−1 (grey)
同样的，Yao 等人利用 TensorMol 软件包构建神经网络势能面，使用该势能面针对

吗啡分子体系进行分子动力学模拟，对比 DFT 方法有比较好的吻合度[53]。
图 1-3 左上方：橙色虚线为使用 DFT 和简谐近似计算得到的吗啡分子的红外光谱，蓝色实线为利
用 TensorMol 软件包和简谐近似计算得到的红外光谱；右上方：利用 TensorMol 软件包优化得到
的吗啡分子结构；左下方：绿色实线为利用 TensorMol 做分子动力学模拟得到的红外光谱，橙色
虚线为使用 DFT 和简谐近似计算得到的吗啡分子的红外光谱；右下方：保持能量守恒的能量变化
Fig. 1-3 The geometry of morphine as optimized by TensorMol-0.1 (upper right panel) and its
harmonic IR spectra simulated using ωB97X-D/6-311G** (dashed orange line) and the TensorMol
6
force field (solid blue line) (upper left panel). The lower panels show the real-time IR spectra
obtained using TensorMol (solid green line), and the DFT results (dashed orange line) (left), and the
conservation of energy maintained by the smoothness of the energy (right)
1.2.3 利用分子结构直接得到分子光谱
既然机器学习方法有极好的关系拟合能力，我们完全可以利用机器学习模型的强大
拟合能力，由分子结构直接得到分子光谱。这种方式获得光谱的工作有很多，但是少有
关于振动光谱的工作。
Ramakrishnan 等人利用传统机器学习方法和库伦矩阵描述符，将分子结构通过机器
学习直接映射到电子光谱，并将预测结果与 DFT 计算得到的结果相比较，发现随着数
据集的增大，预测效果越来越好。当数据集大小达到 10k 分子时，预测光谱的平均绝对
误差能够达到 0.13 eV[54,55]。
Ye 等人使用内坐标来表示 N-methylacetamide(NMA)分子的三维结构，通过神经网
络来预测分子的紫外吸收光谱（UV）[56]。预测的紫外光谱与 DFT 计算的光谱有良好的
重合性。另外，针对不同的温度值，神经网络都能得到很好的预测结果。
图 1-4 （A）温度为 200K 下 TDDFT 和 NN 得到的 nπ* UV 光谱。（B）与 A 条件相同 ππ* 跃迁的
UV 光谱。
（C 和 D）与 A，B 相同但是温度为 300K。（E 和 F）与 A，B 相同但是温度为 400K。
7
第一章前言
TDDFT 计算使用 PBE0/cc-pvdz
Fig. 1-4 (A) The nπ* UV spectra at 200 K of 5,000 NMA structures calculated by TDDFT and NN. (B)
Same as A but for the ππ* transition. (C and D) Same as A and B but at 300 K (E and F) Same
as A and B but at 400 K. TDDFT calculations are at the PBE0/cc-pvdz level
Ghosh 等人通过把分子结构转化为库伦矩阵描述符，利用三种不同的神经网络模型
来构建从结构到分子激发谱的直接映射关系，结果发现，多层感知机（MLP）能够学习
光谱，但是均方根误差高达 0.3 eV，卷积神经网络（CNN）能够显著地将误差降低到 0.3
eV，效果最好的是深度张量神经网络（DTNN），均方根误差为 0.19 eV[10]。CNN 和 DTNN
都能捕捉和学习到光谱的细微差别，足以证明神经网络在化学研究中的巨大潜力。
图 1-5 比较 CNN 和 DTNN 的光谱预测效果：第一列为 132k 数据集中的 13000 个测试集分子的相
对光谱误差（RSE），后三列显示的是相比于参照光谱，最好、平均、最差的预测光谱
Fig. 1-5 Comparison of CNN and DTNN spectra predictions: the first column depicts RSE
histograms for 13 000 test molecules from the 132k dataset. The following three columns show the
spectra of the best, an average, and one of the worst predictions compared to the corresponding
reference spectrum. The colored circles mark the histogram positions of the selected molecules
8
1.3 课题的研究内容与特色
1.3.1 研究内容
本文的研究内容主要分为以下两部分：
（1）光谱预测。构建从分子结构到红外光谱的神经网络映射模型，研究不同化学环
境对分子官能团振动频率和强度的影响。探究更准确的分子结构到光谱的映射机制，以
期获得准确的振动光谱。
（2）结构识别。探究由分子振动光谱预测分子结构的神经网络映射机制，设计一种
神经网络光谱分析模型来通过振动光谱获得分子的结构信息，并且研究不同振动光谱对
于分子光谱分析识别的影响。
1.3.2 创新点
本论文着眼于当前生物医药、化学化工以及基础研究领域中光谱学表征大量应用，
而利用光谱数据进行结构解析和识别难度大、效率低、成本高的现实困难，力图引入近
年来计算机领域逐渐完善的机器学习技术，结合量子化学计算方法，发展一套用于光谱
预测和结构识别的高效方法。本课题的主要创新点如下：
（1）多学科交叉：问题来自于工业生产和科研活动中的实际困难，方法来自于计算
机科学领域的前沿先进技术，解决问题的思路来自于量子化学揭示的结构—性质内在关
联，多学科协同解决同一问题，以达到对研究对象的新认识。
（2）理论与实际密切结合：生物医药、化学化工实际生产中经常要面对的光谱生成
和结构识别问题。工业生产中经常采用仪器测量和人工分析的方法应对这两方面的问题，
耗时耗力且不能保证准确性。本论文的研究内容致力于对这两方面问题提出解决方案，
以期能够运用到实际的工业生产当中。
（3）选题处于学科前沿：机器学习和神经网络算法是目前量子化学计算领域的前
沿技术，它的出现解决了量子化学计算的多个问题，也为理论计算领域的发展提供了一
种新的思路。我们的研究内容首次遍历了分子数达数万的的庞大数据集，并且模型的精
度是工业和科研界最高，预测振动光谱频率的误差能达到几个波数；另外，我们是第一
个通过归纳多个谱的信息来自动判断结构。本论文的研究处于目前将机器学习应用于量
子化学研究的前沿。
9
第二章人工神经网络
2.1 机器学习与人工神经网络
机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复
杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为、以获
取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习目前
已经成功应用于数据分析与挖掘、模式识别、生物信息学等领域。
人工神经网络（Artificial neural network，ANN）是机器学习中的一种算法，它的灵
感来自动物的中枢神经系统。动物的神经系统通常呈现为相互连接的“神经元”网络结
构，它可以对输入值通过反馈机制使它们获得对应的输出。如上一章所述，神经网络方
法已经成功运用于计算化学当中，产生了一系列重要的成果。
神经网络十分适合构建复杂的非线性映射关系，比如分子的结构与分子的物理化学
性质之间的映射关系。神经网络的这种特点要归功于以下关键优势：
1．ANN 有能力学习和构建非线性的复杂关系的模型，这非常重要，因为在现实生
活中，许多输入和输出之间的关系是非线性的、复杂的。比如分子结构与其总能之间的
关系。这两者之间具有非线性的映射关系却难以用具体数学形式表示，利用 ANN 则能
很好地构建它们之间的映射关系。
2．ANN 可以推广，在从初始化输入及其关系学习之后，它也可以推断出未知数据
之间的未知关系，从而使得模型能够推广并且预测未知数据。这相当于对特定问题进行
数学建模，以求预测未知的数据。在我们的工作中，我们利用 ANN 对特定数据集 QM9
内的数据构建从分子振动光谱到结构的映射关系，可以预测数据集外的分子的结构，比
如说生物学家们关心的氨基酸、碱基、甚至蛋白质的结构。
3．与许多其他预测技术不同，ANN 不会对输入变量施加任何限制（例如：如何分
布）。此外，许多研究表明，ANN 可以更好地模拟异方差性，即具有高波动性和不稳定
方差的数据，因为它具有学习数据中隐藏关系的能力，而不在数据中强加任何固定关系。
这在数据波动非常大序列预测中非常有用。比如我们利用强度值波动非常大的振动光谱
来预测分子结构，能得到很高的准确率。
近年来，由于人们在科研和生产过程中积累了大量的数据，并且以图形处理器（GPU）
为核心的计算设备成本一再降低，以及神经网络框架的大规模使用，使得神经网络得以
10
在科研中大量采用。量子化学计算以薛定谔方程为核心，通过复杂的非线性关系计算得
到体系的物理化学性质。然而，量子化学计算需要大量的计算资源和计算时间，这制约
了它在工业上的大规模使用。以上所述的神经网络的优势，刚好可以应用于弥补量子化
学计算的种种不足，促进其在工业上的大规模应用。
2.2 神经网络的基本原理
2.2.1 神经元模型
神经网络算法是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技
术。人脑中的神经网络是一个非常复杂的组织。成人的大脑中估计有 1000 亿个神经元。
人工神经网络由“神经元”相互连接构成。这种神经元模型由生物体神经元细胞抽象而
来。如图 2-1 所示为生物体中典型的神经元的结构。
图 2-1 典型的神经元的结构
Fig. 2-1 Structure of a typical neuron
生物体内的神经元形态和功能多种多样，但是结构上大致都可以分为两部分，即细
胞体（Cell body or soma）和神经突。神经突又分为树突（Dendrites）和轴突（Axon）两
种。一个神经元通常有多个树突，它主要用来接受传入信息（电信号）；而轴突往往很长
且只有一条，轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突的末端跟
其他神经元的树突产生连接，从而传递信号。
生物体的大脑中有数亿个神经元细胞，他们互相连接行成网络，以电信号的形式处
理或者传播信息。外部信息或者刺激被神经元的树突接收，在神经元细胞体中处理，转
化成输出并通过轴突，传递到下一个神经元。下一个神经元可以选择接受它或拒绝它，
这取决于信号的强度。神经元模型从生物体神经元细胞中抽象而来。最早的神经元模型
11
是心理学家 McCulloch 和数学家 Pitts 发表的抽象的神经元模型 MP。

神经元模型 MP 是一个包含输入，输出与计算功能的模型。输入可以类比为神经元
的树突，而输出可以类比为神经元的轴突，计算功能则可以类比为细胞核。图 2-2 是一
个典型的神经元模型，它包含 3 个输入，一个输出，以及 2 个计算功能。
图 2-2 神经元模型
Fig. 2-2 Neuron model
对于上述的神经元，其输入为，，以及截断+1，其输出为：
(2-1)
其中，表示的是向量，代表的是权重，即权重值组成的向量。函数称为激活函
数（active function），它的作用是增强模型的非线性拟合能力。通常激活函数可以选择为
Sigmoid 函数，或者 Tanh 双曲正切函数。
综上所述，一个神经元模型的使用可以这样来理解：
我们有一个数据，称之为样本。样本有四个属性，其中三个属性是已知的，一个属
性是未知的。神经元模型做的就是通过三个已知的属性作为模型的输入来预测未知的属
性。具体的预测方法就是通过神经元的公式来计算。这里，已知的属性称之为特征，未
知的属性称之为目标。
2.2.2 神经网络的结构
神经网络是由很多的神经元联结而成的，一个简单的神经网络的结构如图 2-3 所示：
12
图 2-3 神经网络的结构
Fig. 2-3 The structure of neural networks
在神经网络中，一个神经元的输出是另一个神经元的输入，+1 项表示的是偏置项。
上图是含有一个隐含层的神经网络模型，其中 L1 层称为输入层，L2 层称为隐含层，L3
层称为输出层。
2.2.3 神经网络的计算
在神经网络中，主要有如下的一些参数标识：
1．网络的层数。在上述的神经网络中，将第层记为，则上述的神经网
络，输入层为，输出层为。
2．网络权重和偏置，其中表示的是第层的第个
神经元和第层的第个神经元之间的连接参数，标识的是第层第个神经元
的偏置项。在图 2-3 中，，。
在神经网络中，一个神经元的输出是另一个神经元的输入。假设表示的是第层
第个神经元的输入，假设表示的是第层第个神经元的输出，其中，当时，
。根据上述的神经网络的权重和偏置，就可以计算神经网络每一个神经元的输
出，从而计算出神经网络的最终的输出。
13
对于上述的神经网络结构，有以下的计算：
从而，上述神经网络的最终输出结果为：
(2-2)
上述的步骤称为前向传播，指的是信号从输入层，经过每一个神经元，直到输出神
经元的传播过程。
2.2.4 神经网络中参数的求解
神经网络的本质就是通过参数与激活函数来拟合特征与目标之间的真实函数关系，
即使参数尽可能的与真实的模型逼近。神经网络中参数的求解一般采用反向传播算法。
对于上述神经网络模型，假设有个训练样本，对于
一个训练样本，其损失函数为：
(2-3)
为了防止模型的过拟合，在损失函数中会加入正则项，即：
(2-4)
其中，表示的是损失函数，表示的是正则项。则对于上述的含有个样本的
训练集，它的损失函数为：
(2-5)
我们的目标是求参数向量和参数向量以使得损失函数达到最小值。下面
14
的问题就是求最优的参数值，能够让损失函数的值最小。此时这个问题就被转化为一个
优化问题。
首先需要对参数进行随机初始化，即将参数初始化为一个很小的接近 0 的随机值。
在随机初始化参数后，利用前向传播得到预测值，进而可以得到损失函数，此
时需要利用损失函数对其参数进行调整，一个常用方法就是高等数学中的求导，但是这
里的问题由于参数不止一个，求导后计算导数等于 0 的运算量很大，所以一般来说解决
这个优化问题使用的是梯度下降算法。梯度下降算法每次计算参数在当前的梯度，然后
让参数向着梯度的反方向前进一段距离，不断重复，直到梯度接近零时截止。一般这个
时候，所有的参数恰好达到使损失函数达到一个最低值的状态。梯度下降对参数的调整
如下：
(2-6)
(2-7)
其中，称为学习率，在计算参数的更新公式中，由于神经网络结构复杂，每次计
算梯度的代价很大，所以还需要使用到反向传播算法。
而，的具体形式如下：
(2-8)
(2-9)
反向传播算法的思路如下：对于给定的训练数据，先通过前向传播算法计算出
每一个神经元的输出值，当所有神经元的输出都计算完成后，对每一个神经元计算其“残
差”，如第层的神经元的残差可以表示为。该残差表示的是该神经元对最终的残差
产生的影响。这里主要分为两种情况，一是神经元为输出神经元，第二是神经元为非输
出神经元。这里假设表示第层上的第个神经元的输入加权和，假设表示的是第
层上第个神经元的输出，即。
15
对于输出层上的神经元，其残差定义为：
对于非输出层，即对于各层，第层的残差的计算方法如下（以
第层为例）：
因此有：
(2-10)
对于神经网络中的权重和偏置的更新公式为：
(2-11)
16
(2-12)
2.2.5 神经网络的学习过程
对于神经网络的学习过程，大致分为如下的几步：
 初始化参数，包括权重、偏置、网络层结构，激活函数等等。
 循环计算：
 正向传播，计算误差
 反向传播，调整参数
 获得最终的神经网络模型。
2.3 其它形式的神经网络
上述以单隐藏层神经网络为例介绍了神经网络的基本结构，在神经网络的结构中，
可以包含多个隐藏层，神经网络的输出神经单元也可以是多个，如图 2-4 为含多隐层多
输出单元的神经网络模型：
图 2-4 含多隐层多输出单元的神经网络模型
Fig. 2-4 Neural network model with multiple hidden layers and multiple output units
上述神经网络模型为最早发明的简单前馈神经网络。随着算法技术的不断进步，更
多结构更高级更复杂的神经网络被发明出来，以下简要介绍在本论文中将会出现的两种
神经网络模型。
17
2.3.1 卷积神经网络
卷积神经网络（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人

工神经元可以响应一部分覆盖范围内的单元，对于大型图像处理有出色表现。
卷积神经网络由一个或多个卷积层和全连接层（对应经典的神经网络）组成，同时
也包括关联权重和池化层（Pooling layer）。这一结构使得卷积神经网络能够利用输入数
据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给
出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神
经网络，卷积神经网络需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。
卷积神经网络的优点有：
1．共享卷积核，对高维数据处理无压力。
2．无需手动选取特征，训练好权重，即得特征分类效果好。
卷积神经网络的缺点也十分明显：
1．需要调参，需要大样本量，训练最好要 GPU。
2．物理含义不明确（也是就说，我们并不知道没个卷积层到底提取到的是什么特
征，而且神经网络本身就是一种难以解释的“黑箱模型”）。
在本文中，卷积神经网络用于构建从库伦矩阵到分子物理化学性质之间的映射关系。
2.3.2 循环神经网络
循环神经网络（Recurrent neural network, RNN）是神经网络的一种，可以描述动态

时间行为，因为和前馈神经网络接受较特定结构的输入不同，RNN 将状态在自身网络中
循环传递，因此可以接受更广泛的时间序列结构输入。手写识别是最早成功利用 RNN
的研究结果。
大多数人工神经网络，如前馈神经网络，都没有记忆它们刚刚收到的输入。例如，
如果提供前馈神经网络的字符“WISDOM”，当它到达字符“D”时，它已经忘记了它刚刚
读过字符“S”，这是一个大问题。无论训练该网络是多么的辛苦，总是很难猜出下一个最
有可能的字符“O”。这使得它成为某些任务的一个相当无用的候选人，例如在语音识别
中，识别的好坏在很大程度上受益于预测下一个字符的能力。RNN 提出来是为解决序列
化的问题。
本文第五章的内容利用到了循环神经网络处理分子的振动光谱。分子的振动光谱可
以看作一种序列结构，而普通的前馈神经网络不能很好地捕捉到振动光谱强度值的先后
18
顺序，所以此时使用循环神经网络能得到更好地结果。
2.4 神经网络预测分子性质的步骤
神经网络已经被广泛运用于新材料设计，量子化学计算等科研领域。以往的工作大
多都是从分子结构来预测分子的性质。大量工作已经总结出利用神经网络来预测分子性
质的相关步骤。基本步骤如下：
1．产生机器学习数据集：神经网络利用数据集中的数据归纳总结数据之间的对应
关系，所以可靠的深度学习数据集尤为重要。一般来说，用于深度学习的数据集可以是
他人已经做好的数据集，也可以来自于网络上爬取的相关数据，更可以是自己用高精度
量子化学计算得到的相关数据或者实验得到的实验数据。
2．神经网络的输入描述：在从结构预测性质的性质预测工作中，神经网络的输入值
往往代表的是分子或者体系的某一部分的结构。由于笛卡尔三维坐标不适合作为神经网
络的输入，所以往往需要用分子描述符来描述分子的结构，即将笛卡尔三维坐标表示的
结构转化为用分子描述符表示的结构信息。常用的分子描述符有库伦矩阵，对称方程，
分子指纹等。应当注意的是，并没有全能的分子描述符，即没有哪一种分子描述符能够
适用于所有的性质预测工作。预测不同的分子性质所最适宜的分子描述符应当具体问题
具体分析。
3．神经网络的目标描述：在从结构预测性质的性质预测工作中，神经网络的输出目
标往往是分子或体系的某种物理化学性质，如总能，原子化能，偶极矩等。在这一步需
要把目标性质从数据集中提取出来，有时还要结合上标准化等有助于神经网络训练收敛
的数据处理工作。
4．训练神经网络：这一步用于构建最终的神经网络预测模型。首先，应当选用合适
的神经网络结构；接下来利用训练集的数据来训练神经网络模型；最后用测试集的数据
来测试训练好的神经网络的效果。训练过程应当防止神经网络的过拟合（Overfit）。过拟
合是指模型为了得到一致假设而使假设变得过于严格，也就是说模型对训练数据的学习
有点过头。早缓解甚至避免过拟合的技术手段有和 Drop out。本论文的工作中使用的是
Early stop 和 k-flod 两种手段。
19
第三章小分子从结构到光谱的模拟
3.1 引言
光谱学通过测量宏观观测对象的各种反应来探测微观结构和动力学，是量子时代之
前科技活动的主要工具。在光谱技术中，振动光谱技术是应用最广泛的技术之一，在学
术界、工业界和教育界都有广泛的应用。振动光谱无处不在的应用可以归结于它的内在
优势。振动光谱设备成本较低，检测方法多样，更重要的是，它对化学环境高度敏感，
且能提供飞秒尺度下的化学键和动力学的信息。目前，振动谱的理论计算通常需要耗费
大量的时间，这影响了振动光谱在工业上的大规模应用。
机器学习（ML）技术从现有数据中自动提取知识和积累经验，以提高特定任务的性
能，促进了几个令人兴奋的理论和计算化学领域的发展。它解决了电子结构、热力学、
反应活性、材料设计等方面的诸多问题。在这些贡献中，试图解决结构到光谱的预测的
工作比较少，其中大部分集中在研究同一分子不同化学环境下的光谱变化，研究不同分
子的光谱比较少。神经网络由多层感知器组成，能够映射出两组对象之间复杂的非线性
相关关系。训练有素的神经网络模型可以从结构上预测各种物理性质，如总能量、能级、
力、应力、偶极矩等。光谱特征是样品的跃迁能和概率的集合，通过光谱与结构的相关
性也能准确地预测分子光谱。
羟基（-OH）和羰基（-C=O）广泛存在于物理，生命和材料科学的重要分子中。它
们参与了工业和生物的许多核心反应。当它们连接到不同的官能团或者分子单位时，它
们具有不同的振动信号，因此它们的振动信号承载着关于结构和相互作用的丰富信息，
可以用来描述官能团所处的局部化学环境。羟基和羰基的伸缩振动分别在 3400-3700 cm-
1
和 1600-1900 cm-1 附近产生了特征振动峰。频率和光谱强度的细微差别与微观结构相
关，包括化学键、氢键或范德华相互作用等。在这项工作中，我们主要研究了羟基和羰
基的伸缩振动的红外和拉曼信号：我们构建了神经网络（NN）模型，从平衡结构预测伸
缩振动频率和红外/拉曼强度，并在相应的频率范围内提供其振动光谱。
3.2 模型与研究方法
3.2.1 理论计算过程
我们使用了 QM9 数据集，这是一个包含 9 或者 9 个以下重原子（包括 C、N、O 和
20
F）组成的所有分子的数据集，总计 134 k 个分子。这个数据集最早由 Ramakrishnan 通

过量子化学计算得来。数据集包含每个分子的在 B3LYP/6-31G（2df,P）水平上计算得到
的稳定构型，以及每个分子所对应的能量，电子和热力学性质。其中，本部分所研究的
数据是 QM9 数据集中含有 8 个重原子及 8 个以下的分子，即 QM8。在这部分工作中，
我们选用 QM8 子集，原因是其中含有的分子体积比较小，比较方便理论计算得到分子
的振动光谱。另外，含有 F 原子的分子被排除在外，因为这种分子只占很小的比例，不
具有代表性。最后，我们从 QM9 数据集中选出了 21939 个分子及其稳定构型，来作为
这部分的研究对象。
由于我们想要预测的是每个分子的红外光谱和拉曼光谱，而数据集中没有相关的数
据。我们先使用 Gaussian09 计算每个分子的红外光谱和拉曼光谱作为神经网络的预测目
标。在这一阶段，对于计算振动模的输入，我们采用的是 QM9 数据集中分子的笛卡尔
三维坐标，因为这些三维坐标是 QM9 数据集生成时就已经预先优化好的。理论计算生
成分子光谱使用的泛函是 B3LYP，基组是 6-31G（2df, p）。这样的组合可以让计算在效
率和准确性之间进行平衡。
3.2.2 提取官能团振动信息
羟基（-OH）和羰基（-C=O）是两个具有不同振动特征的官能团。这两个基团广泛
存在于化学和生物体当中，并参与许多工业和生物的核心反应。例如，肽键的形成，是
自然界中一个常见的过程，它会使一个氨基酸上的羧基（-COOH）脱出-OH，生成羰基。
研究这两个官能团对于研究自然界的生命现象具有重要的意义。
我们从 Gaussian09 计算得到的 log 文本文件中提取这两个官能团的伸缩振动频率、
红外和拉曼强度。为了便于提取有关数据以及防止出现两个振动耦合的情况，我们只选
取了其中含有一个羟基或者一个羰基的分子，如图 3-1（c）所示，最终我们分别获得了
了 5703 个羟基的振动模和 6788 个羰基的振动模。
21
图 3-1 数据集中分子大小的分布情况。（a）随着重原子数目的增加的分子数目变化；（b）随着全
原子数目的增加的分子数目变化；
（c）包含具体数目羟基或者羰基的分子数量
Fig. 3-1 The distribution of the molecular size in the dataset. (a) number of molecules increases
exponentially as the number of consisting heavy atoms (except hydrogen) increases. (b) the same as
(a), but take hydrogen atoms into account. (c) number of molecules containing specified number of
carbonyl or hydroxyl groups
3.2.3 选取分子描述符
一般来说，分子的笛卡尔三维坐标不能作为神经网络的输入值，所以我们必须要把
分子的结构由笛卡尔三维坐标的形式转化为分子描述符的形式。分子描述符对于结构和
振动性质之间映射的拟合精度非常重要。在这一领域，科研人员已经开发了多种分子描
述符。然而，他们大多数都是为了预测能量而创建的，且并不存在适用于任何问题的通
用描述符。
分子描述符要能描述分子的结构信息，并且不会因为分子在笛卡尔三维坐标系中平
移和旋转而发生变化。基于这种考虑，我们首先选用了排序库伦矩阵（Sorted coulomb
matrix）。
库仑矩阵是一种简单的全局描述符，它能体现原子核之间的静电相互作用。库仑矩
阵可通过以下公式计算：
(3-1)
对角元素可以看作是原子与其自身的相互作用，本质上是原子能与核电荷的多项
式拟合。非对角线元素代表原子和之间的库仑排斥力。
另外，我们也选取了对称函数（symmetry function）作为描述符。比起库伦矩阵，对
22
称函数描述符更加注重于描述局部结构信息。对称函数最早由 Behler 等人提出，它描述

的是分子中每个原子周围一定距离范围内的局部结构信息。在以往的研究当中，使用对
称函数描述符描述分子结构，可以用来预测分子的总能。将 N 个原子的体系的总能量 E
分为 N 个部分，对称函数描述符分别对 N 个以原子为中心的化学环境进行编码。对于
体系中的每个原子，其局部化学环境与它在总能里的贡献 Ei 之间存在映射关系。把这些
能量分量加起来，最终可以得到体系的总能量。分子的振动是一种局域性的信息，它只
与官能团本身还有官能团连接的结构有关，非常适合使用对称方程描述符。
为了描述局域化学环境，首先有截断方程：
(3-2)
其中为截断，表示的是原子 i 和 j 之间的距离。图 3-2 表示的是截断为 8 Å
时，随着原子之间距离从 0 到 10 Å 变化，截断方程值的变化。从这张图中，我们可以
看出，从 0 变化到 8 Å，方程的值在不断变小，当距离大于 8 Å 时，方程的值为 0。
这符合电场的基本理论，即局域化学环境中的原子距离越近影响越大，距离太远，可以
近似为不存在相互作用。
图 3-2 截断方程曲线形式
Fig. 3-2 Intercept equation in curvilinear form
对称函数描述符包含两个部分，一部分是用来描述一定化学环境内的原子之间的距
离信息，另一部分用来描述化学环境内的原子之间所呈的角度信息。距离对称方程为高
斯形式的函数加和的形式：
23
(3-3)
其中，和为参数，使用之前要根据具体问题采用不同的数值。和要保证在
中心原子截断的范围内的原子之间的距离信息都能被方程描述到。
对于角度对称函数，它描述的是化学环境内三个原子所成的角度信息，其形式为：
(3-4)
其中，角的中心在原子上面，、和都是参数值。在中心原子周围
截断的范围内的原子与中心原子所成的角度都能被描述到。
官能团的伸缩振动只与官能团自身和官能团上连接的结构，即官能团所处的局域化
学环境有关，所以我们希望对称函数描述符只要能够描述体系中官能团周围的化学环境
就可以。基于这种考虑，我们对上述描述符进行了一定的改良。首先，我们将中心原子
固定，也就是说只描述一个中心原子周围的化学环境。对于羟基（-OH）振动的预测中
心原子为 O，羰基（-C=O）振动的预测，中心原子为 C。这样的话减少了计算量，突出
了描述符的描述重心。另外，对于角度对称函数，我们只考虑原子与官能团（羟基或者
羰基）所成的角度。对于羟基（-OH）预测，原子 j 固定是羟基上的 O，原子 k 是羟基
上的 H，同样的，对于羰基（-C=O）预测，原子 j 固定是羰基上的 C，原子 k 是羰基上
的 O。这样只有少量与官能团直接相关的角度信息能够被考虑到。
对称函数中的参数、、和的选取依据 Gastegger 等人的研究结果。一般来说，
只要对称函数的取值能够覆盖数据集中距离的取值范围就可以。在我们使用的数据集
QM8 中，分子中原子的最大距离不超过 8 Å，所以我们的参数选择如表 3-1 和表 3-2 所
示：
24
表 3-1 距离对称函数的参数表
Table 3-1 Parameters of radial symmetry function

No. η Rs No. η Rs
1-4 6.377551 7.50 53-56 6.377551 3.86
5-8 6.377551 7.22 57-60 6.377551 3.58
9-12 6.377551 6.94 61-64 6.377551 3.30
13-16 6.377551 6.66 65-68 6.377551 3.02
17-20 6.377551 6.38 69-72 6.377551 2.74
21-24 6.377551 6.10 73-76 6.377551 2.46
25-28 6.377551 5.82 77-80 6.377551 2.18
29-32 6.377551 5.54 81-84 6.377551 1.90
33-36 6.377551 5.26 85-88 6.377551 1.62
37-40 6.377551 4.98 89-92 6.377551 1.34
41-44 6.377551 4.70 93-96 6.377551 1.06
45-48 6.377551 4.42 97-100 6.377551 0.78
49-52 6.377551 4.14 101-104 6.377551 0.50
表 3-2 角度对称函数的参数表
Table 3-2 Parameters of angular symmetry function

No. η λ ζ
105-108 0.083677 -1 1
109-112 0.083677 1 1
113-116 0.168574 -1 1
117-120 0.168574 1 1
121-124 0.5 -1 1
125-128 0.5 1 1
使用上述参数表，距离对称函数和角度对称函数的曲线形式如图 3-3 所示：
图 3-3 对称函数的曲线形式，（a）为距离对称函数的曲线形式，即距离变化时对称函数值的变
25
化；（b）为角度对称函数的曲线形式，即角度变化时对称函数值的变化
Fig. 3-3 The curvilinear form of a symmetric function, (a) for radial symmetry function and (b) for
angular symmetry function
基于上述方法，我们把每个分子的结构转化为一个 128 维的向量，具体过程如图 3-
4 所示。以羟基（-OH）为例，先在分子上以羟基氧原子为球心，作一个半径为的球
体，在这个球体内部的结构，我们认为对这个羟基的振动造成了影响。这个球体包裹的
原子，除了羟基上的氧原子和氢原子，都要按照原子的不同分别计算这些原子到中心原
子 O 的距离以及与羟基所成的角度。由于我们选用了 26 组距离对称方程，6 组角度对
称方程，那么最终表示这个球体内部结构信息的向量是 128 维的，其中 104 维表示的是
球体内部各原子距离中心原子 O 的距离信息，24 维表示的是球体内部各原子与羟基所
成的角度信息。我们认为这个 128 维的向量可以用于描述羟基周围的化学环境，即这个
向量与羟基的振动模有着某种联系，下面我们需要做的就是通过训练神经网络得到这种
联系。
26
图 3-4 对称函数编码局部化学环境的示意图。（a）对于羟基，选择合适的截断值，只有截断内的
信息会被描述；（b）以羟基上氧原子为中心的距离对称函数。26 组方程被分别用来描述四种元素
的原子（C、O、N、H）。总共生成 104 维的向量。（c）每种元素有 6 组角度对称函数来描述
Fig. 3-4 Scheme of the symmetry function descriptor to encode local chemical environment into
vectors. (a) An appropriate cutoff radius for the hydroxyl group is selected, only atoms in the cutoff
sphere would be taken into account. (b) Radial symmetry functions centered on the hydroxyl oxygen
atom. 26 RSFs are used to encode the contribution of atoms of each element H, C, N, and O. There
are 104 (26×4) vector elements in total arise from the radial part. (c) The same to (b), but for angular
symmetry functions, and 6 ASFs for each element type
27
3.3 结果与讨论
3.3.1 使用库伦矩阵描述符预测振动
首先，我们使用库伦矩阵描述符作为描述分子三维结构的方法预测分子的羟基振动
频率。对于一个含有 N 个原子的分子，利用公式（3-1）将其转化为库伦矩阵的描述形
式，一个 N×N 维度的矩阵。在我们所用的 QM9 数据集的子集中，原子数最多为 26 个
原子，最少为 3 个，这就意味着库伦矩阵的维度最大为 26×26，最小为 3×3。分子的
原子数不一致导致库伦矩阵维度不一致。对于神经网络来说，输入特征必须维度相同，
为了达到这个效果，我们对原子数小于 26 个的分子补充虚原子，虚原子的核电荷数为
0，坐标为（0,0,0）。这样所有分子的库伦矩阵的维度就可以保持一致，都为 26×26。
虽然现在所有的分子描述符都保持同样维度，但是还需要对其做出一定的调整，使
库伦矩阵与原子的排列顺序无关。对于水分子 H2O，它的笛卡尔三维坐标排列形式 H-O-
H 和 O-H-H 所形成的库伦矩阵不同，而水分子坐标的原子排列顺序变化，分子结构不
变。这种情况造成同一分子对应多个库伦矩阵形式。为了使一个分子唯一对应一个库伦
矩阵，我们按照矩阵每一行向量的模的大小对矩阵的行和列进行从大到小排列。排列之
后，每个分子对应的矩阵中较大的数值都集中在左上角，较小的数值都在右下角，且矩
阵为对称矩阵。
我们使用卷积神经网络（CNN）来构建从库伦矩阵到羟基振动频率的映射关系，网
络的具体结构入下：
1．卷积层部分，我们采用三个卷积层，第一层使用 5×5 滤波器和 ReLU 激活函数，
不使用池化层；第二层使用 5×5 的滤波器和 ReLU 激活函数以及池化层；第三层使用
2×2 的滤波器和 ReLU 激活函数以及池化层。
2．全连接层有三个隐藏层，分别有 1024、512、256 个节点，每一层都使用 tanh 作
为激活函数.
在训练过程中，我们按照公式（3-5）对预测目标值进行了 z-score 标准化，使数据
的均值为 0，方差为 1。训练集与测试集比值为 9:1，批训练每一批的 batch size 值设为
64，学习率为 0.001。训练过程中使用 MSE 损失函数和 Adam 优化器。训练过程持续 300
个 epoch，学习曲线如图 3-5 所示。
(3-5)
28
图 3-5 库伦矩阵预测羟基频率的学习曲线
Fig. 3-5 Learning curve of the hydroxyl frequency using coulomb matrix
由图 3-5 可以看出，在神经网络训练过程中，训练误差并没有一直降低，学习曲线
不收敛。这说明使用库伦矩阵无法训练出结构到振动频率的映射关系。同样的，我们使
用相同的网络结构和训练参数构建从库伦矩阵到羟基红外吸收强度的映射关系，学习曲
线为图 3-6。从曲线中，我们发现预测红外吸收强度的学习曲线仍然无法收敛。
图 3-6 库伦矩阵预测羟基红外吸收强度的学习曲线
Fig. 3-6 Learning curve of the hydroxyl IR intensity using coulomb matrix
上述结果表明，利用库伦矩阵作为分子的结构描述符无法预测分子的振动信息。我
们认为，无法预测是由于库伦矩阵含有太多的与预测目标无关的信息。图 3-7 为分子库
伦矩阵的示意图，我们可以看到在这个 26×26 的矩阵当中，有关羟基 O 和羟基 H 的结
构信息，只存在于红色实线之中。对于羟基的振动频率，它与羟基自身的结构存在强相
29
关，而在库伦矩阵中，描述羟基本身的信息只占矩阵总体的很小部分，这就导致了神经
网络的训练没办法找到这部分信息与振动的关系。为了解决这一问题，我们应该寻找一
种描述化学键局域化学环境的描述符，而非使用描述分子整体结构信息的分子描述符。
图 3-7 库伦矩阵中有效信息的示意图
Fig. 3-7 Schematic diagram of valid information in the coulomb matrix
3.3.2 使用对称函数描述符预测振动
对称函数可以来描述中心原子周围的化学环境，我们认为这种描述符对于振动光谱
的预测会有更好的效果。我们使用 3.2.3 中对称函数描述符的公式和参数来将分子结构
转化为向量。公式（3-2）中的截断值决定着中心原子周围多大的范围内的结构能够
被描述符描述到。对于羟基和羰基的红外和拉曼光谱预测，我们针对其每种物理性质（振
动频率，红外强度，拉曼强度）都进行寻找最佳截断半径的网格搜索。网格搜索以 0.2 Å
为搜索步长，从 3.0 Å 到 8.0 Å 每步都训练 10 个神经网络模型（10-folds）。我们选取十
个模型误差的平均值作为这个截断值的误差。取平均绝对误差最小的截断值作为这个物
理性质预测的最理想截断值。我们认为这些最佳截断值体现了物理性质的基本原理，对
它们的分析在 3.3.3 中予以展示，本小节暂不涉及。
本部分工作采取全连接的前馈神经网络作为映射模型的基础，其隐藏层为三层，节
点数分别为 256、128、64。这样每一个输入向量经过神经网络都生成一个目标值。神经
网络的每一层都采用 tanh 激活函数，每一批数据大小为 32，学习率为 0.0001，振动频
率，红外、拉曼强度都使用式 3-5 进行标准化。训练过程中使用 early stop 来避免过拟
合。训练过程中使用的是 MAE 损失函数。预测羟基振动频率的学习曲线为图 3-8。从
图中，明显可以看出，随着训练步数的增加，预测误差不断减小，最终达到收敛。这说
明使用对称函数描述符来预测振动是完全可行的。
30
图 3-8 对称函数预测羟基振动频率的学习曲线
Fig. 3-8 Learning curve of the hydroxyl frequency using symmetry function descriptor
按照同样的方法，我们把结构到羟基和羰基的振动频率、红外强度、拉曼强度都进
行映射建模，结果如图 3-9 和 3-10。其中，计算皮尔逊相关性系数，平均相对误差和平
均绝对误差的公式分别为式（3-6）、（3-7）和（3-8）。
(3-6)
(3-7)
(3-8)
其中为真实值，即 DFT 计算结果；为神经网络的预测值。
31
图 3-9 对称函数描述符预测羟基伸缩振动信号。
（a）预测振动频率的 DFT 和 NN 结果对比图。上
方和右方的子图分别对应 NN 预测和 DFT 计算的频率分布图，下方的子图对应的是 NN 预测与
DFT 计算相比的误差。（b）和（c）分别是羟基的红外和拉曼强度的 DFT 计算和 NN 预测对比图
Fig. 3-9 Prediction of the vibrational signatures of the hydroxyl stretching mode. (a) Correlation plots
of the DFT and NN predicted vibrational frequencies. The top and right panes depict the frequency
distributions of the molecule set predicted by NN and calculated by DFT, respectively. The bottom
pane depict the error in NN prediction compared to DFT results. (b) and (c) Correlation plots of the
DFT calculated and NN predicted IR and Raman intensities of the hydroxyl stretching mode,
respectively.
图 3-10 对称函数描述符预测羰基伸缩振动信号。
（a）预测振动频率的 DFT 和 NN 结果的对比图。
上方和右方的子图分别对应 NN 预测和 DFT 计算的频率分布图，下方的子图对应的是 NN 预测与
DFT 计算相比的误差。（b）和（c）分别是羰基的红外和拉曼强度的 DFT 计算和 NN 预测对比图
Fig. 3-10 Prediction of the vibrational signatures of the carbonyl stretching mode. (a) Correlation
plots of the DFT and NN predicted vibrational frequencies. The top and right panes depict the
frequency distributions of the molecule set predicted by NN and calculated by DFT, respectively. The
32
bottom pane depict the error in NN prediction compared to DFT results. (b) and (c) Correlation plots
of the DFT calculated and NN predicted IR and Raman intensities of the carbonyl stretching mode,
respectively
图 3-9 为预测羟基伸缩振动信号的结果。（a）为羟基振动频率的预测结果，可以看
出 NN 预测的结果与 DFT 的计算结果有很大一部分能对应，两者之间的平均相对误差
为 0.09%，皮尔逊相关性系数为 0.99，证明两者之间有较强相关性，NN 预测的效果
好。对于振动频率，研究人员所关心往往是绝对误差，而我们的神经网络的预测平均
绝对误差为 3.4 cm-1，这比起羟基伸缩振动频率的绝对值来说是很小的数值，证明使用
对称函数描述符预测振动频率是可靠的。对于羟基的红外强度（b）和拉曼强度预测
（c），NN 与 DFT 结果的相关系数都为 0.98，平均相对误差分别为 11%和 6.2%，NN
与 DFT 结果比较吻合。DFT 方法难以准确计算振动光谱的吸收强度，所以 NN 的红外
强度和拉曼强度预测仍然算是很好的预测结果。
图 3-10 为羰基伸缩振动信号的预测结果，对比图 3-9，我们发现羰基的振动频率预
测效果比羟基的好，其平均绝对误差仅为 2.3 cm-1，这主要是由于数据集中羰基的伸缩
振动频率分布较好，更接近于高斯分布，这样的数据分布对于神经网络进行回归训练来
说更可靠。
（b）和（c）所示的强度预测也取得了比较好地效果，红外强度和拉曼强度预
测的皮尔逊相关性系数分别为 0.99 和 0.95，平均相对误差分别为 4.9%和 13%。对比羟
基的强度预测，我们发现羰基的红外强度预测效果好于羟基，拉曼强度预测效果却比羟
基要差。这个并非是神经网络随机性造成的，而是在一定程度上反映了振动光谱的性质。
对于固定的分子，其红外光谱和拉曼光谱的振动频率是一致的，但是对于同一个振动频
率，红外强度与拉曼强度完全不同，且往往是红外强度数值大，则拉曼强度数值小；红
外强度小，拉曼强度则大。因此，羰基的红外强度呈现高斯分布，预测效果好，相对地
拉曼强度就难以呈现高斯分布，预测效果较差。羟基的预测也遵循同样的原则。
为了直观的将 NN 预测的结果与 DFT 计算的结果进行比对，我们使用洛伦兹展宽
将两者由离散的振动信号转化为连续的谱线信号，转化结果分别为图 3-11 和图 3-12。
从图 3-11 和 3-12 可以看出，NN 预测羰基振动的结果比羟基精度更高，预测结果与计
算结果几乎完全重合。无论对于羟基还是羰基的振动预测，NN 的结果与 DFT 计算的结
果都能有较好的符合。对于测试集中预测结果最差的 10%，随机选取的分子的预测光谱
与计算光谱相比也有比较不错的符合度。
33
图 3-11 随机选取的分子的羟基伸缩振动的 NN 预测（实线）和 DFT 计算（虚线）振动光谱的对
比。（a）红外光谱。从每种预测效果等级中随机选取的三个分子：从上到下分别为最好的 10%、
最好的 30%-40%、最差的 10%-20%以及最差的 10%。（b）与（a）类似的拉曼光谱的随机样本
Fig. 3-11 Comparison between the NN predicted (solid) and DFT calculated (dashed) vibrational
spectra of the hydroxyl stretching mode of randomly selected sample molecules. (a) Infrared spectra.
Three sample molecules are randomly selected from different grades of prediction quality: the top to
bottom rows depicts the best 10%, the best 30%-40%, theworst10%-20%, and the worst 10%
predictions, respectively. (b) Raman spectra of the same samples presented in (a)
图 3-12 随机选取的分子的羰基伸缩振动的 NN 预测（实线）和 DFT 计算（虚线）振动光谱的对
比。（a）红外光谱。从每种预测效果等级中随机选取的三个分子：从上到下分别为最好的 10%、
最好的 30%-40%、最差的 10%-20%以及最差的 10%。

（b）拉曼光谱的随机样本
Fig. 3-12 Comparison between the NN predicted (solid) and DFT calculated (dashed) vibrational
34
spectra of the carbonyl stretching mode of randomly selected sample molecules. (a) Infrared spectra.
Three sample molecules are randomly selected from different grades of prediction quality: the top to
bottom rows depicts the best 10%, the best 30%-40%, theworst10%-20%, and the worst 10%
predictions, respectively. (b) Raman spectra of the same samples presented in (a)
我们计算测试集中展宽后的量子化学计算光谱与 NN 预测光谱之间的相关系数，其
结果如图 3-13 所示。对于羟基的预测，我们发现 95%以上的红外光谱（548/571）和 99%
以上的拉曼光谱（568/571）预测值与真实值之间的相关系数超过 0.9；对于羰基的预测，
98%以上的红外光谱（671/679）和 99%以上的拉曼光谱（675/679）预测值与真实值之间
的相关系数超过 0.9。这说明我们的神经网络预测效果好，精度高。
图 3-13 （a）羟基测试集中 DFT 和 NN 计算的红外光谱和拉曼光谱之间的相关系数；（b）羰基测
试集中 DFT 和 NN 计算的红外光谱和拉曼光谱之间的相关系数
Fig. 3-13 (a) The distribution of Pearson’s correlation coefficients of -OH stretching in the QM8 set.
(b) The distribution of Pearson’s correlation coefficients of –C=O stretching in the QM8 set
生命科学与生物相关产业是振动光谱的重要应用方向。我们希望构建的神经网络具
有迁移到生物分子上的能力，为此我们使用构建好的神经网络模型预测氨基酸的振动光
谱。如图 3-14 所示，我们使用构建的 NN 预测组氨酸的羟基伸缩振动和苯丙氨酸的羰基
伸缩振动，我们发现预测光谱与计算光谱较为一致。我们发现预测样例的相关系数都能
超过 0.9，我们的 NN 并没有因为预测数据与训练数据集相差过大就预测效果变差，证
明我们构建的神经网络具有十分可靠的迁移性。我们证明了神经网络算法应用于生物分
子如氨基酸、蛋白质的可能性。
35
图 3-14 （a）组氨酸的 NN 预测与 DFT 计算红外光谱之间的对比；（b）组氨酸的 NN 预测与 DFT
计算拉曼光谱之间的对比；
（c）苯丙氨酸的 NN 预测与 DFT 计算红外光谱之间的对比；（d）苯丙
氨酸的 NN 预测与 DFT 计算拉曼光谱之间的对比
Fig. 3-14 Comparisons between NN predicted (green dashed) and DFT calculated (orange solid) (a)
infrared absorption and (b) and Raman spectra of histidine -OH stretching. The total spectra were
presented as gray shades. Pearson’s correlation coefficients between the NN and DFT spectral lines
were explicitly presented. Similar comparisons were performed for phenylalanine –C=O stretching in
(c) and (d)
3.3.3 最佳截断半径和物理量的局域性
官能团的振动与局域化学环境有关，局域化学环境的描述依靠的是对称函数描述符
与描述符中的参数，所以式（3-2）中的截断值对模型预测的精度会有比较大的影响。
如果截断值太小，描述符包含的结构信息过少，则不能构建从结构到振动信息的神经
网络模型，如果截断值过大，则会引入大量与官能团振动无关的结构信息，进而影响
预测效果。所以说，最合适的截断值应当与官能团的振动信息有关，与官能团的物理
性质对应。
我们使用网格搜索寻找对于不同的预测任务最适合的截断值。具体来说，以羟基
的振动频率为例，我们从 3Å-8Å 每 0.2Å 取一个截断值，使用这个截断值构建 10 个
从结构到性质的神经网络，对这 10 个神经网络的测试集误差取均值作为这个截断值
36
下描述符所能达到的最小误差。通过比较每个截断值下的最小误差来确定合适的截断
值。羟基的红外强度、拉曼强度以及羰基的振动频率、红外强度、拉曼强度也按照这个
方法来确定最合适的截断值。所有截断值下的预测误差如图 3-15 所示。
图 3-15（a）使用不同的截断值的描述符来预测羟基伸缩振动频率的测试集 MAE 误差；（b）使用
不同的截断值的描述符来预测羟基红外强度的测试集 MAE 误差；（c）使用不同的截断值的描述符
来预测羟基拉曼强度的测试集 MAE 误差；（d），（e），（f）对应的是羰基的振动信息
Fig. 3-15 (a) Test set MAEs obtained for descriptor vectors using different cutoff values to predict –
OH stretch frequencies. (b) Test set MAEs obtained for descriptor vectors using different cutoff
values to predict –OH IR intensities. (c) Test set MAEs obtained for descriptor vectors using different
cutoff values to predict –OH Raman intensities. (d), (e), (f) the same to (a), (b), (c), respectively, but
37
for carbonyl group
由图 3-15 可以看出，对于每一种 NN 模型，描述符截断值从 3.0 Å-8.0 Å 变化，其

测试集总有一个最小误差和其所对应的最理想截断值。将图 3-15 中的最理想截断值截
取出来做成表 3-3。
表 3-3 每个物理性质的 NN 的最理想截断半径值
Table 3-3 Optimal cutoff radii of the NN models for each physical property. All values in ångströms
(Å)
Frequency IR intensity Raman intensity
hydroxyl stretch 4.2 6.6 8.0
carbonyl stretch 4.0 5.6 7.4
如表 3-3 所示，我们注意到了最佳半径有两个有趣的事实：
首先，预测羰基振动频率、红外和拉曼强度所对应的最佳截断半径要比预测羟基相
同性质的最佳截断半径要小。这可以归因于以下事实：羟基拉伸比羰基拉伸更容易被干
扰。结果，羟基拉伸特征的预测需要考虑较弱的相互作用，因此需要更大的截断范围来
构建势能面。
其次，对于羟基和羰基拉伸模式，频率预测的最佳半径都比 IR 强度预测的最佳半
径短，并且拉曼强度预测的最佳半径比红外的最佳半径大。通过考虑这三个量的物理性
质可以理解这一点。在我们做 DFT 计算使用的简谐近似中，振动频率与总能量相对于
正则模（即 Hessian 矩阵）的二阶导数相关。对于局部振动，例如羟基或羰基伸缩振动，
频率取决于所涉及基团的化学键长变化时的总能量的变化。远离原子团的原子位移对这
些拉伸模式的影响可以忽略不计，并且描述符包括这些弱相互作用将导致过拟合并且降
低预测精度。因此，相对较短的截断半径对于频率预测是最佳的。另一方面，IR 强度与
分子偶极矩相对于正则模的导数有关，即，在羟基或羰基拉伸中键长变化时偶极矩的变
化。偶极矩是一个向量，代表分子占据的空间中电荷分布的不平等程度，这本质上是一
种离域特性，因此需要更大范围的结构信息才能准确预测。此外，拉曼强度与极化率相
对于正则模的导数有关，而极化率与分子偶极矩相对于施加到分子上的电场强度的导数
有关。在数值上，函数的高阶导数通常需要更宽范围的原始函数信息。结果，用于拉曼
强度预测的最佳截止半径大于用于频率和 IR 强度预测的最佳截止半径。
38
3.4 本章小结
本章的主要内容是利用人工神经网络来预测分子中特定化学键的伸缩振动信号。我
们开发了一种神经网络预测模型，使用 DFT 理论计算各种有机分子构成的数据集训练
神经网络，以分子的部分基态结构信息预测振动频率，红外强度和拉曼强度。更重要的
是，通过我们对神经网络预测振动的最佳截断半径的分析，我们证明了神经网络并不是
一个完全无法解释的“黑盒子”。通过对对称函数截断值进行优化，我么发现 NN 预测
分子的物理性质在某种程度上能够体现物理性质的局域性，在另一个角度体现了 NN 的
可靠性。此外，NN 预测仅占用比 ab-initio 方法低几个数量级的计算资源。
我们的研究表明，NN 可以成为帮助化学家研究分子物理化学性质的可靠工具，并
且有应用于工业大规模生产的潜质。
39
第四章生物分子从结构到光谱的模拟
4.1 引言
振动光谱被广泛用于表征蛋白质结构。传统的量子化学计算方法，由蛋白质的分子
结构计算蛋白质的振动光谱依需要昂贵的计算成本。机器学习（ML）技术从现有数据中
自动提取知识和积累经验，以提高特定任务的计算效率，在理论和计算化学领域取得了
很多令人兴奋的成果，并推动了该领域的发展。以往将机器学习技术应用于大分子的振
动光谱的工作比较少，大多都集中于使用机器学习构建分子的势能面，然后利用分子的
势能面进行分子动力学模拟，最后利用分子动力学模拟的偶极矩输出来获得大分子的振
动光谱。但是这种方法无法获得分子在不同化学环境下的光谱变化。
N-甲基乙酰胺（NMA）是一种广泛使用的肽键模型系统，它的主要部分是一个肽键。
研究人员经常用它来模拟研究生物分子的物理化学性质。本章内容以 NMA 的羰基（-
CO）和-NH 键为研究对象，将 NMA 的结构映射到振动光谱上，探究生物分子所处的化
学环境与其振动光谱之间的联系。
4.2.1 理论计算过程
肽键是蛋白质分子中的重要基团，是一分子氨基酸的 α－羧基和一分子氨基酸的 α
－氨基脱水缩合形成。氨基酸借肽键联结成多肽链。蛋白质中含有几十上百个肽键，如
果我们的研究以某种蛋白质为研究对象，那么数据集的准备工作计算量会很大。为了快
速得到可靠的分子数据集，我们使用 NMA 分子作为研究对象。NMA 分子的化学结构
如图 4-1 所示，分子包含一个羰基和-NH 键，我们将以这两个化学键为主要研究对象，
探究化学环境的改变对分子化学键伸缩振动的影响，进而得到分子结构与其振动光谱之
间的关系。
为了获得足够多 NMA 分子的结构，我们使用一个时间步长为 1 fs 的分子动力学模
拟。模拟使用 1 个 NMA 分子与 890 个水分子构成的结构模型放在一个边长 3.00362 nm
的立方体盒子中，在温度为 300 K 和 NVT 条件下平衡，使用 OPLS-AA 力场和 GROMACS
模拟软件进行动力学模拟 10000000 步，共 10 ns。在得到的轨迹中，每 100 步保存一个
结构，总共得到 NMA 体系的 100000 个不同结构。
40
图 4-1 NMA 分子的化学结构
Fig. 4-1 Chemical structure of NMA molecules
分子动力学模拟得到的分子结构精度比较低，用来直接进行振动光谱计算和 NN 的
构建效果不好。另外 100000 个结构对于 NN 的构建也是过剩的。对此，我们进行了以
下处理工作。在最初的 100000 个结构中随机选取 8210 个样本作为研究对象。上一章内
容已经能够证明，对于分子的振动研究，8210 个样本数量已经足够，并且能大大缩小数
据集准备过程消耗的时间。为了进一步简化计算，我们对每个样本的分子体系进行优化，
只取 NMA 分子本身和离它最近的 5 个水分子，这样只考虑一定范围内的化学环境对化
学键振动所造成的影响。
我们先使用 Gaussian09 计算软件对 8210 个分子分别计算他们的稳定构型。计算时
使用 b3lyp 和 6-31g(d)的组合，既保证了计算的精度又节省了计算资源花费。我们将每
个分子的稳态构型从各自的计算结果文件中提取出来，以便进行下一步的振动光谱计算。
在实验中，由于样品中水分子的存在，往往导致样品中的重要特征峰与水分子的羟
基振动峰相混淆，进而影响化学分析人员的判断。为了减少这一影响，研究人员经常会
采用将蛋白样品溶于重水中的处理方法。为了模拟这一实验操作，我们将模型也改为
NMA 分子泡在重水中。当 NMA 溶于重水时，-NH 键的 H 会被 D 取代，导致-NH 键的
伸缩振动发生改变。由于氢原子 H 与氘原子 D 仅仅是中子数不同而电子结构相同，所
以只需要在原有的稳态构型中把相关氧原子替换为氘则可。我们把新的结构分别进行理
论计算，得到的结果以备下一步使用。
4.2.2 提取官能团振动信息
我们从 Gaussian09 计算得出的 log 文本文件中提取-C=O 和-NH 的伸缩振动频率、

红外和拉曼强度。提取出的数据进行数据分布的可视化。图 4-2 为两个化学键的振动信
息的分布情况。
41
图 4-2 (a)，（b），（c）分别为羰基振动频率，红外强度，拉曼强度的分布。
（d），（e），（f）分别为-
NH 振动频率，红外强度，拉曼强度的分布
Fig. 4-2 (a), (b), (c) Frequencies, IR intensities and Raman intensities distribution of carbonyl bond,
respectively. (d), (e), (f) the same to (a), (b), (c), respectively, but for -NH bond
从图 4-2 中，我们可以看出，羰基的振动信号全部都呈现高斯分布，NN 预测的效

果可能会比较好；但是对于-NH 键，振动频率和红外强度都不呈现高斯分布，NN 预测
的效果可能会比较差。
4.2.3 选取分子描述符
分子的笛卡尔三维坐标不能作为神经网络的直接输入，所以我们必须要把分子的结
构由笛卡尔三维坐标的形式转化为分子描述符的形式。分子描述符对于结构和振动性质
之间映射的拟合精度非常重要。在理论计算领域，研究人员已经开发了多种分子描述符。
然而，他们大多数都是为了预测能量而创建的，且并不存在适用于任何问题的通用描述
符。
分子描述符要能描述分子的结构信息，并且不会因为分子在笛卡尔三维坐标系中平
移和旋转而发生变化。中科大江俊课题组使用神经网络 NN 来预测 NMA 分子的紫外可
见光谱，取得了很好的效果，他们描述 NMA 体系所使用的分子描述符是内坐标。内坐
标法就是通过价键的连接关系和键长 r、键角 α、二面角 θ 来表示原子核的位置的方法。
描述 NMA 重水分子体系的内坐标描述符由一些键长键角以及二面角组成。图 4-3
为描述 NMA 分子的内坐标，它由 15 个不同的结构信息组成，涵盖 NMA 分子的所有特
42
征化学键的信息。其中二面角全部取锐角。我们对每一种结构信息分别进行数据标准化，
使用的公式为式（3-5），得到的结果将作为 NN 预测分子振动信息的输入。
图 4-3 描述 NMA 分子的内坐标
Fig. 4-3 Internal coordinates used for NMA molecule
为了防止内坐标结构信息之间相关性太强导致信息重复输入神经网络，我们对分子
描述符进行皮尔逊相关性检验，结果如图 4-4，数据表明，每个结构属性之间的相关性
不大，描述符可以作为一个整体作为神经网络的输入。
43
图 4-4 预测振动光谱的描述符的皮尔逊相关性系数热力图
Fig. 4-4 Heat map of the Pearson correlation coefficient (r) among the descriptors for predicting
vibrational spectra
另外，我们也选取了对称函数（symmetry function）作为描述符。比起分子的内坐
标，对称方程描述符更加注重于描述局部结构信息。对称函数描述符的生成方式已经在
3.2.3 当中有详细的介绍，这里不再赘述。
4.3 结果与讨论
4.3.1 使用内坐标预测振动
对于一个 NMA 分子体系，它的结构信息由一个 15 维的向量来表示。这个 15 维的

向量对应着 NMA 的化学键伸缩振动信息。我们通过构建这个映射关系来探究分子振动
的规律。
我们使用全连接神经网络（FCNN）来构建从内坐标到化学键振动频率的映射关系。
神经网络的隐藏层为三层，节点数分别为 32、16、8。这样每一个向量经过神经网络都
生成一个目标值。每一层都采用 tanh 激活函数，批训练数据大小为 8，学习率为 0.0001。
振动频率，红外、拉曼强度都使用式 3-5 进行标准化。我们使用 early stop 来避免过拟
44
合。损失函数选则了平均绝对误差（MAE）。随着训练步数的增加，预测误差不断减小，
最终达到收敛。这说明使用内坐标描述符来预测振动是完全可行的。
按照同样的方法，我们把结构到羟基和羰基的振动频率、红外强度、拉曼强度都进
行映射建模，结果如图 4-5 和 4-6。其中，计算皮尔逊相关性系数，平均相对误差和平均
绝对误差的公式分别为式（3-6）、（3-7）和（3-8）。
图 4-5 内坐标描述符预测羰基伸缩振动信号。（a）预测振动频率的 DFT 和 NN 结果对比图。上方
和右方的子图分别对应 NN 预测和 DFT 计算的频率分布图，下方的子图对应的是 NN 预测与 DFT
计算相比的误差。（b）和（c）分别是羰基的红外和拉曼强度的 DFT 计算和 NN 预测对比图片
Fig. 4-5 Prediction of the vibrational signatures of the –C=O stretching mode. (a) Correlation plots of
the DFT and NN predicted vibrational frequencies. The top and right panes depict the frequency
DFT calculated and NN predicted IR and Raman intensities of the –C=O stretching mode,
respectively
图 4-6 内坐标描述符预测-NH 伸缩振动信号。（a）预测振动频率的 DFT 和 NN 结果对比图。上方
和右方的子图分别对应 NN 预测和 DFT 计算的频率分布图，下方的子图对应的是 NN 预测与 DFT
45
计算相比的误差。（b）和（c）分别是-NH 的红外和拉曼强度的 DFT 计算和 NN 预测的对比图片
Fig. 4-6 Prediction of the vibrational signatures of the –NH stretching mode. (a) Correlation plots of
DFT calculated and NN predicted IR and Raman intensities of the –NH stretching mode, respectively
图 4-5 为预测羰基伸缩振动信号的结果。
（a）为振动频率的预测结果，可以看出 NN
预测的结果与 DFT 的计算结果重合度很高，两者之间的平均相对误差仅为 0.087%，皮
尔逊相关性系数为 0.99，证明两者之间有较强相关性，NN 预测的效果好。对于振动频
率，研究人员所关心往往是绝对误差，而我们的神经网络的预测平均绝对误差为 1.4 cm-
1
，这比起羰基伸缩振动频率的绝对值来说是很小的数值，证明使用分子的内坐标描述符
对振动频率的预测是可靠的。对于羰基的红外强度（b）和拉曼强度预测（c），NN 与 DFT
结果的相关系数分别为 0.68 和 0.83，平均相对误差分别为 5.3%和 13%。我们发现 NN
预测羰基振动红外强度和拉曼强度的效果比较差，而目标数据的分布比较好，呈现高斯
分布，证明预测效果不好不是预测目标分布不均的原因。我们认为 NN 在预测强度时效
果不好是由于内坐标描述符本身的问题。分子的振动光谱强度与分子的偶极矩有关，而
偶极矩与分子整体的电荷分布有关，内坐标描述符只包含 NMA 分子的几何构象信息，
并不包含分子电荷的信息，所以使用内坐标预测分子红外光谱强度和拉曼光谱强度的效
果不会很好。
图 4-6 为-NH 键伸缩振动信号的预测结果。对于-NH 键的伸缩振动频率，NN 的预
测效果比较好，预测的平均绝对误差为 2.6 cm-1，平均相对误差为 0.10%，NN 预测值与
DFT 计算结果的皮尔逊相关性系数为 0.99。对于-NH 的红外强度预测，相关性系数为
0.96，相对误差为 13%；拉曼强度上，相关性系数为 0.60，相对误差为 11%。NN 在红
外强度上预测效果比拉曼强度要好。
我们使用的内坐标描述符包含 15 种 NMA 分子的结构属性。对于振动信息的预测
哪些结构属性起到什么样的的作用，哪些属性又作用最大，仍是一个问题。在这里，我
们使用开源软件 shap 来研究每种结构属性对 NN 的输出（即振动信息）所造成的影响。
由于内坐标预测分子振动的结果显示，预测分子振动频率的精度最高，所以我们只
研究 15 种结构属性对于分子振动频率预测所造成的影响。结果如图 4-7 和 4-8 所示。
46
图 4-7 对于-C=O 键伸缩振动频率的描述符重要性分析
Fig. 4-7 Descriptor importance analysis of –C=O stretching vibrational frequencies
47
图 4-8 对于-NH 键伸缩振动频率的描述符重要性分析
Fig. 4-8 Descriptor importance analysis of –NH stretching vibrational frequencies
从图 4-7 中，我们可以看出，对于预测羰基的振动频率来说，O 与 C 的距离 dOC 起

到最大的影响，且距离越大，伸缩振动频率越小。对于-NH 的振动频率，原子 N 与 H 之
间的距离 dNH 影响最大，且距离越大，振动频率越小。这与化学上的基本原理一致。以
羰基为例，dOC 越大，说明重水分子与羰基之间的相互作用强，将原子 O 拉离 C。原子
O 和 C 之间的相互作用力变弱，伸缩振动的频率变小。对于-NH 键也可以用同样的原理
解释。
4.3.2 使用对称函数预测振动
对称函数可以描述中心原子周围的化学环境，我们认为这种描述符对于振动光谱的
预测会有更好的效果。我们使用 3.2.3 中对称函数描述符的公式和参数来将分子结构转
化为向量表示。公式（3-2）中的截断值决定着中心原子周围多大的范围内的结构能
够被描述到。对于 NMA 重水体系，体系的最大直径不超过 8 Å。对于-C=O 和-NH 键的
48
对称函数截断值的网格搜索，我们以 0.2 Å 为搜索步长，范围从 3.0 Å 到 8.0 Å。每步都

训练三个神经网络模型取误差的平均值作为这个截断值的误差。取平均绝对误差最小的
截断值作为这个物理性质神经网络预测的最理想截断值。
神经网络结构采取全连接的前馈神经网络，隐藏层为三层，节点数分别为 256、128、
64。这样每一个向量经过神经网络都生成一个目标值。每一层都采用 tanh 激活函数，每
一批数据大小为 8，学习率为 0.0001。振动频率，红外、拉曼强度都使用式 3-5 进行标
准化。我们使用 early stop 来避免过拟合，使用 MAE 损失函数作为损失函数，以及 Adam
作为 NN 参数优化器。NN 的预测结果如图 4-9 和 4-10 所示。
图 4-9 对称函数描述符预测羰基伸缩振动信号。
（a）预测振动频率的 DFT 和 NN 结果对比图。上
DFT 计算相比的误差。（b）和（c）分别是羰基的红外和拉曼强度的 DFT 计算和 NN 预测对比图
Fig. 4-9 Prediction of the vibrational signatures of the carbonyl stretching mode. (a) Correlation plots
of the DFT and NN predicted vibrational frequencies. The top and right panes depict the frequency
DFT calculated and NN predicted IR and Raman intensities of the carbonyl stretching mode,
respectively
49
图 4-10 对称函数描述符预测-NH 伸缩振动信号。（a）预测振动频率的 DFT 和 NN 结果对比图。上
DFT 计算相比的误差。（b）和（c）分别是-NH 的红外和拉曼强度的 DFT 计算和 NN 预测对比图
Fig. 4-10 Prediction of the vibrational signatures of the -NH stretching mode. (a) Correlation plots of
DFT calculated and NN predicted IR and Raman intensities of the -NH stretching mode, respectively
图 4-9 为预测羰基伸缩振动信号的结果。
（a）为振动频率的预测结果，可以看出 NN
预测的结果与 DFT 的计算结果有很大一部分能对应，两者之间的平均相对误差为 0.11%，
皮尔逊相关性系数为 0.98，证明两者之间有较强相关性，NN 预测的效果好。对于振动
频率，研究人员所关心往往是绝对误差，而我们的神经网络的预测平均绝对误差为 1.8
cm-1，这比起羰基伸缩振动频率的绝对值来说是很小的数值，证明使用对称函数描述符
对 NMA 振动频率的预测是可靠的。对于羰基的红外强度（b）和拉曼强度预测（c），NN
与 DFT 结果的相关系数分别为 0.85 和 0.87，平均相对误差分别为 3.9%和 12%，NN 与
DFT 结果比较吻合。对比上一部分使用内坐标的预测结果图 4-5，我们发现使用对称函
数来预测振动强度的效果远好于使用内坐标描述符，我们认为这是因为对称函数描述符
含有更多分子整体的结构信息和电荷分布信息，这对于红外强度和拉曼强度来说是至关
重要的。
图 4-10 为-NH 键伸缩振动信号的预测结果，对于其振动频率来说，NN 预测的平均
绝对误差仅为 2.7 cm-1，相对误差为 0.11%，NN 预测结果与 DFT 计算结果相比，相关
性系数为 0.99。在强度预测上，红外强度和拉曼强度预测的皮尔逊相关性系数分别为 0.92
和 0.66，平均相对误差为 13%和 10%。对比使用内坐标的预测结果图 4-6，我们发现使
50
用对称函数来预测振动强度的效果远好于使用内坐标描述符的结果；对比图 4-9 羰基的

预测结果，我们发现-NH 键红外强度预测结果更好，而拉曼强度结果更差，这在一定程
度上反映了振动光谱的性质。对于固定的分子，其红外光谱和拉曼光谱的振动频率是一
致的，但是对于同一个振动频率，红外强度与拉曼强度完全不同，且往往是红外强度数
值大，则拉曼强度数值小；红外强度小，拉曼强度则大。因此，NH 键红外强度预测效
果越好，其拉曼强度预测越差。
对于 NMA 重水体系来说，对称函数预测振动频率和强度总有一个最合适的截断值
，我们使用网格搜索来确定这个数值。最佳截断半径如表 4-1 所示。
表 4-1 每个物理性质的 NN 的最理想截断半径值
Table 4-1 Optimal cutoff radii of the NN models for each physical property. All values in ångströms
(Å)
Frequency IR intensity Raman intensity
-NH 3.4 4.0 5.0
-C=O 3.2 4.4 4.6
表 4-1 呈现出与表 3-3 相似的趋势。首先，用于强度预测的截断值都大于频率预测

的最佳截断，拉曼强度的最佳截断大于红外强度的最佳截断；其次，预测-NH 键振动的
最佳截断半径都大于对应的-C=O 键的最佳截断。这两点都是第三章中也出现过的，证
明 3.3.3 中关于羰基和羟基最佳截断半径的规律并不是一种偶然现象，而是确实体现物
理上的客观规律。-NH 键与-C=O 键的情况与羟基和羰基的情况一致，其现象的解释与
3.3.3 中相同，这里不再赘述。
4.4 本章小结
本章的主要内容是利用人工神经网络来预测 NMA 分子中特定化学键的伸缩振动信

号。使用 DFT 理论计算各种有机分子的结构，构成数据集来训练神经网络，我们开发了
一种神经网络预测模型，以分子的部分基态结构信息预测振动频率、红外强度和拉曼强
度。更重要的是，神经网络并不是一个完全无法解释的“黑盒子”。通过对对称函数截断
值进行优化，我们发现 NN 预测在某种程度上能够体现物理性质的局域性，在另一个角
度体现了 NN 的可靠性。
51
第五章通过光谱预测分子结构
5.1 引言
振动光谱经常被用来鉴别物质的组成。分子中化学键的振动，无论是伸缩振动还是
弯曲振动，都会产生红外或者拉曼光谱峰，所以振动光谱包含分子的指纹信息。振动光
谱中是否存在某些峰成为了判断分子中是否存在某种官能团的模糊标志。在生物以及化
学的相关研究中，某些化学键是否形成是判断某种物质是否形成的重要标志，所以研究
振动光谱向分子结构之间的转化关系是很重要的。
通过光谱来判断分子的结构是一项复杂的工作，往往需要由经验丰富的研究人员来
进行。然而，即使是专业的从业人员，其分析光谱时也不能保证完全准确，这体现了人
力分析的局限性。利用计算机来分析光谱的研究已经持续几十年，且已经有一些商业化
的专家系统在售。这些专家系统将光谱与数据库中的光谱进行比对，通过比对结果得出
分析结论。但是这种方法不但需要大型数据库的支持，并且售价昂贵。
使用人眼进行光谱分析是依靠肉眼来获取光谱数据，结合人脑长期训练所获得的某
种规律来判断光谱中的信息。这种方法注定难以进行长期重复操作，且作为判断依据的
规律难以用语言表达，是一种长期专业训练的结果，使用编程代码进行规律的重现是一
件难以完成的任务。神经网络（NN）通过从海量数据中归纳学习来掌握规律，特别适合
来取代人工，进行光谱分析工作。近年来，研究通过 NN 来分析光谱进行结构识别成为
一个热门的方向。然而，利用振动光谱来进行结构识别的工作比较少，这大概是因为目
前缺乏振动光谱的数据库的原因。
本部分研究将从数据库构建出发，利用神经网络来构建从光谱到结构的映射关系，
以达到结构识别的效果。此外，本部分还会探讨神经网络的可靠性和可解释性。
我们使用与第三章中相同的 QM9 数据集子集。数据集中含有 21939 个结构各不相

同的分子，数据的精度在 b3lyp 和 6-31g（2df，p）的理论水平上。数据量足以支撑 NN
的构建，且精度也比较高。
我们先从计算的输出文件中提取所有的振动模信息，这样就得到了分子每个振动模
的振动频率以及对应的红外强度和拉曼强度。对于非线性分子，其振动模式的数量为 3N-
52
6；而对于线型分子，振动模式的数量为 3N-5。这造成所有分子的振动信息维度不一致，
无法直接作为神经网络的输入值，还需要做进一步处理，以使离散的振动数据变成维度
相同的连续数据。
我们使用洛伦兹展宽来处理得到的振动数据，将分子的离散振动信息展宽成 0 到
4000 cm-1 范围内每个波数对应的红外或者拉曼强度值。这样每个分子的红外光谱和拉曼
光谱分别对应一个 4001 维的向量，向量中每一维代表分子在某一确定波数的红外或者
拉曼强度值。由此，离散的振动信息转化为相同维度的向量，且为连续的强度谱线信号，
并且在一定程度上模拟了实验中测定的光谱。
羟基（-OH）和羰基（-C=O）是两个具有不同振动特征的官能团。这两个基团广泛
存在于化学和生物体当中，并参与了许多工业和生物的核心反应。如肽键的形成，是自
然界中一个常见的过程，它会使一个氨基酸上的羧基（-COOH）脱去-OH，生成羰基。
研究这两个官能团对于研究自然界的生命现象具有重要的意义，并且通过对这两种有代
表性的官能团的识别可以归类出一种研究框架。我们接下来还会将这种方法应用到其他
基团上，最终达到使用 NN 分析判断所有的基团的效果，这样就能从整体上进行结构识
别。我们从量子化学计算软件 Gaussian09 的计算结果文本中提取某分子是否含有羰基或
者羟基的信息，作为神经网络的预测目标。我们发现数据集中含有大量振动简并的分子，
这说明我们的数据集含有的信息十分多样，可以用来研究简并分子的结构预测。
我们的目标是利用 NN 来拟合从振动光谱到结构之间的映射关系，即从振动光谱向
量到是否含有羰基或者羟基（0 或 1）之间的数学关系。下面介绍研究的结果与分析。
5.3 结果与讨论
5.3.1 使用振动光谱预测结构信息
振动光谱峰值位置包含结构信息。在这一部分，我们使用上一部分处理好的分子的
振动光谱作为 NN 的输入，分子是否含有羰基或者羟基作为 NN 的目标预测值，构建从
振动光谱到结构的结构识别神经网络模型。
我们使用长短期记忆网络（Long Short-Term Memory，LSTM）作为预测模型的基础。
LSTM 是一种时间循环神经网络（RNN），论文首次发表于 1997 年。LSTM 适合于处理
时间序列中间隔和延迟非常长的重要事件。在实际生产中，经常用于语音识别，手写识
别和自然语言处理。LSTM 可以模拟人眼看或者耳朵听的过程，我们希望借助 LSTM 的
这种特点来模拟人眼观察光谱进行结构识别的工作过程。与全连接神经网络不同，LSTM
53
每次处理一种光谱，相当于先观察红外光谱，再观察拉曼光谱，将两次观察的初步结果
综合起来得到最终的分析结果。
下面以判断羟基存在与否的神经网络模型为例说明 NN 的结构。在我们使用的数据
集中，羟基全部分布于 3000 cm-1-4000 cm-1，为了减少神经网络处理的信息量，我们只
选取了这个波数范围的红外和拉曼光谱作为 LSTM 的输入，并且每两波数取一个数据
点，即每个分子对应的红外和拉曼光谱都为 500 维的向量。预测的目标值为 0（不存在
羟基）和 1（存在羟基）。LSTM 的每次循环输入值为 500，保证每次只处理一种振动光
谱，隐藏层节点数为 768，共两个隐藏层。最后以一个全连接层将 LSTM 的输出值转化
为标量值，即 768 至 1。
在训练过程中，我们的训练集与测试集之比为 9:1，且使用 10-folds 方法避免了过
拟合的发生。训练过程中采用批训练，每批次个数为 128，学习率设置为 5*10-6，优化
器使用 Adam。
判断羰基的神经网络结构与羟基的神经网络一致，唯一不同之处是输入值为 1000
cm-1-2000 cm-1 内的振动光谱，且每两个波数取一个强度数据点。
为了直观地观察预测准确率的变化情况，我们提前将羰基或者羟基的红外光谱降维
至二维，这一步使用的是 scikit-learn 程序包的用主成分分析（PCA）方法。最终的分类
结果如下。
图 5-1 （a）光谱识别模型判断分子中是否存在羟基的混淆矩阵。（b）NN 模型训练过程的可视
化。使用主成分分析将 500 维的光谱向量减少到二维。（c）和（d）对应的是羰基的混淆矩阵和训

54
练过程可视化
Fig. 5-1 (a) Confusion matrix of the spectra recognition model identifying the existence of hydroxyl
group in a molecule. (b) Visualization of the optimization process of the NN model. Principal
component analysis was used to reduce the 500-dimension spectra vectors to two-dimensional. (c)
and (d) the same to (a) and (b), respectively, but for carbonyl group
图 5-1 的小图（a）为判断羟基存在与否的混淆矩阵，可以看出测试集的判断准确率
能达到 99.36%。在测试集的 2194 个分子中，没有羟基 NN 却判断为有羟基的分子有 2
个，本身有羟基却判断为没有羟基的数目为 12 个。判断错误的分子数很少。小图（b）
中显示羰基的判断准确率为 98.50%。在测试集的 2194 个分子中，没有羟基 NN 却判断
为有羰基的分子有 22 个，本身有羟基却判断为没有羰基的数目为 11 个。NN 对羰基的
判断效果较差，这是因为判断羟基所使用的光谱段中，峰的分布比较稀少，主要是羟基，
杂峰比较少，这导致输入的信噪比较高；而对于羰基，1000 cm-1-2000 cm-1 范围内峰的
数目比较多，除去羰基特征峰之外的杂峰比较多，造成输入的信噪比较低，最终导致结
构识别准确率较低。从小图（b）和小图（d）中，我们可以看出，随着训练 epoch 数的
增大，分子从全部被随机判断为某一类慢慢地被识别正确，最终达到 NN 所能达到的最
高准确率。这体现了 NN 的训练不是完全随机的，而是随着训练 epoch 的不断增大，慢
慢学习到结构识别的规律。
专业的化学工作从业者在进行结构识别时，往往会测量样品的多种光谱，并结合起
来进行判断，我们的结构识别神经网络也是在模拟这种效果。只用某一种光谱进行结构
识别的准确率肯定低于使用多种光谱的效果，那么使用 NN 进行结构识别是否也具有这
种特性呢？为此，我们将羰基和羟基结构识别神经网络的输入换成只有红外光谱或者拉
曼光谱，比较三种情况的最高准确率。比较结果如下表所示。
表 5-1 单独使用红外光谱、拉曼光谱，以及使用两者预测羟基和羰基存在的 LSTM 模型的准确率
Table 5-1 Overall accuracies of the LSTM model for hydroxyl and carbonyl recognition using only
IR (IR), only Raman (Raman), and both IR and Raman (IR+Raman) spectra
LSTM (IR) LSTM (Raman) LSTM (IR+Raman)
Hydroxyl group 98.50%(1.50%) 98.58%(1.42%) 99.36%(0.64%)
Carbonyl group 98.04%(1.96%) 95.49%(4.51%) 98.50%(1.50%)
55
从表 5-1 中可以看出，无论是对于羟基还是对于羰基，结合两种振动光谱的结构识
别效果远远好于只使用其中一种光谱的预测效果。这进一步说明 NN 的结构预测并非一
种随机行为，而是使用 NN 对数据进行分析，真正学习总结到了一种结构识别标准和规
律。
另外，从表 5-1 中，我们可以想到，有相当一部分分子在只使用红外光谱时判断是
错误的，但是结合拉曼光谱后，判断正确；也有一部分分子使用两种振动光谱进行分析
仍旧判断错误。我们将这些 NN 预测错误的分子截取出来，研究其为什么判断正确或者
错误。下面以羟基的判断为例，说明 NN 结构识别错误的原因。
图 5-2 （a）和（b）为结合了红外和拉曼仍然判断错误的分子，其中（a）为不含有羟基却判断为
有羟基，（b）为含有羟基却被判断为无羟基。（c）和（d）为单独使用红外光谱判断错误，结合了
拉曼光谱判断正确的分子，其中（c）为本身含有羟基的分子，（d）为本身不含有羟基的分子
Fig. 5-2 (a),(b) Wrong predictions using combined IR and Raman, (a) Hydroxyl bonds do not exist in
molecules but predicted as existing. (b) Hydroxyl bonds exist in molecules but predicted as no
existing. (c),(d) Correct using IR combined with Raman, but wrong only with IR. (c) Molecules with
56
carbonyl bonds. (d)Molecules without carbonyl bonds
有一些分子使用红外和拉曼结合判断仍旧为错误。从（a）中可以看出，原本不含有
羟基的分子被判断为含有羟基，一般是因为含有了-NH 键。-NH 键和羟基的特征振动峰
类似，NN 难以将之分开。图（b）为本身含有羟基却被 NN 判断为无羟基的分子，我们
认为这一类判断错误的原因是因为含有分子内氢键。在数据集中形成分子内氢键的分子
样本比较少，NN 难以学习到这种情况。此外，羟基上形成氢键导致羟基的振动特性发
生改变，与数据集中大多数情况不同，也是造成判断错误的原因。我们也惊喜的发现有
很多分子在只使用红外光谱时判断错误，结合上拉曼光谱后则判断正确，这些分子往往
红外和拉曼光谱上同一个振动峰的强度相差很大，NN 对比两种光谱给出了正确答案。
5.3.2 神经网络结构识别的迁移性
我们构建的神经网络预测模型训练和测试全部基于 QM9 的一部分子集，具体来说，

是分子重原子数小于等于 8 的那一部分。神经网络由于数据集的不同，训练得到的 NN
可能具有偏向性，即只有预测数据集内的分子才能有高准确率，数据集外则效果不好。
这种情况下，NN 只学习到了数据集中分子从光谱到结构的映射关系，而没有学习到整
个化学空间内从光谱到结构的映射关系。我们的神经网络模型是否也具有偏向性？在本
小节中我们通过扩展测试集来研究这一问题。
我们新扩展的数据集分为三部分。
1．QM9 数据集的重原子为 9 的部分，即我们在构建 NN 时没有用到的数据集的另
一部分子集，我们在其中随机的取 3000 个分子。
2．GDB-13 数据集的重原子数目为 10 的部分。我们在其中随机取 3000 个分子。
3．氨基酸与碱基分子，我们去除了含有 S 原子的半胱氨酸和甲硫氨酸，共计 23 种
分子。
以上三部分分子，都使用 3.2.1 部分的理论计算方法，获得每个分子对应的结构、
红外光谱以及拉曼光谱。
接下来我们使用在 5.3.1 部分已经训练好的 NN 来分别预测这三个测试集，得到的
结果如图 5-3 和 5-4 所示。
57
图 5-3 （a）识别模型中判断测试集（1）中羟基是否存在的混淆矩阵。（b）识别模型中判断测试
集（2）中羟基是否存在的混淆矩阵。（c）和（d）对应的是羰基的混淆矩阵和可视化
group in test set (1). (b) Confusion matrix of the spectra recognition model identifying the existence
of hydroxyl group in test set (2). (c) and (d) the same to (a) and (b), respectively, but for carbonyl
group
图 5-4（a）识别模型中判断测试集（3）中羟基是否存在的混淆矩阵。（b）与（a）对应的是羰基
的混淆矩阵和可视化
group in test set (3). (b) the same to (a), but for carbonyl group
58
图 5-3 表明，测试集（1）的判断结果与 5.3.1 中所获得的准确率较为一致。判断羟

基与羰基的准确率分别为 99.03%和 95.70%，与我们在 5.3.1 中测试集的预测结果基本一
致，准确率分别为 99.36%和 98.50%。我们认为这主要是由于测试集（1）与训练所使用
的数据集比较相似，重原子数为 8 的分子结构特征与重原子数为 9 的分子结构特征相差
不大。然而，测试集（2）的预测，准确率却有比较大的降低.对于羟基和羰基，准确率
分别为 96.37%和 91.43%。我们可以很明显的看到，对于两种基团的预测，准确率分别
下降了接近 3%和 5%。这说明测试集（2）中的分子的结构信息有很多没被我们所训练
的 NN 所认识到。我们的数据集只有预测小分子时准确率才会比较高，对于大分子的预
测，NN 的预测准确率可能会较差。我们会在将来的工作中改进 NN 的网络结构，尽可
能让 NN 能够对复杂振动光谱具备识别能力。另外，我们也将会进一步扩大训练集，从
根本上解决对大分子识别能力不足的问题。
氨基酸和碱基是生物学中十分重要的分子，这一类分子在生物体化学反应中起到至
关重要的作用。我们使用 NN 对这些分子进行结构识别，结果如图 5-4。由于我们的测
试集中只有 23 种分子，所以准确率可能不具有代表性，但是我们仍然可以从混淆矩阵
中看到，预测准确程度比较高。对于羟基和羰基的预测，分别都只有一个分子出错。这
说明我们训练的 NN 对生物性分子的结构也有比较好的识别能力，这对将来我们将识别
网络的应用扩展到生物大分子（如蛋白质），是一个很好的开始。
5.4 本章小结
本部分利用一个 LSTM 循环神经网络来识别光谱，预测分子内是否存在羟基或者羰

基。我们所构建的 NN 预测准确率相当高，预测羟基的准确率能够达到 99.36%，预测羰
基的准确率能够达到 98.50%。此外，我们的神经网络可以结合红外光谱和拉曼光谱进行
分析，分析效果比只使用单一振动光谱的效果要好，这十分符合人眼光谱分析的特征，
体现了神经网络的可解释性。我们的神经网络有一定的迁移性，它在小分子结构预测中
效果最好，对于大分子的结构预测效果也可以接受。
在将来的工作中，我们将把神经网络的结构预测扩展到应用于更大的结构以及更多
的官能团中，最终达到一个可以预测分子整体结构细节的程度。本章的内容展现了神经
网络技术在工业生产当中运用的潜在价值，为将来该技术在工业上的大规模运用打下基
础。
59
第六章结论
第六章结论
本论文主要内容利用了神经网络的规律总结能力来实现从结构到振动光谱的预测
以及从光谱到结构的识别。通过构建神经网络模型，我们不但获得了具有预测良好映射
能力的数学模型，并且还从中揭示了振动光谱的一些基本原理。本论文的结论如下：
（1）针对分子数据库 QM9，我们构建了预测分子振动光谱的神经网络模型。我们
首先探究了不同分子描述符下预测分子振动的不同，我们发现以往文献中报道的库伦矩
阵描述符不能很好的预测分子的振动信息。而我们采用的对称函数描述符能够更好地描
述分子的局域化学环境，进而更好地预测分子的振动信息。另外，采用不同截断值的对
称函数描述子预测振动信息的精度不同，揭示了振动光谱的基本原理，证明了神经网络
预测模型的可靠性。
（2）对于 NMA 重水分子体系，我们使用内坐标和对称函数描述符分别构建从结构
到光谱的预测模型。我们发现，使用对称函数描述符作为输入的神经网络模型对振动强
度的预测比使用内坐标的效果要好，这说明对称函数描述符含有更多的全局结构信息，
更适合对于振动光谱的预测。我们还研究了不同内坐标属性对于分子振动频率的影响，
我们发现化学键长度对于振动频率影响最大，这与化学基本原理相一致，证明了神经网
络模型并非随机生成结果，而是真正从数据中得到了输入与输出之间的相互关系。另外，
对称函数描述符仍然对不同的预测目标有不同的最佳截断半径，这与 QM9 数据集中得
到的结论一致，证明了在上一部分中得到的结论的可靠性。
（3）我们还使用长短期记忆神经网络 LSTM 分析光谱进行分子结构识别，结果表
明我们所构建的神经网络对结构预测的准确率很高。我们的识别网络通过将红外光谱与
拉曼光谱结合起来识别分子结构，取得的效果要比只使用单一一种分子振动光谱得到的
效果要好。这符合化学直觉，证明神经网络模型进行结构识别的可靠性。另外，我们的
识别网络针对更大的分子结构的预测精确度仍然很高，证明我们的识别模型具有优秀的
迁移性。
论文涉及的工作，尤其是结构识别部分，是利用人工智能和机器学习技术进行光谱
学自动解析的第一步，对提高生物医药、化工生产以及基础研究等领域中涉及光谱学表
征的环节的生产研发效率、降低成本有重要的潜在价值。
60
参考文献
[1] Xue D., Balachandran P. V., Hogden J., et al. Accelerated Search for Materials with
Targeted Properties by Adaptive Design[J]. Nature Communications, 2016, 7:11241.
[2] Hornik K., Approximation Capabilities of Multilayer Feedforward Networks[J]. Neural
Networks, 1991, 4 (2):251–257.
[3] Huang R., Xia M., Sakamuru, et al. Modelling the Tox21 10 K Chemical Profiles for in
Vivo Toxicity Prediction and Mechanism Characterization[J]. Nature Communications,
2016, 7:10425.
[4] Isayev O., Oses C., Toher C., et al. Universal Fragment Descriptors for Predicting
Properties of Inorganic Crystals[J]. Nature Communications, 2017, 8:15679.
[5] Khaliullin R. Z., Eshet H., Kühne T. D., et al. Graphite-Diamond Phase Coexistence
Study Employing a Neural-Network Mapping of the Ab Initio Potential Energy
Surface[J]. Physical Review B, 2010, 81 (10):100103.
[6] Kingma D. P., Ba J. Adam: A Method for Stochastic Optimization[A]. 2014.
[7] Lee J., Seko A., Shitara K., et al. Prediction Model of Band Gap for Inorganic
Compounds by Combination of Density Functional Theory Calculations and Machine
Learning Techniques[J]. Physical Review B, 2016, 93 (11):115104.
[8] Nelson L. J., Hart G. L. W., Zhou F., et al. Compressive Sensing as a Paradigm for
Building Physics Models[J]. Physical Review B, 2013, 87 (3):035125.
[9] Faber F., Lindmaa A., von Lilienfeld O. A., et al. Crystal Structure Representations for
Machine Learning Models of Formation Energies[D]. 2015.
[10] Ghosh K., Stuke A., Todorović M., et al. Deep Learning Spectroscopy: Neural Networks
for Molecular Excitation Spectra[J]. Advanced Science, 2019, 0 (0):1801367.
[11] Liu J., Osadchy M., Ashton L., et al. Deep Convolutional Neural Networks for Raman
Spectrum Recognition: A Unified Solution[J]. Analyst, 2017, 142 (21):4067–4074.
[12] Lu J., Wang C., Zhang Y. Predicting Molecular Energy Using Force-Field Optimized
Geometries and Atomic Vector Representations Learned from an Improved Deep Tensor
Neural Network[J]. Journal of Chemical Theory and Computation, 2019, 15 (7): 4113-
4121.
61
参考文献
[13] Montavon G., Rupp M., Gobre V., et al. Machine Learning of Molecular Electronic
Properties in Chemical Compound Space[J]. New Journal of Physics, 2013, 15
(9):095003.
[14] Packwood D. M., Han P., Hitosugi T. Chemical and Entropic Control on the Molecular
Self-Assembly Process[J]. Nature Communications, 2017, 8:14463.
[15] Pereira F., Xiao K., Wu, C., et al. Machine Learning Methods to Predict Density
Functional Theory B3LYP Energies of HOMO and LUMO Orbitals[J]. Journal of
Chemical Information and Modeling, 2017, 57 (1):11–21.
[16] Pilania G., Mannodi-Kanakkithodi A., Uberuaga B. P., et al. Machine Learning Bandgaps
of Double Perovskites[J]. Scientific Reports, 2016, 6:19375.
[17] Raccuglia P., Elbert K. C., Adler P. D. F., et al. Machine-Learning-Assisted Materials
Discovery Using Failed Experiments[J]. Nature, 2016, 533 (7601):73–76.
[18] Artrith N., Kolpak A. M. Grand Canonical Molecular Dynamics Simulations of Cu–Au
Nanoalloys in Thermal Equilibrium Using Reactive ANN Potentials[J]. Computational
Materials Science, 2015, 110:20–28.
[19] Artrith N., Morawietz T., Behler J. High-Dimensional Neural-Network Potentials for
Multicomponent Systems: Applications to Zinc Oxide[J]. Physical Review B, 2011, 83
(15):153101.
[20] Artrith N., Urban A. An Implementation of Artificial Neural-Network Potentials for
Atomistic Materials Simulations: Performance for TiO2[J]. Computational Materials
Science, 2016, 114:135–150.
[21] Schütt K. T., Kessel P., Gastegger M., et al. SchNetPack: A Deep Learning Toolbox For
Atomistic Systems[J]. Journal of Chemical Theory and Computation, 2019, 15, 1:448-
455.
[22] Schütt K. T., Arbabzadah F., Chmiela S., et al. Quantum-Chemical Insights from Deep
Tensor Neural Networks[J]. Journal of Chemical Theory and Computation, 2016, 5,
11:48-55.
[23] Sun J. Learning over Molecules: Representations and Kernels[D]. 2017.
[24] Tsubaki M., Mizoguchi T. Fast and Accurate Molecular Property Prediction: Learning
Atomic Interactions and Potentials with Neural Networks[J]. The Journal of Physical
62
Chemistry Letters, 2018, 9 (19):5733–5741.

[25] Artrith N., Urban A., Ceder G. Efficient and Accurate Machine-Learning Interpolation
of Atomic Energies in Compositions with Many Species[D]. 2017.
[26] Bartók A. P., Payne M. C., Kondor R., et al. Gaussian Approximation Potentials: The
Accuracy of Quantum Mechanics, without the Electrons[J]. Physical Review Letters,
2010, 104 (13):136403.
[27] Behler J. Neural Network Potential-Energy Surfaces for Atomistic Simulations[J].
Chemical Modelling, 2010:1–41.
[28] Behler J. Atom-Centered Symmetry Functions for Constructing High-Dimensional
Neural Network Potentials[J]. The Journal of Chemical Physics, 2011, 134 (7):074106.
[29] Behler J. Constructing High-Dimensional Neural Network Potentials: A Tutorial
Review[J]. International Journal of Quantum Chemistry, 2015, 115 (16):1032–1050.
[30] Behler J. First Principles Neural Network Potentials for Reactive Simulations of Large
Molecular and Condensed Systems[J]. Angewandte Chemie International Edition, 2017,
56 (42):12828–12840.
[31] Behler J., Parrinello M. Generalized Neural-Network Representation of High-
Dimensional Potential-Energy Surfaces[J]. Physical Review Letters, 2007, 98
(14):146401.
[32] Ward L., Agrawal A., Choudhary A., et al. A General-Purpose Machine Learning
Framework for Predicting Properties of Inorganic Materials[J]. npj Computational
Materials, 2016, 2:16028.
[33] Wu Z., Ramsundar B., Feinberg E. N., et al. MoleculeNet: A Benchmark for Molecular
Machine Learning[J]. Chemical Science, 2018, 9 (2): 513–530.
[34] Yang Y., Zheng M., Jagota A. Learning to Predict Single-Wall Carbon Nanotube-
Recognition DNA Sequences[J]. npj Computational Materials, 2019, 5 (1):3.
[35] Yao K., Herr J. E., Brown S. N., et al. Intrinsic Bond Energies from a Bonds-in-Molecules
Neural Network[J]. The Journal of Physical Chemistry Letters, 2017, 8 (12):2689–2694.
[36] Chang A. M., Freeze J. G., Batista V. S. Hammett Neural Networks: Prediction of
Frontier Orbital Energies of Tungsten–Benzylidyne Photoredox Complexes[J]. Chemical
Science, 2019:127-130.
63
参考文献
[37] Chen C., Deng Z., Tran R., et al. Accurate Force Field for Molybdenum by Machine
Learning Large Materials Data[D]. 2017.
[38] Zheng C., Mathew K., Chen C., et al. Automated Generation and Ensemble-Learned
Matching of X-Ray Absorption Spectra[J]. npj Computational Materials, 2018, 4 (1):12.
[39] Zhou X., Chi H., Luo C., et al. PDeep: Predicting MS/MS Spectra of Peptides with Deep
Learning[J]. Analytical Chemistry, 2017, 89 (23):12690–12697.
[40] Zhu Q., Sharma V., Oganov A. R., et al. Predicting Polymeric Crystal Structures by
Evolutionary Algorithms[J]. The Journal of Chemical Physics, 2014, 141 (15):154102.
[41] Zhuo Y., Mansouri Tehrani A., Brgoch J. Predicting the Band Gaps of Inorganic Solids
by Machine Learning[J]. The Journal of Physical Chemistry Letters, 2018, 9 (7):1668–
1673.
[42] Faber F. A., Hutchison L., Huang B., et al. Prediction Errors of Molecular Machine
Learning Models Lower than Hybrid DFT Error[J]. Journal of Chemical Theory and
Computation, 2017, 13 (11):5255–5264.
[43] Feinberg E. N., Sur D., Wu Z., et al. PotentialNet for Molecular Property Prediction[J].
ACS Central Science, 2018, 4 (11):1520–1530.
[44] Gastegger M., Behler J., Marquetand P. Machine Learning Molecular Dynamics for the
Simulation of Infrared Spectra[J]. Chemical Science, 2017, 8 (10):6924–6935.
[45] Gómez-Bombarelli, R., Aguilera-Iparraguirre J., Hirzel T. D., et al. Design of Efficient
Molecular Organic Light-Emitting Diodes by a High-Throughput Virtual Screening and
Experimental Approach[J]. Nature Materials, 2016, 15 (10):1120–1127.
[46] Rupp M., Ramakrishnan R., von Lilienfeld O. A. Machine Learning for Quantum
Mechanical Properties of Atoms in Molecules[J]. The Journal of Physical Chemistry
Letters, 2015, 6 (16):3309–3313.
[47] Rupp M., Tkatchenko A., Müller K. R., et al. A. Fast and Accurate Modeling of
Molecular Atomization Energies with Machine Learning[J]. Physical Review Letters,
2012, 108 (5).
[48] Hansen K., Biegler F., Ramakrishnan R., et al. Machine Learning Predictions of
Molecular Properties: Accurate Many-Body Potentials and Nonlocality in Chemical
Space[J]. The Journal of Physical Chemistry Letters, 2015, 6 (12):2326–2331.
64
[49] Hansen K., Montavon G., Biegler F., et al. Assessment and Validation of Machine
Learning Methods for Predicting Molecular Atomization Energies[J]. Journal of
Chemical Theory and Computation, 2013, 9 (8):3404–3419.
[50] Gómez-Bombarelli R., Wei J. N., Duvenaud D., et al. Automatic Chemical Design Using
a Data-Driven Continuous Representation of Molecules[J]. ACS Central Science, 2018,
4 (2):268–276.
[51] Han J., Zhang L., Car R., et al. Deep Potential: A General Representation of a Many-
Body Potential Energy Surface[A]. 2017.
[52] Gastegger M., Schwiedrzik L., Bittermann M., et al. WACSF—Weighted Atom-Centered
Symmetry Functions as Descriptors in Machine Learning Potentials[J]. The Journal of
Chemical Physics, 2018, 148 (24):241709.
[53] Yao K., Herr J. E., Toth D. W., et al. The TensorMol-0.1 Model Chemistry: A Neural
Network Augmented with Long-Range Physics[J]. Chemical Science, 2018, 9 (8):2261–
2269.
[54] Ramakrishnan R., Dral P. O., Rupp M., et al. Quantum Chemistry Structures and
Properties of 134 Kilo Molecules[J]. Scientific Data, 2014, 1:140022.
[55] Ramakrishnan R., Dral P. O., Rupp M., et al. Big Data Meets Quantum Chemistry
Approximations: The Δ-Machine Learning Approach[J]. Journal of Chemical Theory
and Computation, 2015, 11 (5):2087–2096.
[56] Ye S., Hu W., Li X., et al. A Neural Network Protocol for Electronic Excitations of N-
Methylacetamide[J]. Proceedings of the National Academy of Sciences 2019, 116
(24):11612–1161.
65
攻读硕士学位期间研究取得的学术成果
攻读硕士学位期间研究取得的学术成果
[1] Ren H., Li H., Zhang Q., et al. Machine Learning for Vibrational Spectroscopy for Fast
Spectrum Prediction and Structure Recognition，submitted to Journal of the American
Chemical Society.
[2] Zhang Q., Ren H., Li H., et al. Secondary Structure Recognition using Machine Lear
ned Two-Dimensional Ultraviolet Spectroscopic Characteristics, to be submitted.
[3] Yu X., Yang Z., Li H., et al. Reversible Multi-Induced Transformation between Wormlike
Micelles and Gels. Journal of Molecular Liquids, 2019, 296:111859.
66
致谢
首先诚挚的感谢老师任浩副教授与黄方教授，老师悉心的教导使我得以一窥学术领
域的深奥，不时的讨论并指点我正确的方向，使我在这些年中获益匪浅。老师对学问的
严谨更是我辈学习的典范。不但如此，老师还经常与我交流，从科研上的进展到生活的
趣事，总之，完美向我诠释了所谓“师者，传道授业解惑也”。这三年也让我改掉总是依
赖别人的坏习惯，开始独立思考和解决生活和科研上的问题。所以，借此机会，对各位
老师对我的学习科研上的教诲和生活中的关心致以深深地谢意。
其次还要感谢课题组的其他各位老师，每当对自己工作开始有懈怠时，老师总会伸
出援手。感谢各位师兄师姐们不厌其烦的指出我研究中的缺失，且总能在我迷惘时为我
解惑。实验室的各位学弟学妹们当然也不能忘记，你们的帮助我铭感在心。在我实验困
难的时候给予我的帮助，同时还帮我分担实验室的各种琐碎的杂事,也感谢实验室中所有
成员，在科研中给我的鼓励，在生活中给我的关怀。
最后我要感谢我的家人，是他们支持我考研究生，使我学习无忧。是他们给予了我
无限的爱与理解，让我在科研路上有着不竭的动力。
67

【】基于神经网络的振动光谱预测和结构识别 李浩

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

【】基于神经网络的振动光谱预测和结构识别 李浩

Uploaded by

Copyright:

Available Formats

中图分类号：Q819 单位代码：10425

Vibrational spectra prediction and structure recognition using

现场导师： 姜进举 高级工程师

A Thesis Submitted for the Degree of Engineering Master

Supervisor: Prof. Huang Fang

College of Chemical Engineering

China University of Petroleum (East China)

Directed by Prof. Huang Fang and Assoc. Prof. Ren Hao

Vibrational spectroscopy is one of the most commonly used characterization tools in

Key words: Vibrational spectra, neural network, spectra prediction, structure

1.2.1 利用反向传递获得振动光谱 ................................................... 4

1.2.2 利用分子动力学模拟预测振动光谱 ............................................. 5

1.2.3 利用分子结构直接得到分子光谱 ............................................... 7

1.3 课题的研究内容与特色 ........................................................... 9

1.3.1 研究内容 ................................................................... 9

1.3.2 创新点 ..................................................................... 9

第二章 人工神经网络 ................................................................ 10

2.1 机器学习与人工神经网络 ........................................................ 10

2.2 神经网络的基本原理 ............................................................ 11

2.2.1 神经元模型 ................................................................ 11

2.2.2 神经网络的结构 ............................................................ 12

2.2.3 神经网络的计算 ............................................................ 13

2.2.4 神经网络中参数的求解 ...................................................... 14

2.2.5 神经网络的学习过程 ........................................................ 17

2.3 其它形式的神经网络 ............................................................ 17

2.3.1 卷积神经网络 .............................................................. 18

2.3.2 循环神经网络 .............................................................. 18

2.4 神经网络预测分子性质的步骤 .................................................... 19

第三章 小分子从结构到光谱的模拟 .................................................... 20

3.2.1 理论计算过程 .............................................................. 20

3.2.2 提取官能团振动信息 ........................................................ 21

3.2.3 选取分子描述符 ............................................................ 22

3.3.1 使用库伦矩阵描述符预测振动 ................................................ 28

3.3.2 使用对称函数描述符预测振动 ................................................ 30

3.3.3 最佳截断半径和物理量的局域性 .............................................. 36

第四章 生物分子从结构到光谱的模拟 .................................................. 40

4.2.1 理论计算过程 .............................................................. 40

4.2.2 提取官能团振动信息 ........................................................ 41

4.2.3 选取分子描述符 ............................................................ 42

4.3.1 使用内坐标预测振动 ........................................................ 44

4.3.2 使用对称函数预测振动 ...................................................... 48

第五章 通过光谱预测分子结构 ........................................................ 52

5.3.2 神经网络结构识别的迁移性 .................................................. 57

图 1-1 上方：10 水分子体系 TensorMol 力场生成的红外光谱（蓝色实线）与 ωB97X-D/6-311G**

下生成的红外光谱（橙色虚线）；下方：20 水分子体系 TensorMol 力场生成的红外光谱（蓝色实

field (solid blue line)

度的 BP86 红外光谱。两种红外光谱都与 600 cm-1-4100 cm-1 的实验光谱（灰色）相吻合

同样的，Yao 等人利用 TensorMol 软件包构建神经网络势能面，使用该势能面针对

图 1-3 左上方：橙色虚线为使用 DFT 和简谐近似计算得到的吗啡分子的红外光谱，蓝色实线为利

用 TensorMol 软件包和简谐近似计算得到的红外光谱；右上方：利用 TensorMol 软件包优化得到

的吗啡分子结构；左下方：绿色实线为利用 TensorMol 做分子动力学模拟得到的红外光谱，橙色

虚线为使用 DFT 和简谐近似计算得到的吗啡分子的红外光谱；右下方：保持能量守恒的能量变化

conservation of energy maintained by the smoothness of the energy (right)

TDDFT 计算使用 PBE0/cc-pvdz

as A and B but at 400 K. TDDFT calculations are at the PBE0/cc-pvdz level

图 1-5 比较 CNN 和 DTNN 的光谱预测效果：第一列为 132k 数据集中的 13000 个测试集分子的相

Fig. 2-1 Structure of a typical neuron

是心理学家 McCulloch 和数学家 Pitts 发表的抽象的神经元模型 MP。

Fig. 2-2 Neuron model

其中， 表示的是向量，代表的是权重，即权重值组成的向量。函数 称为激活函

神经网络是由很多的神经元联结而成的，一个简单的神经网络的结构如图 2-3 所示：

Fig. 2-3 The structure of neural networks

1．网络的层数 。在上述的神经网络中 ，将第 层记为 ，则上述的神经网

【】基于神经网络的振动光谱预测和结构识别李浩

【】基于神经网络的振动光谱预测和结构识别李浩

现场导师：姜进举高级工程师

第二章人工神经网络 ................................................................ 10

第三章小分子从结构到光谱的模拟 .................................................... 20

第四章生物分子从结构到光谱的模拟 .................................................. 40

第五章通过光谱预测分子结构 ........................................................ 52

其中，表示的是向量，代表的是权重，即权重值组成的向量。函数称为激活函

1．网络的层数。在上述的神经网络中，将第层记为，则上述的神经网

2．网络权重和偏置，其中表示的是第层的第个

神经元和第层的第个神经元之间的连接参数，标识的是第层第个神经元

第个神经元的输入，假设表示的是第层第个神经元的输出，其中，当时，

对于上述神经网络模型，假设有个训练样本，对于

其中，表示的是损失函数，表示的是正则项。则对于上述的含有个样本的

我们的目标是求参数向量和参数向量以使得损失函数达到最小值。下面

差”，如第层的神经元的残差可以表示为。该残差表示的是该神经元对最终的残差

出神经元。这里假设表示第层上的第个神经元的输入加权和，假设表示的是第

对于输出层上的神经元，其残差定义为：

对于非输出层，即对于各层，第层的残差的计算方法如下（以

其中为截断，表示的是原子 i 和 j 之间的距离。图 3-2 表示的是截断为 8 Å

看出，从 0 变化到 8 Å，方程的值在不断变小，当距离大于 8 Å 时，方程的值为 0。

其中，和为参数，使用之前要根据具体问题采用不同的数值。和要保证在

对称函数中的参数、、和的选取依据 Gastegger 等人的研究结果。一般来说，

其中为真实值，即 DFT 计算结果；为神经网络的预测值。

的振动频率为例，我们从 3Å-8Å 每 0.2Å 取一个截断值，使用这个截断值构建 10 个

方法来确定最合适的截断值。所有截断值下的预测误差如图 3-15 所示。