You are on page 1of 132

分类号 O433.

4 学号 201903601017
学校代码 1 0 4 8 8 密级 公开

博士学位论文

基于太赫兹光谱技术的有机分子分类
识别和光谱解析研究

学位申请人: 涂 闪

学科专业: 工程测控技术及仪器

指导教师: 王志刚

答辩日期: 2022 年 12 月
A Dissertation Submitted in Partial Fulfillment of the Requirements

for the Degree of Doctor of Philosophy in Engineering

Research on Classification and Spectral


Analysis of Organic Molecules Based on
Terahertz Spectroscopy Technology

Ph.D. Candidate: Shan Tu


Major: Engineering Measurement and
Control Technology and Instruments
Supervisor : Prof. Zhi-gang Wang

Wuhan University of Science and Technology

Wuhan, Hubei 430081, P.R.China

December, 2022
武 汉科技大学


研 究 生 学 位论 文 创 新性声 明

本 人郑 重 声 明 :
所呈 交的 学 位论 文 是 本人在 导 师 指 导 下 , 独立进


行 研 究所 取得 的 成 果 。 除 了 文 中 已 经注 明 引 用 的 内 容或属 合 作研 究共

同 完成 的 工作外 ,
本 论文 不 包 含任 何其他个人 或 集体 己 经发表 或撰写


过 的 作 品 成果 。
对 本文 的 研 宄 做 出 重 要 贡献 的 个人 和 集 体 , 均 已 在文


中 以 明 确 方式 标 明 

申 请 学 位 论文 与 资 料 若 有 不 实 之 处 ,
本人承 担 一

切 相 关 责任 

论 文作 者签 名 :
曰 期 

研 究 生 学位 论 文版 权使 用 授权 声 明


本论 文 的研 宄 成 果归 武汉 科技大学 所 有 , 其研 究 内 容不得 以 其它

单位 的名 义 发表 。
本 人 完 全 了 解武 汉 科 技 大 学 有 关 保 留 、 使 用 学位论

文 的规定 ,
同 意 学校 保 留 并 向 有 关 部 门 按 照 (
《 武 汉科 技大学 关 于 研 宄

生 学 位论 文 收 录工 作 的规 定 》 执 行 送交 论文 的 复 印 件 和 电 子版 本
) ,


许 论文 被查 阅 和 借 阅 ,
同 意 学 校将 本 论 文 的 全 部 或 部 分 内 容 编 入 学 校


认 可 的 国 家 相 关 数据 库 进 行 检 索 和 对 外 服 务 

论 文作 者 签名 : 汾W


指 导 教 师签 名 

曰 期 


摘 要

有机分子(如同分异构体材料和转基因材料)结构分析和定性识别广泛应用
于精细化工和农业安检领域。太赫兹(THz)波在无损检测领域有着独特优势,
能与有机分子相互作用产生“共振”吸收,可测定分子间和分子内弱相互作用,
适合定性分析和解析光谱吸收机理。传统的分析方法仍然存在一些问题,如实验
THz 光谱特征“指纹”指认失效、理论计算结果对光谱解析可靠性低、噪声干扰
下高维非线性 THz 信号特征提取困难和 THz 测量信号端点效应和模态混叠严重等。
为了解决以上 4 个典型问题,本文首先从微观(分子水平)角度深入研究 3 种羟
基苯甲酸同分异构体 THz 振动光谱吸收机理,然后研究 THz 光谱降噪和特征提取
的方法,最后研究 3 种转基因大豆和非转基因大豆以及 3 种羟基苯甲酸同分异构
体改进分类识别方法,以实现分子水平特征“指纹”指认、分子内和分子间弱相
互作用区域指示以及有机分子快速无损检测。论文主要研究内容概括如下:
(1)提出了密度泛函理论结合势能分布分析的羟基苯甲酸同分异构体 THz
特征“指纹”指认方案。采用密度泛函理论(DFT)结合 B3LYP 杂化泛函和
6-311G++(d, p)基组级别下添加 D3 色散校正的方案,分别计算 3 种羟基苯甲酸同
分异构体分子团簇体系的理论光谱。通过势能分布分析(PED)将分子团簇体系
的特征振动模式进行分解,获取 THz 实验特征吸收峰振动的全部基团信息以及相
应的振动贡献值,实现了对 3 种羟基苯甲酸同分异构体 THz 实验光谱特征“指纹”
有效指认。
(2)提出了能量分解分析结合视觉分子动力学和相互作用区域指示的羟基苯
甲酸同分异构体 THz 振动光谱解析方案。在量子化学计算基础上,采用能量分解
分析结合经典分子力场(EDA-FF)的方法将分子团簇体系的总作用能进行分解,
获取 3 种羟基苯甲酸同分异构体共价键和非共价键作用的全部成键信息以及相应
的能量贡献值。研究了视觉分子动力学和相互作用区域指示(IRI)可视化,通过
外部渲染的原子着色和按一定比例电子密度加权的电子密度梯度范数描述共价键
和非共价键作用(弱相互作用),实现理论计算结果对实验光谱正确解析以及分子
间弱相互作用区域指示。

I
(3)提出了基于变分模态分解-粒子群优化改进支持向量机的羟基苯甲酸同
分异构体分类模型。区别于经典的经验模态分解(EMD)方法,采用最近提出的
变分模态分解(VMD)方法,其实质是多个自适应维纳滤波组,能表现出更好的
噪声鲁棒性,更适合处理非线性非平稳短时频 THz 信号。为了进一步提升背景噪
声下突出不同 THz 光谱数据微小差异的效果,研究了粒子群优化结合支持向量机
算法(PSO-SVM),通过多次迭代更新粒子群,得到全局最优化解,提升 THz 信
号的高信噪比和能量集中性,实现了 3 种羟基苯甲酸同分异构体快速无损检测。
(4)提出了基于 Floyd 改进局部线性嵌入的转基因大豆 THz 光谱特征提取
方法。区别于经典的基于线性降维方法,将降噪的问题转化为数学优化的问题,
利用非线性降维—改进 Floyd 局部线性嵌入的手段实现了 THz 测量信号的有效降
维。以此为基础,将降维后的前几个主分量作为多元线性回归分析和偏最小二乘
回归分析的目标参量,实现背景噪声环境下高维非线性 THz 信号的鲁棒提取和转
基因大豆与非转基因大豆准确识别。

关键词:太赫兹;同分异构体;转基因;振动光谱;特征提取

II
Abstract

Qualitative identification and structural analysis of organic molecules such as


genetically modified materials and isomeric materials are widely used in the fields of
agricultural security and fine chemicals. Terahertz (THz) waves have unique advantages
in the field of non-destructive testing, as they can interact with organic molecules to
produce "resonant" absorption, which can determine inter- and intra-molecular weak
interactions, and are suitable for qualitative analysis and resolution of spectral absorption
mechanisms. The traditional analysis method still has some problems, such as the
difficulty of extracting high-dimensional nonlinear THz signal features under noise
interference, the serious endpoint effect and modal confusion of THz measurement
signals, the failure of experimental THz spectral feature "fingerprint" identification and
the low reliability of theoretical calculation results for spectral analysis. In order to solve
the above four typical problems, first of this thesis from the angle of the micro (the
molecular level) in-depth studies three kinds of hydroxy benzoic acid isomers THz
vibration spectrum absorption mechanism, then the THz spectrum of noise reduction and
feature extraction methods, finally studies three kinds of transgenic soybeans and
non-gmo soybean and three kinds of hydroxy benzoic acid isomers improve
classification recognition method, In order to realize the molecular level characteristic
"fingerprint" identification, intramolecular and intermolecular weak interaction region
indication and fast nondestructive testing of organic molecules. The main research
contents of the thesis are summarized as follows:
(1) A fingerprinting scheme for the THz characteristics of hydroxybenzoic acid
isomers by combining density general function theory with potential energy distribution
analysis was proposed. The theoretical spectra of the three hydroxybenzoic acid
tautomeric clusters were calculated using density functional theory (DFT) combined with
B3LYP hybridization generalization and D3 dispersion correction at the 6-311G++(d, p)
group level. By decomposing the characteristic vibrational modes of the molecular
cluster system through potential energy distribution analysis (PED), we obtained all the
information on the vibrations of the experimental THz characteristic absorption peaks
and the corresponding vibrational contribution values, and realized the effective
fingerprinting of the THz experimental spectra of the three hydroxybenzoic acid isomers.
(2) An energy decomposition analysis combined with visual molecular dynamics
and interaction region indication is proposed for the THz vibrational spectral resolution
of hydroxybenzoic acid isomers. Based on the quantum chemical calculations, the total
interaction energy of the molecular cluster system was decomposed by the energy
decomposition analysis combined with the classical molecular force field (EDA-FF)

III
method to obtain all the bonding information and the corresponding energy contributions
of the covalent and non-covalent bonding of the three hydroxybenzoic acid isomers.
Visual molecular dynamics and interaction region indication (IRI) visualization were
investigated to describe the covalent and non-covalent bonding interactions (weak
interactions) by externally rendered atomic coloring and electron density gradient
parametrization weighted by a certain ratio of electron density, and to realize the correct
resolution of the theoretical calculation results to the experimental spectra and the
indication of intermolecular weak interaction regions.
(3) A classification model of hydroxybenzoic acid isomers based on variational
modal decomposition-particle swarm optimization improved support vector machine is
proposed. Different from the classical empirical modal decomposition (EMD) method,
the recently proposed variational modal decomposition (VMD) method is used, which is
in essence multiple adaptive Wiener filter groups, exhibiting better noise robustness and
more suitable for processing nonlinear non-stationary short-time frequency THz signals.
In order to further enhance the effect of highlighting small differences in different THz
spectral data under background noise, particle swarm optimization combined with
support vector machine algorithm (PSO-SVM) is investigated to obtain the global
optimal solution by updating the particle swarm in multiple iterations to enhance the high
signal-to-noise ratio and energy concentration of THz signals, and achieve the rapid
nondestructive detection of three hydroxybenzoic acid isomers.
(4) A THz spectral feature extraction method for transgenic soybean based on
Floyd's improved local linear embedding is proposed. The classical linear dimensionality
reduction-based approach transforms the problem of noise reduction into a mathematical
optimization problem by using nonlinear dimensionality reduction-improved Floyd local
linear embedding means to realize the preprocessing of THz measurement signals. Based
on this, the first few principal components after dimensionality reduction are used as
target parameters for multiple linear regression analysis and partial least squares
regression analysis to achieve robust extraction of high-dimensional nonlinear THz
signals and accurate identification of transgenic and non-transgenic soybeans under
background noise environment.

Keywords: Terahertz; Isomer; Genetic modification; Vibrational spectrum; Feature


extraction

IV
目 录

摘 要 ........................................................................................................................................................I

Abstract ................................................................................................................................................... III

第 1 章 绪论 ............................................................................................................................................. 1
1.1 研究背景及意义 ............................................................................................................................. 1
1.2 有机分子的 THz 吸收光谱研究现状 ............................................................................................. 4
1.2.1 成分多样化的生物样品的 THz 光谱分类识别研究现状 ........................................................ 4
1.2.2 成分单一且纯净的有机分子分类鉴别和 THz 光谱吸收机理研究现状 ................................. 6
1.3 论文的主要内容和安排 .................................................................................................................. 8
1.3.1 论文的研究体系和主要内容 ................................................................................................... 8
1.3.2 论文的章节安排 .................................................................................................................... 10

第 2 章 THz 光谱实验测量和理论计算方法 ......................................................................................... 13


2.1 THz 时域光谱系统与实验测量 ..................................................................................................... 13
2.1.1 THz 脉冲发生技术 ................................................................................................................. 13
2.1.1 实验装置 ............................................................................................................................... 14
2.1.2 实验对象 ............................................................................................................................... 16
2.1.3 样品制备 ............................................................................................................................... 17
2.2 实验数据处理方法 ....................................................................................................................... 18
2.3 化学计量仿真方法 ....................................................................................................................... 19
2.4 结论 .............................................................................................................................................. 20
第 3 章 羟基苯甲酸同分异构体的 THz 振动光谱解析 ......................................................................... 21
3.1 THz 实验光谱和理论光谱分析 ..................................................................................................... 21
3.1.1 羟基苯甲酸同分异构体分子团簇模型 ................................................................................. 21
3.1.2 THz 实验光谱分析 ................................................................................................................. 22
3.1.3 理论结果与实验结果对比分析 ............................................................................................. 24
3.2 势能分布分析介绍 ....................................................................................................................... 26
3.3 特征吸收峰的指认和振动模式归属 ............................................................................................. 27
3.4 结论 .............................................................................................................................................. 30
第 4 章 基于 THz 光谱技术的羟基苯甲酸同分异构体弱相互作用分析和可视化研究 ....................... 32
4.1 EDA-FF 基本原理 ......................................................................................................................... 32
4.2 弱相互作用可视化分析方法......................................................................................................... 34
4.2.1 视觉分子动力学工具介绍..................................................................................................... 34
4.2.2 相互作用区域指示方法介绍 ................................................................................................. 34

V
4.3 EDA-FF 应用于羟基苯甲酸同分异构体弱相互作用解析 ............................................................ 35
4.4 羟基苯甲酸同分异构体分子内和分子间相互作用可视化分析 .................................................. 38
4.4.1 氢键弱相互作用可视化分析 ................................................................................................. 38
4.4.2 相互作用区域指示可视化分析 ............................................................................................. 40
4.5 结论 .............................................................................................................................................. 45
第 5 章 变分模态分解和支持向量机在羟基苯甲酸同分异构体定性识别中的应用 ............................ 47
5.1 THz 时域光谱的模态分解方法 ..................................................................................................... 48
5.1.1 EMD 的基本原理 ................................................................................................................... 48
5.1.2 VMD 的基本原理 ................................................................................................................... 49
5.2 聚类识别及核函数参数优化方法 ................................................................................................ 50
5.2.1 SVM 的基本原理 ................................................................................................................... 50
5.2.2 PSO 优化算法的基本原理 ..................................................................................................... 53
5.3 提出的 VMD-PSO-SVM 算法应用于羟基苯甲酸同分异构体 THz 光谱分析 ............................ 56
5.3.1 羟基苯甲酸同分异构体的 THz 时域光谱 ............................................................................ 56
5.3.2 基于 EMD 算法的模态分解分析 .......................................................................................... 57
5.3.3 基于 VMD 算法的模态分解分析 .......................................................................................... 61
5.3.3 基于 PSO 算法的核函数参数优化分析 ................................................................................ 65
5.3.4 聚类分析 ............................................................................................................................... 71
5.4 结论 .............................................................................................................................................. 81
第 6 章 基于 Floyd 改进 LLE 算法的转基因大豆 THz 光谱特征提取和定性识别 .............................. 83
6.1 基于线性变换的 THz 光谱降维方法 ........................................................................................... 84
6.1.1 MDS 的基本原理 ................................................................................................................... 84
6.1.2 PCA 的基本原理 .................................................................................................................... 85
6.2 基于非线性变换的 THz 光谱降维方法 ........................................................................................ 86
6.2.1 KPCA 的基本原理 ................................................................................................................. 86
6.2.2 ISOMAP 的基本原理 ............................................................................................................. 87
6.2.3 LLE 的基本原理..................................................................................................................... 88
6.2.4 FLLE 的基本原理 .................................................................................................................. 89
6.3 回归分析方法 ............................................................................................................................... 89
6.3.1 MLR 的基本原理 ................................................................................................................... 89
6.3.2 PLSR 的基本原理 .................................................................................................................. 90
6.4 FLLE-PLSR 算法应用于转基因大豆 THz 光谱分析 .................................................................... 91
6.4.1 吸收光谱分析 ........................................................................................................................ 91
6.4.2 光谱数据降维和特征提取..................................................................................................... 95
6.5 结论 ............................................................................................................................................ 102
第 7 章 总结与展望 .............................................................................................................................. 103

VI
7.1 结论 ............................................................................................................................................ 103
7.2 创新点......................................................................................................................................... 104
7.3 展望 ............................................................................................................................................ 105
参考文献 ............................................................................................................................................... 107

致 谢 ..................................................................................................................................................... 120

附录 1 攻读博士学位期间取得的科研成果 ......................................................................................... 121

附录 2 攻读博士学位期间参加的科研项目 ......................................................................................... 122

VII
武汉科技大学博士学位论文

第 1 章 绪论

1.1 研究背景及意义

2022 年 3 月 6 日,习近平主席在看望参加全国政协十三届五次会议的农业界、
社会福利和社会保障界委员时强调,把提高农业综合生产能放在更加突出的位置,
解决吃饭问题,根本出路在科技,种源安全关系到国家安全,必须下决心把我国
种业搞上去,实现种业科技自立自强、种源自主可控。截止 2019 年,全球转基因
作物的种植面积为 1.904 亿公顷,排名前五位的国家(美国、巴西、阿根廷、加
拿大和印度)种植了全球 91%的转基因作物[1-3]。转基因农作物的研究与应用为全
人类的粮食供应问题提供了可持续发展的基础。从 1996 至今转基因农作物很好地
完成了市场渗透过程,并成功进行了商业化的生产,世界范围内,越来越多的农
民也开始采用转基因种子进行农产品种植。随着耐除草剂、耐虫性、耐旱性、抗
病性等多种性状结合的转基因农作物被引入,对食品和饲料产业链中转基因农作
物进行追踪和标识的可靠且灵敏的检测方法变得越来越重要[4-6]。转基因农作物适
用范围广且产量高,在全世界范围内都引起了巨大的争议,而转基因食品是否应
该进入餐桌,还有待进一步考证,为解决这些争议,采用有效的检测手段并保障
转基因农作物的安全和食品安全成为亟待解决的问题。
纺织行业印染过程应严格遵循国际环保染料标准,德国政府和欧共体及
Eco-Tex Standard100[7,8]明文规定的在特定条件下会裂解释放出 22 种致癌芳香胺
的偶氮染料,无论这些致癌芳香胺是游离于染料中或是由染料裂解所产生。我国
国家质量监督检验检疫总局在“2001 年制修订国家标准计划增补项目”中把制定
“染料产品中有害芳香胺的限量与检验方法标准”列入了 2001 年的标准制定计划
[9-11]
。含有致癌芳香胺的偶氮染料,其上游重要的合成原料包含羟基苯甲酸,目
前,羟基苯甲酸、氨基酸、果糖、果酸、生物酶、纤维素等化工原材料的安全检
测和质量监测已成为精细化工行业的焦点,受到越来越多的学者关注。在有机化
学中分子式相同、结构不同的化合物互称同分异构体,它们往往具备相似的分子
结构、分子量和宏观特性,有机分子广泛存在于生命科学和化药合成行业中。对
外观相似但物理和化学性质不同的同分异构体进行准确、快速的安全和质量监控

1
武汉科技大学博士学位论文
已成为精细化工行业的重点。
绝大多数有机分子的振动、转动能级处在 THz 波段,针对外观和结构相似的
不同有机分子分类鉴别和吸收机理的有效解析。目前面临的突出问题:1)针对成
分多样化的生物样品,如转基因和非转基因产品的鉴别分析,急需一种高效、准
确的无损鉴别方法,来区分转基因生物和其亲本,区分带有不同外来基因的转基
因生物,为后续研究内部分子结构做好基础准备;2)针对成分单一且纯净的有机
分子(如羟基苯甲酸,氨基酸,香兰素,阿拉伯糖和二甲基脲等)的同分异构体
之间鉴别分析和结构分析,目前缺乏一种高效、准确的无损鉴别方法来区分同分
异构体,更为重要的是缺乏一种有效的理论方法对实验测试光谱的特征“指纹”
指认、振动模式分析和分子间弱相互作用分析。以上两个问题并不是孤立的,它
们之间存在内在联系,要弄清楚宏观上 THz 对物质的吸收差异就必须先研究微观
领域的分子振动模式、弱相互作用机制。
表 1.1 有机分子识别主要方法

方法 优点 缺点

IR 可测定分子中含有何种化学键或官 定量分析时误差大,灵敏度低;图谱

能团。 解析方面主要靠经验。

Raman 可测定物质中功能团簇的数量,适合 荧光现象对其干扰大;傅里叶变换光

定量分析。 谱的曲线非线性;不同振动峰重叠。

NMR 可测定分子中有几种不同类型的氢 灵敏度低,能量过高。

原子及它们的数目。

THz 无损探测,可测定分子间和分子内弱 水分对测试光谱影响大;受限于 THz

相互作用,适合定性和定量分析。 发射源,离商业应用有一定距离。
有机分子分类识别主要包含化学特征反应法、密度溶解法和光谱分析法等,其
中光谱分析方法属于非接触式方法,主要包括:红外光谱(IR)法、拉曼(Raman)
光谱法、核磁共振氢谱(NMR)和太赫兹(THz)光谱法等,如表 1 所示。红外和
拉曼光谱技术已成为分析和表征物质结构的常用方法[12,13]。通过分析物质的红外和
拉曼光谱的吸收特性,可以获得分子中官能团振动或旋转的结构信息,从而实现不
同物质的区分。由于红外和拉曼能量过大,且与有机分子间弱相互作用[14–19]、键角
弯曲[20–25]、二面角扭转[26–31]等难以产生较强的响应,所以检测效果并不理想。核磁
共振氢谱法[32,33]所采用经典的原子分子级别探测技术,可测定分子中有几种不同类
型氢原子及它们的数目,还可测量结构复杂天然产物手性中心,确定其相对构型,
2
武汉科技大学博士学位论文
但灵敏度低且能量过高,对有机分子结构稳定性有一定影响,且检测效果同样不理
想。因此,国内外学者们聚焦太赫兹光谱技术,利用太赫兹波的优势对有机分子进
行无损探测和分析。
如图 1.1 所示,太赫兹波是指频率约 0.1–10THz(波长约 0.03–3 mm)的电磁波,
介于微波与红外之间[34–36]。近年来,随着超快激光技术和半导体材料科学与技术的
飞速发展,太赫兹发射源越来越稳定,以及高灵敏探测器的出现,使得太赫兹光谱
技术的应用越来越广泛[37–41]。THz 波具有的独特性质被广大科研工作者所青睐,使
其在无损检测[42]、安检[43]、生物医学[44]等方面表现出重要的学术研究价值和应用价
值。不同物质在 THz 波段会出现稳定且独一无二的“指纹谱”;THz 波的光子能量
在毫电子伏特级别,可对物质进行“无损”探测;固体材料、介电材料等在 THz 波
段几乎完全透射,THz 波可对特定环境下物体“透视成像”;绝大部分有机分子的
振动、转动和自旋等能级处在 THz 波段范围内,因此,THz 波能够对农业、化工合
成和生物医药等领域的原材料、中间体、代谢物等进行有效探测,并解释其吸收和
色散现象[45–48]。THz 光谱法由于其具有的无损探测性和能与分子内基团弱相互作用
等发生“共振”的突出特点,成为国内外学者研究有机分子和生物大分子分类识别
以及分子构型的热门技术。

图 1.1 电磁频谱的太赫兹区域

3
武汉科技大学博士学位论文
利用 THz 光谱探测技术结合机器学习和量子化学计算能够克服以上困难,实现
对有机分子的分类鉴别和光谱吸收机理分析。本 文拟采用太赫兹时域光谱系统
(THz-TDS)作为测试平台,选取 3 种不同转基因大豆(含亲本)作为成分多样化
生物样品的典型代表,选取邻、间和对羟基苯甲酸(2-,3-,和 4-hydroxybenzoic acid,
简称 2-HA、3-HA 和 4-HA,互为位置异构体)作为成分单一且纯净有机分子的典
型代表。针对成分多样化的转基因大豆,拟提出一种基于 Floyd 改进测地距离非线
性降维和偏最小二乘回归相结合(FLLE-PLSR)的光谱特征量提取方法。针对 2-HA、
3-HA 和 4-HA 三种同分异构体,拟提出基于变分模态分解-粒子群优化(VMD-PSO)
改进的支持向量机(Support Vector Machine,简称 SVM)分类模型,构建羟基苯甲
酸同分异构体的快速识别模型;为了深入研究分子水平的“共振”吸收机理,拟采
用密度泛函理论(DFT)对各物质的分子团簇结构进行分子结构几何优化和频率计
算,并用理论计算结果对 THz 实验光谱特征“指纹”进行验证,拟运用势能分布分
析(PED)方法和团簇分子振动矢量图,对理论计算光谱的特征吸收峰的简正振动
模式进行指认与解析,拟采用基于分子力场的能量分解分析(EDA-FF)方法对各
物质团簇结构的弱相互作用进行定性分析,拟采用视觉分子动力学(VMD)和相互
作用区域指示(IRI)两种可视化方法将 2-HA、3-HA 和 4-HA 三种同分异构体分子
间和分子内弱相互作用类型和强度直观地呈现出来。最终实现以上有机分子的快速
无损鉴别和光谱吸收机理分析,为农业安检和精细化工提供一种切实可行的光学测
量方案,其在农业选种、农业安检、生物医药、精细化工及食品监督等领域将有着
广阔的应用价值。
本文研究的特征提取、机器学习、能量分解分析和弱相互作用分析方法也可以
扩展到医疗诊断、制药和化工合成等其他领域。本研究获得国家自然科学基金(No.
51805382,61841502)和广西重点研发计划项目(桂科 AB18221,桂科 AB21075)
的资助,并得到了桂林电子科技大学太赫兹实验室、玉林师范学院太赫兹实验室、
中国电子科技集团公司第 34 研究所和广西荃鸿农业科技有限公司的大力支持。

1.2 有机分子的 THz 吸收光谱研究现状

1.2.1 成分多样化的生物样品的 THz 光谱分类识别研究现状


在农业安检和食品安全领域,转基因产品[49–55]是目前的热门话题,区分转基因
产品和非转基因产品的能力至关重要。农产品中含有大量的大分子结构,主要包括
蛋白质分子、多糖和油脂。利用 THz 波探测目标样品,对其内部大分子的吸收峰进
行分析,可以有效区分不同的生物大分子。近年来,THz 光谱技术在食品质量安全

4
武汉科技大学博士学位论文
检测中的应用引起了研究人员极大的兴趣[56]。Liu[57]等提出了一种利用 THz 光谱结
合加权线性判别分析(WLDA)对转基因食用油进行识别的方法,为了评估模型的
有效性,采用连续投影算术(SPA)和偏最小二乘法(PLS),通过变量选择来验证
鉴别性能,结果表明,SPA-WLDA 模型比 PLS-WLDA 具有更高的分类精度,THz
光谱与化学计量学相结合是一种有效鉴别各种类型转基因食用油的方法。Yan [58]等
人基于 THz 光谱技术对浓度为 0.025、0.05 和 0.1 毫克/毫升的杨梅素、槲皮素和山
奈酚进行定性和定量分析,通过 KNN、ELM 和 RF 模型对光谱进行预处理,实现
了定性鉴别,通过偏最小平方回归(PLSR)和最小平方支持向量机(LS-SVM)实
现了定量分析,其中 PLSR 模型和 LS-SVM 模型得到了更好的结果,对杨梅素、槲
皮素和山奈酚三种物质,RMSEP 分别为 0.0044,0.0039,和 0.0048,Rp 分别为 0.9601,
0.9688,和 0.9359,RPD 分别为 8.6272,9.6333,和 7.9083,结果表明,THz 光谱
技术是一个强大的工具,可以识别具有类似化学结构的三种黄酮醇,并对它们进行
定量测定。Huang[59]等人提出一种利用光谱的参数化模型—间接硬建模方法(IHM)

对混合物 THz 光谱解析和量化分析技术方案进行了研究,使用 S-G 平滑滤波方法滤
除光谱中的噪声影响,开展了 IHM 建模与分析研究,制备了利福平、乳糖一水合
物、微晶纤维素以及硬脂酸镁的四元混合物进行实验与建模分析,将 IHM 方法和
PLSR 方法进行了比较,相对于传统方法,IHM 方法建模所需的训练样本数量可减
少至 2 个,与此同时量化分析准确度获得了提高,同时外推性也有所提升。近年来,
为了提高目标样品分类和识别的准确率,最优化方法如偏最小二乘回归(PLSR)[60]、
神经网络(BPN)[61]和标准支持向量机(SVM)[62,63]被广泛用于处理原始 THz 光
谱数据,并改善分类和识别的准确性以及减少其他干扰因素的影响。然而,上述方
法并不能解决高维 THz 光谱特征向量导致的过度时间消耗和不稳定性等问题。通过
对高维数据进行降维[64]得到一个低维的数据,有助于提高分类识别准确率,运用化
学计量学方法结合降维技术广泛用于处理 THz 光谱数据。Sun[65]等人采用光谱预处
理及主成分分析法,分析了从 7 种不同浓度的血凝素蛋白及其与特异性抗体无关的
抗体对照组中获得的 THz 光谱的多个参数,结果表明,主成分分析在数据降维的同
时,可以突出数据的主要变化趋势,此外在原始变量相关性一致的条件下,约化吸
收截面与血凝素蛋白浓度之间表现出最强的相关性,而介电损耗角正切值更适合于
对血凝素蛋白-抗体复合物的聚类效果进行定性分析。Zhang[66]等人利用 PCA-SVM
对转基因大豆油样本的 THz 光谱数据进行了处理,得到了较好的分类识别结果。
Liu[67]等人提出了一种差分-PCA-SVM 算法,应用于 THz 时域光谱数据的有机化合
物定性识别,利用所提方法对 15 种有机化合物的 THz 光谱数据进行验证,准确率
达到了 93.33%,将所提方法与线性判别分析法及吸收峰频率 G 幅值法进行了对比,
结果表明基于差分-PCA-SVM 的有机化合物识别方法优于前者。

5
武汉科技大学博士学位论文
以上大多数研究采用的是线性降维方法,特别是主成分分析法(PCA),有一
定的局限性,尤其对高维复杂数据处理缺乏可靠性。利用 ISOMAP[68]和 LLE[69]等非
线性降维方法处理 THz 光谱数据可以应用于高维数据的降维,达到较好的降维效果,
能更有效地解释高维数据的非线性结构,从而为后续分类识别的过程提供较好的低
维数据,最终实现成分多样化的生物样品高效准确无损鉴别。

1.2.2 成分单一且纯净的有机分子分类鉴别和 THz 光谱吸收机理研究

现状

目前,药品、染料、杀菌剂、防腐剂等化工原料的安全检测和质量监测已成
为精细化工行业的焦点,获得越来越多的学者关注。对于外观相似但物理化学性
质不同的同分异构体进行准确、快速和安全的质量监控已成为精细化工行业的重
点,因此,急需要一种准确快速的无损鉴别方法对其进行分类识别和内部结构解
析。2-、3-和 4-羟基苯甲酸这三种位置异构体在药性、药理和生理活性上都有很
大的差异,因此对位置异构体的鉴定具有重要意义。在制药工业中,2-羟基苯甲
酸本身就是一种广泛使用的防腐剂,也可作为医药中间体,可用于制备柳氮磺胺、
柳氮磺胺、阿司匹林等。在染料工业中,2-羟基苯甲酸用于制造偶氮直接染料和
酸性媒染剂染料,以及制造香料[70–72]。3-羟基苯甲酸广泛应用于精细化学合成,
它是除草剂氟醚、偶氮染料、杀菌剂和防腐剂的中间体 [73–74]。Belwal T[75]在优化
的提取条件下,采用 3-羟基苯甲酸对伏牛花果实提取物中的酚类成分进行分析。
4-羟基苯甲酸主要用于有机合成、染料、香料等行业,以及高效防腐剂的制备。
Barreca D[76]用 4-羟基苯甲酸提取开心果壳可降解成分。Fischer U A[77]用 4-羟基苯
甲酸鉴定果皮汁中的酚类化合物。Ximenes E [78]用 4-羟基苯甲酸抑制纤维素酶合
成乙醇。Lepodise L M[79]研究了苯甲酸及其衍生物在 6–15THz 波段的吸收光谱和
分子间振动的数值模拟,得出了实验与模拟的对应关系,但是,由于没有对测试
对象进行分子团簇模拟计算,理论模型不能准确识别特征吸收峰。Walther M[80]
对苯甲酸及其衍生物水杨酸 2-、3-和 4-羟基苯甲酸以及阿司匹林(乙酰水杨酸)在
0.6–4.2 THz 的光谱范围的 THz 吸收光谱进行了讨论,但没有对测试对象进行分子
模拟计算,因此无法指认“指纹谱”的特征吸收峰。Wang Q[81]利用 THz 吸收光
谱和拉曼振动光谱对吡嗪酰胺(PZA)、3-羟基苯甲酸(3-HBA)及其共晶的振动
模式进行了表征。Du Y[82]利用拉曼光谱和 THz 光谱对研磨条件下吡拉西坦和 3-
羟基苯甲酸的共晶进行了表征,得到并确定了起始组分和共晶的主要振动模式。
Bian Y[83]在 0.3–2.5 THz 范围内测量了 l-赖氨酸和 l-赖氨酸水合物的 THz 吸收光谱,

6
武汉科技大学博士学位论文
结合理论计算,发现 l-赖氨酸和 l-赖氨酸水合物在不同频率下的集体振动模式是
由单个分子中不同分子链的二面体扭转或键角弯曲引起的,从而驱动了相关基团
的振动。Yamaguchi[84]等人用太赫兹时域光谱技术,在室温下测量了 10–90 cm-1
范围内 L-、D-和 DL-丙氨酸多晶样品的吸收光谱,发现三种丙氨酸在峰值频率上
存在较大差异,这种明显的差异表明在 THz 吸收带光波对晶体结构非常敏感,结
果表明,THz-TDS 可用于区分对映体和外消旋化合物。傅荣 [85]等人对 L-、D-和
DL-α-丙氨酸晶体粉末进行了 THz 光谱的室温测量,在 0.3–3.0 THz 范围内,观察
到数个吸收峰,发现其两种旋光体(L-和 D-丙氨酸)与其外消旋化合物(DL-α-
丙氨酸)在吸收峰上有较大差异,同时,运用基于密度泛函理论的第一性原对丙
氨酸的 3 种样品进行了振动光谱的理论模拟,得到了与实验数据较为吻合的结果,
指出 THz 波段的吸收光谱是源于氢键作用产生的分子集体振动。Zhang[86]等人用
THz 时域光谱法测定了 L-、D-和 DL-丙氨酸在低频区的吸收光谱,通过分析表明,
这些“几乎纯”分子间转译的红外强度由转译的极化效应引起,红外活性与分子内
振动和转动的红外活性之间有一定相关性,这些振动和转动在正常模式中存在边
界。Rahimi[87]等人使用不同的方法,如紫外、傅里叶变换红外(FTIR),质子(H-1)
核磁共振(NMR)和液相色谱-质谱(LC-MS)等方法研究了合成的双肽(组氨
酸-β-丙氨酸)对 Al3+、Cu2+、Hg2+和 Pb2+的螯合去除性能,并通过物质活性谱
预测(PASS)程序检测了二肽的药理活性和生物活性。
上述文献报道了羟基苯甲酸和部分氨基酸及其衍生物的光谱特性研究工作,
在实验光谱研究方面,缺乏基于 THz 光谱探测技术的同分异构体实验光谱特征提
取和分类鉴别;在分子水平 THz 波吸收机理研究方面,要么没有进行模拟计算,
要么没有较为准确的计算模型对样品进行了理论模拟,导致实验吸收光谱无法得
到有效验证,也就无法继续分析了同分异构体分子的振动模式、势能分布和弱相
互作用,还存在比较大的局限性。目前,采用密度泛函理论(DFT)对有机分子
同分异构体进行理论模拟为最准确的计算方法,能够得到与实验光谱比较吻合的
结果;采用视觉分子动力学和相互作用区域指示(IRI)可视化方法,是目前效果
最好的可视化表达方式,能够得到比较准确的弱相互作用类型、区域和强度;采
用变分模态分解(VMD)对有机分子同分异构体 THz 实验光谱进行时域信号自
适应信号分解估计和特征提取,能够有效抑制端点效应和模态分量混叠。
目前,针对太赫兹波段有机分子光谱解析和分类识别,仍然缺乏成熟高效的
方法,主要原因包括:①成分单一且纯净的有机分子缺乏有效的理论计算模型,
导致对实验特征“指纹”指认失效;②成分多样化的生物样品难以获得准确的分
子结构,再加上其结构复杂体系较大,导致对模型进行量子化学计算时,计算结

7
武汉科技大学博士学位论文
果误差大且计算过程时间成本过高;③现有基于线性降维的特征提取方法存在降
维失真和特征提取精度低等问题,是高维 THz 光谱数据样本稀疏和距离计算方法
面临的共性问题,其特征提取结果的可靠性还存在不足;④THz 光谱存在非线性、
高维度和特征冗余等问题,再加上测量环境和人为操作因素的干扰,客观上造成
了源光谱数据分类识别难度大。针对上述问题,本文以羟基苯甲酸同分异构体和
转基因大豆为实验对象,展开基于太赫兹光谱技术的“共振”吸收机理和定性识
别研究。

1.3 论文的主要内容和安排

1.3.1 论文的研究体系和主要内容

从微观(分子水平)的角度解析 THz 吸收光谱以及提升特征提取准确率和效


率是当前研究的重点。密度泛函理论作为目前最准确的量子计算方法,广泛用于
确定物质内部分子构型和频率计算;变分模态分解作为一种有效的时频信号降噪
方法,广泛用于非平稳短时频信号分析;非线性降维作为一种新的特征提取方法,
广泛用于高维非线性光谱数据分析。在 THz 无损检测、THz 波与物质相互作用等
方面具有广阔的应用前景,但是依然存在一些不足。因此,本文以基于太赫兹光
谱技术的有机分子光谱定性识别和“共振”吸收机理为研究对象,针对目前存在
的理论计算结果对实验特征“指纹”指认失效、理论计算结果对光谱解析可靠性
低、太赫兹时域信号模态混叠和低信噪比以及时频分布能量不聚集、非线性太赫
兹光谱数据特征冗余这 4 个突出问题,提出以 THz 实验光谱特征提取结合量子化
学计算为基础的分析方法(如密度泛函理论结合势能分布分析、能量分解分析结
合视觉分子动力学和相互作用区域指示方法、基于 Floyd 改进局部线性嵌入算法
以及基于变分模态分解-粒子群优化的 SVM 模型),构建了分子团簇模型,运用密
度泛函理论在添加 D-3 色散校正的特定基组下优化了几何结构和频率计算;实现
了 THz 源光谱数据特征参量的准确提取,结构相似物质的准确识别。并将这些方
法用于分子水平特征“指纹”指认以及分子内和分子间弱相互作用区域指示、羟
基苯甲酸同分异构体快速无损检测以及转基因大豆与非转基因大豆无损鉴别,论
文的研究体系如下图 1.2 所示。
主要研究内容如下:
(1)研究理论计算结果对 THz 实验光谱特征“指纹”指认失效的问题。针
对微观层面(分子水平)的光谱识别和解析问题,从构建合理的分子团簇模型和
高效准确的量子化学计算方法入手,筛选得到最优理论模型,即采用在
8
武汉科技大学博士学位论文
Thomas-Fermi 模型的基础之上而提出的一种量子理论描述方式—密度泛函理论
(DFT),并在 B3LYP 杂化泛函和 6-311G++(d, p)基组级别下添加 D3 色散校正以
更好的描述色散作用,通过 Gaussian16 计算工具分别计算 2-HA、3-HA 和 4-HA
三种同分异构体分子团簇体系的理论光谱。本文研究势能分布分析(PED)通过
VEDA4xx 工具来实现,其目的是将分子团簇体系的特征振动模式进行分解,可以
获取参与某一点(一般选取实验所得特征吸收峰对应的峰位点)特征振动的全部
基团信息以及相应的振动贡献值,实现对 2-HA、3-HA 和 4-HA 三种同分异构体
THz 实验光谱特征“指纹”有效指认。
(2)研究理论计算结果对光谱解析可靠性低的问题。分子间、分子内弱相互
作用区域和强度与 THz 特征吸收峰产生机理密切相关,通过解析能量分布区域和
强度可以定性识别分子构型的差异性,解释反应物内部的非共价键作用(如氢键
相互作用、范德华相互作用等),监测化学反应过程的机理,分析和验证 THz 光
谱与物质的相互作用机理。本文在量子化学计算基础上,采用能量分解分析结合
经典分子力场(EDA-FF)的方法将分子团簇体系的总作用能进行分解,获取 THz
波段物质共价键和非共价键作用的全部成键信息以及相应的能量贡献值。本文研
究视觉分子动力学和相互作用区域指示(IRI)可视化,其目的是通过外部渲染的
原子着色和按一定比例电子密度加权的电子密度梯度范数描述共价键和非共价键
作用(弱相互作用),实现理论计算结果对实验光谱正确解析以及分子内和分子间
弱相互作用区域指示。
(3)研究 THz 时频信号模态混叠、低信噪比和时频分布能量不聚集的问题。
时频分析使用模态分解来描述非线性非平稳信号的幅值分布规律。经典的经验模
态分解(EMD)属于三次样条插值函数拟合原始信号分析方法,其主要考虑局部
频率筛选的准确估计,忽略了端点效应和模态分量混叠的问题的影响。最近提出
的变分模态分解(VMD)则是具有更丰富的数学模型作为理论支撑,其实质是多
个自适应维纳滤波组,表现出更好的噪声鲁棒性,其更适合处理非线性短时频 THz
信号。为了进一步突出背景噪声下不同 THz 光谱数据微小差异,本文研究粒子群
优化结合支持向量机算法(PSO-SVM),其目的是通过多次迭代更新粒子群,得
到全局最优化解,提升 THz 信号的信噪比和能量集中性,实现三种羟基苯甲酸同
分异构体快速无损检测。
(4)研究高维非线性 THz 光谱数据特征冗余的问题。噪声一直是 THz 光谱检
测面临的共性问题,提高信噪比始终是定性识别和定量分析领域的核心目标。为了
实现高维非线性 THz 信号噪声的去除,本文区别于经典的基于线性降维的主成分分
析等方法,将降噪的问题转化为数学优化的问题,利用非线性降维—基于 Floyd 改

9
武汉科技大学博士学位论文
进局部线性嵌入的手段实现了 THz 测量信号的预处理。以此为基础,将降维后的前
几个主分量作为多元线性回归分析和偏最小二乘回归分析的目标参量,实现背景噪
声下高维非线性 THz 信号的强鲁棒提取和转基因大豆与非转基因大豆准确识别。

基于太赫兹光谱技术的有机分子光谱定性识别和“共振”吸收机理

研究对象

太赫兹时频信号
理论计算结果对
理论计算结果对光 模态混叠、低信噪 非线性太赫兹光
实验特征“指纹” 存在问题
谱解析可靠性低 比和时频分布能 谱数据特征冗余
指认失效
量不聚集

能量分解分析结合
基于变分模态分
密度泛函理论结 视觉分子动力学和 基于改进 Floyd 局
解-粒子群优化的 解决方案
合势能分布分析 相互作用区域指示 部线性嵌入算法
SVM 模型
方法

 精细化工定性分析技术:分子水平特征“指纹”指认、分
具体应用
子内和分子间弱相互作用区域指示
 实用检测技术:转基因大豆与非转基因大豆无损鉴别、羟
基苯甲酸同分异构体快速无损检测

图 1.2 博士论文研究框架

1.3.2 论文的章节安排
本文针对有机分子与 THz“共振”吸收和光谱定性识别存在的典型问题,如羟
基苯甲酸同分异构体对 THz 波“共振”吸收机理、THz 吸收光谱的降噪、羟基苯甲
酸同分异构体的定性识别、转基因大豆 THz 光谱高维非线性冗余特征信号的提取等
进行了研究,采用基于密度泛函理论模拟计算和 THz 实验光谱相结合的方案,实现
了对羟基苯甲酸同分异构体,在分子水平上的 THz 光谱特征“指纹”指认以及分子
内和分子间弱相互作用区域指示;提出了基于变分模态分解的粒子群优化改进支持
向量机模型,实现了对羟基苯甲酸同分异构体 THz 实验光谱的定性识别;提出了基
于 Floyd 改进局部线性嵌入结合偏最小二乘回归分析的模型,实现了对转基因大豆
和非转基因大豆 THz 实验光谱的定性识别。论文的具体章节安排如下:

10
武汉科技大学博士学位论文
第 1 章为绪论。在绪论部分,分别介绍了本文研究提出的背景和意义,然后对
成分多样化生物样品的 THz 光谱分类识别研究现状、成分单一且纯净的有机分子分
类鉴别和 THz 光谱吸收机理研究现状进行了文献综述,指出了不同方法的优势和存
在的问题,论述了本文采用的理论、方法和模型的优势。概述了本文的研究体系和
主要内容并给出了博士论文总体研究框架。
第 2 章为 THz 光谱的实验测量和理论计算。本章概述了 THz 脉冲发生技术、
THz 时域光谱系统工作原理、实验装置以及样品制备主要辅助仪器,并介绍了实验
测试对象和样品制备及筛选。简要介绍了实验数据处理方法、密度泛函理论以及仿
真计算和分析工具。
第 3 章为羟基苯甲酸同分异构体的 THz 振动光谱解析。THz 振动光谱特征“指
纹”中所包含的最重要的信息是特征吸收峰,特征吸收峰能准确地反映羟基苯甲酸
同分异构体中振动能级、转动能级、二面角扭转、键长伸缩和键角弯曲等特征。这
些信息需要研究分子水平 THz 波对物质的吸收机理,采用了目前最高效准确的量子
化学计算方法—密度泛函理论(DFT)分别对羟基苯甲酸同分异构体分子团簇模型
进行几何结构优化和频率计算,在此基础上运用势能分布分析(PED)对羟基苯甲
酸同分异构体总的振动模式分解为二面角扭转、键长伸缩和键角弯曲等简正振动分
量,实现了对实验 THz 光谱特征“指纹”有效指认。
第 4 章为基于 THz 光谱技术的羟基苯甲酸同分异构体弱相互作用分析和可视化
研究。在前一章从分子水平角度验证了羟基苯甲酸同分异构体在 THz 波段具备特征
“指纹”的基础上,运用分子力场的能量分解分析解析弱相互作用能分布,并用图
形化方式直观显示。羟基苯甲酸同分异构体团簇体系的动能可以由电子密度表示,
电子密度大小代表分子内和分子间能量分布,通过解析能量分布区域和强度可以定
性识别分子构型的差异性,解释反应物内部的非共价键作用(如氢键相互作用、范
德华相互作用等)。为了更深入地解析羟基苯甲酸同分异构体分子间和分子内弱相
互作用机理,采用基于分子力场的能量分解分析(EDA-FF)方法将羟基苯甲酸同
分异构体分子团簇体系弱相互作用能分解为色散、静电和交换互斥三种弱相互作用
能,同时引用视觉分子动力学和相互作用区域指示(IRI)两种可视化方法将三种羟
基苯甲酸同分异构体分子间和分子内弱相互作用类型和强度直观的呈现出来,对三
种羟基苯甲酸同分异构体团簇结构的弱相互作用成份进行定性分析与原子着色图
可视化,实现了对三种同分异构体的 THz 振动光谱吸收机理有效解析。
第 5 章为变分模态分解和支持向量机在羟基苯甲酸同分异构体定性识别中的应
用。在前两章从分子水平角度验证了羟基苯甲酸同分异构体在 THz 波段具备特征
“指纹”和振动吸收光谱的基础上,从光谱分析和数据解析的角度,将信号分解估
计思想应用到 THz 光谱的时频降噪和特征提取,即直接在时域信号上处理 THz 信

11
武汉科技大学博士学位论文
号,提出了基于变分模态分解(VMD)与粒子群优化-支持向量机(PSO-SVM)相
结合的方法。将源 THz 信号分解为多个本征模态分量,每个本征模态都代表 THz
信号的特征,实现了对源 THz 信号高信噪比、低模态混叠和低端点效应的特征提取。
在此基础上构建训练集和预测集,首先训练事先给定惩罚参数 c 和高斯核函数尺度
参数 g 的支持向量机模型,再通过粒子群优化算法对惩罚参数 c 和尺度参数 g 在预
选区间内进行优化,最后得到最优化惩罚参数 c 和尺度参数 g,并给出对应分类准
确率,实现了对 3 种羟基苯甲酸同分异构体定性识别。为了验证所提出方法的可靠
性和准确率,采用经典的经验模态分解方法结合粒子群优化-支持向量机模型作为对
照组定性识别了 3 种羟基苯甲酸同分异构体的 THz 光谱数据。此外,还研究了本征
模态分量个数与分类准确率之间的关系。
第 6 章为基于 Floyd 改进 LLE 算法的转基因大豆 THz 光谱特征提取和定性识
别。羟基苯甲酸同分异构体和转基因大豆均属于有机分子,在上一章研究成分单一
且纯净的 3 种羟基苯甲酸同分异构体光谱降噪、特征提取和定性分析的基础上,将
实验对象扩展到转基因和非转基因大豆,识别方案的实质是将非线性降维—局部线
性嵌入思想应用到 THz 光谱的降噪和特征提取,提出了基于 Floyd 改进局部线性嵌
入与偏最小二乘回归分析相结合(FLLE-PLSR)的分析方法。THz 光谱降噪和特征
提取的过程可以转化为求光谱的稀疏近似解,建立降噪和特征提取的非线性降维框
架实质上是将局部非线性区间近似为线性区间对目标函数求最优解,实现了对光谱
数据的降噪和特征提取处理。在此基础上,将特征提取结果作为偏最小二乘回归分
析的输入矩阵,实现了对转基因大豆和非转基因大豆定性识别。为了验证所提出方
法的可靠性和准确性,分别采用传统的主成分分析-多元线性回归、主成分分析-偏
最小二乘回归、局部线性嵌入-多元线性回归、局部线性嵌入-偏最小二乘回归和基
于 Floyd 改进局部线性嵌入-多元线性回归为对照组模型定性识别了 3 种转基因大豆
的 THz 光谱数据。
第 7 章为总结与展望。陈述了本文的创新点、结论和不足之处,并对下一步工
作进行了展望。

12
武汉科技大学博士学位论文

第 2 章 THz 光谱实验测量和理论计算方法

针对本文选择的有机分子样品,从实验测量和仿真计算两个方面展开研究,
实验测量部分以太赫兹时域光谱系统结合超净间和样品制备辅助仪器作为测量平
台,仿真部分采用 Gaussian16 作为计算工具。

2.1 THz 时域光谱系统与实验测量

2.1.1 THz 脉冲发生技术

如图 2.1 所示,太赫兹脉冲辐射的产生基于光电导开关,太赫兹光电导发射
器依源于超快(飞秒)激光器,其产生的几个周期太赫兹脉冲来激发偏置的砷化
镓天线。该技术本质上是宽带的,其发射功率分布在几个太赫兹的频率范围内(通
常为 0.06–4.0 THz,波数相当于 2–133 cm-1)。当在亚皮秒级的时间尺度 ETHz∝dj/dt
上调制偏置半导体的电流密度 j 时,会在光电导天线中产生脉冲太赫兹发射。电
流密度的变化以及由此产生的光电流的变化是由两个过程引起的:1)飞秒激光照
射引起的载流子密度的快速变化;2)在外部电场下光生载流子的加速。太赫兹辐
射的相干检测在光电导天线电路中执行。通过与太赫兹发射同步的飞秒脉冲选通
光电导间隙(约 5μm),可以测得与太赫兹电场成比例的电流,进而通过改变到接
收器的光路长度,可以对太赫兹时域进行采样。因此,既可以得到入射的太赫兹
波的振幅和相位,又可以通过时间门控检测验证动态范围是否高于 70 dB。

图 2.1 太赫兹脉冲发生原理图

13
武汉科技大学博士学位论文
2.1.2 实验装置

图 2.2 太赫兹时域光谱系统原理图
本文采用太赫兹时域光谱系统的透射模式,其基本工作原理如图 2.2 所示,太
赫兹波的激发源为 Toptica Photonics AG 公司的超快飞秒激光器发射的激光,激光器
的中心波长约为 800 nm,脉冲宽度约为 100 fs,重复频率约为 80 MHz,激光器的
平均输出功率约为 100 mW。发射极的激光束以 45°C 入射角通过平面反射镜(M1)
进入半波片(HWP),激光束通过 HWP 后经由分束镜(CBS)将其分为两束激光,
即泵浦光和探测光。泵浦光通过斩波器(Chopper)后通过两个平面反射镜(M2,
M3)和机械平台组成的延迟器,再次通过反射和聚焦照射在太赫兹发射源上,激光
束通过 GaAs 偏置光电导天线传输并产生太赫兹脉冲,经由离轴抛物面反射镜(PM1,
PM2)准直后,太赫兹脉冲被聚焦到样品上(样品放置在离轴抛物面反射镜的焦点
上),太赫兹波在样品前表面和后表面之间经过多次反射后,经由离轴抛物面反射
镜(PM3,PM4)将太赫兹脉冲聚焦在 ZnTe 晶体上。分束器产生的另一束是探测
光,探测光准直聚焦在 ZnTe 晶体上(一块厚约 2 mm,另一块厚约 0.8 mm),通过
电光采样检测太赫兹波。探测光照射在硅光电二极管上通过改变被测光的偏振方向
对被测光进行调制,调制后的太赫兹波通过四分之一波片(QWP)和沃拉斯顿棱镜
(PBS)后,被分为偏振方向垂直的两个分量,再通过 PD 电光取样将光信号转换
为电信号。最后将产生的调制信号输入到锁相放大器,锁相放大器(时间常数为 100
ms)输出信号进入计算机进行后续数据处理。其中,带有 USB 通信功能的 LabVIEW
程序控制扫描站(步长为 10 μm)采集太赫兹波信号。

14
武汉科技大学博士学位论文

(a) Z-3 太赫兹系统 (b) CCT-1800 太赫兹系统


图 2.3 太赫兹时域光谱系统
如图 2.3(a)所示,一部分实验采用美国 Zomega 太赫兹公司生产的 Z-3 太赫
兹系统,其光谱范围为 0.1–3.5 THz,信噪比大于 70 db,频率分辨率小于 5GHz,最
大时间延迟大于 1.30ns,最大行程 50±5 cm。如图 2.3(b)所示,另一部分实验采
用深圳华讯方舟科技有限公司开发的 CCT-1800 太赫兹系统,其光谱范围为 0.1–4.5
THz,0.5–4.0 THz 频段对应的信噪比范围为 75–20 db,透射时域信号长度最大可达
1200 ps,扫描精度 2 μm,成像扫描精度 0.08 mm,成像扫描速度可达 10000 像素/
小时。Z-3 太赫兹系统和 CCT-1800 太赫兹系统放置在密闭的箱体内,其正常工作状
态下空气湿度应小于 0.5%,以减少大气中水分对测量结果的影响,最理想的测量环
境是往箱体内充入高纯度氮气,这样可以排尽箱体内的空气。一般测量过程的温度
约为 295 K,旨在保持实验环境和仿真计算工具 Gaussian16 的默认环境温度相吻合。
确定获得稳定的光谱数据后,截取 Z-3 太赫兹系统的有效光谱范围为 0.3–2.0 THz,
截取 CCT-1800 太赫兹系统的有效光谱范围为 0.3–3.0 THz。太赫兹脉时域光谱系统
几乎不需要特殊维护,相对紧凑且可移动,并且不需要复杂的冷却装置。用于测量
的太赫兹辐射功率低于 1 μW,该辐射水平低于热本底辐射水平,因此不会在样品
中引起热效应。

15
武汉科技大学博士学位论文

(a) 自动压片机 (b) 电子分析天平 (c) 真空恒温干燥箱


图 2.4 辅助仪器
如图 2.4(a)所示,实验采用上海精胜科学仪器有限公司的 JZP-60 型自动压片
机作为样片制备仪器,压片机的压力测量范围为 0–6000 MPa,压片过程由程序控制
(缓加压-保压-自动泄压),保压时间范围为 0–99 分钟,压强转换方式为模具压强
自动换算,操作过程实现了全液晶显示,相对传统的半自动压片机,能更好的保持
样片的密度均匀性和表面平整度。如图 2.4(b)所示,实验采用日本岛津公司
(SHIMADZU)的 AUW220D 型电子分析天平作为样品称重仪器,其具有高精度、
环境适应性强等特点,采用铝材料一体化质量传感器“Uni Bloc”和机械组件的密
封结构,彻底抑制了传统电子分析天平难以抑制因风对流而产生的摇晃,该仪器将
传统的分类元件线路板改成超大数字集成电路板,内装“PSC”全自动校准功能模
块,遇有室温变化影响灵敏度时,天平感知室温变化自动开始校准,同时具有积分
可调和稳定度、灵敏度可调功能,能实现较高的可靠性、响应性、使用便利性,其
最大称量范围为 220g/82 g,线性精度为±0.1 mg/±0.01 mg,称量盘直径 80 mm,
稳定时间 3–5 秒。如图 2.4(c)所示,为了排除水分对 THz 波吸收的影响,应保证
待测样品充分干燥,实验采用天津拓普仪器有限公司的 YB-1A 型真空恒温干燥箱
对样品进行干燥处理,该仪器的加热器采用特殊工艺方法制成,保证了真空干燥箱
内温度分布均匀,该仪器是目前国内所有真空干燥箱中性能最好的一款,并且优于
进口产品,其真空度范围为 0–0.1 MPa,温度范围为 25–150 ℃,温漂范围为±2 ℃。

2.1.3 实验对象
实验用到的转基因大豆样品(Genetically modified soybean seed(0%,50%,
100%),分别简称 Parent,GM1,GM2)采购自欧洲 J&K scientific 公司,样品纯度

16
武汉科技大学博士学位论文
均在 99.0%以上,状态为白色粉末。高密聚乙烯粉末(Polyethylene)采购自西格玛
奥德里奇(上海)贸易有限公司,聚乙烯粉末粒径范围为 53~75 μm,纯度在 99.0%
以上,状态为白色粉末。邻羟基苯甲酸(2-hydroxybenzoic acid,简称 2-HA)、间羟
基苯甲酸(3-hydroxybenzoic acid,简称 3-HA)和对羟基苯甲酸(4-hydroxybenzoic
acid,简称 4-HA)三种同分异构体样品采购自上海阿拉丁生化科技有限公司,2-HA
的纯度为 99.5%,3-HA 的纯度为 98.0%,4-HA 的纯度为 99.0%,三种样品状态均
为白色粉末。上述样品的纯度已经符合测试要求,其杂质含量及成分对实验测试结
果的影响可以忽略不计,无需在样片制备前再次进行纯化处理。

(a) 邻羟基苯甲酸 (b) 间羟基苯甲酸 (c) 对羟基苯甲酸


图 2.5 羟基苯甲酸同分异构体单分子结构(基于 VESTA 软件可视化)
转基因大豆样品内部成分复杂,含有多种生物大分子,且受限于现有的实验条
件无法获得其准确的分子结构模型,很难对其进行理论计算,本论文只对其进行 THz
实验光谱采集。然而,羟基苯甲酸同分异构体样品纯度高且成分单一,有准确的分
子结构模型,在合适的理论模型下可对其进行模拟计算。如图 2.5 所示,棕色、桃
色和红色原子分别代表碳原子、氢原子和氧原子,三种羟基苯甲酸分子的分子式均
为 C7H6O3,其结构均为苯环上分别连接一个羟基(–OH)和一个羧基(–COOH)

它们的差别在于羟基和羧基在苯环上所处的位置,羟基和羧基在苯环上处在相邻位
置的羟基苯甲酸为 2-HA,羟基和羧基在苯环上处在间隔位置的羟基苯甲酸为 3-HA,
羟基和羧基在苯环上处在正对面位置的羟基苯甲酸为 4-HA,上述同分异构体属于
“位置异构体”范畴。

2.1.4 样品制备
由光的散射原理可知,粒度一旦小于所用 THz 波的波长,它的散射效应会明显
减小,光谱的基线将趋向平滑 [88,89]。一般地,当固体样品粒径 s 在一定范围内(s<2
μm),才能得到准确的 THz 光谱,因此在对样品进行光谱测量之前,要进行以下步
骤,①检查转基因大豆和羟基苯甲酸同分异构体各类样品颗粒大小;②针对样品颗
粒的粒径较大的样品,分别用玛瑙研钵反复研磨,直至粉末均匀;③样品通过 180
目筛子进行过滤筛选;④按照一定比例(质量比为 1:3)与高密聚乙烯粉末混合,
用玛瑙研钵反复研磨,直至二者混合均匀。每一个样片均采用 AUW220D 型电子分

17
武汉科技大学博士学位论文
析天平称量,称量质量为 200.00 mg,随后通过 JZP-60 型自动压片机制片,预设压
力为 10 MPa,压片时间约 2~3 分钟,制成直径为 13 mm 厚度约为 1 mm 的样片,
最后通过 YB-1A 型真空恒温干燥箱干燥 2 小时(温度设定为 50 ℃)。正式测量样
品时,选取表面平整光滑且无裂纹的样片作为测试样片。

2.2 实验数据处理方法
通过实验测试得到的源光谱为时域信号,为了分析 THz 光谱数据,需要做时频
变换,同时考虑厚度、实验仪器和环境等因素影响,通常实验 THz 光谱以吸收系数
或吸光度描述。引入公式[90]:

Etrans ( )
 A exp(  i  ()) (2-1)
E0 ( )

其中 E0 ( ) 是 THz 参考信号的振幅, Etrans ( ) 是 THz 测量信号的振幅,  () 是


样本信号和参考信号的相位差,  是 THz 波的振动角频率。
定义材料的吸收系数:
2
 (2-2)
c
 为消光系数,代表光波对材料的吸收; c 为光速。
引入材料吸收系数后,公式 2-1 可近似为:

Etrans ( )
 A exp( i ( ))
E0 ( )
(2-3)
4n  i (n  1)d  d
 exp   exp(  )
(n  1) 2
 c  2
d 为样品厚度,本文制作样片时将控制厚度控制在 1  0.05 mm 范围。材料的折
射率 n 和吸收系数  通过以下公式得到:
c ( )
n 1 (2-4)
d
2  4n 
 ln
d  A(n  1) 2 
(2-5)

在本文中,样品具有不同的纯度和厚度,对于不同样品,无法获得准确的折射
率和吸收系数。在这种情况下,采用利用吸光度来处理实验数据。吸光度公式 [91,92]:

 E 2 ( ) 
Absorbance   lg  trans  (2-6)
 E 0 ( ) 
2

吸光度是相对量,是一种常用的光谱表达方式,用于衡量材料对光的吸收程度。

18
武汉科技大学博士学位论文
2.3 化学计量仿真方法
1927 年 Thomas 和 Fermi 提出了一种研究均匀电子气的模型[93,94],能量与电子
密度之间的关系:

 (r) 1 1 ( r )  2 ( r )
ETF  cF   5 3 ( r )dr - z 
2  r1  r2
dr  drdr
1 2 (2-7)
r

3
其中 cF  (3 2)2 3  2.871,  (r) 为电子密度,式(2-7)描述了体系总动能,
10
但未考虑电子间相互作用。
基于 Thomas-Fermi 模型,1964 年 Hohenberg 和 Kohn 提出了奠定密度泛函理论
(DFT)的 HK 定理[95],包含 HK 第一定理和 HK 第二定理。
HK 第一定理:同一个晶体场势能  (r ) 中,电子体系相互作用仅仅决定于电子
密度  (r) :

E (  )  T (  )  Vne (  )  Vee (  )
 Vne (  )  FHK [  ] (2-8)
   ( r ) ( r )dr  FHK [  ]
其中  (r ) 为体系势能, Vee (  )  J [  ] +非经典项, J [  ] 为交换互斥作用能。
HK 第二定理:给定电子体系基态能 E ( 0 ) 前提下,对 N 电子体系:

  (r)dr  N (2-9)
存在一个  (r) 的泛函 E [  ( r )] ,满足:

E [  ( r )]  E[  0 ( r )]  E0 (2-10)
基于 HK 第一定理和 HK 第二定理,1965 年 Kohn 和 Sham 提出了处理相互作
用电子非均匀系统的近似方法—KS DFT [96]。这些方法描述缓慢变化或高密度的系
统非常精确:

1 1
E   [  ( r ) ( r )]dr    ( r )  ( r ')drdr ' T (  )  E xc (  ) (2-11)
2 r -r'

该方法将体系总作用能分为原子核与电子作用能  [  ( r ) ( r )]dr 、静电互斥作用

1 1
能 
2 r -r'
 ( r )  ( r ')drdr ' 、动能泛函 T (  ) 和交换-相关泛函 E xc (  ) 四部分。其中交换

19
武汉科技大学博士学位论文
-相关泛函 E xc (  ) 难以得到准确的计算,针对此问题 Kohn 和 Sham 利用局域密度近
似(Local-density approximation,简称 LDA)构造了 E xc (  ) 近似值:

Exc (  )    ( r ) xc (  ( r ))dr (2-12)


LDA 假定电子密度在任意位置均相同,这导致 LDA 有低估交换能和高估相关
能的倾向[97]。由交换能和相关能造成的误差在一定程度上存在被误解为相互补偿的
倾向,为了纠正这种错误倾向,通常采用密度梯度解释真实电子密度的非均匀性。
可以通过远离坐标的密度变化进行修正,这些扩展被称为广义梯度近似(Generalized
gradient approximation,简称 GGA)[98,99],其形式如下:

Exc [n , n ]    ( r ) f (n , n , n , n ) (2-13)


本文计算羟基苯甲酸同分异构体团簇体系采用的 B3LYP 方法属于 GGA,该方
法能准确描述分子团簇体系真实的电子密度。

2.4 结论
本章概述了 THz 脉冲发生技术、THz 时域光谱系统工作原理、实验装置以及样
品制备主要辅助仪器,并介绍了实验测试对象和样品制备及筛选。简要介绍了实验
数据处理方法、密度泛函理论以及仿真计算和分析工具。

20
武汉科技大学博士学位论文

第 3 章 羟基苯甲酸同分异构体的 THz 振动光谱解析

针对成分单一且纯净有机化学分子,THz 光谱特征“指纹”中所包含的最重
要的信息是特征吸收峰,特征吸收峰可以准确地反映有机分子中振动能级、转动
能级、二面角扭转、键长伸缩和键角弯曲等特征,要弄清楚上述相互关联的问题,
往往需要高效准确的量子化学计算方法。本章拟采用在 Thomas-Fermi 模型的基础
之上而提出的一种量子理论表述方式—密度泛函理论(DFT)。由于有机分子团簇
体系的动能可以由电子密度表示,实质上是计算分子的电子结构和电子密度,通
过计算结果可以判断分子结构的稳定性,解释反应物的性质,研究化学过程的机
理,分析和验证各类光谱。在此基础上进一步做有机分子势能面优化和几何优化,
通过势能分布分析方法将分子团簇体系的特征振动模式进行分解,可以获取参与
某一点(一般选取实验所得特征吸收峰对应的峰位点)特征振动的全部基团信息
以及相应的振动贡献值,解决 THz 光谱特征“指纹”指认和振动模式分析的问题。
本章采用实验测试和理论计算两方面相结合的方法,从微观角度(分子水平)
研究 2-HA、3-HA 和 4-HA 的实验光谱数据的特征吸收峰,解决理论计算结果对
实验光谱数据有效指认的问题。运用势能分布分析(PED)对三种羟基苯甲酸异
构体的 THz 吸收光谱的振动模式进行了研究,从而实现了 2-HA、3-HA 和 4-HA
分子团簇模型理论计算结果对实验 THz 光谱数据有效指认。

3.1 THz 实验光谱和理论光谱分析

3.1.1 羟基苯甲酸同分异构体分子团簇模型

如图 3.1 所示,棕色、桃色和红色原子分别代表碳原子、氢原子和氧原子,
三种羟基苯甲酸同分异构体的分子式均为 C6H7O3,2-HA、3-HA 和 4-HA 的晶胞
构型都是通过英国剑桥晶体结构数据中心(Cambridge Crystallographic Data Centre,
CCDC)获得[100],为了使三种同分异构体晶体模型与实际物质相吻合,根据羟基
苯甲酸分子簇构建模型原理 [101] ,在三种同分异构体开源晶体模型基础上,通过
GaussView16 软件和视觉分子动力学软件[102],扩展出周期性排列的复晶胞,再抠
出单个分子由邻近六个分子围绕的团簇结构。由于复晶胞的结构是唯一确定的,
最终生成的 7 分子团簇结构也是唯一确定的最优化结构。

21
武汉科技大学博士学位论文

(a) 2-HA (b) 3-HA (c) 4-HA


图 3.1 羟基苯甲酸同分异构体分子团簇结构(基于 VESTA 软件可视化功能)
为了在允许的计算代价的基础上,保证理论计算的结果达到比较理想的精度,
采用当下比较新颖的 B3LYP 杂化泛函和 6-311G++(d, p)基组级别,并添加 D3 色
散矫正以更好的描述色散作用[103,104]。其中理论计算环境为 298.15 K 和 1 atm,实
验环境一般为室温 298 K 和 1 atm。

3.1.2 THz 实验光谱分析

羟基苯甲酸同分异构体的 THz 时域光谱经过 FFT 变换和 SG-Smooth 处理,


得到 2-HA、3-HA 和 4-HA 三种位置异构体的 THz 频域光谱,如图 3.2 所示,横
坐标 Frequency 表示频率,单位为 THz,纵坐标 Strength 表示强度,无量纲。四
条谱线中,黑色谱线为 2-HA,红色谱线为 3-HA,蓝色谱线为 4-HA,绿色谱线
为参考信号(Ref),Ref 是样品未加载在样品支架上时所测量的信号,而三条被
测样品的信号是 THz 波通过样品后得到的测量信号。

图 3.2 羟基苯甲酸同分异构体的实验频域光谱

22
武汉科技大学博士学位论文
可以观察到,相对于 Ref 信号三个样品的光谱强度有不同程度的衰减,考虑
到样品都是在相同的温度和湿度条件进行 THz 光谱采集,样品的直径都是 13.00
mm(误差小于 0.02 mm),样品的厚度都是 1.000 mm(误差小于 0.050 mm)。在
0.6–2.0THz 范围,将样品的光谱与 Ref 的光谱进行比较,Ref 的光谱曲线很平坦,
2-HA 出现了 2 个比较明显的强度峰值点,3-HA 和 4-HA 也出现了几个强度峰值
点,但是没有 2-HA 的强度明显,三个样品的强度峰值点出现的位置也没有重叠,
由此可以判定三种样品的光谱强度差异是由样品自身结构不同对 THz 波的吸收引
起的。

图 3.3 羟基苯甲酸同分异构体的实验吸光度光谱
如图 3.3 所示,羟基苯甲酸同分异构体的实验吸光度光谱,该吸光度光谱由
图 3.2 的频域光谱通过吸光度公式(2-6)对其频谱进行转换得到,横坐标 Frequency
表示频率,单位为 THz,纵坐标 Absorbance 表示吸光度,无量纲。三条谱线中,
黑色谱线为 2-HA,红色谱线为 3-HA,蓝色谱线为 4-HA,可以发现三种样品在
0.6–2.0 THz 的频率范围内多个有明显的特征吸收峰,其中比较微弱的特征吸收峰
(如 2-HA 在 1.66 THz 处和 3-HA 在 1.12 THz 处的特征吸收峰)通过软件自动寻
峰功能获得。2-HA 的特征吸收峰出现在 1.12 THz、1.41 THz、1.66 THz 和 1.97 THz
处;3-HA 的特征吸收峰出现在 0.81 THz、1.12 THz、1.48 THz 和 1.80 THz 处;
4-HA 的特征吸收峰出现在 0.83 THz、1.22 THz 和 1.87 THz 处。虽然观察到少量
重叠或接近的光谱吸收峰,如 2-HA 和 3-HA 在 1.12 THz 吸收峰重叠,3-HA 在

23
武汉科技大学博士学位论文
0.81 THz 的吸收峰和 4-HA 在 0.83 THz 的吸收峰非常靠近,但三个样品的太赫兹
光谱所有特征吸收峰彼此之间存在显著差异。结果表明,分子量相同、结构相似
但苯环上羟基和羧基相对位置不同的羟基苯甲酸异构体表现出明显不同的吸收特
性,该方法也为三种样品的鉴定提供了新的技术路线。

3.1.3 理论结果与实验结果对比分析

本研究采用 Gaussian16 实现 DFT 理论计算,无需人工设置周期边界条件(截


止能量和边界条件),系统默认截止能量 Maximum Force=0.000450,边界条件
Maximum Displacement=0.001800。在此周期边界条件下,计算了 2-HA、3-HA 和
4-HA 的理论光谱。为了获得更高的模拟计算精度和更少的耗时,我们未来的工作
将是寻找和研究比 DFT 方法更有效的仿真计算方法。此外,计划使用更严谨、更
专业的晶体结构模拟软件作为计算工具,如 Crystal、Hyperchem、LAMMPS。图
3.4 至图 3.6 分别给出了三种羟基苯甲酸异构体的 THz 实验光谱和理论光谱,截取
0.6–2.0 THz 范围的吸收谱,横坐标 Frequency 表示频率,单位为 THz,纵坐标
Absorbance 表示吸光度,无量纲,黑色谱线表示理论光谱,红色谱线表示实验光
谱,为了清晰起见理论光谱已经垂直向上平移。

图 3.4 2-HA 的 THz 实验光谱和理论光谱


图 3.4 显示了 2-HA 样品通过实验获得的 THz 光谱和 DFT 理论计算的 THz
光谱。2-HA 的理论光谱有三个明显的特征吸收峰 1.03 THz、1.33 THz 和 1.78 THz,
2-HA 的实验光谱有三个明显的特征吸收峰 1.12 THz、1.41 THz 和 1.97 THz,其中
在 1.03 THz 和 1.33 THz 处的理论吸收峰与 1.12 THz 和 1.41 THz 处的实验吸收峰

24
武汉科技大学博士学位论文
对应,但是有较大的偏差,1.78 THz 处的理论吸收峰与 1.97 THz 处的实验吸收峰
不能相互对应,总体来看实验结果和理论计算结果的 THz 特征吸收峰基本上保持
吻合。

图 3.5 3-HA 的 THz 实验光谱和理论光谱


图 3.5 显示了 3-HA 样品通过实验获得的 THz 光谱和 DFT 理论计算的 THz
光谱。3-HA 的理论光谱有四个明显的特征吸收峰 0.85 THz、1.27 THz、1.52 THz
和 1.85 THz,3-HA 的实验光谱有四个明显的特征吸收峰 0.81 THz、1.12 THz、1.48
THz 和 1.81 THz,其中在 0.85 THz、1.52 THz 和 1.85 THz 处的理论吸收峰与 0.81
THz、1.48 THz 和 1.81 THz 处的实验吸收峰对应,但 1.27 THz 处的理论吸收峰与
1.12 THz 处的实验吸收峰不能相互对应,总体来看实验结果和理论计算结果的
THz 特征吸收峰吻合度较高。

25
武汉科技大学博士学位论文

图 3.6 4-HA 的 THz 实验光谱和理论光谱


图 3.6 显示了 4-HA 样品通过实验获得的 THz 光谱和 DFT 理论计算的 THz
光谱。4-HA 的理论光谱有四个明显的特征吸收峰 0.84 THz、1.26 THz、1.49 THz
和 1.76 THz,4-HA 的实验光谱有三个明显的特征吸收峰 0.83 THz、1.22 THz 和
1.83 THz,其中在 0.84 THz、1.26 THz 和 1.76 THz 处的理论吸收峰与 0.83 THz、
1.22 THz 和 1.83 THz 处的实验吸收峰对应,但 1.49 THz 处的理论吸收峰没有与之
对应的实验吸收峰,总体来看实验结果和理论计算结果的 THz 特征吸收峰吻合度
较高。
通过对图 3.4、图 3.5 和图 3.6 的分析可以得到,在 0.6–2.0 THz 频率范围 2-HA、
3-HA 和 4-HA 三种异构体的 THz 实验光谱和理论光谱的特征吸收峰基本上都能
吻合,吸收谱线的实验值和理论值大致走向相似有一定的吻合度,说明本文采用
的理论计算方法和基组的选择对三种羟基苯甲酸团簇结构的估算是可行的,能满
足目前对三种物质的 THz 特征吸收峰的指认和振动模式分析的要求。但是理论和
实验还存在一定的差异性,某些特征吸收峰的实验结果和理论结果不能吻合。其
主要原因是:①理论模型的仿真计算条件和实验条件不一致,主要是温度和压强
的差异;②本文采用的理论计算方法 DFT 和基组存在一定的局限性,目前不能非
常精确的估算三种羟基苯甲酸同分异构体的分子团簇模型;③分子间和分子内弱
相互作用与理论计算环境可能发生了一定程度的耦合,导致在绝大多偶数情况下
模拟特征吸收峰的个数比实验特征吸收峰多。

3.2 势能分布分析介绍
量子化学计算中每个特征基团都有其独特的振动模式,例如,羟基表现为对
26
武汉科技大学博士学位论文
称拉伸、扭转和对称弯曲等振动模式,理论上这些基团的振动模式在不同分子中
是固定不变的,但是振动模式通常会受到周围分子环境变化影响而产生的耦合效
应,也就是说这些模式在分子中并不是孤立的,各种振动模式的混合导致原始振
动频率和振动模式发生变化。为了深入研究振动模式与振动频率、振动模式之间
的关系,必须对混合振动模式进行有效解耦,通常采用比较成熟精确的解耦方法
—势能分布(Potential energy distribution,简称 PED)分析,该方法是一种用于解
耦简正振动模式的分析方法,实质上是将简正振动模式分解为多个分量,可用于
确定每个基团的特征振动模式的贡献。当需要分析不同特征基团振动模式时,比
较各自贡献百分比,便于更好地了解简正振动模式的特征。PED 分析基本原理如
下[105]:

  L (T ) FL (3-1)
其中 F 为力常数矩阵,L 为 F 的本征向量矩阵,它的第 N 列就是第 N 个简正振动
向量, L (T ) 是 L 的转置矩阵,  为对角矩阵 diag (1 , 2 , 3...) 。式 3-1 可以理解为
将内坐标变换为简正振动坐标 Q 后,力常数矩阵成为对角矩阵,其元素 — N 就是
简正振动模式 N 的力常数。根据谐振势模型有:

V (Q— N )  0.5  Q— N  2  — N (3-2)

将 — N 写成分量加和形式,式 5-2 可变换为:

— N  ( N , N )  [i ][ j ]L (T )( N , i ) F (i, j ) L( j, N )


(3-3)
 [i ][ j ]F (i, j ) L( j, N ) L(i, N )
其中,当 i=j 时贡献值最大。因此,可以通过比较内坐标 i 的力常数对 — N 的贡
献量 F (i, i ) L(i, N )  2 ,筛选出对第 N 种简正振动模式有主要贡献的内坐标。
每组的各种特征振动模式对正常振动模式的贡献百分比可以得到:

F (i, i ) L(i, N )  2
 (i, N )   100% (3-4)
[ j]F ( j, j) L( j, N ) 2
本文做 PED 分析采用 VEDA4xx 工具实现,VEDA4xx 从 Gaussian16 程序输
出文件中自动读取输入数据,生成一组局部模式坐标,程序自动优化更合适的坐
标,并从 PED 矩阵(EPM 参数)得到每列内坐标的最大元素。

3.3 特征吸收峰的指认和振动模式归属
本文研究 2-HA、3-HA 和 4-HA 的特征吸收峰的指认和振动模式归属均限定
在 0.6~2.0 THz 频率范围内,三种羟基苯甲酸异构体的 THz 特征吸收峰与其内部

27
武汉科技大学博士学位论文
各种基团的振动模式相互关联,同时也反映了对应异构体的分子结构。团簇体系
不同的结构必然会对应不同的振动模式。团簇体系模型通过 Gaussian16 理论计算
时,使用关键词 fre=intmodes,既能辅助指认特征吸收峰的振动模式也能将任意
特征吸收峰对应频率点的简正振动模式分解成多个内坐标,内坐标值代表该简正
振动模式的贡献值。为了从微观角度解析这些振动模式与对应羟基苯甲酸分子相
关属性的信息,采用 VEDA4 振动分析软件处理“.fmu”格式的数据,其处理的
基本流程为:读入 file1.fmu -> Create .DD2 -> Calculate -> View .VED,将得到的
PED 分析结果与关键词 freq=intmodes 的频率计算结果结合起来综合分析,能有效
指认特征吸收峰,同时得到特征吸收峰振动模式归属。
表 3.1 为 2-HA 团簇模型的特征吸收峰振动模式最终归属,列出了该体系所有
特征吸收峰的简正振动模式,采用 GaussView 软件对振动模式进行了可视化描述,
从动态振动动画中截取的某一帧的代表性振动模态如图 3.7 所示。
表 3.1 2-HA 的特征吸收峰振动模式
样本 实验吸收峰/THz 理论吸收峰/THz 振动模式
2-HA 1.12 1.03 O:OCCH(11);O:OCCH(-10);O:OCCH(-11)
1.41 1.33 B:HCC(-14);T:CCOH(10)
-- 1.78 分子间相互作用
1.97 -- 分子间相互作用
注:B 表示键角在平面上的弯曲;T 表示二面角扭转;S 表示键长伸缩;O 即 OUT,表示向
量与平面的夹角,如 OCCH 表示向量 OC 与平面 CCH 之间的夹角;括号内的数值表示当前
基团对该特征吸收峰振动模式的势能分布贡献,负号表示振动相位是反方向的。

(a) 1.12 THz (b) 1.41 THz


图 3.7 2-HA 的振动模式
图 3.7(a)和(b)显示了 2-HA 团簇体系的振动模式,分别对应于 1.12 THz
和 1.41 THz 处的吸收峰,其中蓝色箭头指向 2-HA 团簇分子扭转的方向。这些结
果和振动模式归属结果(表 3.1)中给出的数据相对应,从图 3.7(a)可以发现

28
武汉科技大学博士学位论文
2-HA 团簇在特征吸收峰 1.12 THz 处的振动模式主要归因于向量 O(1)H(16)和平面
C(25)C(21)H(16)之间的夹角;2-HA 团簇在特征吸收峰 1.41 THz 处的振动模式主要归
因于 H(48)C(53)C(57)原子之间的键形成的键角在平面上的弯曲和 C(10)C(103)O(98)H(87)
原子组成的基团的二面角扭转;2-HA 团簇在特征吸收峰 1.78 THz 和 1.97 THz 处
的振动模式主要受分子间相互作用的影响。
表 3.2 3-HA 的特征吸收峰振动模式
样本 实验吸收峰/THz 理论吸收峰/THz 振动模式
3-HA 0.81 0.85 分子间相互作用
1.12 -- 分子间相互作用
-- 1.27 S:CH(11);S:CH(10)
1.48 1.52 T:HOCC(-15);T:HOCC(-15);T:HOCC(11)
1.81 1.85 分子间相互作用
注:B 表示键角在平面上的弯曲;T 表示二面角扭转;S 表示键长伸缩;O 即 OUT,表示向
量与平面的夹角,如 OCCH 表示向量 OC 与平面 CCH 之间的夹角;括号内的数值表示当前
基团对该特征吸收峰振动模式的势能分布贡献,负号表示振动相位是反方向的。

图 3.8 3-HA 的振动模式(1.48 THz)


图 3.8 显示了 3-HA 团簇体系的振动模式,对应于 1.48 THz 处的特征吸收峰,
其中蓝色箭头指向 3-HA 团簇分子扭转的方向。这些结果和振动模式归属结果(表
3.2)中给出的数据相对应,结果表明 3-HA 团簇在 0.81 THz、1.12 THz 和 1.81 THz
处的振动模式主要受分子间相互作用的影响;3-HA 团簇在特征吸收峰 1.27 THz
处的振动模式归因于 C(55)H(95)原子之间的键长伸缩;3-HA 团簇在特征吸收峰 1.48
THz 处的振动模式归因于 H(16)O(13)C(7)C(3)原子组成的基团的二面角扭转。

29
武汉科技大学博士学位论文
表 3.3 4-HA 的特征吸收峰振动模式
样本 实验吸收峰/THz 理论吸收峰/THz 振动模式
4-HA 0.83 0.84 T:CCOC(13); T:CCOC(12); T:CCOC(-10)
1.22 1.26 B:HOC(11)
-- 1.49 T:CCCO(12); T:CCCO(10);T:CCCO(-12)
1.83 1.76 分子间相互作用
注:B 表示键角在平面上的弯曲;T 表示二面角扭转;S 表示键长伸缩;O 即 OUT,表示向
量与平面的夹角,如 OCCH 表示向量 OC 与平面 CCH 之间的夹角;括号内的数值表示当前
基团对该特征吸收峰振动模式的势能分布贡献,负号表示振动相位是反方向的。

(a) 0.83 THz (b) 1.22 THz


图 3.9 4-HA 的振动模式
图 3.9 显示了 4-HA 团簇体系的振动模式,分别对应于 0.83 THz 和 1.22 THz
处的特征吸收峰,其中蓝色箭头指向 4-HA 团簇分子扭转的方向。这些结果和振
动模式归属结果(表 3.3)中给出的数据相对应,结果表明 4-HA 团簇在特征吸收
峰 0.83 THz 处的振动模式主要受到 C(1)C(6)O(78)C(73)原子组成的基团的二面角扭转
的影响;4-HA 团簇在特征吸收峰 1.22 THz 处的振动模式主要受到 H(96)O(60)C(54)
原子之间的键形成的键角在平面上的弯曲的影响;4-HA 团簇在特征吸收峰 1.49
THz 处的振动模式主要归因于 C(3)C(1)C(6)O(78)原子组成的基团的二面角扭转;4-HA
团簇在特征吸收峰 1.83 THz 处的振动模式主要受分子间相互作用的影响。

3.4 结论
量子化学计算和势能分布分析是有机分子 THz 特征“指纹”指认和研究分子
构型的重要手段,也是后面弱相互作用分析和可视化区域指示的必要环节。本章
运用 THz-TDS 测量了三种羟基苯甲酸同分异构体的 THz 实验光谱,引入了密度
泛函理论(DFT)用于分子模型量子化学计算,提出了势能分布分析(PED)方
法用于简振振动模式分析,主要研究工作如下:
(1)使用 THz-TDS 系统在室温下实验测量了三种羟基苯甲酸同分异构体的

30
武汉科技大学博士学位论文
THz 时域光谱,在预处理和光谱转换过程之后,获得了在 0.6–2.0 THz 范围的特征
吸收光谱。结果表明,邻-、间-和对-羟基苯甲酸在太赫兹区域表现出明显的特征
吸收峰,这些峰是三种羟基苯甲酸同分异构体的特征“指纹”。
(2)引入量子化学计算(DFT)模拟了邻-、间-和对-羟基苯甲酸体系的 7 分
子团簇体系的简正振动模式。结果表明,在 0.6–2.0 THz 范围内的太赫兹理论吸收
峰表现为分子间和分子内振动模式,太赫兹理论吸收峰与实验吸收峰吻合较好,
实现了仿真结果对实验特征“指纹”有效指认。
(3)引入了势能分布分析(PED)方法,对仿真和实验吻合度较好的特征吸
收峰的振动模式归属做了系统的分析,阐述了不同简正振动模式下分子构型以及
THz 波与羟基苯甲酸同分异构体分子“共振”机理。

31
武汉科技大学博士学位论文

第 4 章 基于 THz 光谱技术的羟基苯甲酸同分异构体弱
相互作用分析和可视化研究

有机分子对 THz 波的吸收和色散信息往往处于 THz 低频段[106],目前研究的


波段(0.6–2.0 THz)正好处在这一区域,而有机分子与 THz 波的“共振”归因于
分子内部的振动和转动能级 [107]。由于有机分子团簇体系的动能可以由电子密度表
示,电子密度大小代表分子内和分子间能量分布,通过解析能量分布区域和强度
可以定性识别分子构型的差异性,解释反应物内部的非共价键作用(如氢键相互
作用、范德华相互作用等),监测化学反应过程的机理,分析和验证 THz 光谱与
物质的相互作用机理。在量子化学计算基础上进一步做有机分子能量分解和弱相
互作用可视化,通过能量分解分析方法将分子团簇体系的总作用能进行分解,可
以获取 THz 波段物质共价键和非共价键作用的全部成键信息以及相应的能量贡献
值,解决 THz 波与物质“共振”机理以及物质分子团簇体系弱相互作用如何正确
解析的问题。
为了更深入地解析羟基苯甲酸同分异构体分子间和分子内弱相互作用机理,
在上一章对三种羟基苯甲酸同分异构体 THz 实验特征“指纹”指认和势能分布分
析基础上,本章拟采用基于分子力场的能量分解分析(EDA-FF)方法将羟基苯甲
酸同分异构体分子团簇体系弱相互作用能分解为色散、静电和交换互斥三种弱相
互作用能,同时引用视觉分子动力学和相互作用区域指示(IRI)两种可视化方法
将三种羟基苯甲酸同分异构体分子间和分子内弱相互作用类型和强度直观的呈现
出来,对三种羟基苯甲酸同分异构体团簇结构的弱相互作用成份进行定性分析与
原子着色图可视化,最终实现三种同分异构体的快速无损鉴别和光谱吸收机理分
析,为生命科学和化药合成提供一种切实可行的光学测量方案。

4.1 EDA-FF 基本原理


能量分解是量子化学分析方法的重要组成部分,研究分子团簇体系弱相互作
用时,总相互作用能理论上包含多个分量,弱相互作用的主要成分是静电相互作
用和范德华相互作用,而范德华相互作用又可分为交换互斥相互作用和吸引色散
相互作用。为了弄清多分子团簇体系中弱相互作用的性质,采用基于经典分子力
场 ( Classical molecular force field , 简 称 FF ) 结 合 能 量 分 解 分 析 ( Energy
decomposition analysis,简称 EDA)方法分解团簇体系总作用能。利用 General
AMBER 力场(GAFF)和静电势能网格法(Charges from electrostatic potentials

32
武汉科技大学博士学位论文
using a grid-based,简称 CHELPG)进行 EDA-FF 分析。能量分解过程由如下表达
式确定[108-110]:

q A qB
ele
EAB  (4-1)
rAB

vdW
E AB  E AB
rep
 E AB
disp
(4-2)

0
RAB
rep
E AB   AB ( )12 (4-3)
rAB

0
RAB
disp
E AB  2 AB ( )6 (4-4)
rAB
其中 A、B 为原子标号,q 为原子电荷,r 为原子间距离,ε 为 vdW 作用势阱参数,
R0 为范德华非键距离。当 r=R0 时,原子间的 vdW 能量等于势阱深度。式(4-1)
为静电相互作用项,原子间静电相互作用等于各原子电荷乘积与原子距离之间的
比值;式(4-2)为范德华相互作用项,原子间范德华相互作用等于交换互斥作用
与色散作用之和;式(4-3)为交换互斥作用项,式(4-4)为色散作用项,这两
式均与原子间 vdW 作用势阱深度、原子间距离和 vdW 作用势阱参数三者有关。
不同力场里根据原子所处化学环境的不同定义了不同原子类型,多数力场是
根据原子类型来定义的范德华参数,不同原子类型的范德华参数有的相同有的不
同。本文是基于 GAFF 力场进行 EDA-FF 分析,实际计算原子间范德华作用时所
使用的参数,一般是基于以下混合规则:

 AB =  A B (4-5)
原子间的非键距离参数通过相应原子的非键半径相加得到:
0
RAB  RA  RB (4-6)
 
其中 R A 和 R B 分别为力场中原子 A 和原子 B 的非键半径参数。
本文做 EDA-FF 分析采用 Multiwfn[111]软件,解决了传统应用软件操作复杂以
及缺乏简单、通用、免费、小巧和快速分析工具的问题,使研究实空间函数数值
的分布变得更容易。

33
武汉科技大学博士学位论文
4.2 弱相互作用可视化分析方法

4.2.1 视觉分子动力学工具介绍

视觉分子动力学软件(Visual Molecular Dynamics,简称 VMD)是一种分子


建模和可视化程序。VMD[112]由伊利诺伊大学厄巴纳-香槟分校贝克曼先进科学与
技术研究所的理论和计算生物物理学组的首席研究员 Klaus Schulten 的主持下开
发,主要要用于查看和分析分子动力学模拟结果,还可用于处理体积数据、序列
数据和任意图形对象。分子场景可以导出到外部渲染工具,例如 POV-Ray、
RenderMan、Tachyon、虚拟现实建模语言(VRML)等。VMD 包括嵌入式 Tcl
和 Python 解释程序,因此,可以在 VMD 中运行编译好的 Tcl 和 Python 脚本。VMD
已经成为计算化学、生物学和生物化学中最常用的软件之一,本文中采用 VMD
最新版本 VMD193。

4.2.2 相互作用区域指示方法介绍

杨伟涛[113]在 2010 年提出了一种非共价相互作用(Noncovalent interaction,


简称 NCI)方法,其实质上是一种可视化研究弱相互作用的方法—约化密度梯度
(Reduced density gradient,简称 RDG),其具备可视化显示弱相互作用区域和揭
示化学键合区域的能力,RDG 是电子密度梯度的无量纲形式,表示为:

1  ( r )
RDG ( r )  (4-7)
2(3 )2 13
  (r )4 3
其中 ρ 是量子力学电子密度,是密度泛函理论中的关键量,从理论上可以得
到所有的化学性质;r 是坐标矢量。值得注意的是 RDG 方法不能同时清楚地描述
分子团簇弱相互作用和化学键作用。
卢天 [114] 在 2021 年提出了一种新的实空间函数—相互作用区域指示函数
(Interaction region indicator,简称 IRI),本质上是对 RDG 方法的微小修改,可
表示为按一定比例电子密度加权的电子密度梯度范数:
 ( r )
IRI ( r )  (4-8)
  (r )a
其中 a 是一个可调参数,IRI 的标准定义为 a=1.1。值得注意的是如果 a=4/3,
IRI 与 RDG 仅相差一个恒定的前置因子,显然 IRI 可以在任何已经支持 RDG 的
代码中实现相同的功能,通过适当地选择参数 a,IRI 方法同样可以很好地揭示化
学键作用和弱相互作用区域。本文选择 IRI 的标准定义 a=1.1,为羟基苯甲酸同分
34
武汉科技大学博士学位论文
异构体化学键分析和弱相互作用区域指示绘制等值面图。

4.3 EDA-FF 应用于羟基苯甲酸同分异构体弱相互作用解析


利用 EDA-FF 将羟基苯甲酸同分异构体团簇中存在的弱相互作用分解为静电、
交换互斥和色散三个分量,弱相互作用类型表示特定片段之间的特定相互作用类
型和强度。三种羟基苯甲酸同分异构体均有 7 个片段(Frag),7 个片段共同组成
1 个分子团簇体系,片段之间弱相互作用共有 21 组。
2-HA 分子团簇体系的相互作用能如表 4.1 所示,21 组片段间静电相互作用能
中绝大部分都低于 20 kJ/mol,仅有 Frag2-Frag3 之间静电相互作用能(23.47 kJ/mol)
和 Frag5-Frag6 之间静电相互作用能(25.64 kJ/mol)高于 20 kJ/mol;21 组片段间
交换互斥作用能中绝大部分都低于 30 kJ/mol,仅有 Frag1-Frag3 之间交换互斥作
用 能 ( 33.88 kJ/mol)、 Frag3-Frag7 之 间交 换互 斥 作用 能 ( 41.70 kJ/mol) 和
Frag4-Frag5 之间交换互斥作用能(35.61 kJ/mol)高于 30 kJ/mol;21 组片段间色
表 4.1 2-HA 分子团簇体系相互作用能
片段 静电 kJ/mol 交换互斥 kJ/mol 色散 kJ/mol 总作用能 kJ/mol
Frag 1 - Frag 2 −7.82 17.26 −29.64 −20.21
Frag 1 - Frag 3 1.24 33.88 −60.87 −25.74
Frag 1 - Frag 4 −3.97 17.29 −29.01 −15.70
Frag 1 - Frag 5 0.61 0.06 −2.90 −2.23
Frag 1 - Frag 6 −0.44 0.01 −0.92 −1.35
Frag 1 - Frag 7 0.06 0.02 −1.72 −1.65
Frag 2 - Frag 3 −23.47 18.90 −20.90 −25.47
Frag 2 - Frag 4 −1.36 13.54 −14.83 −2.64
Frag 2 - Frag 5 1.87 8.07 −10.86 −0.92
Frag 2 - Frag 6 −2.26 22.05 −39.20 −19.41
Frag 2 - Frag 7 −1.24 0.03 −1.16 −2.38
Frag 3 - Frag 4 −2.59 12.93 −14.98 −4.64
Frag 3 - Frag 5 −6.66 16.62 −22.88 −12.92
Frag 3 - Frag 6 −0.73 0.00 −0.54 −1.27
Frag 3 - Frag 7 −2.47 41.70 −66.33 −27.10
Frag 4 - Frag 5 1.45 35.61 −61.68 −24.61
Frag 4 - Frag 6 −1.95 3.15 −10.80 −9.60
Frag 4 - Frag 7 −0.18 0.01 −1.05 −1.23
Frag 5 - Frag 6 −25.64 19.79 −18.91 −24.77
Frag 5 - Frag 7 −2.39 14.27 −16.71 −4.82
Frag 6 - Frag 7 −0.34 0.00 −0.16 −0.50
注:Frag 表示片段,负号表示相互吸引,反之表示相互排斥,各弱相互作用分量和总作用能
单位均为 kJ/mol。

35
武汉科技大学博士学位论文
散相互作用能明显高于静电相互作用能和交换互斥作用能,特别是 Frag1-Frag3
之间色散相互作用能(60.87 kJ/mol)、Frag3-Frag7 之间色散相互作用能(66.33
kJ/mol)和 Frag4-Frag5 之间色散相互作用能(61.68 kJ/mol)均在 60 kJ/mol 以上。
对片段之间的静电相互作用能、交换互斥作用能和色散相互作用能的分析表明,
色散相互作用能对系统的总作用能有显着贡献,在 2-HA 分子团簇体系的弱相互
作用中占主导地位。
3-HA 分子团簇体系的相互作用能如表 4.2 所示,21 组片段间静电相互作用能
中绝大部分都低于 30 kJ/mol,仅有 Frag2-Frag4 之间静电相互作用能(41.79
kJ/mol)、Frag3-Frag5 之间静电相互作用能(25.64 kJ/mol)和 Frag4-Frag7 之间静
电相互作用能(32.85 kJ/mol)高于 30 kJ/mol;21 组片段间交换互斥作用能中绝
大部分都低于 30 kJ/mol,仅有 Frag2-Frag4 之间交换互斥作用能(31.98 kJ/mol)、
Frag3-Frag7 之间交换互斥作用能(30.64 kJ/mol)和 Frag4-Frag5 之间交换互斥作
用能(38.42 kJ/mol)高于 30 kJ/mol;21 组片段间色散相互作用能明显高于静电
表 4.2 3-HA 分子团簇体系相互作用能
片段 静电 kJ/mol 交换互斥 kJ/mol 色散 kJ/mol 总作用能 kJ/mol
Frag 1 - Frag 2 −7.35 22.81 −38.42 −22.96
Frag 1 - Frag 3 −18.37 19.00 −20.16 −19.52
Frag 1 - Frag 4 2.30 18.09 −26.44 −6.06
Frag 1 - Frag 5 −7.09 12.98 −14.40 −8.51
Frag 1 - Frag 6 −0.27 0.04 −2.25 −2.49
Frag 1 - Frag 7 −0.84 0.01 −1.27 −2.10
Frag 2 - Frag 3 −7.52 12.97 −28.28 −22.83
Frag 2 - Frag 4 −41.79 31.98 −22.89 −32.69
Frag 2 - Frag 5 3.64 1.10 −4.14 0.60
Frag 2 - Frag 6 1.50 28.19 −46.24 −16.55
Frag 2 - Frag 7 −1.43 16.21 −33.43 −18.65
Frag 3 - Frag 4 3.14 0.04 −1.47 1.71
Frag 3 - Frag 5 −33.39 23.39 −18.70 −28.70
Frag 3 - Frag 6 0.22 0.00 −0.65 −0.43
Frag 3 - Frag 7 −11.86 30.64 −39.58 −20.81
Frag 4 - Frag 5 −15.96 38.42 −60.24 −37.77
Frag 4 - Frag 6 −5.03 10.50 −21.21 −15.74
Frag 4 - Frag 7 −32.85 20.82 −21.11 −33.14
Frag 5 - Frag 6 −0.19 0.02 −1.06 −1.23
Frag 5 - Frag 7 −29.62 15.60 −18.06 −32.08
Frag 6 - Frag 7 0.96 14.99 −20.41 −4.45
注:Frag 表示片段,负号表示相互吸引,反之表示相互排斥,各弱相互作用分量和总作用能
单位均为 kJ/mol。

36
武汉科技大学博士学位论文
相互作用能和交换互斥作用能,特别是 Frag2-Frag6 之间色散相互作用能(46.24
kJ/mol)和 Frag4-Frag5 之间色散相互作用能(60.24 kJ/mol)均在 46 kJ/mol 以上。
对片段之间的静电相互作用能、交换互斥作用能和色散相互作用能的分析表明,
色散相互作用能对系统的总作用能有显着贡献,在 3-HA 分子团簇体系的弱相互
作用中占主导地位。
4-HA 分子团簇体系的相互作用能如表 4.3 所示,21 组片段间静电相互作用能
中绝大部分都低于 30 kJ/mol,仅有 Frag4-Frag6 之间静电相互作用能(32.15 kJ/mol)
高于 30 kJ/mol;21 组片段间交换互斥作用能中绝大部分都低于 30 kJ/mol,仅有
Frag5-Frag6 之间交换互斥作用能(32.43 kJ/mol)高于 30 kJ/mol;21 组片段间色
散相互作用能明显高于静电相互作用能和交换互斥作用能,特别是 Frag3-Frag4
之间色散相互作用能(40.34 kJ/mol)和 Frag5-Frag6 之间色散相互作用能(53.75
kJ/mol)均在 40 kJ/mol 以上。对片段之间的静电相互作用能、交换互斥作用能和
色散相互作用能的分析表明,色散相互作用能对系统的总作用能有显着贡献,在
4-HA 分子团簇体系的弱相互作用中占主导地位。
表 4.3 4-HA 分子团簇体系相互作用能
片段 静电 kJ/mol 交换互斥 kJ/mol 色散 kJ/mol 总作用能 kJ/mol
Frag 1 – Frag 2 −3.41 21.45 −39.88 −21.84
Frag 1 – Frag 3 −7.42 24.91 −23.73 −6.24
Frag 1 – Frag 4 0.40 0.01 −0.88 −0.47
Frag 1 – Frag 5 3.54 20.46 −33.58 −9.58
Frag 1 – Frag 6 0.31 0.02 −1.78 −1.45
Frag 1 – Frag 7 0.91 0.01 −0.94 −0.03
Frag 2 – Frag 3 −2.06 15.60 −21.67 −8.14
Frag 2 – Frag 4 −1.59 9.94 −21.53 −13.18
Frag 2 – Frag 5 −26.35 25.04 −19.82 −21.13
Frag 2 – Frag 6 −2.14 14.98 −22.93 −10.09
Frag 2 – Frag 7 0.67 0.01 −0.84 −0.16
Frag 3 – Frag 4 −1.28 20.13 −40.34 −21.50
Frag 3 – Frag 5 −29.25 14.29 −17.81 −32.76
Frag 3 – Frag 6 0.16 0.03 −1.82 −1.64
Frag 3 – Frag 7 −5.09 21.45 −29.61 −13.26
Frag 4 – Frag 5 2.04 0.07 −1.51 0.60
Frag 4 – Frag 6 −32.15 20.59 −20.10 −31.66
Frag 4 – Frag 7 −22.24 14.95 −14.21 −21.50
Frag 5 – Frag 6 −4.68 32.43 −53.75 −25.99
Frag 5 – Frag 7 0.03 13.86 −25.51 −11.62
Frag 6 – Frag 7 −8.59 22.84 −25.76 −11.51
注:Frag 表示片段,负号表示相互吸引,反之表示相互排斥,各弱相互作用分量和总作用能

37
武汉科技大学博士学位论文
单位均为 kJ/mol。
通过上述对三种羟基苯甲酸同分异构体 EDA-FF 分析表明,三种物质内部存
在明显弱相互作用,且弱相互作用总作用能均为色散相互作用能贡献较大,静电
相互作用能和交换互斥相互作用能明显低于色散相互作用能。

4.4 羟基苯甲酸同分异构体分子内和分子间相互作用可视化分析
仅仅从基于分子力场的能量分解分析角度解析羟基苯甲酸同分异构体弱相互
作用,不能直观的呈现分子团簇体系内化学键和弱相互作用区域,不利于解析分
子构型和 THz 与物质相互作用,因此,采用 VMD 和 IRI 两种可视化分析方法以
彩色图形(原子着色和等值面图)的方式直观地描述团簇体系内分子间和分子内
弱相互作用。

4.4.1 氢键弱相互作用可视化分析

通过上述 EDA-FF 分析,我们得到了 2-HA、2-HA 和 2-HA 三种异构体分子


团簇体系的弱相互作用类型和各类弱相互作用分量贡献值,而分子团簇体系内部
氢键弱相互作用与 THz 波和分子“共振”有直接关联,弱相互作用又与氢键弱相
互作用有直接关联,为了解决上述问题,需要弄清楚三种羟基苯甲酸同分异构体
分子团簇体系片段(Frag)间的氢键(H-bond)弱相互作用,我们将上一节基于
分子力场的能量分解分析数据加载到视觉分子动力学软件,用于可视化显示团簇
体系内每个原子着色(根据电荷有小到大对应“蓝-白-红”颜色刻度变化)和氢
键弱相互作用,其中氢键弱相互作用受体原子及其对应的氢原子已经标注了序号,
氢键弱相互作用用红色虚线(有无氢键的统一判据)表示,最终可视化着色图如
图 4.1 至图 4.3 所示。
2-HA 分子团簇体系的氢键弱相互作用和原子着色,如图 4.1 所示,原子呈现
深蓝色表示该原子在 2-HA 分子团簇体系中有强吸引作用,对应表 4.1 中负数值;
原子呈现浅蓝色表示吸收作用较弱;原子呈现白色表示吸收作用可以忽略;原子
呈现深红色表示该原子在 2-HA 分子团簇体系中有强排斥作用,对应表 4.1 中正数
值;原子呈现浅红色表示排斥作用较弱。色散相互作用为 2-HA 分子团簇体系总
弱相互作用能产生了主要贡献,主要原因是氢键弱相互作用受体原子与氢原子之
间形成了 6 对 HB,按顺序排列分别是:Frag-6 的 C85 和 Frag-4 的 H64、Frag-6 的
O81 和 Frag-5 的 H69、Frag-5 的 O65 和 Frag-2 的 H22、Frag-2 的 C17 和 Frag-1 的 H3、
Frag-3 的 H33 和 Frag-2 的 O25、Frag-4 的 O49 和 Frag-3 的 H41。

38
武汉科技大学博士学位论文

图 4.1 2-HA 团簇的氢键弱相互作用和原子着色图


3-HA 分子团簇体系的氢键弱相互作用和原子着色,如图 4.2 所示,原子呈现
深蓝色表示该原子在 3-HA 分子团簇体系中有强吸引作用,对应表 4.2 中的负数值;
原子呈现浅蓝色表示吸收作用较弱;原子呈现白色表示吸收作用可以忽略;原子
呈现深红色表示该原子在 3-HA 分子团簇体系中有强排斥作用,对应表 4.2 中的正
数值;原子呈现浅红色表示排斥作用较弱。色散相互作用为 3-HA 分子团簇体系
总弱相互作用能产生了主要贡献,主要原因是氢键弱相互作用受体原子与氢原子
之间形成了 6 对 HB,按顺序排列分别是:Frag-7 的 O109 和 Frag-3 的 H48 、Frag-7
的 O108 和 Frag-5 的 H80、Frag-7 的 H111 和 Frag-4 的 O60、Frag-5 的 O77 和 Frag-3
的 H47、Frag-3 的 O43 和 Frag-2 的 H16 、Frag-4 的 O61 和 Frag-2 的 H31。

图 4.2 3-HA 团簇的氢键弱相互作用和原子着色图

39
武汉科技大学博士学位论文
4-HA 分子团簇体系的氢键弱相互作用和原子着色,如图 4.3 所示,原子呈现
深蓝色表示该原子在对-羟基苯甲酸分子团簇体系中有强吸引作用,对应表 4.3 中
的负数值;原子呈现浅蓝色表示吸收作用较弱;原子呈现白色表示吸收作用可以
忽略;原子呈现深红色表示该原子在对-羟基苯甲酸分子团簇体系中有强排斥作用,
对应表 4.3 中的正数值;原子呈现浅红色表示排斥作用较弱。色散相互作用为对-
羟基苯甲酸分子团簇体系总弱相互作用能产生了主要贡献,主要原因是氢键弱相
互作用受体原子与氢原子之间形成了 6 对 HB,按顺序排列分别是:Frag-7 的 H101
和 Frag-6 的 O91、Frag-7 的 O110 和 Frag-4 的 H63、Frag-7 的 H96 和 Frag-4 的 O60、
Frag-5 的 H74 和 Frag-2 的 O28、Frag-5 的 O78 和 Frag-2 的 H31 ,Frag-5 的 H80 和 Frag-3
的 O44。

图 4.3 4-HA 团簇的氢键弱相互作用和原子着色图


通过分析图 4.1 至图 4.3 三种羟基苯甲酸同分异构体分子团簇体系氢键弱相互
作用和原子着色,可以得到以下结论:
(1)当氢键弱相互作用受体原子和对应氢原子均为蓝色或浅蓝色时,说明两
个原子表现出较强的相互吸引作用,对氢键的成键和稳定性起到关键作用。
(2)当氢键弱相互作用受体原子和对应氢原子出现红色或浅红色时,说明两
个原子表现出较强的相互排斥作用,不利于原子之间的结合,对氢键的成键和稳
定性产生负面影响。
(3)当氢键弱相互作用受体原子和对应氢原子出现白色时,说明两个原子相
互吸引作用和相互排斥作用都不明显,对氢键的成键和稳定性影响可以忽略不计。

4.4.2 相互作用区域指示可视化分析

弱相互作用强度一般以相互作用能来衡量,但这是一个全局的量,应用到可

40
武汉科技大学博士学位论文
视化分析中必须通过局域函数(实空间函数)。在 AIM 理论中,弱相互作用的临
界点的 ρ 是衡量相互作用强度的重要指标之一,其数值和键的强度存在正相关性,
因而也被用来定义键级。本文的 IRI 分析方法在某种程度上可以视为 AIM 方法的
扩展,IRI 封闭的等值面一般包围着相应的临界点,如果某个弱相互作用在其临
界点处 ρ 较大,由于 ρ 的连续性,一般在周围区域 ρ 也会较大,将 ρ 的数值大小
通过 sign(λ2)ρ 函数以不同的色彩映射到 RDG 等值面上,相互作用的强度就一目
了然。
为了弄清楚 2-HA、3-HA 和 4-HA 团簇中分子内和分子间弱相互作用的类别
和机理,将前述 EDA-FF 分析数据加载到 Multiwfn3.8 软件进行 IRI 分析,使用视
觉分子动力学软件对非共价键和非共价键相互作用区域进行可视化分析。如图 4.4
所示,用于确定 IRI 可视化分析中分子间和分子内相互作用类型的色彩刻度,IRI
等值面通过 sign(λ2)ρ 来着色。其中蓝色区域表示氢键(H-bond)或卤素键相互作
用,此时 ρ 较大,sign(λ2)=-1,表现较强相互吸引的弱相互作用,如果等值面的颜
色是深蓝色或完全是蓝色,表明可能存在比较强的弱相互作用,也可能是共价键
(covalent bond)作用,相互作用区域的电子密度大于或等于 0.04 a.u.;绿色区域
表示范德华(vdW)相互作用,此时 ρ 很小,区域内电子密度很小,sign(λ2)符号
不稳定,可正可负;红色区域表示位阻效应(steric effect)相互作用,此时 ρ 较
大,sign(λ2)=+1。

图 4.4 分子间和分子内相互作用色彩刻度[152]
在 IRI 方法中定义了 sign(λ2)ρ 函数,该函数由实际电子密度计算得出,
sign(λ2)ρ 函数通过不同颜色投影到 IRI 等值面上来区分不同区域的作用强度和类
型,其中 ρ 代表相互作用强度,sign(λ2)代表相互作用类型。因此,当 sign(λ2)ρ 函
数映射到具有蓝-绿-红(BGR)色标的等值面上时,可以获得相互作用强度和相
互作用类型的清晰视图。

41
武汉科技大学博士学位论文

(a) 2-HA 分子团簇电子密度散点图 (b) 2-HA 分子团簇 IRI 等值面图


图 4.5 2-HA 团簇 IRI 可视化
(参数 a 按照标准定义取 1.1,蓝-绿-红对应的电子密度 ρ 区间为-0.035~0.02 a.u.)
如图 4.5 所示,为了定性分析分子团簇体系分子间和分子内弱相互作用强度
和类型对 2-HA 团簇进行 IRI 可视化描述。如图 4.5(a)所示,2-HA 分子团簇电
子密度散点图描述了 IRI 与电子密度 ρ 乘以 2-HA 的第二个 Hessian Eigen 特征值(λ2 )
之间的关系。sign(λ2)ρ 函数以不同的颜色映射到 IRI 等值面上,形象地描述了 IRI
可视化对团簇体系内部弱相互作用类型和强度,sign(λ2)表示 ρ 的第二个 Hessian
Eigen 特征值(λ2)的符号,具备区分相互吸引作用和相互排斥作用的能力,负号表
示相互吸引,正号表示相互排斥。从带符号的 sign(λ2)ρ 函数映射颜色中,可以清
晰的识别 IRI 等值面包含的相互作用类型和强度,这种着色方法也用于后面给出
的所有图形。2-HA 分子团簇电子密度散点图中均出现了蓝色点、绿色点和红色点,
说明 2-HA 团簇分子间和分子内弱相互作用类型包含 vdW 相互作用、H-bond 相互
作用和 steric effect 相互作用。2-HA 分子团簇电子密度散点图中绿色点的密度明
显大于蓝色点和红色点,且从如图 4.5(b)2-HA 分子团簇 IRI 等值面图中可以观
表 4.4 2-HA 团簇分子间和分子内相互作用区域
样本 尖峰/a.u. 等值面 相互作用类型
sign(λ2)ρ = -0.043 blue H-bonds
sign(λ2)ρ = -0.035 blue H-bonds
sign(λ2)ρ = -0.014 green vdW interactions
sign(λ2)ρ = -0.009 green vdW interactions
2-HA
sign(λ2)ρ = -0.007 green vdW interactions
sign(λ2)ρ = -0.005 green vdW interactions
sign(λ2)ρ = +0.007 brown steric effects
sign(λ2)ρ = +0.022 red steric effects
察到绿色区域面积明显大于蓝色和红色区域,说明 2-HA 分子间和分子内弱相互
作用主要为 vdW 相互作用,而 H-bond 相互作用和 steric effect 相互作用对总相互
作用贡献较小。
42
武汉科技大学博士学位论文
2-HA 分子团簇与 THz 波之间的关系主要表现为团簇体系内部非共价键
H-bond 弱相互作用,对应尖峰(spikes)位于低密度梯度蓝色区域。如图 4.5(a)
所示,-0.05 和-0.02 之间出现了多个尖峰,根据 sign(λ2)ρ 的色彩投影结合表 4.4
对 2-HA 团簇分子间和分子内相互作用区域的描述,可以确定比较明显的尖峰位
于-0.043 和-0.035。此外,在-0.02 和 0 之间出现了多个尖峰,属于 vdW 相互作用,
比较明显的尖峰位于-0.014、-0.009、-0.007 和-0.005;在 0 和+0.05 之间的区域中
出现了多个尖峰,属于 steric effect 相互作用,比较明显的尖峰位于+0.007 和+0.022。

(a) 3-HA 分子团簇电子密度散点图 (b) 3-HA 分子团簇 IRI 等值面图


图 4.6 3-HA 团簇 IRI 可视化
(参数 a 按照标准定义取 1.1,蓝-绿-红对应的电子密度 ρ 区间为-0.035~0.02 a.u.)
如图 4.6 所示,为了定性分析分子团簇体系分子间和分子内弱相互作用强度
和类型对 3-HA 团簇进行 IRI 可视化描述。如图 4.6(a)所示,3-HA 分子团簇电
子密度散点图描述了 IRI 与电子密度 ρ 乘以 3-HA 的第二个 Hessian Eigen 特征值(λ2 )
之间的关系。3-HA 分子团簇电子密度散点图中均出现了蓝色点、绿色点和红色点,
说明 3-HA 团簇分子间和分子内弱相互作用类型包含 vdW 相互作用、H-bond 相互
作用和 steric effect 相互作用。3-HA 分子团簇电子密度散点图中绿色点的密度明
显大于蓝色点和红色点,且从如图 4.6(b)3-HA 分子团簇 IRI 等值面图中可以观
表 4.5 3-HA 团簇分子间和分子内相互作用区域
样本 尖峰/a.u. 等值面 相互作用类型
sign(λ2)ρ = -0.044 blue H-bonds
sign(λ2)ρ = -0.036 blue H-bonds
sign(λ2)ρ = -0.024 blue H-bonds
3-HA sign(λ2)ρ = -0.012 green vdW interactions
sign(λ2)ρ = -0.006 green vdW interactions
sign(λ2)ρ = +0.004 brown steric effects
sign(λ2)ρ = +0.021 red steric effects
察到绿色区域面积明显大于蓝色和红色区域,说明 3-HA 分子间和分子内弱相互
作用主要为 vdW 相互作用,而 H-bond 相互作用和 steric effect 相互作用对总相互
43
武汉科技大学博士学位论文
作用贡献较小。
3-HA 分子团簇与 THz 波之间的关系主要表现为团簇体系内部非共价键
H-bond 弱相互作用,对应尖峰(spikes)位于低密度梯度蓝色区域。如图 4.6(a)
所示,-0.05 和-0.02 之间出现了多个尖峰,根据 sign(λ2)ρ 的色彩投影结合表 4.5
对 3-HA 团簇分子间和分子内相互作用区域的描述,可以确定比较明显的尖峰位
于-0.044、-0.036 和-0.024。此外,在-0.02 和 0 之间出现了多个尖峰,属于 vdW
相互作用,比较明显的尖峰位于-0.012 和-0.006;在 0 和+0.05 之间的区域中出现
了多个尖峰,属于 steric effect 相互作用,比较明显的尖峰位于+0.004 和+0.021。

(a) 4-HA 分子团簇电子密度散点图 (b) 4-HA 分子团簇 IRI 等值面图


图 4.74-HA 团簇 IRI 可视化
(参数 a 按照标准定义取 1.1,蓝-绿-红对应的电子密度 ρ 区间为-0.035~0.02 a.u.)
如图 4.7 所示,为了定性分析分子团簇体系分子间和分子内弱相互作用强度
和类型对 4-HA 团簇进行 IRI 可视化描述。如图 4.7(a)所示,3-HA 分子团簇电
子密度散点图描述了 IRI 与电子密度 ρ 乘以 4-HA 的第二个 Hessian Eigen 特征值(λ2 )
之间的关系。4-HA 分子团簇电子密度散点图中均出现了蓝色点、绿色点和红色点,
说明 4-HA 团簇分子间和分子内弱相互作用类型包含 vdW 相互作用、H-bond 相互
作用和 steric effect 相互作用。4-HA 分子团簇电子密度散点图中绿色点的密度明
显大于蓝色点和红色点,且从如图 4.7(b)4-HA 分子团簇 IRI 等值面图中可以观
表 4.6 4-HA 团簇分子间和分子内相互作用区域
样本 尖峰/a.u. 等值面 相互作用类型
sign(λ2)ρ = -0.03 blue H-bonds
sign(λ2)ρ = -0.014 green vdW interaction
sign(λ2)ρ = -0.006 green vdW interaction
4-HA
sign(λ2)ρ = +0.006 brown steric effects
sign(λ2)ρ = +0.013 brown steric effects
sign(λ2)ρ = +0.022 red steric effects
察到绿色区域面积明显大于蓝色和红色区域,说明 3-HA 分子间和分子内弱相互

44
武汉科技大学博士学位论文
作用主要为 vdW 相互作用,而 H-bond 相互作用和 steric effect 相互作用对总相互
作用贡献较小。
4-HA 分子团簇与 THz 波之间的关系主要表现为团簇体系内部非共价键
H-bond 弱相互作用,对应尖峰(spikes)位于低密度梯度蓝色区域。如图 4.7(a)
所示,-0.05 和-0.02 之间出现了多个尖峰,根据 sign(λ2)ρ 的色彩投影结合表 4.6
对 4-HA 团簇分子间和分子内相互作用区域的描述,可以确定比较明显的尖峰位
于-0.03。此外,在-0.02 和 0 之间出现了多个尖峰,属于 vdW 相互作用,比较明
显的尖峰位于-0.014 和-0.006;在 0 和+0.05 之间的区域中出现了多个尖峰,属于
steric effect 相互作用,比较明显的尖峰位于+0.006、+0.013 和+0.022。
通过分析图 4.5 至图 4.7 三种羟基苯甲酸同分异构体分子团簇体系电子密度散
点图和 IRI 等值面图,可以得到以下结论:
(1)基于电子密度和梯度的 IRI 可视化分析方法能同时展现 2-HA、3-HA 和
4-HA 团簇体系化学键和弱相互作用区域,且图像美观、易于分析。
(2)2-HA、3-HA 和 4-HA 团簇体系中均包含了 H-bond、vdW 和 steric effect
三种弱相互作用,且均是 vdW 相互作用对总弱相互作用贡献最大,但三种同分异
构体的弱相互强度和区域有比较明显的差异。

4.5 结论
弱相互作用不同于共价键作用,其稳定性和能量值都很低,有机分子与 THz
波相互作用产生“共振”吸收往往都处在这个区域。为了研究 2-HA、3-HA 和 4-HA
团簇体系弱相互作用,本章运用 EDA-FF 将弱相互作用分解为静电、交换互斥和
色散 3 个分量,引入了视觉分子动力学和相互作用区域指示(IRI)两种可视化方
法将 2-HA、3-HA 和 4-HA 三种同分异构体分子间和分子内弱相互作用区域和强
度直观的呈现出来,主要研究工作如下:
(1)采用 EDA-FF 方法将 2-HA、3-HA 和 4-HA 团簇体系弱相互作用分解为
静电、交换互斥和色散 3 个分量,各团簇体系包含的 7 个片段间共有 21 组弱相互
作用能。结果表明,3 种物质内部存在明显弱相互作用,且弱相互作用总作用能
均为色散相互作用能贡献较大,静电相互作用能和交换互斥相互作用能明显低于
色散相互作用能。
(2)引入视觉分子动力学可视化分析方法描述了 2-HA、3-HA 和 4-HA 团簇
体系内每个原子着色和氢键弱相互作用,结果表明,当氢键弱相互作用受体原子
和对应氢原子均为蓝色或浅蓝色时,两个原子表现出较强的相互吸引作用,对氢
键的成键和稳定性起到关键作用;当氢键弱相互作用受体原子和对应氢原子出现
红色或浅红色时,说明两个原子表现出较强的相互排斥作用,不利于原子之间的

45
武汉科技大学博士学位论文
结合,对氢键的成键和稳定性产生负面影响;当氢键弱相互作用受体原子和对应
氢原子出现白色时,说明两个原子相互吸引作用和相互排斥作用都不明显,对氢
键的成键和稳定性影响可以忽略不计。
(3)引入基于电子密度和梯度的 IRI 可视化分析方法描述了 2-HA、3-HA 和
4-HA 团簇体系内化学键和弱相互作用区域及强度,结果表明,IRI 可视化分析方
法,能同时展现 3 种物质团簇体系化学键和弱相互作用区域,且图像美观、易于
分析;3 种同分异构体团簇体系中均包含了 H-bond、vdW 和 steric effect 弱相互作
用,其中 vdW 相互作用对总弱相互作用贡献最大,但 3 种同分异构体的弱相互强
度和区域有比较明显的差异。

46
武汉科技大学博士学位论文

第 5 章 变分模态分解和支持向量机在羟基苯甲酸同分
异构体定性识别中的应用

目前,利用 THz 时域信号处理方法在检测标准化学物质,尤其是物理状态相


似化学结构不同的同分异构体识别领域具有广阔的应用前景,与之相对应的信号
处理方法有:其一为基于先验性的谐波基函数和小波基函数的模态分解算法,主
要方法包括傅里叶分解(Fourier Decomposition,简称 FD)与小波分解(Wavelet
Decomposition,简称 WD);其二为基于无预设基函数的数据自适应时间尺度的模
态分解算法,即黄锷(N. E. Huang)在 1998 年提出的经验模态分解(Empirical Mode
Decomposition,简称 EMD)方法。后者是基于时域信号自适应时频变换和信号
分解估计方法,能够很好的解决如模态混叠、低信噪比和时频分布能量不聚集等
问题,其信号处理能力和精度明显优于前者。然而,当被测 THz 时域光谱含有较
强噪声信号和多组 THz 信号时延差很小时,经验模态分解存在端点效应和模态分
量混叠的问题就会显现出来,不利于后面的特征提取和分类识别。本章引入变分
模态分解(Variational Mode Decomposition,简称 VMD),通过构建和求解变分最
优解来解决端点效应和模态分量混叠的问题,它是一种自适应、完全非递归的模
态分解方法,可以用于准确描述 THz 时域光谱的快变信号和实现有效分解提取光
谱特征参量。
在前两章从分子水平角度验证了羟基苯甲酸同分异构体在 THz 波段具备特征
“指纹”和振动吸收光谱的基础上,从光谱分析和数据解析的角度,将信号分解
估计思想应用到 THz 光谱的时频降噪和特征提取,本章选取有代表性的邻羟基苯
甲酸(2-HA)、间羟基苯甲酸(3-HA)和对羟基苯甲酸(4-HA)作为研究对象,
苯环上羟基和羧基的不同位置对应于羟基苯甲酸异构体的结构差异,这些结构差
异导致测量信号相对于特定 THz 频率的参考信号有不同时间延迟,但是,它们之
间的时延差异性很小,很难做出准确的判断。为了验证所提出方法的有效性和优
势,同时采用 EMD 和 VMD 将时域频谱分解为多个本征模函数(IMF,又称本征
模态分量),这样可以有效滤除噪声和振荡信号,同时不丢失有效信息,在 EMD
和 VMD 基础上通过主成分分析有效提取非线性频谱数据,获取有用信号并构建
特征向量。为了优化聚类核函数参 数,提出基于变分模态分解 - 粒子群优化
(VMD-PSO)的支持向量机(Support Vector Machine,简称 SVM)模型,构建
了羟基苯甲酸异构体的快速识别模型,所提出的模型实现了对异构体的快速无损
识别。因此,本章重点研究 VMD-PSO-SVM 模型的模态变分,将模态变分算法应

47
武汉科技大学博士学位论文
用到 2-HA、3-HA 和 4-HA 三种位置异构体的 THz 时域光谱,提取前 8 个 IMF,
从而实现高维复杂和非线性强的非平稳 THz 信号的特征提取。

5.1 THz 时域光谱的模态分解方法

5.1.1 EMD 的基本原理

EMD 算法可以将任意信号分解为多个 IMF,是处理非线性非平稳信号的一种


非常有效的方法[115–118]。定义每个 IMF 必须满足两个条件:①全频段信号极值点
的数量和过零点的数量差值小于或等于 1;②全频段的任意点,上下包络线的均
值等于零。确定原始信号 f (t ) 的所有极值,用三次样条插值函数拟合原始信号上
下包络的平均值 p(t ) ,如下:
p (t )  p (t )
p1 (t )  (5-1)
2
其中, p (t ) 和 p (t ) 分别表示极大值包络线和极小值包络线。原始信号 f (t ) 减去
p1 (t ) 得到新的信号 q1 (t ) :

q1 (t )  f (t )  p1 (t ) (5-2)
1
此时 q1 (t ) 不满足 IMF 定义的条件,为了满足上述条件,重复公式(5-1)和
公式(5-2)的计算过程,直至 k 次(一般小于 10)计算后满足 IMF 定义的条件,
可得原始信号 f (t ) 的一阶 IMF 分量:

imf 1 (t )  q1k (t ) (5-3)

原始信号 f (t ) 减去 imf 1 (t ) 得到新的信号 r1 ( t ) :

r 1 (t )  f (t )  imf 1 (t ) (5-4)
重复公式(5-3)和公式(5-4)的计算过程,一直到第 n 阶 IMF 分量小于预
设值或者 r n (t ) 变为单调函数(或者常量)时,EMD 的分解过程终止。此时原始
信号 f (t ) 可分解为:
n
f (t )   imf i (t )  rn (t ) (5-5)
i 1

其中,rn (t ) 表示信号的平均趋势。原始信号 f (t ) 经过 EMD 分解后最终可得到 n 个


频率由高到低的 IMF 分量,这种由高到低的趋势不是每个 imf i 1 的频率均大于
imf i 的频率,而是在局部范围内 imf i 1 的频率均大于 imf i 的频率,这凸显了 EMD

48
武汉科技大学博士学位论文
分解局部性强的特点。
实际应用中,IMF 定义条件②往往是无法精确满足的,因此可以采用近似条
件代替:

[q (t )  q (t )]
k
1
k 1
1
2

 (5-6)
[q (t )] k 1
1
2

其中,  为筛分门限,其取值一般在 0.2 到 0.3 之间。如果  的取值太小,即条件


判据严苛,就会使 EMD 分解结果中靠后的几个 IMF 分量失去意义,同时会增加
计算耗时;如果取值太小,即条件判据宽松,虽然大大降低了计算耗时,但会丢
失部分有用信息,得不偿失。因此,要根据信号类别和数据结构选择适当的  。

5.1.2 VMD 的基本原理

VMD 方法是 Dragomiretskiy K[119]在 2014 年提出的一种新的自适应、完全非


递归的信号处理方法。它克服了 EMD 方法存在端点效应和模态分量混叠的问题,
并且具有更丰富的数学模型作为理论支撑,其实质是多个自适应维纳滤波组,表
现出更好的噪声鲁棒性,可以降低复杂度高和非线性强的时间序列非平稳性,分
解后可获得多个不同频率尺度且相对平稳的子序列,适用于非平稳性的序列,
VMD 的核心思想是构建和求解变分问题。首先通过 Hilbert 变换,得到第 k 个模
态函数 uk 的单边频谱:
j
)  uk (t) ( (t)  (5-7)
t
再将每个模态的频谱调制到相应的基频带:

 j    jk t
  (t)   t   uk (t)  e (5-8)
  

最后,VMD 的约束变分问题可以由以下公式确定:


  j    jk t 
2

min    t   (t)    uk (t)  e 
 k  k 
u , 
   t   
 k 2  (5-9)
s.t.  uk  f k

其中, {uk }  {u1 , u2 , , uk } 是分解得到的第 k 个 IMF, {k }  {1 , 2 , , k } 是每个


IMF 的频率中心。通过引入拉格朗日乘法算子  (t ) 和二次惩罚因子  ,可以将公
式(5-9)变换为[120,121]:

49
武汉科技大学博士学位论文
2
 j  
L(uk , k ,  )     t   (t)    uk (t)  e  jk t
k  t   2
2
(5-10)
+ f (t)   uk (t)   (t), f (t)   uk (t)
k 2 k

然后通过寻找约束变分问题的最优解来更新 uk 和 k ,如下:

 ( )
f ( )   ui ( ) 
2 (5-11)
ukn 1 ( )  i k
1  2 (  k ) 2


  u ( ) d
2

 n 1 k
k  0
 (5-12)
 u ( ) d
2
0 k

使用 VMD 方法分解光谱数据时,初始化{ u 1k }、{ k1 }、{ k1 }和 n,使用公式


(5-11)和(5-12)更新 uk 和 k ,使用公式(5-13)更新  。判断精度设为 e>0,
满足此条件停止迭代。如果不满足条件,则使用以下公式更新 uk 、 k 和  :

 n1   n   ( f   ukn1 ) (5-13)


k

2
e   ukn1  ukn
2
ukn (5-14)
2
k 2

其中,迭代计算过程通过公式(5-11)、
(5-12)和(5-13)完成,迭代终止条
件为公式(5-14)。最终,IMF 分量个数一般不会超过 10,如果 e 的取值太小,即
迭代终止判据太严苛,就会使 VMD 分解结果中靠后的几个 IMF 分量失去意义,
同时会增加计算耗时;如果 e 取值太大,即迭代终止判据太宽松,虽然大大降低
了计算耗时,但会丢失部分有用信息,得不偿失。因此,要根据信号类别和数据
结构选择适当的 e 。

5.2 聚类识别及核函数参数优化方法

5.2.1 SVM 的基本原理

支持向量机(SVM)是 Vapnik V[122]在 1995 年提出的一种基于统计学习理论


和结构风险最小化的分类算法,对于解决有限样本数据的高维和非线性问题非常
有效。SVM 算法的核心思想是在样本空间或特征空间中构造一个最优决策超平面,
使超平面与不同种类样本集的距离最大化,得到全局最优解。

50
武汉科技大学博士学位论文

图 5.1 最优决策超平面
最优决策超平面在样本空间中所处的位置如图 5.1 所示,可以通过下面的线
性关系描述超平面:

T x  b  0 (5-15)

其中,  (1; 2 ; ; d ) 是法向量,决定超平面的方向,b 表示超平面与原点之间


的距离,因此可将超平面简单记为 (, b) 。
样本空间中任一点 x 到超平面 (, b) 的距离为:

T x  b
r (5-16)

假设超平面 (, b) 可以对训练集分类准确划分,也就是有 ( xi , yi )  D ,令

 x  b  1,
 y i  1
T

 T (5-17)
 x  b  1,
 y i  1
结合图 5.1 可以看到,公式(5-17)的等号成立时,正好对应距离超平面最
近的几个样本点,这些样本点组成的向量即为支持向量。超平面异侧的支持向量
到超平面的距离之和为:

2
 (5-18)

寻找最优分类面就是要找到最大的  来划分超平面,即满足公式(5-17)的
最优参数  和 b 使得  最大:

51
武汉科技大学博士学位论文
2
max
 ,b  (5-19)
s.t. yi ( xi  b)  1, i  1,2, , m.
T

1
为了最大化  ,只需要最大化  ,等价于最小化  ,那么公式(5-19)
2

可以变换成:


2

min
 ,b 2 (5-20)
s.t. yi ( T xi  b)  1, i  1,2, , m.
为了使公式(5-20)的凸二次规划问题得到更加高效的解决,对该式的每个
约束添加拉格朗日算子 i  0 ,将问题转化为拉格朗日函数形式:

1 2 m
L( , b,  )    i (1  yi ( T xi  b)) (5-21)
2 i 1

其中,   (1;2 ; m ) 。令 L(, b,  ) 对  和 b 的一阶偏导等于零,可得:

m
  i yi xi (5-22)
i 1

m
0  i yi (5-23)
i 1

将公式(5-22)带入公式(5-21)可以将  和 b 消去,同时考虑约束条件公式
(5-23),可得:
m
1 m m
max  i  i j yi y j xiT x j
 2 i 1 j 1
i 1
m
(5-24)
s.t.  y
i 1
i i 0

i  0, i  1, 2, , m.
如果将 xi 与 x j 在特征空间的内积用函数  (, ) 表示,那么公式(5-24)变换为:
m
1 m m
max   i  i j yi y j ( xi , x j )
 2 i 1 j 1
i 1
m
(5-25)
s.t.  y
i 1
i i 0

i  0, i  1, 2, , m.
求解后可得到最优决策函数:

52
武汉科技大学博士学位论文
f ( x)   T ( x)  b
m
 i yi ( xi )T  ( x )  b
i 1 (5-26)
m
 i yi ( x, xi )  b
i 1

其中,  ( x, xi ) 就是核函数,模型最优解可以通过训练样本的核函数展开。
在 SVM 模型中,不同的核函数可以生成不同的 SVM 算法,常用的核函数包
括线性核函数(Linear Kernel)、多项式核函数(Polynomial Kernel)、径向基核函
数(Radial Basis Function,简称 RBF)和二层神经网络核函数(Two-layer Neural
Network)[123],本章选用 RBF 实现 SVM 的建模分类识别,为了增强分类识别模
型的鲁棒性,有必要对核函数参数进行优化,核函数优化一般是基于最小化均方
根误差的原则实现的,主要使用的参数为惩罚参数 c 和核函数参数 g。常用的核
函数参数优化方法包括试验法、网格搜索法(Grid Search,简称 GS)[124]和粒子
群优化算法(Particle Swarm Optimization,PSO)[125,126]等。GS 是基于穷举思想
的参数最优化方法,其缺点是在很多情况下会得到局部最优而不是全局最优解。
PSO 是通过观察鸟类族群觅食的信息传递受到启发而得到的一种人工智能算法,
对群体间的演化拥有学习性和记忆性,使粒子本身达到最佳调整位置,且收敛速
度快能输出全局最优解。因此,本章选取 PSO 优化算法实现 RBF 参数 c 和 g 的
优化。

5.2.2 PSO 优化算法的基本原理

粒子群优化算法是智能领域中最重要的智能优化算法之一,该算法的灵感来
自于鸟类和鱼类群体的社会行为[127]。首先收集随机的解决方案,然后生成更新数
据搜索最优的解决方案,在每次迭代中每个粒子都用两个“ best ”值更新。第一
个“ best ”值是粒子在运动中所得到的最佳解,叫做 pbest ;另一个“ best ”值
是种群中迭代优化每一个粒子所获得的值,也是全局最优化的值,被称为 gbest 。
粒子在搜索空间中伴随着记忆性和学习性的演化得以找到最佳解,因此在每次迭
代中,对所有迭代分别计算粒子的速度,公式如下 [128]:

 i (t  1)   i (t )  c1r1[ pbest (t )  xi (t )]  c2r2 [ gbest (t )  xi (t )] (5-27)

其中, i 和 t 分别表示粒子的序号和迭代次数, x 可以确定粒子的位置,  可以确


定粒子的速度。 r1 和 r2 是公式(5-27)每次迭代计算时产生的随机值; c1 和 c2 是
加速度系数,通常其取值范围在 0~2 之间;速度的惯性系数  通常在 0.8~1.2 之间。
公式(5-27)为粒子的速度更新公式,可以理解为三个部分,第一部分为惯性部
53
武汉科技大学博士学位论文
分,体现为对前面粒子的记忆性;第二部分为自我认知部分,即粒子当前位置与
该粒子本身最好位置之间的距离;第二部分为经验部分,表示粒子间的信息共享
与合作,可理解为粒子当前位置与群体最好位置之间的距离,后两个部分体现为
对先前粒子群的学习性。
粒子的位置更新公式:

xi (t  1)  xi (t )   i (t  1) (5-28)

粒子群优化算法采用迭代循环,其重复次数可以等于一个确定的数值,也可
以基于特定条件下的求解结果。
PSO 算法流程如图 5.2 所示,其算法步骤可以概括为:
①生成位置为 xi ,速度为  i 的初始群,其中 i 表示变量的数量,即过程控制因
素;
②确定每个粒子位置 xi 处的目标函数,并指定 (i ) 到目前为止所达到的粒子最
佳位置 ( pbest ) 和群最佳位置 ( gbest ) ,以及 (ii) 相应的目标 f ( pbest ) 和 f ( gbest ) ;
③根据对之前的粒子速度  i 的认知学习更新当前粒子速度  i ;
t 1 t

t 1 t
④根据对之前的粒子位置 xi 的认知学习更新当前粒子位置 xi ,并给定强制
边界以保持粒子在指定区域内;
⑤评估所有粒子的目标函数 f ( xi ) 。如果 f ( xi )  f ( pbest ) ,那么 pbest  xi 。
如果 f ( xi )  f ( gbest ) ,则 f ( gbest )  f ( xi ) 且 gbest  xi ;
⑥更新粒子群,并从步骤②重新开始;
⑦重复步骤②到步骤⑥,直到满足终止条件。

54
武汉科技大学博士学位论文
开始

创建完整的粒子群并分配位置和
速度 xi , i

计算 xi 的目标函数

f ( pbest ) , f ( gbest )

粒子速度更新
 i   i  c1r1 ( pbest  xi )
 c2 r2 ( gbest  xi )

粒子位置更新
xi  xi   i

i  i 1

no
f ( xi )  f ( pbest )

yes
pbest  xi

i  i 1
no
f ( xi )  f ( gbest )

yes
f ( gbest )  f ( xi )
gbest  xi

更新粒子群 xi , i

i  i 1
no 终止条件

yes

全局最优解

结束

图 5.2 粒子群优化算法流程

55
武汉科技大学博士学位论文
5.3 提出的 VMD-PSO-SVM 算法应用于羟基苯甲酸同分异构体
THz 光谱分析

5.3.1 羟基苯甲酸同分异构体的 THz 时域光谱

实验测试了三种羟基苯甲酸异构体的 THz 光谱,其 THz 时域光谱如图 5.3 所


示。可以观察到 2-HA、3-HA 和 4-HA 的谱线相对 Ref 均发生了不同程度的频率
红移,幅度相对参考信号 Ref 也均有所衰减。这是由于,在 THz 波段(与远红外
波段重合),有机分子吸收的光子能量引起振动能级跃迁,导致透射的 THz 波能
量降低。Ref 是当样品未加载到样品架上时测得的信号,而样品的测量信号是 THz
波入射到样品后,在样品前后表面之间来回反射,出射 THz 波再通过样品获得信
号,期间在样品和空气之间发生了两次折射,样品的折射率明显大于干燥空气的
折射率,这意味着后者的光程大于前者的光程。这样,2-HA、3-HA 和 4-HA 与
Ref 之间的光程差导致三种羟基苯甲酸同分异构体的时域光谱明显延迟了一个时
间间隔。EMD 和 VMD 方法主要用于时域信号模态分解,其主要特点是抑制噪声、
模态分量混叠和源信号端点效应。更重要的是,这两种方法并不是提取信号的“延
迟时间”,而是在同一时间窗口内按不同的“振幅”提取光谱信号特征。在恒温恒
湿的条件下,通过精密称量仪和自动压片机制备样品,使样品厚度差尽可能小。
因此,由于厚度、仪器安装和实验条件的差异导致的时域谱延迟时间的微小差异,
对这两种方法进行模态分解和特征提取的影响可以忽略不计。

(a) 原始光谱 (b) 剔除回波振荡后的时域光谱


图 5.3 三种羟基苯甲酸同分异构体的 THz 时域光谱
另外,从图 5.3(a)可以看到,三种羟基苯甲酸同分异构体的 THz 时域光谱
的原始光谱在 25~45 ps 之间有明显的回波振荡(Echo oscillation),这是由太赫兹
波在发射器、探测器和样品之间重复反射引起的,导致了这部分信号对于识别三

56
武汉科技大学博士学位论文
种物质有干扰[129–131],且信号中不包含大部分有用测量信号,属于噪声范畴,因
此将 25 ps 之后的光谱数据剔除,只研究 0~25 ps 波段的时域光谱,如图 5.3(b)
所示。THz 时域光谱表明 2-HA、3-HA 和 4-HA 表现出对 THz 波的显著吸收,但
是,无论是从幅度观察还是从峰值位置观察,三条谱线之间的差异都非常小,为
解决三条谱线差异较小的问题,需要对时域信号进行进一步的分解,以突出它们
之间的差异。

5.3.2 基于 EMD 算法的模态分解分析

为了验证所提出 VMD 算法对 THz 信号分解的准确性和实效性,将经典的


EMD 算法作为对比模型处理三种羟基苯甲酸异构体的 THz 光谱数据。EMD 分解
是基于直接提取与各种固有时间尺度相关的能量,这是模态分解系统最重要的参
数,可以将任何事件定位在时间轴和频率轴上。EMD 分解还可以看作是根据 IMF
对数据的扩展,然后,这些基于数据并从数据中导出的 IMF 可以作为扩展的基础,
扩展可以是线性的或非线性的,而且它几乎是正交的。最重要一点是它的自适应
性的,局部的自适应性是展开非线性和非平稳时间序列的必要条件,而对于非线
性系统正交性并不是选择基的必要条件,这种基础结构的原理是基于物理时间尺
度的,用来表征 THz 信号的振荡。为了说明 EMD 算法对输入 THz 光谱的噪声鲁
棒性,本文使用了三次谐波信号进行分解,选取最强和最弱谐波的振幅来说明信
号对原始光谱(图 5.3(b))的恢复水平。为了去除噪声,将所有的原始光谱信号
分解为 8 个本征模态分量。

57
武汉科技大学博士学位论文

图 5.4 EMD 分解 2-HA 太赫兹时域光谱的结果


如图 5.4 所示,2-HA 的 THz 时域光谱原始信号经过 EMD 分解,本征模态分
量从反复筛选过程中获得所有数据,总共有 8 个分量 IMF1~IMF8。由于时间序列
代表了所有正数,数据具有许多局部极值点但不存在零点交叉,从模态分解结果
中,可以看到原始 THz 光谱数据被分离成局部不重叠的时间尺度分量。在某些分
量中,如 IMF1、IMF3、IMF4、IMF5 和 IMF6 的信号是间歇的,那么相邻的分量
可能包含相同尺度的振荡,但在两个不同的 IMF 分量中,相同时间尺度的信号均
没有出现在相同的位置。总的来看,由于 EMD 算法本身的局限性,处理后的 THz
光谱数据通过以下两点进行分析:①端点效应对 EMD 的影响,相对原始 THz 光
谱信号,IMF1 和 IMF2 两端出现了比较明显的端点效应,幅值变小,这种端点效
应逐渐从两端向中间传播,IMF3~IMF6 两端的误差更大,也出现了逐渐向中间传
播的现象,IMF7 和 IMF8 更是出现了由端点效应引起的虚假分量。②模态混叠对
EMD 的影响,IMF1 中包含的间歇信号分量被推移到后续的本征模态分量中,出
现了多种模态分量出现在同一个模态的现象,即模态混叠;IMF2 的特征尺度受到
了 IMF1 的影响,产生了模态混叠;IMF3 的特征尺度受到了 IMF2 的影响,产生
了模态混叠,如此逐步向后延续混叠直至 IMF8,均含存在模态混叠。

58
武汉科技大学博士学位论文

图 5.5 EMD 分解 3-HA 太赫兹时域光谱的结果


如图 5.5 所示,3-HA 的 THz 时域光谱原始信号经过 EMD 分解,本征模态分
量从反复筛选过程中获得所有数据,总共有 8 个分量 IMF1~IMF8。由于时间序列
代表了所有正数,数据具有许多局部极值点但不存在零点交叉,从模态分解结果
中,可以看到原始 THz 光谱数据被分离成局部不重叠的时间尺度分量。在某些分
量中,如 IMF1、IMF3、IMF4、IMF5 和 IMF6 的信号是间歇的,那么相邻的分量
可能包含相同尺度的振荡,但在两个不同的 IMF 分量中,相同时间尺度的信号均
没有出现在相同的位置。总的来看,由于 EMD 算法本身的局限性,处理后的 THz
光谱数据通过以下两点进行分析:①端点效应对 EMD 的影响,相对原始 THz 光
谱信号,IMF1 和 IMF2 两端出现了比较明显的端点效应,幅值变小,这种端点效
应逐渐从两端向中间传播,IMF3~IMF6 两端的误差更大,也出现了逐渐向中间传
播的现象,IMF7 和 IMF8 更是出现了由端点效应引起的虚假分量。②模态混叠对
EMD 的影响,IMF1 中包含的间歇信号分量被推移到后续的本征模态分量中,出
现了多种模态分量出现在同一个模态的现象,即模态混叠;IMF2 的特征尺度受到
了 IMF1 的影响,产生了模态混叠;IMF3 的特征尺度受到了 IMF2 的影响,产生
了模态混叠,如此逐步向后延续混叠直至 IMF8,均含存在模态混叠。

59
武汉科技大学博士学位论文

图 5.6 EMD 分解 4-HA 太赫兹时域光谱的结果


如图 5.6 所示,4-HA 的 THz 时域光谱原始信号经过 EMD 分解,本征模态分
量从反复筛选过程中获得所有数据,总共有 8 个分量 IMF1~IMF8。由于时间序列
代表了所有正数,数据具有许多局部极值点但不存在零点交叉,从模态分解结果
中,可以看到原始 THz 光谱数据被分离成局部不重叠的时间尺度分量。在某些分
量中,如 IMF1、IMF3 和 IMF4 的信号是间歇的,那么相邻的分量可能包含相同
尺度的振荡,但在两个不同的 IMF 分量中,相同时间尺度的信号均没有出现在相
同的位置。总的来看,由于 EMD 算法本身的局限性,处理后的 THz 光谱数据通
过以下两点进行分析:①端点效应对 EMD 的影响,相对原始 THz 光谱信号,IMF1
和 IMF2 两端出现了比较明显的端点效应,幅值变小,这种端点效应逐渐从两端
向中间传播,IMF3~IMF6 两端的误差更大,也出现了逐渐向中间传播的现象,IMF7
和 IMF8 更是出现了由端点效应引起的虚假分量。②模态混叠对 EMD 的影响,
IMF1 中包含的间歇信号分量被推移到后续的本征模态分量中,出现了多种模态分
量出现在同一个模态的现象,即模态混叠,IMF2 的特征尺度受到了 IMF1 的影响,
产生了模态混叠,IMF3 的特征尺度受到了 IMF2 的影响,产生了模态混叠,如此
逐步向后延续混叠直至 IMF8,均含存在模态混叠。
从上述分析中可以看到,EMD 算法的端点效应和模态混叠两种不利因素对
60
武汉科技大学博士学位论文
2-HA、3-HA 和 4-HA 的影响是近乎一致的,会引起后续的三种羟基苯甲酸异构
体的 THz 光谱降维、特征提取以及聚类识别的精度偏低,真实的物理过程可能被
错误表征,最终导致羟基苯甲酸异构体的部分样品被错误分类。

5.3.3 基于 VMD 算法的模态分解分析

VMD 算法是将经典的维纳滤波器推广为多个自适应频带,该算法关键的部
分是求解最优解,求解过程采用二次惩罚因子和拉格朗日乘数将约束问题转换为
非约束问题,并用交替方向乘子法求解这个非约束问题,通过迭代更新最终得到
信号分解的所有模态。与传统算法相比:①VMD 在解决端点效应和模态混叠问
题上有明显的优势,其具备完全非递归性以及变分性,避免了相邻两个模态之间
的相互影响,其中各个模态是同时被提取的,理论上每个本征模态分量是不会混
叠的,实际 THz 时域光谱信分解过程可能会伴随微小的模态混叠,但不会像 EMD
算法分解的本征模态分量有明显的模态混叠;②由于 VMD 算法具备更加完备的
数学理论支撑,理论上每个本征模态分量是不会出现端点效应的,实际 THz 时域
光谱信分解过程可能会伴随微小的端点效应,这是因为对于长度较短的 THz 时域
光谱,端点效应更容易显现出来。特别是针对 THz 时域光谱信号,VMD 算法对
采样和噪声具有更强的鲁棒性,VMD 算法中物理时间尺度用来表征 THz 信号的
振荡。为了说明 VMD 算法对输入 THz 光谱的噪声鲁棒性,本文使用了完全非递
归变分模态分解模型对信号进行分解,选取最强和最弱谐波的振幅来说明信号对
原始光谱(图 5.3(b))的恢复水平。为了去除噪声、验证过分解、模态混叠以及
研究本征模态分量数与分类准确率之间的关系,在分解前将 K 值设为 8,所有的
原始光谱信号分解为 8 个本征模态分量。

61
武汉科技大学博士学位论文

图 5.7 VMD 分解 2-HA 太赫兹时域光谱的结果


如图 5.7 所示,2-HA 的 THz 时域光谱原始信号经过 VDM 分解,本征模态分
量从反复筛选过程中获得所有数据,总共有 8 个分量 IMF1~IMF8。由于时间序列
代表了所有正数,数据具有许多局部极值点但不存在零点交叉,从模态分解结果
中,可以看到原始 THz 光谱数据被分离成局部不重叠的时间尺度分量。IMF1 和
IMF2 能较好的实现对原始光谱的恢复,但 IMF3 和 IMF4 已经出现轻微的端点效
应和过分解现象,这种现象在 IMF5~IMF8 分量中更加明显,这是由于实际 THz
时域光谱信号长度很短,VDM 算法对其进行分解时比长时频信号更容易出现过
分解和端点效应。IMF1~IMF4 分量的 THz 光谱数据基本没有噪声信号,VMD 算
法实现了对其有效降噪,而 IMF5~IMF8 分量的 THz 光谱数据明显掺杂了较多噪
声信号,光谱信号看起来是间歇的,可以推测 2-HA 的 THz 时域光谱在后续的参
数优化和分类识别中,IMF5~IMF8 的准确率会明显下降。总体来看,随着模态分
量数的增加端点效应现象越来越明显,但对比 EMD 算法对 2-HA 的 THz 时域光
谱的分解结果(图 5.4),其端点效应得到了明显的抑制;另外 IMF5~IMF8 随着
模态分量数的增加过分解现象越来越明显,也就是说 IMF5~IMF8 比 IMF1~IMF4
包含的噪声信号和虚假分量明显增多,但对比 EMD 算法对 2-HA 的 THz 时域光
谱的分解结果,其模态混叠也得到了明显的抑制。
62
武汉科技大学博士学位论文

图 5.8 VMD 分解 3-HA 太赫兹时域光谱的结果


如图 5.8 所示,3-HA 的 THz 时域光谱原始信号经过 VDM 分解,本征模态分
量从反复筛选过程中获得所有数据,总共有 8 个分量 IMF1~IMF8。由于时间序列
代表了所有正数,数据具有许多局部极值点但不存在零点交叉,从模态分解结果
中,可以看到原始 THz 光谱数据被分离成局部不重叠的时间尺度分量。IMF1 和
IMF2 能较好的实现对原始光谱的恢复,但 IMF3 和 IMF4 已经出现轻微的端点效
应和过分解现象,这种现象在 IMF5~IMF8 分量中更加明显,这是由于实际 THz
时域光谱信号长度很短,VDM 算法对其进行分解时比长时频信号更容易出现过
分解和端点效应。IMF1~IMF4 分量的 THz 光谱数据基本没有噪声信号,VMD 算
法实现了对其有效降噪,而 IMF5~IMF8 分量的 THz 光谱数据明显掺杂了较多噪
声信号,光谱信号看起来是间歇的,可以推测 3-HA 的 THz 时域光谱在后续的参
数优化和分类识别中,IMF5~IMF8 的准确率会明显下降。总体来看,随着模态分
量数的增加端点效应现象越来越明显,但对比 EMD 算法对 3-HA 的 THz 时域光
谱的分解结果(图 5.5),其端点效应得到了明显的抑制;另外 IMF5~IMF8 随着
模态分量数的增加过分解现象越来越明显,也就是说 IMF5~IMF8 比 IMF1~IMF4
包含的噪声信号和虚假分量明显增多,但对比 EMD 算法对 3-HA 的 THz 时域光
谱的分解结果,其模态混叠也得到了明显的抑制。
63
武汉科技大学博士学位论文

图 5.9 VMD 分解 4-HA 太赫兹时域光谱的结果


如图 5.9 所示,4-HA 的 THz 时域光谱原始信号经过 VDM 分解,本征模态分
量从反复筛选过程中获得所有数据,总共有 8 个分量 IMF1~IMF8。由于时间序列
代表了所有正数,数据具有许多局部极值点但不存在零点交叉,从模态分解结果
中,可以看到原始 THz 光谱数据被分离成局部不重叠的时间尺度分量。IMF1 和
IMF2 能较好的实现对原始光谱的恢复,但 IMF3 和 IMF4 已经出现轻微的端点效
应和过分解现象,这种现象在 IMF5~IMF8 分量中更加明显,这是由于实际 THz
时域光谱信号长度很短,VDM 算法对其进行分解时比长时频信号更容易出现过
分解和端点效应。IMF1~IMF4 分量的 THz 光谱数据基本没有噪声信号,VMD 算
法实现了对其有效降噪,而 IMF5~IMF8 分量的 THz 光谱数据明显掺杂了较多噪
声信号,光谱信号看起来是间歇的,可以推测 4-HA 的 THz 时域光谱在后续的参
数优化和分类识别中,IMF5~IMF8 的准确率会明显下降。总体来看,随着模态分
量数的增加端点效应现象越来越明显,但对比 EMD 算法对 4-HA 的 THz 时域光
谱的分解结果(图 5.6),其端点效应得到了明显的抑制;另外 IMF5~IMF8 随着
模态分量数的增加过分解现象越来越明显,也就是说 IMF5~IMF8 比 IMF1~IMF4
包含的噪声信号和虚假分量明显增多,但对比 EMD 算法对 4-HA 的 THz 时域光
谱的分解结果,其模态混叠也得到了明显的抑制。
64
武汉科技大学博士学位论文
从上述分析中可以看到,VMD 算法对 2-HA、3-HA 和 4-HA 的分解结果是近
乎一致的,总体分解效果良好,能实现对原始光谱的有效恢复,优于 EMD 算法。
但是由于 THz 时域光谱是短时频信号,IMF5~IMF8 分量的端点效应、模态混叠
和过分解三种不利因素会引起后续的三种羟基苯甲酸异构体的 THz 光谱降维、特
征提取以及聚类识别的精度偏低,真实的物理过程可能被错误表征,最终导致羟
基苯甲酸异构体的部分样品被错误分类。

5.3.4 基于 PSO 算法的核函数参数优化分析

由于 2-HA、3-HA 和 4-HA 的 THz 光谱强度最大值与最小值之间的差异性比


较大,因此采用归一化方法获取了高质量的光谱数据,提高建模预测精度,同时,
为了在不丢失有用信息的情况下简化数据维数,采用主成分分析法对 IMF1~IMF8
进行降维。降低数据维度后,将累积方差贡献率大于 99%的主成分数据识别为
SVM 识别模型的输入。本文选取前 8 个主成分作为特征空间的样本。此外,将径
向基核函数(RBF)用于非线性太赫兹光谱数据的 SVM 识别模型。RBF 包含两
个重要参数,惩罚参数 c 和核函数参数 g,对 c 和 g 的优化对于 SVM 模型的复杂
性、逼近误差和测量精度具有重要意义。本文采用 PSO 算法对 c 和 g 进行优化,
根据精度最高的原则,通过交叉验证的方法选取并得到最佳的 c 和 g。本小节的
所有图形,x 轴表示种群迭代次数,y 轴表示准确率,蓝色是平均适应度曲线,其
代表的是整个种群寻找最优化参数过程的平均效果;红色是最佳适应度曲线,其
代表是整个种群寻找最优化参数过程取得最佳效果的一个个体。参数优化过程中,
首先用训练数据训练事先给定惩罚参数 c 和高斯核函数尺度参数 g 情况下的 SVM
模型,并得出相应的绝对误差。然后对惩罚参数 c 和高斯核函数尺度参数 g 给定
一个预选范围区间,再通过粒子群算法对惩罚参数 c 和高斯核函数尺度参数 g 在
预选区间内进行优化。其中主要步骤为:对选定的惩罚参数 c 和高斯核函数参数
g,根据训练以及预测数据,得出一个绝对误差,并且通过十折交叉验证得出十次
预测的绝对误差,再对这十次预测的绝对误差求平均值,得出这十次的平均绝对
误差。每一次选取的惩罚参数 c 和高斯核函数尺度参数 g 都会得出一个相应的平
均绝对误差。根据上述步骤,粒子群算法会有目的寻找最优的参数。通过比较选
出使得平均绝对误差最小的惩罚参数 c 和尺度参数 g,即为最优的参数。

65
武汉科技大学博士学位论文

(a) VMD-PSO (b) EMD-PSO


图 5.10 IMF1 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF1 的核函数参数
优化结果如图 5.10 所示。其中图 5.10(a)是 VMD-PSO 模型下 IMF1 的核函数参
数优化结果,种群进化代数的精度从起点就达到了饱和点,c=0.1 和 g=0.1 是交叉
验证准确率最高的优化结果,准确率达到了 100%。图 5.10(b)是在 EMD-PSO
模型下 IMF1 的核函数参数优化结果,当种群进化代数在 0~4 之间时,精度不断
提高,当种群进化代数为 4 时,精度达到饱和点。因此,当种群进化代数为 4 时,
c=1.44 和 g=0.1 是交叉验证准确率最高的优化结果,准确率达到了 88.89%。
VMD-PSO 模型比 EMD-PSO 模型更快达到优化精度的饱和点,且 VMD-PSO 模
型的种群进化代数的精度更高,即 VMD-PSO 模型下 IMF1 的核函数参数优化结
果明显优于 EMD-PSO 模型的优化结果。

(a) VMD-PSO (b) EMD-PSO


图 5.11 IMF2 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF2 的核函数参数
优化结果如图 5.11 所示。其中图 5.11(a)是 VMD-PSO 模型下 IMF2 的核函数参
数优化结果,种群进化代数的精度从起点就达到了饱和点,c=0.1 和 g=0.1 是交叉
66
武汉科技大学博士学位论文
验证准确率最高的优化结果,准确率达到了 100%。图 5.11(b)是在 EMD-PSO
模型下 IMF2 的核函数参数优化结果,当种群进化代数在 0~66 之间时,精度不断
提高,当种群进化代数为 66 时,精度达到饱和点。因此,当种群进化代数为 66
时,c=15.36 和 g=0.28 是交叉验证准确率最高的优化结果,但准确率仅为 77.78%。
VMD-PSO 模型比 EMD-PSO 模型更快达到优化精度的饱和点,且 VMD-PSO 模
型的种群进化代数的精度更高,即 VMD-PSO 模型下 IMF2 的核函数参数优化结
果明显优于 EMD-PSO 模型的优化结果。

(a) VMD-PSO (b) EMD-PSO


图 5.12 IMF3 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF3 的核函数参数
优化结果如图 5.12 所示。其中图 5.12(a)是 VMD-PSO 模型下 IMF3 的核函数参
数优化结果,种群进化代数的精度从起点就达到了饱和点,c=0.1 和 g=96.21 是交
叉验证准确率最高的优化结果,准确率达到了 94.44%。图 5.12(b)是在 EMD-PSO
模型下 IMF3 的核函数参数优化结果,当种群进化代数在 0~20 之间时,精度不断
提高,当种群进化代数为 20 时,精度达到饱和点。因此,当种群进化代数为 20
时,c=1.49 和 g=0.1 是交叉验证准确率最高的优化结果,准确率达到了 94.44%。
VMD-PSO 模型下 IMF3 的核函数参数优化结果与 EMD-PSO 模型的优化结果一致,
但是首次达到同一精度报饱和点时,前者的进化代数更小。

67
武汉科技大学博士学位论文

(a) VMD-PSO (b) EMD-PSO


图 5.13 IMF4 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF4 的核函数参数
优化结果如图 5.13 所示。其中图 5.13(a)是 VMD-PSO 模型下 IMF4 的核函数参
数优化结果,种群进化代数的精度从起点就达到了饱和点,c=0.1 和 g=0.1 是交叉
验证准确率最高的优化结果,准确率达到了 100%。图 5.13(b)是在 EMD-PSO
模型下 IMF4 的核函数参数优化结果,种群进化代数在 0~10 之间时,精度不断提
高,当种群进化代数为 10 时,精度达到饱和点。因此,当种群进化代数为 10 时,
c=2.35 和 g=0.52 是交叉验证准确率最高的优化结果,准确率达到 84.44%。
VMD-PSO 模型比 EMD-PSO 模型更快达到优化精度的饱和点,且 VMD-PSO 模
型的种群进化代数的精度更高,即 VMD-PSO 模型下 IMF4 的核函数参数优化结
果明显优于 EMD-PSO 模型的优化结果。

(a) VMD-PSO (b) EMD-PSO


图 5.14 IMF5 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF5 的核函数参数
优化结果如图 5.14 所示。其中图 5.14(a)是 VMD-PSO 模型下 IMF5 的核函数参
数优化结果,种群进化代数的精度从起点就达到了饱和点,c=6.13 和 g=0.1 是交
68
武汉科技大学博士学位论文
叉验证准确率最高的优化结果,准确率达到了 97.78%。图 5.14(b)是在 EMD-PSO
模型下 IMF5 的核函数参数优化结果,种群进化代数的精度从起点就达到了饱和
点,c=17.99 和 g=0.69 是交叉验证准确率最高的最优结果,但准确率仅为 54.44%。
VMD-PSO 模型和 EMD-PSO 模型均是从起点开始就达到了优化精度的饱和点,
但是 VMD-PSO 模型的种群进化代数的精度更高,即 VMD-PSO 模型下 IMF5 的
核函数参数优化结果明显优于 EMD-PSO 模型的优化结果。

(a) VMD-PSO (b) EMD-PSO


图 5.15 IMF6 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF6 的核函数参数
优化结果如图 5.15 所示。其中图 5.15(a)是 VMD-PSO 模型下 IMF6 的核函数参
数优化结果,种群进化代数在 0~9 之间时,精度不断提高,当种群进化代数为 9
时,精度达到饱和点,因此当种群进化代数为 9 时,c=4.76 和 g=0.1 是交叉验证
准确率最高的最优结果,准确率为 76.67%。图 5.15(b)是在 EMD-PSO 模型下
IMF6 的核函数参数优化结果,种群进化代数的精度从起点就达到了饱和点,
c=41.90 和 g=77.70 是交叉验证准确率最高的最优结果,但准确率仅为 37.78%。
VMD-PSO 模型比 EMD-PSO 模型达到优化精度的饱和点的速度慢,但是后者的
种群进化代数的严重偏低,失去可靠性,即 VMD-PSO 模型下 IMF6 的核函数参
数优化结果明显优于 EMD-PSO 模型的优化结果。

69
武汉科技大学博士学位论文

(a) VMD-PSO (b) EMD-PSO


图 5.16 IMF7 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF7 的核函数参数
优化结果如图 5.16 所示。其中图 5.16(a)是 VMD-PSO 模型下 IMF7 的核函数参
数优化结果,种群进化代数的精度从起点就达到了饱和点,c=5.55 和 g=0.1 是交
叉验证准确率最高的优化结果,准确率为 65.56%。图 5.16(b)是在 EMD-PSO
模型下 IMF7 的核函数参数优化结果,种群进化代数的精度从起点就达到了饱和
点,c=17.22 和 g=98.81 是交叉验证准确率最高的优化结果,但准确率仅为 38.89%。
两种模型均在起点就达到了优化精度的饱和点,VMD-PSO 模型的种群进化代数
的精度更高,且后者的种群进化代数的严重偏低,失去可靠性,即 VMD-PSO 模
型下 IMF7 的核函数参数优化结果明显优于 EMD-PSO 模型的优化结果,但两种
模型的优化结果都不太理想。

(a) VMD-PSO (b) EMD-PSO


图 5.17 IMF8 的核函数参数优化结果
2-HA、3-HA 和 4-HA 的 THz 时域光谱经过模态分解后,IMF8 的核函数参数
优化结果如图 5.17 所示。其中图 5.17(a)是 VMD-PSO 模型下 IMF8 的核函数参
数优化结果,种群进化代数在 0~11 之间时,精度不断提高,当种群进化代数为
70
武汉科技大学博士学位论文
11 时,精度达到饱和点。因此,当种群进化代数为 11 时,c=2.84 和 g=0.1 是交叉
验证准确率最高的优化结果,准确率达到 83.33%。图 5.17(b)是在 EMD-PSO
模型下 IMF8 的核函数参数优化结果,种群进化代数的精度从起点就达到了饱和
点,c=46.85 和 g=65.96 是交叉验证准确率最高的优化结果,但准确率仅为 36.67%。
两种模型均在起点就达到了优化精度的饱和点,VMD-PSO 模型的种群进化代数
的精度更高,且后者的种群进化代数的严重偏低,失去可靠性,即 VMD-PSO 模
型下 IMF7 的核函数参数优化结果明显优于 EMD-PSO 模型的优化结果。
通过以上对 2-HA、3-HA 和 4-HA 进行模态分解分析,可以得到在 VMD-PSO
模型下,IMF1~IMF4 的交叉验证准确率达到了 100%的理想值,然而 IMF5~IMF8
的交叉验证准确度呈现逐渐下降的趋势,特别是 IMF6 和 IMF7 的交叉验证准确率
均低于 80%,这会影响后续分类和识别的准确性。在 EMD-PSO 模型下,IMF1、
IMF3 和 IMF4 的交叉验证准确率都在 80%以上,IMF2 交叉验证准确率也接近 80%,
达到 77.78%,但是 IMF5~IMF8 的交叉验证准确率呈现逐渐下降的趋势,交叉验
证准确率低于 60%,这将严重影响分类和识别的准确性。通过对比优化核函数参
数 c 和 g 后 IMF1~IMF8 的交叉验证精度,发现 VMD-PSO 模型的精度明显高于
EMD-PSO 模型的精度,这为下一步使用 SVM 进行分类和识别奠定了基础。

5.3.5 聚类分析

为了验证所提出模型的有效性和准确性,采用 SVM 聚类模型对 2-HA、3-HA


和 4-HA 三种异构体的 THz 时域光谱数据做分类识别。为了更直观地展示错误分
类样本,采用混淆矩阵可视化描述聚类效果。图 5.18 展示了原始 THz 时域光谱的
SVM 分类结果,图 5.19 至图 5.26 展示了基于不同模态分解方法的 SVM 分类结
果,横坐标 Predict class 表示预测类别,纵坐标 Actual class 表示实际类别,其中
标签 1、标签 2 和标签 3 分别代表 2-HA、3-HA 和 4-HA。总共 120 个实验样品,
其中 2-HA、3-HA 和 4-HA 各占 40 个样品,将样本按三比一的比例划分为训练集
和测试集,即训练集有 90 个样本,测试集有 30 个样本。

71
武汉科技大学博士学位论文

(a) PSO (b) PSO-SVM


图 5.18 原始 THz 光谱的参数优化和混淆矩阵可视化结果
如图 5.18(a)所示,三种羟基苯甲酸异构体的原始 THz 光谱在 PSO 优化过
程中,种群进化代数的精度从起点就达到了饱和点,c=1.13 和 g=1.64 是交叉验证
准确率最高的优化结果,准确率达到 100%。图 5.18(b)显示了三种羟基苯甲酸
的原始 THz 光谱数据在 PSO-SVM 模型下的分类结果,4-HA 的所有样本点分类
无误,但是 2-HA 有 8 个样本被错分到 3-HA,3-HA 有 7 个样本被错分到 4-HA,
出现了严重错分的现象。
表 5.1 原始 THz 光谱的分类准确率
优化算法 样本集 准确率/% c g
训练集 100 1.13 1.64
原始光谱
预测集 50 1.13 1.64
表 5.1 给出了最终分类准确率,训练集的准确率为 100%,预测集的准确率仅
仅为 50%,分类效果很差,未做模态分解的原始信号不能通过 PSO-SVM 模型有
效识别 2-HA、3-HA 和 4-HA。

72
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.19 IMF1 混淆矩阵可视化结果
图 5.19(a)显示了三种羟基苯甲酸异构体的 IMF1 光谱数据在 VMD-PSO-SVM
模型下的分类结果,2-HA、3-HA 和 4-HA 的所有样本均分类无误,达到了理想
值。图 5.19(b)显示了三种羟基苯甲酸异构体的 IMF1 光谱数据在 EMD-PSO-SVM
模型下的分类结果,2-HA 有 2 个样本被错分,其中 1 个样本被错分到 3-HA,1
个样本被错分到 3-HA,3-HA 和 4-HA 的所有样本均分类无误,分类效果很好。
表 5.2 PSO 优化后 IMF1 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 0.10 0.10
VMD-PSO 预测集 100 0.10 0.10
EMD-PSO 训练集 100 1.44 0.10
EMD-PSO 预测集 93.33 1.44 0.10
表 5.2 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为
100%,预测集的准确率为 100%,达到了理想的分类效果,EMD-PSO-SVM 模型
下,训练集的准确率为 100%,预测集的准确率为 93.33%,分类准确率很高。两
个模型都能对 2-HA、3-HA 和 4-HA 实现有效识别,前者的识别效果优于后者。

73
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.20 IMF2 混淆矩阵可视化结果
图 5.20(a)显示了三种羟基苯甲酸异构体的 IMF2 光谱数据在 VMD-PSO-SVM
模型下的分类结果,2-HA、3-HA 和 4-HA 的所有样本均分类无误,达到了理想
值。图 5.20(b)显示了三种羟基苯甲酸异构体的 IMF2 光谱数据在 EMD-PSO-SVM
模型下的分类结果,2-HA 有 2 个样本被错分,其中 1 个样本被错分到 2-HA,1
个样本被错分到 3-HA;3-HA 有 3 个样本被错分,其中 2 个样本被错分到 2-HA,
1 个样本被错分到 4-HA;4-HA 有 2 个样本被错分,均被错分到 3-HA,分类效果
较差。
表 5.3 PSO 优化后 IMF2 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 0.10 0.14
VMD-PSO 预测集 100 0.10 0.14
EMD-PSO 训练集 100 15.36 0.28
EMD-PSO 预测集 76.67 15.36 0.28

表 5.3 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为


100%,预测集的准确率为 100%,达到了理想的分类效果,EMD-PSO-SVM 模型
下,训练集的准确率为 100%,预测集的准确率为 76.67%,分类准确率低。
VMD-PSO-SVM 模型能对 2-HA、3-HA 和 4-HA 实现有效识别,EMD-PSO-SVM
模型不能对 2-HA、3-HA 和 4-HA 实现有效识别,前者的识别效果明显优于后者。

74
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.21 IMF3 混淆矩阵可视化结果
图 5.21(a)显示了三种羟基苯甲酸异构体的 IMF3 光谱数据在 VMD-PSO-SVM
模型下的分类结果,2-HA、3-HA 和 4-HA 的所有样本均分类无误,达到了理想
值。图 5.21(b)显示了三种羟基苯甲酸异构体的 IMF3 光谱数据在 EMD-PSO-SVM
模型下的分类结果,2-HA 的所有样本分类无误;3-HA 有 2 个样本被错分,均被
错分到 2-HA;4-HA 有 1 个样本被错分,该样本被错分到 3-HA,分类效果较好。
表 5.4 PSO 优化后 IMF3 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 0.10 96.21
VMD-PSO 预测集 100 0.10 96.21
EMD-PSO 训练集 100 1.49 0.10
EMD-PSO 预测集 90 1.49 0.10
表 5.4 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为
100%,预测集的准确率为 100%,达到了理想的分类效果,EMD-PSO-SVM 模型
下,训练集的准确率为 100%,预测集的准确率为 90%,分类准确率较高。两个
模型都能对 2-HA、3-HA 和 4-HA 实现有效识别,但前者的识别效果优于后者。

75
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.22 IMF4 的混淆矩阵可视化结果
图 5.22(a)显示了三种羟基苯甲酸异构体的 IMF4 光谱数据在 VMD-PSO-SVM
模型下的分类结果,2-HA、3-HA 和 4-HA 的所有样本均分类无误,达到了理想
值。图 5.22(b)显示了三种羟基苯甲酸异构体的 IMF4 光谱数据在 EMD-PSO-SVM
模型下的分类结果,2-HA 有 3 个样本被错分,均被错分到 3-HA;3-HA 的所有
样本分类无误;4-HA 有 4 个样本被错分,其中 2 个样本被错分到 2-HA,2 个样
本被错分到 3-HA,分类效果较差。
表 5.5 PSO 优化后 IMF4 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 0.10 0.10
VMD-PSO 预测集 100 0.10 0.10
EMD-PSO 训练集 100 2.35 0.52
EMD-PSO 预测集 76.67 2.35 0.52

表 5.5 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为


100%,预测集的准确率为 100%,达到了理想的分类效果,EMD-PSO-SVM 模型
下,训练集的准确率为 100%,预测集的准确率为 76.67%,分类准确率低。
VMD-PSO-SVM 模型能对 2-HA、3-HA 和 4-HA 实现有效识别,EMD-PSO-SVM
模型不能对 2-HA、3-HA 和 4-HA 实现有效识别,前者的识别效果明显优于后者。

76
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.23 IMF5 混淆矩阵可视化结果
图 5.23(a)显示了三种羟基苯甲酸异构体的 IMF5 光谱数据在 VMD-PSO-SVM
模型下的分类结果,2-HA 和 3-HA 的所有样本均分类无误,4-HA 有 1 个样本被
错分到 3-HA,分类效果很好。图 5.23(b)显示了三种羟基苯甲酸异构体的 IMF5
光谱数据在 EMD-PSO-SVM 模型下的分类结果,2-HA 有 4 个样本被错分,均被
错分到 4-HA;3-HA 有 4 个样本被错分,其中 2 个样本被错分到 2-HA,2 个样本
被错分到 4-HA;4-HA 有 1 个样本被错分,该样本被错分到 2-HA,分类效果较
差。
表 5.6 PSO 优化后 IMF5 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 6.13 0.10
VMD-PSO 预测集 96.67 6.13 0.10
EMD-PSO 训练集 100 17.99 0.69
EMD-PSO 预测集 70 17.99 0.69

表 5.6 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为


100%,预测集的准确率为 96.67%,分类准确率很高,EMD-PSO-SVM 模型下,
训练集的准确率为 100%,预测集的准确率为 70%,分类准确率低。VMD-PSO-SVM
模型能对 2-HA、3-HA 和 4-HA 实现有效识别,EMD-PSO-SVM 模型不能对 2-HA、
3-HA 和 4-HA 实现有效识别,前者的识别效果明显优于后者。

77
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.24 IMF6 混淆矩阵可视化结果
图 5.24(a)显示了三种羟基苯甲酸异构体的 IMF6 光谱数据在 VMD-PSO-SVM
模型下的分类结果,4-HA 的所有样本均分类无误;2-HA 有 2 个样本被错分,均
被错分到 3-HA;3-HA 有 1 个样本被错分,该样本被错分到 4-HA,分类效果较
好。图 5.24(b)显示了三种羟基苯甲酸异构体的 IMF6 光谱数据在 EMD-PSO-SVM
模型下的分类结果,2-HA 有 2 个样本被错分,均被错分到 3-HA;3-HA 有 6 个
样本被错分,其中 2 个样本被错分到 2-HA,4 个样本被错分到 4-HA;4-HA 有 3
个样本被错分,其中 1 个样本被错分到 3-HA,2 个样本被错分到 2-HA,分类效
果较差。
表 5.7 PSO 优化后 IMF6 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 4.76 0.10
VMD-PSO 预测集 90 4.76 0.10
EMD-PSO 训练集 100 41.90 77.70
EMD-PSO 预测集 63.33 41.90 77.70

表 5.7 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为


100%,预测集的准确率为 90%,分类准确率较高,EMD-PSO-SVM 模型下,训练
集的准确率为 100%,预测集的准确率为 63.33%,分类准确率低。VMD-PSO-SVM
模型能对 2-HA、3-HA 和 4-HA 实现有效识别,EMD-PSO-SVM 模型不能对 2-HA、
3-HA 和 4-HA 实现有效识别,前者的识别效果明显优于后者。

78
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.25 IMF7 混淆矩阵可视化结果
图 5.25(a)显示了三种羟基苯甲酸异构体的 IMF7 光谱数据在 VMD-PSO-SVM
模型下的分类结果,3-HA 的所有样本均分类无误;2-HA 有 2 个样本被错分,其
中 1 个样本被错分到 3-HA,1 个样本被错分到 4-HA;4-HA 有 2 个样本被错分,
均被错分到 2-HA,分类效果较好。图 5.25(b)显示了三种羟基苯甲酸异构体的
IMF7 光谱数据在 EMD-PSO-SVM 模型下的分类结果,2-HA 有 4 个样本被错分,
其中 1 个样本被错分到 3-HA,3 个样本被错分到 4-HA;3-HA 有 2 个样本被错分,
其中 1 个样本被错分到 2-HA,1 个样本被错分到 4-HA;4-HA 有 7 个样本被错分,
其中 3 个样本被错分到 3-HA,4 个样本被错分到 2-HA,分类效果很差。
表 5.8 PSO 优化后 IMF7 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 5.55 0.10
VMD-PSO 预测集 86.67 5.55 0.10
EMD-PSO 训练集 100 17.22 98.81
EMD-PSO 预测集 56.67 17.22 98.81

表 5.8 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为


100%,预测集的准确率为 86.67%,分类准确率较高,EMD-PSO-SVM 模型下,
训练 集的 准 确率 为 100% , 预 测集 的准 确 率为 56.67% , 分类 准确 率 很低 。
VMD-PSO-SVM 模型能对 2-HA、3-HA 和 4-HA 实现有效识别,EMD-PSO-SVM
模型不能对 2-HA、3-HA 和 4-HA 实现有效识别,出现了严重错分的现象,前者
的识别效果明显优于后者。

79
武汉科技大学博士学位论文

(a) VMD-PSO-SVM (b) EMD-PSO-SVM


图 5.26 IMF8 混淆矩阵可视化结果
图 5.26(a)显示了三种羟基苯甲酸异构体的 IMF8 光谱数据在 VMD-PSO-SVM
模型下的分类结果,3-HA 的所有样本均分类无误;2-HA 有 1 个样本被错分,该
样本被错分到 3-HA;4-HA 有 2 个样本被错分,均被错分到 2-HA,分类效果较
好。图 5.26(b)显示了三种羟基苯甲酸异构体的 IMF8 光谱数据在 EMD-PSO-SVM
模型下的分类结果,2-HA 有 8 个样本被错分,均被错分到 4-HA;3-HA 有 8 个
样本被错分,均被错分到 4-HA;4-HA 的所有样本分类无误,但总体分类效果很
差。
表 5.9 PSO 优化后 IMF8 的分类准确率
优化算法 样本集 准确率/% c g
VMD-PSO 训练集 100 2.84 0.10
VMD-PSO 预测集 90 2.84 0.10
EMD-PSO 训练集 100 46.85 65.96
EMD-PSO 预测集 46.67 46.85 65.96

表 5.9 给出了最终分类准确率,VMD-PSO-SVM 模型下,训练集的准确率为


100%,预测集的准确率为 90%,分类准确率较高,EMD-PSO-SVM 模型下,训练
集 的 准 确 率 为 100% , 预 测 集 的 准 确 率 为 46.67% , 分 类 准 确 率 极 低 。
VMD-PSO-SVM 模型能对 2-HA、3-HA 和 4-HA 实现有效识别,EMD-PSO-SVM
模型不能对 2-HA、3-HA 和 4-HA 实现有效识别,出现了严重错分的现象,前者
的识别效果明显优于后者。

80
武汉科技大学博士学位论文

图 5.27 预测精度与 IMF 的关系


图 5.27 显示了本征模态分量数量与分类精度之间的关系,其中蓝色部分代表
VMD 算法,黄色部分代表 EMD 算法。采用 VMD 算法分解的 IMF1~IMF8 中任
意一个本征模态分量的分类精度明显高于 EMD 算法,这表明在三种羟基苯甲酸
异构体的分类和鉴定中,运用 VMD 算法提取时域频谱数据比 EMD 算法具有显着
的优势,尤其是在处理高维非线性 THz 光谱数据方面。此外,随着 IMF 数量的增
加,相应 PSO-SVM 模型的分类准确率总体呈现逐渐下降的趋势。IMF5~IMF8 具
有特别强的波动性和随机噪声,导致 IMF4 之后的分类精度急剧下降。根据模态
最大值理论,EMD 和 VMD 的分解层数越多,模态分量的信噪比越低,这意味着
噪声比增加,有效信息比减少[132]。这意味着本文提出的方法对三种羟基苯甲酸异
构体的 THz 光谱具有显着的降噪和特征提取效果,也为有机分子异构体的定性研
究提供了新的概念和实验体系。

5.4 结论

高维 THz 时域光谱信号实际上是一种短时频信号,运用 THz 时域光谱的模态


分解方法进行羟基苯甲酸同分异构体无损鉴别是一种重要检测手段,也是后续分类
识别的必要环节,但是三种羟基苯甲酸同分异构体的 THz 时域光谱往往含有强噪声,
且时延差很小。为了解决这些问题,本章分别运用 EMD 和 VMD 算法将原始 THz
时域光谱分解为 8 个本征模态分量,解决了 THz 光谱强噪声和低时延的问题。此外,
本章提出基于 PSO 核函数参数优化的 SVM 聚类识别方法,解决了三种羟基苯甲酸
异构体定性识别的问题。本章的主要工作概述如下:

81
武汉科技大学博士学位论文
(1)区别于传统的基于时域信号自适应时频变换和信号分解估计的 EMD 算法,
所提出的 VMD 模态分解算法是基于自适应、完全非递归的模态分解方法,有坚实
的数学理论支撑,相邻两个模态之间的互不影响,分解后各个模态同时被提取,能
够有效地减小端点效应、模态混叠和过分解问题。
(2)为了验证模态分解效果,基于 THz 时域光谱数据的高维性、短时频性
和随机噪声的特点,提出了一种基于 PSO 核函数参数优化和支持向量机相结合识
别位置异构体的新方法,交叉验证方法保证了核函数参数优化结果的可靠性和准
确性。在此基础上,对 2-HA、3-HA 和 4-HA 三种羟基苯甲酸位置异构体的 120
个样品进行了 EMD-PSO-SVM 和 VMD-PSO-SVM 建模分析。研究结果表明,本
章提出的 VMD-PSO-SVM 模型具有最优的聚类识别效果,另外,还发现随着 IMF
数量的增加,相应聚类模型的分类准确率总体呈现逐渐下降的趋势。该方法能有
效降低噪声的同时突出不同羟基苯甲酸异构体 THz 光谱数据之间的差异性,在化
药合成和染料工业中具有广泛的应用价值。

82
武汉科技大学博士学位论文

第 6 章 基于 Floyd 改进 LLE 算法的转基因大豆 THz


光谱特征提取和定性识别

光谱数据的降维失真和特征提取精度低是所有高维 THz 光谱数据样本稀疏和


距离计算方法面临的共性问题,因此本章首先研究基于 Floyd 改进局部线性嵌入
算法的转基因大豆 THz 光谱降维和特征提取方法,从而为后续的基于多元线性回
归和偏最小二乘回归分析的转基因大豆分类鉴别研究奠定基础。
羟基苯甲酸同分异构体和转基因大豆均属于有机分子,在上一章研究成分单
一且纯净的 3 种羟基苯甲酸同分异构体光谱降噪、特征提取和定性分析的基础上,
将实验对象扩展到转基因和非转基因大豆,实验 THz 光谱中属性维数往往成千上
万,要满足密采样条件所需的样本数目往往是无法达到的天文数字,许多机器学
习的方法都涉及到光谱数据距离计算,而高维空间会给光谱数据距离计算带来很
大的时间和精度代价,缓解 THz 光谱维度大和数据冗余的一个重要途径是降维
(Dimension Reduction),也就是通过特定的数学变换将原始光谱数据的高维属性
空间转换为一个低维“子空间”,在这个子空间中距离计算会变得更容易 [133]。传
统的降维方法是对原始 THz 数据高维空间进行线性变换,主要包含多维缩放
(Multiple Dimension Scaling,简称 MDS)和主成分分析(Principle Component
Analysis,简称 PCA)。实际光谱分析中,THz 光谱数据往往具有高维度和非线性
等特点,因此传统的线性降维方法在处理这类光谱数据时存在不足。近年来,非
线性降维方法成为了研究热点,该方法对应高维空间到低维空间的映射函数是非
线性的,其可以解决典型高维非线性冗余 THz 光谱数据的采样和特征提取问题,
主要包含核主成分分析(Kernelized PCA,简称 KPCA)、等度量映射(Isometric
Mapping,简称 ISOMAP)和局部线性嵌入(Locally Linear Embedding,简称 LLE)。
其中 ISOMAP 和 LLE 两种方法属于流行学习方法,它们都借鉴了拓扑流行概念
来实现 THz 光谱数据的降维,具备局部欧式空间性质,可以基于欧氏距离进行距
离计算,此外它们都可用于可视化分析。针对转基因大豆 THz 光谱数据,为了优
化 LLE 降维算法的距离计算精度,本章提出了基于 Floyd 改进局部线性嵌入算法
(简称 FLLE)。分别采用 PCA、LLE 和 FLLE 三种降维算法分别对转基因大豆的
THz 吸光度光谱进行降维处理和特征提取,降维后的数据分别通过多元线性回归
(Multiple Linear Regression,简称 MLR)分析和偏最小二乘回归(Partial Least
Squares Regression,简称 PLSR)分析模型计算决定系数(Determination Coefficient,
简称 R)和均方根误差(Root Mean Square Error,简称 RMSE),以评判降维后的

83
武汉科技大学博士学位论文
效果,并使用交叉验证(Cross Validation,简称 CV)方法分别对 PCA-MLR、
PCA-PLSR、LLE-MLR、LLE-PLSR、FLLE-MLR 和 FLLE-PLSR 模型进行验证,
以选择各个模型的最佳参数得到可靠稳定的模型。从实验角度验证了所提出改进
算法的精度,解决了上述 THz 光谱数据存在的问题,并用于特征提取,同时为 3
种转基因大豆分类鉴别模型建立提供了理论依据。

6.1 基于线性变换的 THz 光谱降维方法

6.1.1 MDS 的基本原理

不失一般性,m 个样本在原始空间的距离可表示为 [134,135]:


m m
D (6-1)

其中,样本 xi 到 xj 距离为第 i 行 j 列的元素 Dij ,当需要获得样本在 d′维空间的距

d ' m
离Z ( d '  d )时,任意两个样本在 d′维空间中的欧氏距离等于原始空间
mm
中的距离,即 zi  z j  Dij 。令 B  Z Z 
T
,其中 B 为降维后样本的内积矩阵

( bij  ziT z j ),有

2
Dij2  zi  z j  2 ziT z j  bii  b jj  2bij
2
(6-2)

令  i 1 zi  0 ,可得 im1 bij  mj 1 bij  0 ,则有


m

D i 1
2
ij  tr( B)  mb jj (6-3)

D
j 1
2
ij  tr ( B)  mbii (6-4)

m m

 D
i 1 j 1
2
ij  2mtr ( B) (6-5)

其中 tr () 表示矩阵的迹(trance), tr ( B )   i 1 zi 。令
m 2

1 m 2
Di2   Dij
m j 1
(6-6)

84
武汉科技大学博士学位论文
1 m 2
D2j   Dij
m i 1
(6-7)

m m
1
D2 
m2
 D
i 1 j 1
2
ij (6-8)

由公式(6-2)至公式(6-8)可得
1
bij   ( Dij2  Di2  D2j  D2 ) (6-9)
2
这样就通过距离矩阵 D 求取了内积矩阵 B 。下一步对距离矩阵 B 做特征值分
解,有

B  T (6-10)

其中   diag (1 , 2 , , d ) 是由特征值构成的对角矩阵, 1  2   d ,  为特

征向量矩阵。假定其中有 d * 个非零特征值,对应的  *  diag (1 , 2 , , d * ) ,则 Z 变

换为
d * m
Z  1* 2  *T  (6-11)

实际应用中,降维后的距离不可能与原始空间中的距离相等,只能取某一个
近似值 d '  d ,d ' 个最大特征值构成对角矩阵    diag (1 , 2 , , d ' ) ,令   表示

对应的特征向量矩阵,则最终 Z 可变换为
d ' m
Z  12  T  (6-12)

其中 Z 的每一行对应的是一个样本的降维后的坐标。

6.1.2 PCA 的基本原理

假设样本集 D  x1, x2 , , xm  进行了去中心化处理,即满足  im xi  0 ,将样本

做投影变换得到新的样本集 W  1, 2 , , d  ,即满足 i  1 ,iT  j  0 ( i  j )。


2

若 将 维 度 降 低 到 d '  d , 则 样 本 点 xi 在 低 维 空 间 中 的 投 影 可 以 表 示 为
zi  ( zi1 , zi , , zid ' ) ,其中 zij  Tj xi 是 xi 在低维空间中第 j 维的坐标。若基于 zi 来重

构 xi ,可以得到新的向量 xi   j 1 zij j 。基于上述条件,原样本点 xi 与投影重构


d'

样本点 x i 之间的距离可表示为[136,137]:

85
武汉科技大学博士学位论文
2
m d' m m

 z 
i j 1
ij j  xi   z z  2 ziTW T xi  const
i 1
T
i i
i 1
2 (6-13)
m
 tr (W T ( xi xiT )W )
i 1

根据最近重构性,公式(6-13)可被简化为
min tr (W T XX TW )
W
(6-14)
s.t. W TW  I
通过最大可分性原理可知,样本点 xi 在超平面上的投影 W T xi 应该尽可能的分
散,也就是投影后的样本点方差达到最大值,那么公式(6-14)可被进一步简化

max tr (W T XX TW )
W
(6-15)
s.t. W TW  I
对公式(6-14)或(6-15)使用拉格朗日乘子法,有

XX T i  ii (6-16)
T
对协方差矩阵 XX 做特征值分解,再将分解所得的特征值排序

1  2   d (6-17)

取最大的 d ' 个特征值所对应的特征向量构成 W  (1 , 2 , , d ' ) ,即为 PCA


*

降维分析的解。

6.2 基于非线性变换的 THz 光谱降维方法

6.2.1 KPCA 的基本原理

不失一般性,把高维空间中的数据投影到超平面,其投影可表示为

W  1, 2 , , d  ,由公式(6-16)有[138]:

 m T 
  zi zi   j   j j (6-18)
 i 1 

其中样本点 xi 在高维空间中的像为 zi 。可知

1 m T 
m ziT  j m
j   
 j  i 1
z z
i i  j

  
i 1
zi
j
 
i 1
zii j (6-19)

86
武汉科技大学博士学位论文
其中 i j  ziT  j  j ,是  i 的第 j 个分量。假定 xi  zi 的映射为  ,即 zi   ( xi ) ,

i  1, 2, m 。则公式(6-18)可变换为

 m T 
  ( xi ) ( xi )i   j   j j (6-20)
 i 1 
公式(6-19)可变换为
m
 j   ( xi )i j (6-21)
i 1

引入核函数

 ( xi , x j )  ( xi )T ( x j ) (6-22)

将公式(6-21)和(6-22)带入公式(6-20)化简得

 j   j j (6-23)

其中  是  对应的核函数矩阵,(  )ij   ( xi , x j ) ,  (1 ;  2 ; ;  mj ) 。对公式(6-23)


j j j

做特征值分解,并取最大的 d ' 个特征值对应的特征向量。那么对样本 x 投影后的第

j ( j  1,2, , d ' )维坐标可表示为

m m
z j   Tj ( x )  i j ( xi )T ( x )  i j ( xi , x ) (6-24)
i 1 i 1

可以发现,投影后的坐标实质上是 KPCA 对所有样本的求和。

6.2.2 ISOMAP 的基本原理

ISOMAP 算法的核心是保持邻近样本之间的最短路径,由于高维空间中直线距
离在低维空间嵌入流行是不可达的,所以 ISOMAP 不会在高维空间中计算直线距离,
而是以低维空间嵌入流行上两点之间的距离“测地线”
(Geodesic)距离为目标任务,
其算法的核心便转化为了如何计算测地线距离,利用流行在局部上和欧氏距离的同
胚性,找出目标点附近的近邻点,再通过邻近距离逼近获得低维空间流行上测地线
距离的近似值,最后要输出降维后的坐标,需将测地线距离的近似值输入 MDS 算
法,具体过程如下[139]:

①输入原始高维样本集 D  x1, x2 , , xm  ,邻近参数为 k ,低维空间维数为 d ' ;

87
武汉科技大学博士学位论文
②依次确定 xi 的 k 邻近点, xi 与 k 邻近点距离设置为欧氏距离,其他点之间的

距离均设置为无穷大;

③在上一步执行过程中,用最短路径算法计算测地线距离 Geo( xi , x j ) ;

④将 Geo( xi , x j ) 作为 MDS 算法的输入,计算后得到样本集 D 在低维空间的投影

Z  z1, z2 , , zd  , d  m 。

6.2.3 LLE 的基本原理

相比 ISOMAP 算法,LLE 算法核心思想是保持局部邻近样本之间的线性关系,

假设样本 xi 与其邻近样本 x j , xk 和 xl 之间有如下线性关系[140]:

xi  ij x j  ik xk  il xl (6-25)

寻找 xi 的邻近下标集合 Qi ,并计算 Qi 中的样本点对 xi 的线性系数

2
m
min
1 ,2 , ,m
 i 1
xi   ij x j
jQi 2 (6-26)
s.t. 
jQi
ij 1

其中 xi 和 x j 已知,令 C jk  ( xi  x j )T ( xi  xk ) ,则其闭式解为

C
kQi
1
jk

ij  (6-27)
C
l , sQi
1
ls

由于低维空间中 LLE 算法对  i 保持不变,可以通过下列公式求解样本 xi 在低

维空间的坐标 zi
2
m
min
z1 , z2 , , zm

i 1
zi   ij z j
jQi
(6-28)
2

, (W)ij  ij ,
d ' m
令 Z  ( z1 , z2 , , zm ) 

M  (I  W)T (I  W) (6-29)

88
武汉科技大学博士学位论文
则公式(6-28)可变换为
min tr (ZMZ)T
Z
(6-30)
s.t. ZZ T  I
通过公式(6-30)进行特征值分解,最终得到 M 最小的 d ' 个特征值对应特征向量组
T
成的矩阵 Z 。

6.2.4 FLLE 的基本原理

为了提升高维非线性 THz 光谱数据的降维效果,本文对传统 LLE 算法进行了


改进,即融合了 Floyd 算法,具体内容是采用公式(6-31)取代 LLE 算法中的欧氏
距离[141,142]:
G( xi , x j )
dij ( xi , x j )  (6-31)
M (i)M ( j )

其中 G ( xi , x j ) 为 xi 和 x j 两点间的测地线距离,M (i) 和 M ( j ) 分别表示 xi (i  1, 2, , n) ,

x j ( j  1, 2, , n ) 和其他邻近点之间的距离的平均值。

1 n
M (i )   G( xi , xk )
n  1 k 1 (6-32)
k i

1 n
M ( j)   G ( x j , xk )
n  1 k 1 (6-33)
k j

用 Floyd 算法计算两点间的测地线距离后,将测地线距离代入上述公式,得到 k

个最近邻的距离 M (i) 和 M ( j ) ,M (i) 和 M ( j ) 作为 LLE 算法的输入,其余步骤与传

统 LLE 算法算法一致。

6.3 回归分析方法

6.3.1 MLR 的基本原理

假定数据集 D 具有 d 个属性,有[143,144]:

f ( xi )   T xi  b (6-34)

其中 i [1, d ] , f ( xi ) yi 。

89
武汉科技大学博士学位论文
令   (; b) ,同时把数据集 D 表示为 m  (d  i ) 的矩阵 X ,即

 x11 x12 x1d 1  x1T 1 


x x22 x2 d   T 
X   21
1
   x2 1  (6-35)
   
   T 
 xm1 xm 2 xmd 1   xm 1 

把 y i 改写成向量形式 Y  ( y1; y2 ; ; ym ) ,则有

*  arg min(Y  X  )T (Y  X  ) (6-36)


令 E  (Y  X  )T (Y  X  ) ,对  求导得

E
 2X T (X Y ) (6-37)

T
当 X X 为满秩矩阵或正定矩阵时,令公式(6-37)等于零,则有

*  ( X T X )1 X TY (6-38)

令 x i  ( xi ;1) ,最终得到多元线性回归模型为
T
f ( x i )  x i ( X T X ) 1 X T Y (3-39)

6.3.2 PLSR 的基本原理

要建立 PLSR 算法实质上是解决以下优化问题[145-147]:


max{Cov(t1 , u1 )}  max E01 , F0c1
1T 1  1 (6-40)
s.t.  T
cc c1  1

通过 Lagrange 乘数法求解 1 和 c1 ,需满足以下条件

E0T F0 F0T E01  121 (6-41)

F0T E0 E0T F0c1  12c1 (6-42)

其中, E0 和 F0 分别为 MLR 模型中 X 和 Y 标准化后的数据, 1 是 E0 F0 F0 E0 的单位


T T

90
武汉科技大学博士学位论文
特征向量, c1 是 F0T E0 E0T F 的单位特征向量, 12 是特征向量对应的特征值。

通过公式(6-40)可以求得 t1 和 u1 ,进而分别求解 E0 和 F0 对 t1 的回归方程

E0  t1 p1T  E1 (6-43)

F0  t1r1T  F1 (6-44)

其中, p1 和 r1 为回归系数向量, E1 和 F1 为回归方程的残差矩阵。

E0T t1
p1  2 (6-45)
t1

F0T t1
r1  2 (6-46)
t1

用残差矩阵 E1 和 F1 分别取代 E0 和 F0 ,求取单位特征向量 2 和 c2 ,还可以求出

t2  E12 和 u2  F1c2 。在此基础上建立下一步的回归方程

E1  t2 p2T  E2 (6-47)

F1  t2 r2T  F2 (6-48)

按以上次序计算最终得到

N 
F0  t1r1T  t2 r2T   t N rNT  FN  E0  *j rjT   FN (6-49)
 j 1 
j 1
其中 N 是 X 的秩, *j   ( I  i piT ) j 。PLSR 算法的核心是在遵循协方差极大化
i 1

准则的前提下,同时分解自变量数据矩阵 X 和因变量数据矩阵 Y ,建立相互对应的


回归关系。

6.4 FLLE-PLSR 算法应用于转基因大豆 THz 光谱分析

6.4.1 吸收光谱分析

转基因大豆(GM1 和 GM2)及其亲本(Parent)的 THz 时域光谱如图 6.1 所


示,横坐标 Time 表示时间,单位为皮秒(ps),纵坐标 Amplitude 表示幅值,无

91
武汉科技大学博士学位论文
量纲。四条谱线中,红色谱线为 Parent,绿色谱线为 GM1,蓝色谱线为 GM2,黑
色谱线为参考信号(Ref),Ref 是样品未加载在样品支架上时所测量的信号,而
三条被测样品的信号是 THz 波通过样品后得到的信号。可以观察到 GM1、GM2
和 Parent 相对 Ref 均有不同程度的频率红移 [148],其中 Parent 频率红移的程度最大,
达到 11.1 ps。其次是 GM1,为 5.5 ps,频率红移的程度最小的是 GM2,为 5.0 ps。
此外,GM1、GM2 和 Parent 的振幅相对 Ref 均有不同程度降低,振幅降低相对值
最大的是 GM2,降幅为 0.033 a.u.。再次是 GM1,降幅为 0.026 a.u.,振幅降低相
对值最小的 Parent,降幅为 0.023 a.u.。这可以理解为在 THz 波段,有机分子吸收
的光子能量在振动能级上发生跃迁,导致透射的 THz 波能量下降。样品的折射率
明显大于干燥空气的折射率,即在样品前后两面之间来回反射的光程大于干燥空
气的光程。GM1、GM2、Parent 分别与参考信号的光程差,导致 3 种转基因大豆
的时域谱明显延迟了一个时间间隔。利用快速傅里叶变换(FFT)对其时域光谱
进行研究,可以进一步了解三种转基因大豆的 THz 吸收特性。

图 6.1 转基因大豆的 THz 时域光谱


如图 6.2 所示,时域信号通过 FFT 频谱转换,得到转基因大豆 THz 频域光谱,
横坐标 Frequency 表示频率,单位为 THz,纵坐标 Strength 表示强度,无量纲。
可以观察到,相对于 Ref 信号 3 个样品的光谱强度衰减程度不同,考虑到样品都
是在相同的温度和湿度条件进行 THz 光谱采集,样品的直径均为 13.00 mm(误
差小于 0.02 mm),样品的厚度均为 1.000 mm(误差小于 0.050 mm),可以判定三
种样品的光谱强度差异均由样品自身对太赫兹波的吸收引起。将样品 THz 光谱与
参考信号 THz 光谱进行比较,在 0.3–1.5 THz 波段,随着频率增加,Ref 强度谱线

92
武汉科技大学博士学位论文
比较平坦;在 0.3–1.05 THz 波段,GM1 强度谱线有明显下降趋势,超过 1.05 THz
后,GM1 的强度谱线趋于平坦,但是谱线有比较明显的振荡;在 0.3–1.06 THz 波
段,Parent 的强度谱线有明显的下降趋势,超过 1.06 THz 后,Parent 的强度谱线
趋于平坦,但是谱线有比较明显的振荡;在 0.3–1.12 THz 波段,GM2 的强度谱线
有明显下降趋势,超过 1.12 THz 后,GM2 的强度谱线趋于平坦,但是谱线有比
较明显的振荡,谱线振荡的原因是样品粒径偏大,透射样品后的 THz 波有一部分
散射信号。上述分析说明 3 类样品对 THz 波吸收截止频率不同,GM1 的截止频
率接近 1.05 THz,GM2 的截止频率接近 1.12 THz,Parent 的截止频率接近 1.06 THz,
说明不同转基因大豆对太赫兹波的吸收是不同的。为了进一步研究三种转基因大
豆的 THz 吸收特性,通过吸光度公式(2-6)对其频谱进行转换,可得到三种转
基因大豆的 THz 吸光度图谱。

图 6.2 转基因大豆的 THz 频域光谱


为了得到比较明显的特征吸收峰和平滑的吸收谱线,有必要对原始 THz 吸光
度光谱做进一步预处理,结合第二章 2.1.4 节给出的实验数据预处理方法,对三种
转基因大豆(GM1、GM2 和 Parent 分别 12 个样本)THz 吸光度光谱进行预处理,
预处理过程依次是平均(Average)变换、多元散射校正(MSC)变换和 SG-卷积
平滑(SG-Smooth)变换,其中每个样片在 THz 光谱采集过程中均在正面和反面
各采集 6 次。预处理前后的结果如图 6.3 所示,横坐标 Frequency 表示频率,单位
为 THz,纵坐标 Absorbance 表示吸光度,无量纲。每个样片的 12 条原始吸光度
谱线通过平均变换后的谱线,用 Original 表示,预处理后的谱线用 Pretreated 表示,
经过 MSC 和 SG-Smooth 变换后,消除了部分散射效应引起的谱线低频振荡,吸

93
武汉科技大学博士学位论文
光度谱线变得更加平滑且突出了特征吸收峰的位置。如图 6.3(a)所示,Parent
样品在 0.3–1.5 THz 波段有 7 个特征吸收峰,分别位于 1.00 THz、1.08 THz、1.16 THz、
1.23 THz、1.31 THz、1.38 THz 和 1.46 THz。如图 6.3(b)所示,GM1 样品在 0.3–
1.5 THz 波段有 6 个特征吸收峰,分别位于 0.88 THz、0.98 THz、1.10 THz、1.23 THz、
1.34 THz 和 1.46 THz。如图 6.3(c)所示,GM2 样品在 0.3–1.5 THz 波段有 6 个
特征吸收峰,分别位于 0.92 THz、1.04 THz、1.15 THz、1.20 THz、1.32 THz 和 1.45
THz。通过对比 GM1、GM2 和 Parent 的 THz 吸光度光谱,我们发现在 0.3–1.5 THz
波段三种转基因大豆的特征吸收峰数量不同,但是 GM1 和 GM2 均为 6 个特征吸
收峰,三者的吸收峰峰位虽然一定的差异性,但是不明显,例如 Parent 的特征吸
收峰 1.00 THz、1.08 THz 分别与 GM1 的特征吸收峰 0.98 THz、1.10 THz 接近,
1.23 THz 和 1.46 THz 处的特征吸收峰二者完全重合;GM1 的特征吸收峰 1.34 THz、
1.46 THz 分别与 GM2 的特征吸收峰 1.32 THz、1.45 THz 接近;GM2 的特征吸收
峰 1.15 THz、1.32 THz、1.45 THz 分别与 Parent 的特征吸收峰 1.16 THz、1.31 THz、
1.46 THz 接近。仅仅通过相似的吸光度谱线和特征吸收峰很难准确的区分三种转
基因大豆,要想得到较好的分类结果,还需要对吸光度光谱做进一步处理。

(a) Parent (b) GM1

94
武汉科技大学博士学位论文

(c) GM2
图 6.3 预处理后的转基因大豆 THz 吸光度光谱

6.4.2 光谱数据降维和特征提取

为了定性的区分三种转基因大豆,需要更深入的数据处理和变换,即在不丢
失绝大部分有用光谱信息的前提下,简化数据维度并突出不同谱线之间的差异性。
由于三种转基因大豆样品 THz 吸光度光谱数据具有谱线相似、数据维度高和非线
性分布等特性,采用本文提出的 Floyd 改进 LLE 算法分别对三种转基因大豆的每
组吸光度光谱数据做降维和特征提取,与此同时,为了验证所提出方法的有效性,
分别采用基于线性变换降维方法和基于非线性变换降维方法,对三种转基因大豆
的每组吸光度光谱数据做降维和特征提取,其中线性变换降维方法选取有代表性
的 PCA 算法,非线性变换降维方法选取有代表性的 LLE 算法。降维后的数据分
别通过 MLR 和 PLSR 方法计算决定系数 R 和均方根误差 RMSE,以评判降维后
的 效果 , 并 使 用交 叉 验 证方 法 分 别 对 PCA-MLR 、PCA-PLSR 、 LLE-MLR 、
LLE-PLSR、FLLE-MLR 和 FLLE-PLSR 模型进行验证,各个模型的计算结果如图
6.4 至图 6.9 所示。
一般情况下,当少数新变量的累积方差贡献率大于 85%时[149],新变量可以逼
近原始数据集的有效光谱信息,即新的少数变量可以代替原数据集,当少数变量
满足验证模型或聚类模型的输入条件时,输入到相应模型计算,得到最终验证结
果。根据这一原理,提取前三个主要成分(component1,component2 和 component3)
作为三类转基因大豆的光谱特征参数。如图 6.4 至图 6.9 所示,转基因大豆样品的
太赫兹吸光度光谱分别通过 FLLE、LLE 和 PCA 模型降维和特征提取,分别得到
component1,component2 和 component3,将其作为 MLR 和 PLSR 模型的输入,
计算后得到 6 组主成分三维得分图,其中 Parent 用紫色圆点表示,GM1 用蓝色圆

95
武汉科技大学博士学位论文
点表示,GM2 用橙色圆点表示。在每种降维方法的回归模型分析中,前 28 组样
本作为训练集,其余 8 组作为验证集,为了评估每种降维方法的准确性和可靠性,
使用了 MLR 和 PLSR 回归分析模型和交叉验证方法,最后,所有样本都用作预测
集,其中以计算决定系数 R 和均方根误差 RMSE 作为评价标准。优化计算的结果
如表 6.1 至表 6.6 所示,值得注意的是,在分析计算结果时,决定系数 R 越接近 1,
均方根误差 RMSE 越小,模型的准确性越高,可靠性越好。

图 6.4 PCA-MLR 模型下的主成分三维得分图


PCA-MLR 模型下的主成分三维得分图如图 6.4 所示,Parent 与 GM2 主成分
距离尺度大,具有较好的聚类特征,没有相互重叠的聚类点,但是 GM2 本身的
聚类特征比较分散,两者的聚类效果较好;Parent 与 GM1 主成分距离尺度非常小,
不具备较好的聚类特征,有相互重叠的聚类点,且 GM2 本身的聚类特征比较分
散,两者的聚类效果较差;GM1 和 GM2 主成分距离尺度大具有较好的聚类特征,
但是 GM1 的 2 个聚类特征被记入 GM2 的聚类特征,且 GM2 本身的聚类特征比
较分散,两者的聚类效果较差。
表 6.1 MLR 回归模型下 PCA 降维方法的预测精度
R/a.u. RMSE/a.u.
降维模型
训练集 验证集 预测集 训练集 验证集 预测集
PCA 0.9788 1 0.9744 0.0218 2.712e-15 0.0218
注:R 表示决定系数,RMSE 表示均方根误差。
结合表 6.1 从总体来看,在 PCA-MLR 模型下,训练集的决定系数 R=0.9788,
均方根误差 RMSE=0.0218;验证集的决定系数 R=1,均方根误差 RMSE=2.712e-15;
预测集的决定系数 R=0.9744,均方根误差 RMSE=0.0218。通过上述分析,可知

96
武汉科技大学博士学位论文
Parent、GM1 和 GM2 的主成分距离尺度具有较大的聚类特征,但相互重叠,聚类
特征不理想,仍然无法有效地识别转基因大豆 THz 吸收谱特征。

图 6.5 LLE-MLR 模型下的主成分三维得分图


LLE-MLR 模型下的主成分三维得分图如图 6.5 所示,虽然 GM2 本身的主成
分聚类特征明显,聚类点比较集中,但是 Parent 与 GM1 主成分聚类特征不明显,
聚类点比较分散。Parent 与 GM2 主成分距离尺度小,不具备较好的聚类特征,且
有相互重叠的聚类点,两者的聚类效果较差;Parent 与 GM1 主成分距离尺度非常
小,不具备较好的聚类特征,二则本身的聚类点均比较分散,并且有相互重叠的
聚类点,两者的聚类效果较差;GM1 和 GM2 主成分距离尺度非常小,不具备较
好的聚类特征,虽然 GM2 的聚类点比较集中,但是 GM1 的聚类点比较分散,并
且两者有相互重叠的聚类点,两者的聚类效果较差。
表 6.2 MLR 回归模型下 LLE 降维方法的预测精度
R/a.u. RMSE/a.u.
降维模型
训练集 验证集 预测集 训练集 验证集 预测集

LLE 0.9431 1 0.0949 0.0263 1.114e-16 0.0263


注:R 表示决定系数,RMSE 表示均方根误差。
结合表 6.2 从总体来看,在 LLE-MLR 模型下,训练集的决定系数 R=0.9431,
均方根误差 RMSE=0.0263;验证集的决定系数 R=1,均方根误差 RMSE=1.114e-16;
预测集的决定系数 R=0.0949,均方根误差 RMSE=0.0263。通过上述分析,可知
Parent、GM1 和 GM2 的主成分分布分散且相互混叠,聚类特征不理想,仍然无法
有效地识别转基因大豆 THz 吸收谱特征。

97
武汉科技大学博士学位论文

图 6.6 FLLE-MLR 模型下的主成分三维得分图


FLLE-MLR 模型下的主成分三维得分图如图 6.6 所示,Parent、GM1 和 GM2
本身的主成分聚类特征均比较明显,但是 GM2 有一个聚类点比较分散。Parent
与 GM1 主成分距离尺度非常小,不具备较好的聚类特征,所有聚类点几乎完全
重叠,两者的聚类效果差;Parent 与 GM2 主成分距离尺度大,具备较好的聚类特
征,没有相互重叠的聚类点,两者的聚类效果较好;GM1 和 GM2 主成分距离尺
度大,具备较好的聚类特征,没有相互重叠的聚类点,两者的聚类效果较好。
表 6.3 MLR 回归模型下 FLLE 降维方法的预测精度
R/a.u. RMSE/a.u.
降维模型
训练集 验证集 预测集 训练集 验证集 预测集

FLLE 0.9672 0.9815 0.9133 0.0207 0.0155 0.0401


注:R 表示决定系数,RMSE 表示均方根误差。
结合表 6.3 从总体来看,在 FLLE-MLR 模型下,训练集的决定系数 R=0.9672,
均 方 根 误 差 RMSE=0.0207 ; 验 证 集 的 决 定 系 数 R=0.9815 , 均 方 根 误 差
RMSE=0.0155;预测集的决定系数 R=0.9133,均方根误差 RMSE=0.0401。通过上
述分析,可知 Parent、GM1 和 GM2 的主成分距离尺度较大,Parent 与 GM1 的主
成分几乎重叠,聚类特征不理想,仍然无法有效地识别转基因大豆 THz 吸收谱特
征。

98
武汉科技大学博士学位论文

图 6.7 PCA-PLSR 模型下的主成分三维得分图


PCA-PLSR 模型下的主成分三维得分图如图 6.7 所示,Parent、GM1 和 GM2
本身的主成分聚类特征均比较分散。Parent 和 GM1 主成分距离尺度大,具备较好
的聚类特征,Parent 有 3 个聚类特征被记入 GM1 的聚类特征,有相互重叠的聚类
点,两者的聚类效果较差;GM1 和 GM2 主成分距离尺度大,具备较好的聚类特
征,GM1 有 2 个聚类特征被记入 GM2 的聚类特征,有相互重叠的聚类点,两者
的聚类效果较差;Parent 和 GM2 主成分距离尺度大,具备较好的聚类特征,没有
相互重叠的聚类点,两者的聚类效果较好。
表 6.4 PLSR 回归模型下 PCA 降维方法的预测精度
R RMSE
降维模型
训练集 验证集 预测集 训练集 验证集 预测集
PCA 0.8581 0.7720 0.8535 0.0570 0.1349 0.0521
注:R 表示决定系数,RMSE 表示均方根误差。
结合表 6.4 从总体来看,在 PCA-PLSR 模型下,训练集的决定系数 R=0.8581,
均 方 根 误 差 RMSE=0.0570 ; 验 证 集 的 决 定 系 数 R=0.7720 , 均 方 根 误 差
RMSE=0.1349;预测集的决定系数 R=0.8535,均方根误差 RMSE=0.0521。通过上
述分析,可知 Parent、GM1 和 GM2 的主成分距离尺度具有较大的聚类特征,但
相互重叠,聚类特征不理想,仍然无法有效地识别转基因大豆 THz 吸收谱特征。

99
武汉科技大学博士学位论文

图 6.8 LLE-PLSR 模型下的主成分三维得分图


LLE-PLSR 模型下的主成分三维得分图如图 6.8 所示,Parent、GM1 和 GM2
本身的主成分聚类特征均比较分散。Parent 和 GM1 主成分距离尺度小,不具备较
好的聚类特征,聚类点相互重叠严重,两者的聚类效果很差;GM1 和 GM2 主成
分距离尺度小,不具备较好的聚类特征,聚类点相互重叠严重,两者的聚类效果
很差;Parent 和 GM2 主成分距离尺度小,不具备较好的聚类特征,聚类点相互重
叠严重,两者的聚类效果很差。
表 6.5 PLSR 回归模型下 LLE 降维方法的预测精度
R RMSE
降维模型
训练集 验证集 预测集 训练集 验证集 预测集

LLE 0.5785 1 0.1150 0.0972 6.3949e-17 0.1280


注:R 表示决定系数,RMSE 表示均方根误差。
结合表 6.5 从总体来看,在 LLE-PLSR 模型下,训练集的决定系数 R=0.5785,
均方根误差 RMSE=0.0972;验证集的决定系数 R=1,均方根误差 RMSE=6.3949e-17;
预测集的决定系数 R=0.1150,均方根误差 RMSE=0.1280。通过上述分析,可知
Parent、GM1 和 GM2 的主成分分布分散且相互混叠严重,聚类特征很不理想,仍
然无法有效地识别转基因大豆 THz 吸收谱特征。

100
武汉科技大学博士学位论文

图 6.9 FLLE-PLSR 模型下的主成分三维得分图


FLLE-PLSR 模型下的主成分三维得分图如图 6.9 所示,除了 GM2 有一个聚
类特征点以外,Parent、GM1 和 GM2 本身的主成分聚类特征均非常集中。Parent
和 GM1 主成分距离尺度大,具备很好的聚类特征,没有相互重叠的聚类点,两
者的聚类效果很好;GM1 和 GM2 主成分距离尺度大,具备很好的聚类特征,没
有相互重叠的聚类点,两者的聚类效果很好;Parent 和 GM2 主成分距离尺度大,
具备较好的聚类特征,没有相互重叠的聚类点,两者的聚类效果很好。
表 6.6 PLSR 回归模型下 FLLE 降维方法的预测精度
R RMSE
降维模型
训练集 验证集 预测集 训练集 验证集 预测集

FLLE 0.9999 0.9590 0.9966 7.051e-4 0.0464 0.0079


注:R 表示决定系数,RMSE 表示均方根误差。
结合表 6.6 从总体来看,在 FLLE-PLSR 模型下,训练集的决定系数 R=0.9999,
均 方 根 误 差 RMSE=7.051e-4 ; 验 证 集 的 决 定 系 数 R=0.9590 , 均 方 根 误 差
RMSE=0.0464;预测集的决定系数 R=0.9966,均方根误差 RMSE=0.0079。通过上
述分析可以发现,FLLE-PLSR 模型可以很好的提取出样品的太赫兹光谱特征参量
并聚集相似的特征,Parent、GM1 和 GM2 相互之间的主成分距离尺度大,聚类特
征很明显,能有效地识别转基因大豆 THz 吸收谱特征。
从表 6.1 至表 6.6 可以看出,针对 0.3~1.5THz 波段转基因大豆 THz 吸收谱光
谱数据降维和特征提取,在 MLR 模型下,PCA 降维方法优于 FLLE 和 LLE 降维
方法,在 PLSR 模型下,FLLE 降维方法优于 PCA 和 LLE 降维方法,并且 PLSR
模型下的 FLLE 降维方法优于 MLR 回归模型下的 PCA 降维方法。本文提出的

101
武汉科技大学博士学位论文
FLLE-PLSR 降维和特征提取模型的均方根误差 RMSE=0.0079 低于 THz 光谱领域
近 期 文 献 报 道 的 均 方 根 误 差 ( RMSE=0.0176[150] 、 RMSE=0.1107[151] 和
RMSE=0.128[152])。上述模型对比分析的结果表明,FLLE-PLSR 模型具有最高的
降维精度和最好的聚类效果,这意味着本文提出的方法对转基因大豆的太赫兹光
谱具有显着的降维效果,并能实现转基因大豆和非转基因大豆的准确识别。

6.5 结论

高维 THz 光谱数据降维和特征提取是通过光谱方法进行相似样品无损鉴别的
重要手段,也是定性分析和定量分析的必要环节,但是光谱数据降维和特征提取效
果受噪声干扰和数据冗余的影响较大。为了解决这些问题,本章提出了基于 Floyd
改进局部线性嵌入和偏最小二乘回归分析相结合的降维和特征提取方法,解决了转
基因大豆 THz 光谱数据维度大和非线性分布的问题。本章的主要工作概述如下:
(1)区别于传统基于线性变换的 PCA 降维和基于非线性变换的 LLE 降维,所
提出的 FLLE 降维方法基于样本稀疏和距离计算问题融入 Floyd 算法的测地线距离,
能够有效地从太赫兹光谱中提取光谱特征量。
(2)为了验证降维和特征提取效果,基于 THz 光谱数据的特征吸收峰的稀
疏性和高频随机噪声的特点,提出了一种改进测地距离非线性降维和偏最小二乘
回归相结合提取光谱特征的新方法,五重交叉验证方法保证了验证结果的可靠性
和准判定性。在此基础上,对 3 种不同转基因大豆的 36 个样品进行了 MLR 和 PLSR
建模分析。研究结果表明,本章提出的 FLLE-PLSR 模型具有最优的定性分析精
度,该方法能有效提取转基因大豆 THz 光谱数据的特征量,在农业安全检查和食
品监管中具有广泛的应用价值。

102
武汉科技大学博士学位论文

第 7 章 总结与展望

7.1 结论

在基于 THz 光谱技术的有机分子识别和光谱解析中,普遍存在背景噪声、光


源波动和实验条件差异等问题,给实验结果带来误差,多组 THz 信号的非线性、
冗余性和高维度客观上造成了光谱数据特征辨识和提取难度较大;经典的线性降
维和经验模态分解方法只适用于缓变 THz 光谱或者单分量 THz 光谱的时频表达,
其对于 THz 光谱的细节部分刻画能力不够;传统理论计算和分析方法存在几何优
化效果差和频率计算精度低等问题,其对团簇体系模拟仿真描述不准确,并在描
述分子间弱相互作用时难以确定弱相互作用区域和强度以及有效可视化。因此,
基于 THz 光谱技术,现有实验光谱数据处理和理论计算方法对有机分子(如转基
因大豆和羟基苯甲酸同分异构体)定性识别和光谱解析的效果较差,实现准确地
提取 THz 光谱数据特征和有效解析 THz 振动光谱还存在一定困难。
结合背景噪声下有机分子 THz 振动光谱数据特点,本文首先从微观(分子水
平)角度深入研究 3 种羟基苯甲酸同分异构体 THz 振动光谱吸收机理,然后提出
基于变分模态分解(VMD)的降噪方法以及基于 Floyd 改进局部线性嵌入的特征
提取方法,最后研究 3 种羟基苯甲酸同分异构体改进分类识别方法,进而拓展研
究 3 种转基因大豆和非转基因大豆改进分类识别方法,以实现有机分子在分子水
平特征“指纹”指认、分子内和分子间弱相互作用区域指示以及快速分类识别。本
文主要研究工作总结如下:
(1)从微观角度(分子水平)深入分析了羟基苯甲酸同分异构体与 THz 波
相互作用机制,通过分析 THz 实验光谱,发现邻-、间-和对-羟基苯甲酸在 0.6–2.0
THz 范围内出现了明显的特征吸收峰,即 3 种羟基苯甲酸同分异构体的特征“指
纹”;同时采用密度泛函理论计算了仿真光谱,结果表明理论吸收峰与 THz 实验
吸收峰吻合较好,在此基础上对羟基苯甲酸同分异构体团簇体系做势能分布分析,
详细描述了 3 种羟基苯甲酸同分异构体分子间和分子内简振振动模式,实现了理
论计算结果对实验特征“指纹”有效指认。
(2)将邻-、间-和对-羟基苯甲酸团簇体系弱相互作用视为电子密度和能量分
布差异问题,通过能量分解分析结合分子力场的方法将总作用能分解为静电、交
换互斥和色散 3 个分量,实现了对 3 种羟基苯甲酸同分异构体弱相互作用的定性
分析;在此基础上通过视觉分子动力学和相互作用区域指示两种可视化方法,实

103
武汉科技大学博士学位论文
现了氢键弱相互作用、范德华相互作用和位阻相互作用的图形可视化表达。
(3)将羟基苯甲酸同分异构体的 THz 测量信号降噪视为滤波问题,构建了
基于变分模态分解的粒子群优化改进支持向量机(VMD-PSO-SVM)分类模型。
利用自适应完全非递归维纳滤波组的方法,将单条源 THz 光谱分解为 8 个本征模
态分量,实现了 3 种羟基苯甲酸同分异构体 THz 时域光谱的高鲁棒性降噪。在此
基础上,提出了一种基于粒子群核函数参数优化和支持向量机相结合识别同分异
构体的方法,其中交叉验证方法保证了核函数参数优化结果的可靠性和准确性,
实现了 3 种羟基苯甲酸同分异构体的准确识别。经过对 120 组测量样本预测识别,
验证了本文提出的 VMD-PSO-SVM 模型分类准确率优于 EMD-PSO-SVM 模型,
此外,随着 IMF 数量增加,相应聚类模型的分类准确率总体呈现逐渐下降的趋
势。
(4)将转基因大豆的 THz 测量信号降维和特征提取视为稀疏化和距离计算
问题,提出了基于 Floyd 改进的局部线性嵌入特征提取方法。利用流行学习理论
框架中拓扑流行概念以及 Floyd 算法改进的欧氏距离公式进行距离计算,实现了
转基因大豆 THz 实验光谱数据的降维和特征提取。在此基础上利用偏最小二乘回
归分析处理特征光谱数据,实现了 3 种转基因大豆定性识别。经过验证,本文提
出的 FLLE-PLSR 模型特征提取精度(RMSE=0.0079)优于 PCA-MLR、PCA-PLSR、
LLE-MLR、LLE-PLSR 和 FLLE-MLR 模型,同时也优于 THz 光谱定性识别领域
近期文献报道的精度。

7.2 创新点

本文以基于太赫兹光谱技术的有机分子光谱定性识别和吸收机理为研究对象,
针对传统特征提取方法和理论计算分析方法存在的问题,以局部线性嵌入、Hilbert
变换和密度泛函理论为理论基础,从研究特征提取方法和能量分解方法入手,以
有机分子对 THz 波“共振”吸收为突破口,开展转基因大豆和羟基苯甲酸同分异
构体定性识别以及 THz 振动光谱吸收机理的理论和实验研究工作,主要创新点如
下:
(1)基于有机分子化学基团与 THz 波“共振”的关系,采用量子化学计算
(DFT)与实验测量(THz-TDS)相结合的方案,解决了邻-、间-和对-羟基苯甲
酸三种同分异构体 THz 特征“指纹”有效指认的问题;
(2)基于有机分子对 THz 波的吸收和色散信息与分子团簇体系弱相互作用
密切相关,采用视觉分子动力学和相互作用区域指示(IRI)两种可视化方法,解

104
武汉科技大学博士学位论文
决了邻-、间-和对-羟基苯甲酸三种同分异构体 THz 振动光谱正确解析的问题;
(3)基于自适应维纳滤波组和噪声鲁棒性的策略,采用变分模态分解(VMD)
的降噪方法,解决了非平稳短时频 THz 测量信号端点效应和模态混叠的问题,在
此基础上,结合粒子群优化-支持向量机(PSO-SVM)模型,解决了邻-、间-和对
-羟基苯甲酸三种同分异构体定性识别的问题;
(4)基于优化理论框架和局部邻近样本间线性关系,提出了基于 Floyd 改进
的非线性降维和特征提取方法,解决了 THz 测量信号高维冗余非线性的问题,在
此基础上,结合偏最小二乘回归分析,解决了转基因大豆和非转基因大豆快速无
损鉴别的问题。

7.3 展望

特征提取是背景噪声下物质 THz 吸收光谱定性识别的重要手段,并且从微观


角度(主要是分子水平)深入分析物质 THz 特征“指纹”一直是该领域追求的目
标。尽管本文在量子化学计算和振动模式分解、团簇体系弱相互作用区域指示、
非线性降维和特征提取以及变分模态分解降噪等方面做了充分的研究工作,对实
验数据分析和理论计算都取得了比较理想的效果。更重要的是,本文提出的部分
理论模型和技术方案,在机械系统监测、仪器软件系统和生物传感芯片等领域具
有重要的指导意义。鉴于本文研究内容的广度和深度,依然存在一些不足,本文
后续研究工作有必要在以下几个方面进行深入研究:
(1)解决量子化学计算时间成本高和精度偏低的问题。本文基于 Windows
环境下,采用 Gaussian16 计算了羟基苯甲酸同分异构体 7 分子团簇体系,单个模
型平均耗时一周,且未考虑周期性边界条件,给理论计算成本和精度造成一定影
响。因此,后续研究工作将探索比 DFT 更有效的模拟计算方法。此外,可以使用
更加严谨和专业的晶体结构模拟软件作为计算工具,如 Crystal、CrystalMaker、
Hyperchem 和 LAMMPS。
(2)拓展多种具有代表性的检测对象。本文 THz 检测对象仅限于部分转基
因生物材料和标准化学样品,普适性有待提升,因此,后续研究工作检测对象可
以拓展为氨基酸及其衍生物、金属有机骨架结构(MOFs)和共价有机框架结构
(COFs)等新材料领域。
(3)解决材料多组分定量分析的问题。本文采用 THz 测量信号降噪、数据
降维和特征提取结合机器学习实现了不同型转基因大豆以及羟基苯甲酸同分异构
定性识别,有一定的局限性。实际应用中研究对象所包含成分的数量关系或所具

105
武汉科技大学博士学位论文
备性质间的数量关系往往是关注的重点,因此,后续研究工作将检测对象多组分
定量分析展开。

106
武汉科技大学博士学位论文

参考文献

[1] 国际农业生物技术应用服务组织, 张恬编译, 张宏翔译校. 2019 年全球生物技术


/转基因作物商业化发展态势[J]. 中国生物工程杂志, 2021, 41(1): 114-119.
[2] 段灿星, 孙素丽, 朱振东. 全球转基因作物的发展状况[J]. 科技传播, 2021, 12:
29-31.
[3] 侯军岐, 黄珊珊. 全球转基因作物发展趋势与中国产业化风险管理[J]. 西北农
林科技大学学报(社会科学版), 2020, 20(6): 104-111.
[4] 郭慧敏, 李涛, 王建龙. 转基因作物全球发展现状及检测技术研究进展[J]. 食品
安全质量检测学报, 2017, 8(12): 4870-4876.
[5] 刘阳, 严耕. 转基因作物推广争议的成因及"反转"氛围的形成机理分析[J]. 自然
辩证法通讯, 2021, 43(1):108-114.
[6] 杨树果. 全球转基因作物发展演变与趋势[J]. 中国农业大学学报, 2020, 25(9):
13-26.
[7] Djordjevic S, Antić S, Jovanović E Đ, et al. Ecological Labels in the Textile Industry
[J]. Knowledge-International Journal, 2017, 19(4): 1701-1706.
[8] Bohringer A. Quality assurance with Eco-Tex standard 100[J]. International Textile
Bulletin-English Edition, 2002, 48(3): 33-37.
[9] 王显方. 生态纺织品的国际标准[J]. 中国纺织, 2008 (3): 104-106.
[10] 张长欢, 陈丽华. 生态纺织品及其标准的发展[J]. 中国个体防护装备, 2009 (1):
27-32.
[11] 沈日炯. 染料产品中致癌芳香胺限量标准的制定和 Eco—Tex Standard100 标
准的关系[J]. 化工标准. 计量. 质量, 2001 (11): 3-6.
[12] Aref E, Mir K P, Hadi A, Nesa G, Sajad P. Application of cellulose plate modified
with encapsulated Cinnamomum zelanicum essential oil in active packaging of walnut
kernel[J]. Food Chemistry, 2022, 381: 132246.
[13] Langer J, Dorleta J A, Javier A, Ramon A P, et al. Present and Future of
Surface-Enhanced Raman Scattering[J]. ACS Nano, 2020, 14(1): 28-117.
[14] Ahmed M N, Nadeem K, Andleeb H, et al. Exploring weak intermolecular
interactions in two bis-1,3,4-oxadiazoles derivatives: A combined X-ray diffraction,
Hirshfeld surface analysis and theoretical studies[J]. Journal of Molecular Structure,
2021, 1232:130030.

107
武汉科技大学博士学位论文
[15] Kouzov A P, Egorova N I, Dobrotvorskaya A N. A "Dipole–Induced Dipole"
Quantum Model and the Effect of an Inert Environment on the Intensity of Infrared
Absorption[J]. Optics and Spectroscopy, 2019, 127(2): 212-217.
[16] Kieserling H, Pankow A, Keppler J K, et al. Conformational state and charge
determine the interfacial film formation and film stability of β-lactoglobulin[J]. Food
Hydrocolloids, 2020, 114: 106561.
[17] Menezes R, LGMD Macedo, Martins J, et al. Investigation of strength and nature
of the weak intermolecular bond in NH2 radical-noble gas atom adducts and evaluation
of their basic spectroscopic features[J]. Chemical Physics Letters, 2021, 769:138386.
[18] Xing L, Dou Z G, Yang B, Cao X W, et al. Investigation of intermolecular
interactions in organic solutions by combining two-dimensional correlation Raman
spectroscopy and DFT simulation: Example of methanol and Chloralkane[J], Journal
of Molecular Liquids, 2021, 343: 117147.
[19] Jing Z, Chen K Q, He J, et al. Intermolecular vibrational energy transfer enabled
by microcavity strong light-matter coupling[J]. Science, 2020, 368(6491): 665-+.
[20] Das M, Dutta P, Giri S, et al. Octahedral tilting and emergence of ferrimagnetism
in cobalt-ruthenium based double perovskites[J]. Journal of Physics: Condensed Matter,
2019, 31(38): 385801-3858015.
[21] Tang Z, Fujimoto K, Okazaki S. All-atom molecular dynamics study of impact
fracture of glassy polymers. II: Microscopic origins of stresses in elasticity, yielding,
and strain hardening[J]. Polymer, 2020: 122908.
[22] Ma A, Wk A, Ma A, et al. Correlation between structure, dielectric and
multiferroic properties of lead free Ni modified BaTiO 3 solid solution[J]. Ceramics
International, 2020, 46( 17): 27336-27351.
[23] Georgantzinos S K, Siampanis S G. Size-dependent elastic mechanical properties
of γ-graphyne structures: A comprehensive finite element investigation[J]. Materials &
Design, 2021, 202(6348): 109524.
[24] Kim J G, Choi E H, Lee Y, et al. Femtosecond X-ray Liquidography Visualizes
Wavepacket Trajectories in Multidimensional Nuclear Coordinates for a Bimolecular
Reaction[J]. Accounts of Chemical Research, 2021, 54(7): 1685-1698.
[25] Bian Y, X Zhang, Zhu Z, et al. Vibrational modes optimization and terahertz
time-domain spectroscopy of L-Lysine and L-Lysine hydrate[J]. Journal of Molecular
Structure, 2021, 1232: 129952.

108
武汉科技大学博士学位论文
[26] Purschke D N, Pielmeier M R P, Uezer E, et al. Ultrafast Photoconductivity and
Terahertz Vibrational Dynamics in Double-Helix SnIP Nanowires[J]. Advanced
Materials, 2021, 33(34): 2100978.
[27] Zhang Z Y, Fan F, Shi W N, et al. Terahertz circular polarization sensing for
protein denaturation based on a twisted dual-layer metasurface[J]. Biomedical Optics
Express, 2022, 13(1): 209-221.
[28] Zhang Q, Chen T, Ma L J, et al. Decoding the terahertz spectrum of allantoin
crystal using DFT simulations and energy decomposition analysis[J]. Chemical
Physics Letters, 2021, 767: 138350.
[29] Sasaki T, Kushida H, Sakamoto M, Noda K, et al. Liquid crystal cells with
subwavelength metallic gratings for transmissive terahertz elements with electrical
tunability[J]. Optics Communications, 2019, 431: 63-67.
[30] Wang Y, Yu Y, Liao H, et al. The Chemistry and Applications of Heteroisoindigo
Units as Enabling Links for Semiconducting Materials[J]. Accounts of Chemical
Research, 2020, 53(12): 2855-2868.
[31] Zaytsev K I, Dolganova I N, Chernomyrdin N V, et al. The progress and
perspectives of terahertz technology for diagnosis of neoplasms: a review[J]. Journal
of Optics, 2020, 22(1): 013001.
[32] Soglia F , Silva A K , Lio L M , et al. Effect of broiler breast abnormality and
freezing on meat quality and metabolites assessed by 1 H-NMR spectroscopy[J].
Poultry Science, 2019, 98(12): 7139-7150.
[33] Yang Y N, Han B, Yang P F, et al. A concise approach for determining the
1
relative configuration of H-7 and H-8 in 8,4′-oxyneolignans by H NMR
spectroscopy[J]. Organic Chemistry Frontiers, 2019, 6(7): 886-891.
[34] Tu S, Wang Z G, Zhang W T, et al. Study of Weak Intermolecular Interactions and
Vibrational Modes in Hydroxybenzoic Acid Isomers using Terahertz Spectroscopy and
Density Functional Theory Techniques[J]. Infrared Physics and Technology, 2021, 119:
103950.
[35] Wang F, Xun X L, Zan J N, et al. Terahertz spectra and weak intermolecular
interactions of nucleosides or nucleoside drugs[J]. Spectrochimica Acta Part A:
Molecular and Biomolecular Spectroscopy, 2021, 265: 120344.
[36] Tu S , Zhang W T , Xiong X M , et al. Principal Component Analysis for
Transgenic Cotton Seeds Based on Terahertz Time Domain Spectroscopy System[J].

109
武汉科技大学博士学位论文
Acta Photonica Sinica, 2015, 44(4): 176-181.
[37] Chen T , Zhang Q , Li Z , et al. Intermolecular weak interactions of crystalline
purine and uric acid investigated by terahertz spectroscopy and theoretical
calculation[J]. Journal of Luminescence, 2020, 223: 117198.
[38] 姚建铨, 路洋, 张百钢, 王鹏. THz 辐射的研究和应用新进展[J]. 光电子·激
光, 2005, 16(4): 503-510.
[39] 傅晓建, 石磊, 崔铁军. 太赫兹超材料及其成像应用研究进展[J]. 材料工程,
2020, 48(6): 12-22.
[40] 张彩虹, 吴敬波, 金飚兵. 太赫兹超导人工电磁超材料的研究进展[J]. 中国
激光, 2019, 46(6): 0614005.
[41] Chen T, Zhong X, Li Z, et al. Analysis of Intermolecular Weak Interactions and
Vibrational Characteristics for Vanillin and Ortho-Vanillin by Terahertz Spectroscopy
and Density Functional Theory[J]. IEEE Transactions on Terahertz Science and
Technology, 2021, 11(3): 318-329.
[42] Hijas K M, Kumar S M, Manjunath B C, et al. Vibrational analysis and physical
property studies of 6-Methoxy-2-[(E)-phenyliminomethyl]-phenol in the THz, IR and
UV–visible spectral regions[J]. Spectrochimica Acta Part A: Molecular and
Biomolecular Spectroscopy, 2019, 222: 117227.
[43] Bian Y J, Zhang X, Zhu Z Q, Yang B. Vibrational modes optimization and
terahertz time-domain spectroscopy of L-Lysine and L-Lysine hydrate[J]. Journal of
Molecular Structure, 2021, 1232: 129952.
[44] He J W, He X J, Dong T, et al. Recent progress and applications of terahertz
metamaterials[J]. Journal of Physics D: Applied Physics, 2022, 55(12): 123002.
[45] Huang L J, Zhang X, Zhang Z Y. Fingerprint characterization of M-EDTA
complexes and iron compounds using terahertz time-domain spectroscopy [J]. Journal
of Molecular Structure, 2020, 1204: 127515.
[46] Lee S H, Lee Y K, Lee S H, Kwak J, Song H S, Seo M. Detection and
discrimination of SARS-CoV-2 spike protein-derived peptides using THz
metamaterials. [J]. Biosensors & Bioelectronics, 2022, 202: 113981.
[47] Wang N, Chang T Y, Cui H L. Nondestructive inspection of packaged
microcircuits by aperture-type terahertz near-field imaging[J]. Journal of Physics D:
Applied Physics, 2022, 55(18): 185105.
[48] Yuan Y, Kong D P, Guan L, Wang L L. A novel microstructured polymer tube for

110
武汉科技大学博士学位论文
THz vortex beams guidance [J]. Optics Communications, 2022, 505: 127502.
[49] Boccia F , Punzo G . A choice experiment on consumer perceptions of three
generations of genetically modified foods[J]. Appetite, 2021, 161(1):105158.
[50] Asrey R , Barman K , Prajapati U , et al. Genetically modified fruit and vegetable -
An overview on senescence regulation, postharvest nutraceutical quality preservation and
shelf life extension[J]. Journal of Horticultural Science and Biotechnology, 2020:1-17.
[51] West A L , Miles E A , Lillycrop K A , et al. Genetically modified plants are an
alternative to oily fish for providing n‐3 polyunsaturated fatty acids in the human diet:
A summary of the findings of a Biotechnology and Biological Sciences Research Council
funded project[J]. Nutrition Bulletin. 2020. DOI: 10.1111/nbu.12478.
[52] Szenkovics D , Tonk M , Balog A . Can genetically modified (GM) crops act as
possible alternatives to mitigate world political conflicts for food?[J]. Food and Energy
Security. 2021, DOI: 10.1002/fes3.268.
[53] Addey K A . The cost of partners' genetically modified organisms regulatory index
on U.S. corn and soybean exports[J]. Food and Energy Security, 2020, 10(1): 1-13.
[54] Xiao B , Niu C , Shang Y , et al. A 'Turn-on' Ultra-sensitive Multiplex Real-time
Fluorescent Quantitative Biosensor Mediated by a Universal Primer and Probe for the
Detection of Genetically Modified Organisms[J]. Food Chemistry, 2020, 330:127247.
[55] Huang J , Qiu H , Bai J , et al. Awareness, acceptance of and willingness to buy
genetically modified foods in Urban China[J]. Appetite, 2006, 46(2):144-151.
[56] Wang KQ, Sun DW, Pu HB. Emerging non-destructive terahertz spectroscopic
imaging technique: Principle and applications in the agri-food industry[J]. Trends in
Food Science & Technology, 2017, 67: 93-15.
[57] Liu JJ, Fan LL, et al. Application of terahertz spectroscopy and chemometrics for
discrimination of transgenic camellia oil.[J]. Spectrochimica Acta Part A Molecular &
Biomolecular Spectroscopy, 2018, 206: 165-169.
[58] Yan L , Liu CH , Qu H , et al. Discrimination and Measurements of Three Flavonols
with Similar Structure Using Terahertz Spectroscopy and Chemometrics[J]. Journal of
Infrared, Millimeter and Terahertz Waves, 2018.
[59] Huang XB, Huang PJ, Li X, Ma YH, Hou DB, Zhang GX. Analysis of terahertz time
domain spectroscopy of mixtures based on indirect hard modeling method[J].
Spectroscopy and Spectral Analysis. 2017, 37(10):3021-3026.
[60] Zhang H, Li Z, Chen T, et al. Quantitative determination of Auramine O by terahertz

111
武汉科技大学博士学位论文
spectroscopy with 2DCOS-PLSR model[J]. Spectrochimica Acta Part A: Molecular and
Biomolecular Spectroscopy, 2017, 184: 335-341.
[61] Jiang Yuying, Ge Hongyi, Zhang Yuan. Quantitative determination of maltose
concentration in wheat by using terahertz imaging[J]. Spectroscopy and Spectral
Analysis. 2018, 38(10):3017-3022.
[62] Wang Y, Zhai S, Zhou N, Jia PX, Zhang JG. Classification of terahertz rosewood
based on continuous projection algorithm and random forest[J]. Spectroscopy and
Spectral Analysis. 2019, 39(9):2719-2724.
[63] Liang L, Tang SF, Tong MM, Dong HB. Study on the detection method of the
granularity of pulverized coal based on THz Time-Domain chaos features[J].
Spectroscopy and Spectral Analysis 2019, 39(5):1392-1397.
[64] Hu X , Lang W , Liu W , et al. A Non-destructive Terahertz Spectroscopy-Based
Method for Transgenic Rice Seed Discrimination via Sparse Representation[J]. Journal
of infrared, millimeter and terahertz waves, 2017, 38(8):1-12.
[65] Sun YW, Zhong JL, Zuo J, et al. Principal component analysis of terahertz spectrum
on hemagglutinin protein and its antibody[J]. Acta Physica Sinica, 2015(16): 448-454.
[66] Zhang WT, Li YW, Zhan PP, et al. Recognition of transgenic soybean oil based on
terahertz time-domain spectroscopy and PCA-SVM[J]. Infrared and Laser Engineering,
2017, 46(11): 159-164.
[67] Liu JX, Du B, Deng YQ, et al. Terahertz-Spectral Identification of Organic
Compounds Based on Differential PCA-SVM Method[J]. Chinese Journal of Lasers,
2019, 46(6): 046(006):336-343.
[68] Tenenbaum J, De-Silva V, Langford J. A global geometric framework for nonlinear
dimensionality reduction[J]. Science, 2000, 290(5500): 2319-2323.
[69] Roweis ST, Saul LK. Nonlinear dimensionality reduction by locally linear
embedding[J]. Science, 2000, 290(5500):2323-2326.
[70] Fyl A, YMD B, Fhc C, et al. Lead bismuth oxybromide/graphene oxide: Synthesis,
characterization, and photocatalytic activity for removal of carbon dioxide, crystal violet
dye, and 2-hydroxybenzoic acid[J]. Journal of Colloid and Interface Science, 2020, 562:
112-124.
[71] Siao C W, Chen H L, Chen L W, et al. Controlled hydrothermal synthesis of bismuth
oxychloride/bismuth oxybromide/bismuth oxyiodide composites exhibiting visible-light
photocatalytic degradation of 2-hydroxybenzoic acid and crystal violet[J]. Journal of

112
武汉科技大学博士学位论文
colloid and interface science, 2018, 526: 322-336.
[72] Jiang J, Han J, Zhang X. Nonhalogenated aromatic DBPs in drinking water
chlorination: a gap between NOM and halogenated aromatic DBPs[J]. Environmental
science & technology, 2020, 54(3): 1646-1656.
[73] Tarun B, Praveen D, et al. Optimization extraction conditions for improving
phenolic content and antioxidant activity in Berberis asiatica fruits using response
surface methodology (RSM)[J]. Food Chemistry, 2016, 207: 115-124.
[74] Wang D J, Ho L, Faith J, et al. Role of intestinal microbiota in the generation of
polyphenol‐derived phenolic acid mediated attenuation of Alzheimer's disease β‐
amyloid oligomerization[J]. Molecular Nutrition & Food Research, 2015,
59(6):1025-1040.
[75] Belwal T, Dhyani P, Bhatt I D, et al. Optimization extraction conditions for
improving phenolic content and antioxidant activity in Berberis asiatica fruits using
response surface methodology (RSM)[J]. Food chemistry, 2016, 207: 115-124.
[76] Barreca D, LaganàG, Leuzzi U, et al. Evaluation of the nutraceutical, antioxidant
and cytoprotective properties of ripe pistachio (Pistacia vera L., variety Bronte) hulls[J].
Food chemistry, 2016, 196: 493-502.
[77] Fischer U A, Carle R, Kammerer D R. Identification and quantification of phenolic
compounds from pomegranate (Punica granatum L.) peel, mesocarp, aril and differently
produced juices by HPLC-DAD-ESI/MS n. Food Chem[J]. Food Chemistry, 2011,
127(2): 807-821.
[78] Ximenes E , Kim Y , Mosier N , et al. Deactivation of cellulases by phenols[J].
Enzyme & Microbial Technology, 2011, 48(1):54-60.
[79] Lepodise L M, Horvat J, Lewis R A. Terahertz (6-15THz) Spectroscopy and
Numerical Modeling of Intermolecular Vibrations in Benzoic Acid and Its Derivatives[J].
Applied Spectroscopy, 2015, 69(5): 590-596.
[80] Walther M, Plochocka P, Fischer B M, et al. Collective vibrational modes in
biological molecules investigated by terahertz time-domain spectroscopy[J].
Biopolymers, 2010, 67(4-5): 310-313.
[81] Wang Q, Xue J, Hong Z, et al. Pharmaceutical Cocrystal Formation of Pyrazinamide
with 3-Hydroxybenzoic Acid: A Terahertz and Raman Vibrational Spectroscopies
Study[J]. Molecules, 2019, 24(3).
[82] Du Y, Zhang H, Xue J, et al. Raman and terahertz spectroscopical investigation of

113
武汉科技大学博士学位论文
cocrystal formation process of piracetam and 3-hydroxybenzoic acid[J]. Spectrochimica
Acta Part A Molecular & Biomolecular Spectroscopy, 2015, 139: 488-494.
[83] Bian Y, X Zhang, Zhu Z, et al. Vibrational modes optimization and terahertz
time-domain spectroscopy of L-Lysine and L-Lysine hydrate[J]. Journal of Molecular
Structure, 2021, 1232: 129952.
[84] Yamaguchi M, Miyamaru F, Yamamoto K, Tani M, Hangyo M. Terahertz absorption
spectra of L-, D-, and DL-alanine and their application to determination of enantiometric
composition[J]. Applied Physics Letters, 2005, 86(5): 053903.
[85] Fu R, Li Z, Jin B B, et al. A Study of Vibrational Spectra of L-, D-, DL-Alanine in
Terahertz Domain[J]. Spectroscopy and Spectral Analysis, 2010, 30(8): 2023-2026.
[86] Zhang F, Tominaga K, Hayashi M, Tani M. A Quantitative Interpretation for the
Difference of Terahertz Spectra of DL- and L-Alanine: Origins of Infrared Intensities in
Terahertz Spectroscopy[J]. Journal of Physical Chemistry C, 2021, 125(29):
16175-16182.
[87] Rahimi R, Khosravi M, Tehrani M H H. Solid-Phase Peptide Synthesis of Dipeptide
(Histidine-beta-Alanine) as a Chelating Agent by Using Trityl Chloride Resin, for
Removal of Al3+, Cu2+, Hg2+ and Pb2+: Experimental and Theoretical Study[J].
Journal of the Brazilian Chemical Society, 2016, 27(10): 1814-1819.
[88] 孙金海. 用太赫兹时域光谱技术对玉米和系列毒品的研究[D]. 首都师范大学,
2005.
[89] 涂闪. 基于太赫兹光谱技术的转基因农产品无损鉴别方法研究[D]. 桂林电子
科技大学, 2015.
[90] Liu H B. Terahertz spectroscopy for chemicals and biological sensing
applications[M]. Rensselaer Polytechnic Institute, 2006.
[91] Dorney T D, Baraniuk R G, Mittleman D M. Material parameter estimation with
terahertz time-domain spectroscopy[J]. JOSA A, 2001, 18(7): 1562-1571.
[92] Duvillaret L, Garet F, Coutaz J L. A reliable method for extraction of material
parameters in terahertz time-domain spectroscopy[J]. IEEE Journal of selected topics
in quantum electronics, 1996, 2(3): 739-746.
[93] Adams J F, Priddy S B. Mathematical proceedings of the cambridge philosophical
society[J]. 1927.
[94] Fermi E. Un metodo statistico per la determinazione di alcune priorieta
dell’atome[J]. Rend. Accad. Naz. Lincei, 1927, 6(602-607): 32.

114
武汉科技大学博士学位论文
[95] Hohenberg P, Kohn W. Inhomogeneous electron gas[J]. Physical review, 1964,
136(3B): B864.
[96] Kohn W, Sham L J. Self-consistent equations including exchange and correlation
effects[J]. Physical review, 1965, 140(4A): A1133.
[97] Becke A D. Perspective: Fifty years of density-functional theory in chemical
physics[J]. The Journal of chemical physics, 2014, 140(18): 18A301.
[98] Perdew J P, Chevary J A, Vosko S H, et al. Atoms, molecules, solids, and surfaces:
Applications of the generalized gradient approximation for exchange and correlation[J].
Physical review B, 1992, 46(11): 6671.
[99] Langreth D C, Mehl M J. Beyond the local-density approximation in calculations
of ground-state electronic properties[J]. Physical Review B, 1983, 28(4): 1809.
[100] Groom C R. Data-Driven High-Throughput Prediction of the 3-D Structure of
Small Molecules: Review and Progress. A Response from The Cambridge
Crystallographic Data Centre[J]. Journal of Chemical Information and Modeling, 2011,
51(11): 2787.
[101] Wright A M, Joe L V, Howard A A, et al. Spectroscopic and computational
insight into weak noncovalent interactions in crystalline pyrimidine[J]. Chemical
Physics Letters, 2011, 501(4): 319-323.
[102] Humphrey W, Dalke A, Schulten K. VMD: Visual molecular dynamics[J].
Journal of Molecular Graphics, 1996, 14(1): 33-38.
[103] Grimme S, Antony J, Ehrlich S, et al. A consistent and accurate ab initio
parametrization of density functional dispersion correction (DFT-D) for the 94
elements H-Pu[J]. The Journal of Chemical Physics, 2010, 132(15): 154104.
[104] 张琴. 嘌呤及其衍生物的太赫兹光谱弱相互作用研究[D]. 桂林电子科技大
学, 2020.
[105] Jamróz M H. Vibrational Energy Distribution Analysis (VEDA): Scopes and
limitations[J]. Spectrochimica Acta Part A Molecular & Biomolecular Spectroscopy,
2013, 114: 220-230.
[106] Baxter J B, Guglietta G W. Terahertz spectroscopy[J]. Analytical chemistry, 2011,
83(12): 4342-4368.
[107] Plusquellic D F, Siegrist K, Heilweil E J, et al. Applications of terahertz
spectroscopy in biosystems[J]. ChemPhysChem, 2007, 8(17): 2412-2431.
[108] Lu T, Chen F W. Multiwfn: a multifunctional wavefunction analyzer[J]. Journal

115
武汉科技大学博士学位论文
of Computational Chemistry. 2012, 33(5): 580–592.
[109] Chen Z Q, Han R L, Zhong C P. Adsorption of fluoroquinolone by carbon
nanotubes: a combined experimental and density functional theory study[J]. Chemical
Papers, 2020, 74(11): 3847-3856.
[110] Lu T, Liu Z, Chen Q. Comment on “18 and 12–Member carbon rings (cyclo [n]
carbons)–A density functional study”[J]. Materials Science and Engineering: B, 2021,
273: 115425.
[111] Lu T, Chen F. Multiwfn: a multifunctional wavefunction analyzer[J]. Journal of
computational chemistry, 2012, 33(5): 580-592.
[112] Humphrey W, Dalke A, Schulten K. VMD: visual molecular dynamics[J].
Journal of molecular graphics, 1996, 14(1): 33-38.
[113] Johnson E R, Keinan S, Mori-Sánchez P, Contreras-Garcı´a J, Cohen A J, Yang
W. Revealing noncovalent interactions[J]. Journal of the American Chemical Society,
2010, 132(18): 6498-6506.
[114] Lu T, Chen Q. Interaction region indicator: A simple real space function clearly
revealing both chemical bonds and weak interactions[J]. Chemistry‐Methods, 2021,
1(5): 231-239.
[115] Huang N E , Shen Z , Long S R , et al. The empirical mode decomposition and
the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].
Proceedings Mathematical Physical & Engineering Sciences, 1998, 454:903-995.
[116] Liang H , Lin Q H , Chen J D . Application of the empirical mode decomposition
to the analysis of esophageal manometric data in gastroesophageal reflux disease[J].
Conf Proc IEEE Eng Med Biol Soc, 2005, 52(10):620-623.
[117] Delechelle E , Lemoine J , Niang O . Empirical mode decomposition: an
analytical approach for sifting process[J]. IEEE Signal Processing Letters, 2005,
12(11):764-767.
[118] 王婷. EMD 算法研究及其在信号去噪中的应用[D]. 哈尔滨工业大学, 2010.
[119] Dragomiretskiy K, Zosso D. Variational Mode Decomposition[J]. IEEE
Transactions on Signal Processing, 2014, 62(3): 531-544.
[120] Bertsekas D P, Multiplier methods: A survey[J]. Automatica, 1976:,12(2):
133-145.
[121] Nocedal J, Wright S J, Mikosch T V, et al. Numerical Optimization[J]. Springer,
1999.

116
武汉科技大学博士学位论文
[122] Vapnik V. The nature of statistical learning theory[M]. New York:
Springer-Verlag, 1995, 20(3):273-297.
[123] 李航著. 统计学习方法[M]. 北京: 清华大学出版社, 2012.
[124] Sundhararajan S, Pahwa A, Krishnaswami P. A comparative analysis of genetic
algorithms and directed grid search for parametric optimization[J]. Engineering with
Computers, 1998, 14(3):197-205.
[125] Cao Y, Zhang H, Li W, et al. Comprehensive Learning Particle Swarm
Optimization Algorithm With Local Search for Multimodal Functions[J]. IEEE
Transactions on Evolutionary Computation, 2019, 23(4):718-731.
[126] 黎远鹏. 基于荧光高光谱成像和机器学习的胃癌早期诊断方法研究[D]. 暨
南大学, 2019.
[127] Abad J M N, Alizadeh R, Fattahi A, et al.Analysis of transport processes in a
reacting flow of hybrid nanofluid around a bluff-body embedded in porous media
using artificial neural network and particle swarm optimization[J]. Journal of
Molecular Liquids, 2020, 313.
[128] Sibalija T V. Particle swarm optimisation in designing parameters of
manufacturing processes: A review (2008–2018)[J]. Applied Soft Computing, 2019, 84:
105743-105743.
[129] Wang L H, Wang Y X, Zhao Z R. The removal of echo signals in terahertz
time-domain spectroscopy[J]. J. Infrared Millim. Waves, 2013, 32(3):265-276.
[130] Tu S, Wang Z G, Zhang W T, et al. Study of weak intermolecular interactions
and vibrational modes in hydroxybenzoic acid isomers using terahertz spectroscopy
and density functional theory techniques[J]. Infrared Physics & Technology, 2021, 119.
[131] Yi C C, Tuo S, Tu S, Zhang W T. Improved fuzzy C-means clustering algorithm
based on t-SNE for terahertz spectral recognition[J]. Infrared Physics & Technology,
2021, 117.
[132] Li Y R, Yang K M, Gao W, et al. A spectral characteristic analysis method for
distinguishing heavy metal pollution in crops: VMD-PCA-SVM[J]. Spectrochimica
Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 255.
[133] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016
[134] Carroll J D, Arabie P. Multidimensional scaling[J]. Annual Review of
Psychology, 1980, 45(2): 182-182.
[135] Kruskal J B, Wish M, Uslaner E M. Multidimensional scaling[J]. Book on

117
武汉科技大学博士学位论文
Demand Pod, 1978.
[136] Pearson K. On lines and planes of closest fit to systems of points in space[J].
Philosophical Magazine, 1901, 2(11):559-572.
[137] Başar E, Ungan P. A component analysis and principles derived for the
understanding of evoked potentials of the brain: Studies in the hippocampus[J].
Kybernetik, 1973, 12(3):133-140.
[138] Schölkopf B, Smola A, Müller K R. Nonlinear Component Analysis as a Kernel
Eigenvalue Problem[J]. Neural Computation, 1998, 10(5): 1299-1319.
[139] Tenenbaum J B, Silva V D, Langford J C. A Global Geometric Framework for
Nonlinear Dimensionality Reduction[J]. Science, 2000, 290(5500): 2319-2323.
[140] Roweis, Sam, T, et al. Nonlinear Dimensionality Reduction by Locally Linear
Embedding.[J]. Science, 2000, 290(5500): 2323-2326.
[141] 邹艳, 黄天民. 一种基于改进距离的 LLE 算法[J]. 西南民族大学学报自然
科学版, 2012. 38(3): 362-365.
[142] Lyu D, Chen Z, Cai Z, et al. Robot path planning by leveraging the
graph-encoded Floyd algorithm[J]. Future Generation Computer Systems, 2021,
122(7).
[143] Edwards T R. Multiple linear regression analysis[M]. 1980.
[144] Lin Z C, Wu W J. Multiple linear regression analysis of the overlay accuracy
model[J]. IEEE Transactions on semiconductor Manufacturing, 1999, 12(2):229-237.
[145] Wold S, Kettaneh-Wold N, Skagerberg B. Nonlinear PLS modeling [J].
Chemometrics and Intelligent Laboratory Systems, 1989, 7:53-56.
[146] 孙凤林. 偏最小二乘回归法非线性建模及其递推算法的研究[D]. 华南理工
大学, 2010.
[147] Xu Q S, Liang Y Z, Shen H L. Generalized PLS regression[J]. Journal of
Chemometrics, 2002, 15: 135-148.
[148] Liu X F,Li Q Z,Li R,Li W Z,Cheng J B. The structure, properties, and nature
of HArF–benzene complex: Redshift and blueshift of Ar–H stretch frequency and
rare gas atomic number dependence of hydrogen bonds[J]. Spectrochimica Acta Part A:
Molecular and Biomolecular Spectroscopy, 2011, 84(1): 68-73.
[149] Xie LJ. Nondestructive detection of transgenic tomato based on visible and near
infrared spectroscopy[D]. Hangzhou: Zhejiang University, 2009.
[150] Chen T, Li Z, Mo W, Hu FR. Simultaneous quantitative determination of drug

118
武汉科技大学博士学位论文
components by terahertz time-domain spectroscopy[J]. Spectroscopy and Spectral
Analysis, 2013, 33(5): 1220-1225.
[151] Tan Z J, Chen Y, Xie J, Cai W L, Shi SL. Detection of pests during grain storage
by using terahertz time-domain spectroscopy[J]. Journal of the Chinese Cereals and
Oils Association, 2015, 30(6): 125-129.
[152] Yang H H, Qin F, Wang Y, Wu Y M, Shi X H, Liang Q L, Wang Y M, Luo G A.
LLE-PLS nonlinear modeling method for near infrared spectroscopy and its
application[J]. Spectroscopy and Spectral Analysis, 2007, 27(10): 1955-1958.

119
武汉科技大学博士学位论文

致 谢

岁月如梭,匆匆三载已成过去。值此论文完稿之际,衷心感谢一直以来对我
支持和帮助的老师、亲人和朋友,是你们一直给我前进的动力和勇气!
首先,我要感谢我的导师王志刚教授。自从我踏进实验室,王老师就一直是
指引我前行的明灯,您严谨的治学态度、丰富的科研经验和踏实的工作作风无时
无刻不在影响着我,无论从做人还是做事上都为我树立了标杆。在实验室学习的
三年时间里,您在学术上给予了很多的关心和指导,在 THz 检测技术和量子化学
计算方面,您经常与我探讨方法的可行性和研究的创新点,指出当前理论研究的
热点和难点,不同方法的适用对象和存在的问题,竭力为论文的顺利进行提供有
利的实验条件,尤其是在指导我撰写论文和申报基金方面付出了大量的心血。
其次,我要感谢桂林电子科技大学张文涛教授一直以来对我的支持和帮助,
尤其在实验测量和论文校稿上对我的关怀。张老师在光电检测领域德高望重,不
辞劳苦地为我们年轻一代的成长提供各种机会和平台。张老师渊博的学识、严谨
求实的科研态度和不断追求创新的精神深深地感染了我。
感谢课题组易灿灿副教授在课题研究上的帮助与支持,感谢广西师范大学胡
君辉教授、唐剑副教授、黎远鹏博士等在数据预处理和机器学习上的指导与帮助,
感谢桂林电子科技大学陈涛副教授、佘雨来副教授、郑君健博士、张活博士、唐
源博士、郑凯老师等在研究对象和实验技术方案上的指导与帮助,感谢玉林师范
学院毕雪光教授、覃斌毅副教授和梁国令博士在 THz-TDS 测试平台和样品制备上
的支持与帮助,感谢桂林航天工业学院李智教授和张绍荣副教授提供计算软件
Gaussian16 的使用权。
感谢我的妻子卢超玥女士在精神上的鼓励和生活上无微不至的关怀,卢女士
一直以来是我的强大后盾。感谢我的父母、岳父岳母和其他亲人不辞劳苦的付出,
为我的成长和进步提供了强大动力。
最后,谨向为我评阅论文和答辩的老师致以衷心的感谢!

120
武汉科技大学博士学位论文

附录 1 攻读博士学位期间取得的科研成果

[1] Tu S, Wang Z G*, Zhang W T*, Li Y P, She Y L, She Y L, Yi C C, Du H, Yi C C,


Qin B, Liu Z Q. A New Technology for Rapid Determination of Isomers of
Hydroxybenzoic Acid by Terahertz Spectroscopy[J]. Spectrochimica Acta Part A:
Molecular and Biomolecular Spectroscopy, 2022, 279: 121313. (SCI 二区, 第一作者,
IF=4.831)
[2] Tu S, Wang Z G*, Zhang W T*, Xiao H P, She Y L, Tang Y, Yi C C, Liang G L.
Study of weak intermolecular interactions and vibrational modes in hydroxybenzoic
acid isomers using terahertz spectroscopy and density functional theory techniques[J].
Infrared Physics & Technology, 2021, 119: 103950. (SCI 二区, 第一作者, IF=2.997)
[3] Tu S, Wang Z G*, Liang G L, Zhang W T, Tang Y, She Y L, Yi C C, Bi X G. A
novel approach to discriminate transgenic soybean seeds based on terahertz
spectroscopy[J]. Optik, 2021, 242: 167089. (SCI 三区, 第一作者, IF=2.840)
[4] Yi C C*, Tuo S, Tu S, Zhang W T. Improved Fuzzy C-means Clustering Algorithm
Based on t-SNE for Terahertz Spectral Recognition[J]. Infrared Physics & Technology,
2021, 117: 110843. (SCI 二区, 第三作者, IF=2.997)
[5] 易灿灿*, 庹帅, 涂闪, 张文涛. 基于 UMAP 辅助的模糊 C 聚类方法进行太赫
兹光谱识别[J]. 光谱学与光谱分析, 2022, 42(09): 2694-2701. (SCI 三区, 第三作
者, IF= 0.609)
[6] She Y L, Zhang W T*, Tu S, Liang G L. Large mode area single mode photonic
crystal fiber with ultra-low bending loss[J]. Optik, 2021, 229: 165556. (SCI 三区, 第
三作者, IF=2.840)

121
武汉科技大学博士学位论文

附录 2 攻读博士学位期间参加的科研项目

1. 国家自然科学基金科学部主任基金项目/应急管理项目,61841502,转基因农产
品的太赫兹光谱无损检测机理研究,2019/01–2019/12,10 万元,结题,参加。
2. 国家自然科学基金地区科学基金项目,11664003,掺杂石墨烯量子点的光化学
制备及其光致发光特性研究,2017/01–2020/12,42 万元,结题,参加。
3. 广西重点研发计划,桂科 AB18221033,基于 BOTDA 传感技术的重大基础设
施结构安全监测预警技术研究,2018/09–2021/09,91 万元,结题,参加。
4. 广西重点研发计划项目,桂科 AB21075,面向滑坡灾害监测的光纤光栅测斜技
术与仪器研制,2021/09–2024/08,59 万元,在研,参加。
5. 广西科技基地和人才专项,桂科 AD19245,基于上转换荧光传感的肿瘤标志物
检测技术研究,2020/01–2022/12,10 万元,在研,参加。

122

You might also like