基于深度神经网络模型的多变量时间序列预测朱思宇

专业学位硕士学位论文
基于深度神经网络模型的多变量时间序列预测
作者姓名朱思宇
学位类别工程硕士（计算机技术）
指导教师马千里教授
所在学院计算机科学与工程学院
论文提交日期 2022 年 4 月 3 日
Multivariate Time Series Forecasting Based on Deep
Neural Network Model
A Dissertation Submitted for the Degree of Master
Candidate：ZhuSiyu
Supervisor：Prof.MaQianli
South China University of Technology

Guangzhou, China
分类号：TP3 学校代号：10561
学号：201720241647
华南理工大学硕士学位论文
基于深度神经网络模型的多变量时间序
列预测
作者姓名：朱思宇指导教师姓名、职称：马千里教授
申请学位级别：工程硕士学科专业名称：计算机技术
研究方向：机器学习与数据挖掘
论文提交日期：2022 年 4 月 3 日论文答辩日期：2022 年 6 月 6 日
学位授予单位：华南理工大学学位授予日期：年月日
答辩委员会成员：陈伟能、钟竞辉、冼楚华、陈琼、王勇
主席：陈伟能
委员：钟竞辉、冼楚华、陈琼、王勇
华南理工大学


学位论文原创性声明


本人郑重声明所呈交的论文是本人在导师的指导下独立进行研究所
：


取得的研究成果除了文中特别加以标注引用的内容外本论文不包含任何
。 
 ，
其他个人或集体已经发表或撰写的成果作品对本文的研究做出重要贡献

 。
的个人和集体，
均己在文中以明确方式标明本人完全意识到本声明的法律
。 

后果由本人承担 

。
作者签名：
？鼠
：

身
曰期：
＞辟Ｓ月
Ｉ


曰
学位论文版权使用授权书


本学位论文作者完全了解学校有关保留、
使用学位论文的规定，
即：


研
究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有


权保存并向国家有关部门或机构送交论文的复印件和电子版，
允许学位论


文被查阅（除在保密期内的保密论文外）；学校可以公布学位论文的全部或


部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文 

。
本人电子文档的内容和纸质论文的内容相
一
致 

。
本学位论文属于 

：
口保密校保密委员会审定为涉密学位论文时间
（：
年月日），于年月 

日
解密后适用本授权书 

。
０不保密同意在校园网上发布，
，供校内师生和与学校有共享协议的单


位浏览同意将本人学位论文编入有关数据库进行检索传播学位论文的全



，
；
部或部分内容 

。
“ ”
（请在以上相应方框内打Ｖ 

）
作者签名：日 

期


今
指导教师签日期冰：
．
作者联系电话：电子邮箱：


含邮编）：
联系地址（ 

摘要
时间序列的预测在实际生活应用中有着很重要的意义，在电力、气象、交通以及股
票预测等商业领域都有着十分广泛的应用。在实际应用中，由于多变量时间序列在各个
领域中的应用十分广泛，而逐渐成为近些年时间序列预测问题的热门研究方向。在多变
量时间序列预测问题中，不仅众多的外部因素对预测变量产生影响，变量之间也存在复
杂的依赖关系，因此建模时需同时考虑变量内时间依赖关系和变量间相关性。根据多变
量序列预测研究中能否通过先验知识对序列间关系进行建模，本文将多变量时间序列预
测问题划分成两种：一种是无法通过先验知识获取变量间关系的多变量时间序列预测问
题，一种是可以通过先验知识获取变量间关系的多变量时间序列预测问题。并提出了针
对上述两种问题的解决方法。
针对无法通过先验知识获取序列间关系的多变量时间序列预测问题，我们隐式地通
过神经网络模型提取变量间共享的模式。本文提出了一种基于矩阵分解的回声状态网络
模型（FESN）。将输入的多变量时间序列进行矩阵分解，拆分成一个捕捉了输入序列的
时间不变特征的静态矩阵，和一个捕捉了随着时间发生变化的时序依赖因子矩阵。静态
矩阵包含变量之间相互影响关系，而拆分出的时序依赖因子矩阵中存在复杂动态特性，
对于这部分利用回声状态网络（ESN）对这其进行建模。矩阵分解的融入，将原本序列
间存在互相影响的变量进行了拆分，ESN 模块增强了复杂动态性的建模能力。实验结果
证明，FESN 比现有的一些时间序列预测模型预测的性能更好。
针对可以通过先验知识获取序列间关系的多变量时间序列预测问题，我们显式地利
用图结构建模变量间的关系。本文提出了一种自适应时空图循环神经网络（ASTGCRN），
在建模序列间的相关性时，先根据路网距离构建空间图，再利用动态规整算法（DTW）
对序列间时空依赖进行建模生成时间图。DTW 可以捕捉到空间位置相距较远的相似节
点的依赖关系，充分的考虑了时空融合特征。考虑节点动态性也会对节点状态产生影响，
为捕捉到细粒度的节点模式，本文引入了自适应图生成（DAGG）和节点自适应参数学
习（NAPL）两个模块增强 GCN 的流量预测任务。其中 DAGG 通过增加嵌入节点在训
练时生成自适应图，能够自动从数据中推断出隐藏的相互依赖关系。NAPL 则通过对
GCN 中的共享参数进行矩阵分解，通过嵌入可学习节点，从所有节点共享参数中生成特
定节点的参数。实验证明 ASTGCRN 在三个真实交通数据集上均取得了最优效果。
关键词：多变量时间序列预测；回声状态网络；图神经网络
I
ABSTRACT
Time series forecasting is of great significance in real-life applications, and is widely used
in commercial fields such as electricity, meteorology, transportation, and stock forecasting. In
practical applications, due to the wide application of multivariate time series in various fields,
it has gradually become a popular research direction for time series forecasting in recent years.
In the multivariate time series forecasting problem, not only many external factors have an
impact on the predictor variables, but there are also complex dependencies between variables.
Therefore, both intra-variable time dependencies and inter-variable correlations should be
considered when modeling. According to whether the relationship between sequences can be
modeled through prior knowledge in multivariate sequence forecasting research, this paper
divides the multivariate time series forecasting problem into two types: one is multivariate time
where the relationship between variables cannot be obtained through prior knowledge. The
sequence forecasting problem is a multivariate time series forecasting problem that can obtain
the relationship between variables through prior knowledge. And we propose solutions to solve
the above two problems.
For the multivariate time series forecasting problem where the relationship between
sequences cannot be obtained through prior knowledge, we implicitly extract the patterns
shared between variables through a neural network model. This thesis proposes a matrix
factorization-based echo state network model (FESN). The input multivariate time series is
decomposed into a static matrix that captures the time-invariant characteristics of the input
sequence, and a time-dependent factor matrix that captures changes over time. The static matrix
contains the interaction relationship between variables, and there are complex dynamic
characteristics in the split timing dependency factor matrix. For this part, the echo state network
(ESN) is used to model it. The integration of matrix decomposition splits the variables that
interact with each other in the original sequence, and the ESN module enhances the modeling
ability of complex dynamics. Experimental results show that FESN outperforms some existing
time series forecasting models.
For the multivariate time series forecasting problem where the relationship between series
can be obtained through prior knowledge, we explicitly use the graph structure to model the
II
relationship between variables. In this thesis, an adaptive spatiotemporal graph recurrent neural
network (ASTGCRN) is proposed. When modeling the correlation between sequences, a spatial
graph is first constructed according to the distance of the road network, and then a dynamic
warping algorithm (DTW) is used to construct the spatiotemporal dependence between
sequences. Model generation time graph. DTW can capture the dependencies of similar nodes
that are far apart in space, and fully consider the spatio-temporal fusion features. Considering
that node dynamics will also have an impact on node status, in order to capture fine-grained
node patterns, this paper introduces two modules, Adaptive Graph Generation (DAGG) and
Node Adaptive Parameter Learning (NAPL), to enhance the traffic prediction task of GCN.
Among them, DAGG can automatically infer hidden interdependencies from data by adding
embedded nodes to generate adaptive graphs during training. NAPL generates the parameters
of a specific node from the shared parameters of all nodes by matrix decomposition of the
shared parameters in GCN, and by embedding learnable nodes. Experiments show that
ASTGCRN achieves the best results on three real traffic datasets.
Keywords: multivariate time series forecasting; echo state network; graph neural network
III
目录
摘要 ............................................................................................................................................................. I
ABSTRACT.................................................................................................................................................... II
第一章绪论 .................................................................................................................................................. 1
1.1 研究背景及意义 ............................................................................................................................. 1
1.2 国内外研究现状 .............................................................................................................................. 1
1.2.1 无先验知识建模序列间关系的多变量时间序列预测 ....................................................... 1
1.2.2 存在先验知识建模序列间关系的多变量时间序列预测 ................................................... 3
1.3 研究内容及技术路线....................................................................................................................... 4
1.4 本文的论文结构 .............................................................................................................................. 5
1.5 本章小结 .......................................................................................................................................... 6
第二章相关理论和技术基础....................................................................................................................... 7
2.1 循环神经网络 .................................................................................................................................. 7
2.1.1 RNN 基本原理 ...................................................................................................................... 7
2.1.2 门控循环单元网络概述....................................................................................................... 8
2.1.3 回声状态网络概述............................................................................................................. 10
2.2 非负矩阵理论 ................................................................................................................................ 13
2.2.1 非负矩阵基本原理............................................................................................................. 13
2.2.2 非负矩阵求解方法............................................................................................................. 14
2.3 图神经网络 .................................................................................................................................... 15
2.3.1 图神经网络基本原理......................................................................................................... 15
2.3.2 图卷积神经网络概述......................................................................................................... 16
2.4 本章小结 ........................................................................................................................................ 17
第三章基于矩阵分解的回声状态网络..................................................................................................... 18
3.1 引言 ................................................................................................................................................ 18
3.2 模型介绍 ........................................................................................................................................ 18
3.2.1 模型基本原理及结构......................................................................................................... 18
3.2.2 非负矩阵分解模块............................................................................................................. 19
3.2.3 回声状态网络模块............................................................................................................. 20
3.2.4 FESN 的训练流程 ............................................................................................................... 22
3.3 实验 ................................................................................................................................................ 24
3.3.1 数据集介绍......................................................................................................................... 24
3.3.2 实验设置............................................................................................................................. 25
3.3.3 对比实验............................................................................................................................. 27
3.3.4 超参数分析......................................................................................................................... 31
3.3.5 运行效率分析..................................................................................................................... 33
3.4 本章小结 ........................................................................................................................................ 33
第四章自适应时空图循环神经网络......................................................................................................... 35
4.1 引言 ................................................................................................................................................ 35
4.2 模型介绍 ........................................................................................................................................ 35
4.2.1 模型的基本原理及结构..................................................................................................... 35
4.2.2 节点自适应学习................................................................................................................. 36
4.2.3 自适应时空融合图............................................................................................................. 37
IV
4.2.4 自适应时空图循环神经网络原理..................................................................................... 40
4.2.5 自适应时空图循环神经网络训练..................................................................................... 40
4.3 实验 ................................................................................................................................................ 41
4.3.1 数据集介绍......................................................................................................................... 41
4.3.2 实验设置............................................................................................................................. 41
4.3.3 对比实验............................................................................................................................. 42
4.3.4 消解实验............................................................................................................................. 44
4.4 本章小结 ........................................................................................................................................ 45
总结与展望 .................................................................................................................................................. 46
参考文献 ...................................................................................................................................................... 48
攻读硕士学位期间取得的研究成果 .......................................................................................................... 55
致谢 .......................................................................................................................................................... 56
V
第一章绪论
第一章绪论
1.1 研究背景及意义
时间序列数据，指的是那些按照时间记录且依赖于时间而变化的数据，可以用数值
来反映其变化程度。时间序列的研究主要是以数据统计方法以及数据随机过程理论为基
础，研究数据的历史变化发展规律，进而对事物未来的走势进行预测。时间序列研究对
生产生活有很重要的意义，可以通过时间序列预测结果来辅助决策，进行风险评估以及
宏观调控，在电力、气象、交通、股票预测以及医疗等领域均有着广泛的应用[1]。但在
实际应用的研究中，这些领域所产生的时间序列并非是单一变量的，序列间往往有复杂
的相关性，预测难度更高。因此，如何提升多变量时间序列预测准确性，是深度学习研
究中的一个重要方向。
在多变量时间序列问题的研究中主要攻克的难点有两个方向，分别是如何更好的建
模变量内的时间依赖性，以及如何建模变量间的关系。根据研究的时间序列能否获取先
验知识，本文把多变量时间序列预测问题分成两种：一种是不存在或无法通过先验知识
设定序列间关系的多变量时间序列预测问题，一种是可以通过先验知识设定序列间关系
的多变量时间序列预测问题。目前针对第一种多变量时间预测问题研究常采用的基于循
环神经网络模型，但循环神经网络无法针对变量之间的关系建模，忽视了变量彼此之间
的联系，容易影响预测精度。针对第二种多变量时间预测，目前常采用一些基于图神经
网络的预测模型。但用一个权重图来表示序列间关系，无法充分展示出实际应用中序列
间复杂的相关性，同样影响模型的预测性能。
基于目前两种多变量时间序列预测研究中存在的一些不足，本文分别提出了基于矩
阵分解的回声状态网络和自适应时空图循环神经网络两种多变量时间预测模型，在多变
量时间序列预测的问题上有一定的研究价值。
1.2 国内外研究现状
1.2.1 无先验知识建模序列间关系的多变量时间序列预测
针对此类多变量时间序列预测问题，主要的待解决的问题有两个：一个是在于如何
捕捉多条序列间共性特征，另一个是在于如何对单条序列进行动态建模。
1
时间序列预测作为数理统计的一个分支，其研究也经历了漫长的发展时间。目前最
为成熟的时序预测方法，是从上世纪二十年代开始萌芽的基于回归统计的预测方法[2]。
首先是 Yule 在 1927 年提出了自回归模型（Autoregressive Model, AR）[3]，到了 1960 年，
Winters 又提出滑动平均模型（Moving Average Model, MA）[4]。两个模型原理比较接近，
自回归模型主要通过历史数据的线性组合以及噪声误差来预测当前状态，而滑动平均模
型则是通过历史数据和噪声误差的线性组合来进行预测。区别就是噪声误差的对当前状
态的作用方式不同，一个是间接影响，一个是直接影响。
除上述两种模型外，还有一种基于回归统计原理的自回归移动平均模型 [5]
（Autoregressive Moving Average Model, ARMA），这些模型都旨在揭示序列自身变化规
律，对时间序列的研究有着重要的研究意义。但是这些模型不适用于长期预测，它们对
所预测的序列要求都是平稳的，一旦时间序列存在波动，就对这些模型的序列分析性能
产生影响[6]。且自回归移动平均模型仅在单自变量的时间序列建模问题上适用，遇到非
线性多变量时间序列时，无法得到有效的预测值，因而在很多实际应用中不能应用。很
多学者对此进行深入探索，提出了几种关于非线性时序预测的相关方法。比如早期提出
的用分段线性来拟合非线性的门限自归因模型，后续还相继提出了自归因条件异方差模
型以及泛化自回归条件异方差模型等。但这三种模型都有一个共同的缺点，就是进行时
间序列预测前，都提前假设了预测模型的结构，一旦真实输入和模型结构不相符，很容
易导致预测失败。非线性时间序列由于其复杂性，它的分析和研究与线性模型相比，还
位于初期阶段[7]。
近年来，随着对时间序列的不断深入研究，机器学习也逐渐成为时间序列预测领域
的重要方法[6]。机器学习的预测方法与经典统计模型的预测方法不同，前者是通过对数
据观察分析来发现和总结数据序列中的规律。后者则是基于统计学原理事先对模型进行
假设。机器学习是通过对训练数据建立模型分析，从数据中学习解决任务的方法，从而
具有解决新的问题的能力。常用到的一些机器学习模型有邓乃扬和田英杰提出的支持向
量机[8]（Support Vector Machine，SVM）、W.S.McCulloch 和数理 W.Pitts 提出的人工神
经网络[9]（Artificial Neural Network，ANN）、Hunt 等人提出的决策树[10]（Decision Tree,
DT）、Judea Pearl 提出的贝叶斯网络[11]（Bayesian Network , BN）以及 Adolphe Quetelet
提出的逻辑回归[12]（Logistic Regression，LR）。
2
第一章绪论
其中，人工神经网络在在目前时序预测问题研究上应用较广，它通过模拟生物的神
经系统来达到信息处理的目的。在 ANN 的基础上增加网络反馈和循环结构，就组成了
循环神经网络（Recurrent Neural Networks, RNN）。RNN 网络节点间连接方式灵活，由
于具有反馈机制，模型的输出值不仅和当前输入有关，同时依赖于历史输入数据，这样
使得 RNN 具有了动态特性，可以更好的挖掘数据的隐藏信息[13]。循环神经网络已在多
种序列数据建模任务中得到了广泛的应用，是深度学习（Deep Learning）方法中专门用
来搭建序列数据模型的神经网络[14]。当下在深度学习领域非常普遍的长短期记忆神经网
络，同样属于循环神经网络范畴。
由于循环状态网络对动态系统的拟合度较高，故而非常适用于序列研究。而且循环
神经网络因其神经元之间联系任意精度的非线性系统，因此还可以做多变量时间序列预
测。RNN 在许多时间序列预测任务中，所采用时间方向传播算法（Back-Propagation
Through Time, BPTT）优化当前权重[15]，但是由于 BPTT 算法的缺点是收敛慢，计算量
大、存在梯度消失与局部最优解的问题。因此，目前 RNN 的隐藏单元大小设置的都较
小，但反过来，同样降低了模型的表达能力。而且，RNN 网络的部分参数训练依赖于输
出，而输出又是受到时间影响，这样会导致模型稳定性会受到干扰，影响预测性能。长
短期记忆[16]（Long and Short-Term Memory, LSTM）网络以及回声状态网络[17]（Echo State
Network, ESN）的提出有效缓解了这一现象，且在时间序列预测的问题上取得了非常重
要的突破。但这些基于深度神经网络的模型往往因无法针对变量之间的关系建模，而忽
视了变量彼此之间的联系。在实际预测任务的处理中，变量之间往往并非是完全独立互
不影响的，忽视变量之间的相互影响，必然会影响到模型的性能。
1.2.2 存在先验知识建模序列间关系的多变量时间序列预测
此类多变量时间序列预测问题，常出现在交通流量的预测以及其他基于位置的数据，
这类序列间的关系往往可以通过先验知识给出。早期的一些基于基于回归统计的预测方
法如历史均值法（History Average，HA）、差分自回归移动平均模型[18]（Autoregressive
Integrated Moving Average，ARIMA），因其无法捕捉到大规模交通中的非线性相
关性，而不适用于非线性时间序列的预测。且在交通预测的相关问题中，除了序列间的
时间关系，空间关系也是对预测模型的性能的提升有很大的帮助。
3
近年来，随着深度学习的不断发展，研究学者开始通过设计新的神经网络架构，来
捕捉所有交通序列共享的显著时空模式。常见的如一些基于循环神经网络 [19,20,21,22] 如
RNN、LSTM 或 GRU 对时间序列进行动态建模，但这些模型在处理长序列的过程中训
练复杂，相对耗时。CNN 虽然可以减少处理长序列的时间，但是和循环神经网络一样，
都无法建模时序间的相互依赖关系。Transformer[23]相关的时序预测也是近些年提出的新
的研究方向，但是此类模型训练难度大，同样会存在耗时问题。
图卷积神经网络（Graph Convolutional Network, GCN）因其可以同时建模时间和空
间的相关关系，近些年在交通预测的问题相关研究中备受学者们的青睐。基于 GCN 研
究的相关模型相继被提出。Rose Yu 等人提出的扩散卷积循环神经网络[24]（DCRNN），
将交通序列节点之间的相互影响定义为一个扩散过程，使用图上的双向随机行走来捕获
空间相关性。STGCN[25]通过建模多尺度交通网络有效捕获全面的时间和空间依赖关系。
STSGCN[26]提出了一种新颖的局部时空图，利用时空同步建模机制有效捕捉复杂的局部
时空依赖关系。GMAN[27]、ASTGCN[28]则引入了更为复杂的空间和时间注意机制，来捕
捉多元序列的空间和时间相关性。但这些模型只能捕获所有交通序列之间的共享模式，
而共享的参数会导致模型无法捕捉到细粒度的节点模式。Graph Wavenet[29]模型提出了
一种自适应的方法补充预定义邻接矩阵的特征，进而捕获时空相关性。然而，这类模型
在实际应用中也会存在一定问题。扩散速率增加时容易丢失局部信息，影响预测精度，
自适应图的方式也可能会由于相关先验知识的缺失而导致过拟合问题。
多变量时间序列预测被广泛应用于各种领域，在实际生产生活中都有着十分重要的
意义。近些年在各个方向的研究都取得了一定的进展。除前文介绍到的在交通领域预测
的成就外，在商业领域 Heyuan Wang 等人提出的层次自适应时间关系模型[30](HATR) ，
通过堆叠不同核大小的空洞因果卷积来捕捉不同尺度的时间序列信息，同时使用多图交
互模块传递不同股票间的关系。在天气预测方面，Jindong Han 等人提出了联合空气质量
和天气预测的多对抗时空循环图神经网络[31]（MasterGNN）利用异质递归图神经网络来
建模空气质量和天气监测站之间的时空自相关,通过多对抗的图学习框架来对抗由时空
建模引入的观测噪声传播。在电力预测方面，Marino[32]提出了一种对 LSTM 的改进模
型，基于 LSTM 提出了 LSTM 的序列到序列模型结构，取得了良好的预测效果。
1.3 研究内容及技术路线
针对无法通过先验知识建模序列间关系的多变量时间序列的预测，核心待解决的两
4
第一章绪论
个问题分别是（1）如何能够从多变量序列中更好的捕获公共特征（2）如何能够更好的
针对单条序列独有的动态特征建模。而对于存在先验知识建模序列间关系的多变量时间
预测问题，目前的相关研究主要存在两方面的不足：（1）目前使用图卷积网络作为捕捉
空间依赖的交通预测模型，在 GCN 的特征变换中使用的是节点的共有参数，没有考虑
到不同节点的交通模式可能会不同，造成无法捕捉到细粒度的节点模式。（2）现有的
GCN 模式大多使用基于节点在路网中的实际距离得到的邻接矩阵，而没有考虑在空间
位置上相距较远的节点也可能存在相似的模式，建模时考虑充分的时间、空间融合特征，
能够更好的提升模型预测的准确性。
针对上述问题，本文提出了两种深度学习模型来解决。主要研究方法如下：
1）针对第一种多变量时间序列预测问题，本文采用一种基于矩阵分解的回声状态
网络模型。利用矩阵分解技术将输入的多变量时间序列进行矩阵分解，将其拆分成一个
捕捉了输入序列的时间不变特征的静态矩阵，和一个捕捉了随着时间发生变化的依赖因
子的动态矩阵。在预测过程中，只将动态矩阵作为输入，利用回声状态网络对其建模即
可。在该模型中，ESN 的融入增强了矩阵分解原有的对时序建模和多尺度结构捕捉能力，
并且增强了复杂动态性的建模能力。而矩阵分解的融入，将原本存在互相影响的变量进
行了拆分，则解决了回声状态网络因无法建模多变量之间关系，从而导致预测性能较低
的问题。
2）针对第二种多变量时间序列预测问题，本文提出了一种自适应时空图循环神经
网络模型。为充分建模空间依赖性，在空间图的基础上，引入了由动态时间规整算法生
成的时间图以及数据自适应模块生成的自适应图，并将生成的三种图进行融合。时间图
来捕获较远的节点的相似的模式，自适应图可以自动发现空间依赖关系。除此之外，引
入自适应节点模块来捕捉到细粒度的节点模式。然后考虑时间依赖性，把图卷积模块集
成到 GRU 中，替换 GRU 中的 MLP 层来学习特定节点的模式。
1.4 本文的论文结构
本文主要针对两类多变量时间序列预测问题进行研究，共分为五章展开。本文结构
组织如下：
第一章，绪论部分核心讲述了时序预测的研究背景，以及探究多变量时序预测问题
的意义。介绍了目前国内外关于两种多变量时间序列预测问题的相关技术的发展现状，
引出本文的主要研究内容，同时又介绍了这篇论文的基本框架。
5
第二章，介绍了本文所涉及的理论基础。首先介绍了循环神经网络的一些基础概念，
主要介绍了循环神经网络 RNN 以及回声状态网络 ESN 的基础知识，以及在时间序列预
测中的一些优缺点。随后介绍了非负矩阵分解，介绍了其的基本原理及结构，以及其对
比其他矩阵分解模型的优势。最后介绍了图网络和图卷积网络的相关知识。
第三章，介绍本文的针对无先验知识建模序列间关系的多变量时间序列预测问题提
出的研究模型——基于矩阵分解的回声状态网络模型。主要介绍了该模型的研究背景，
以及其基本结构原理和模型的训练方法。同时进行了相关实验来验证来分析模型的有效
性。
第四章，介绍本文的针对存在先验知识建模序列间关系的多变量时间序列预测问题
提出的研究模型——自适应时空图循环神经网络模型。主要介绍了该模型的研究背景以
及模型的框架和相关原理，同时在三个公开交通数据集上做了对比实验和消解实验来对
模型性能进行验证。
第五章，对本文进行了归纳，再次总结了本文的研究背景，研究现状存在的问题以
及研究模型的创新点和实验结论，同时对基于矩阵分解的回声状态网络模型以及自适应
时空图循环神经网络模型在时间序列预测的未来研究方向上进行了展望。
1.5 本章小结
本章主要说明时间序列特别是多变量的时间序列研究的背景和意义。着重介绍了在
多变量时间序列预测研究中的两类多变量预测问题的国内外的研究现状，以及现有研究
中存在的一些不足和待解决的问题。从而介绍了文本针对这两类问题研究提出的改进模
型——基于矩阵分解的回升状态网络模型以及自适应时空图循环神经网络模型，同时介
绍了两个模型的所采用的研究方法以及主要原理。最后介绍了本文的组织框架。
6
第二章相关理论和技术基础
2.1 循环神经网络
2.1.1 RNN 基本原理
循环神经网络[33]（Recurrent Neural Networks, RNN）它是由 Ronald Williams 和 David

Zipser 在 1989 年提出来的一种专用于建模序列数据的神经网络。它由三部分组成：分别
是输入层，隐藏层以及输出层。与传统 BP 网络的相比，循环神经网络是有记忆功能的。
由于神经网络单元本身存在回路，因此 RNN 不仅仅依赖于输入值，同时也依赖于上一
个时间步的输出值[34]。在隐藏层中，为了实现信息更好的传递的目的，需要添加一个权
重系数来使得该层单元间彼此可以横向关联。传统循环神经网络的主要特点是，能够通
过隐含层把每个时间步产生的输出与后一个时间步进行循环连接，每次都会将前一次的
输出结果，带到下一次的隐藏层中，一起训练。再通过权值把神经元之间的信息串联起
来，进而达到学习序列数据中的顺序依赖关系的目的。通过将输出反作用于输入，形成
一个反馈网络，使得每一个时时间步的输入参考了历史输入的影响。另外 RNN 在每个
时间节点之间彼此共享同样的参数，容易扩展到序列不等长的情况，并实现更好的泛化
性。
图 2-1 RNN 循环单元结构图[33]

循环神经网络系统是一个层级结构。RNN 将输入的时间序列映射到隐含层空间，并
通过隐含层循环向前传播。对于一个给定的时间序列：𝑋" = {𝑥& , 𝑥( , . . . , 𝑥* }，RNN 的循
环神经单元结构如图 2-1 所示，计算公式见式（2-1）。
ℎ* = 𝑡𝑎𝑛ℎ(𝑈ℎ*2& + 𝑊𝑥* + 𝑏) （2-1）
其中，𝑋" 中𝑇为该输入时间序列的长度，𝑋则表示系统输入的时间序列，𝑥* 表示t时
7
刻的输入。ℎ为循环神经网络隐层表示，用于描述系统空间内全部点随时间变化的情况。
𝑡𝑎𝑛ℎ表示激励函数。𝑈和𝑊是循环节点的权重，是全局共享的，在不同时刻所使用的模
型参数完全一致[35]。𝑏代表的是隐含层中的偏置项。展开循环神经网络系统结构如图 2-
2 所示。
图 2-2 循环神经网络系统展开图
当给定系统初始输入𝑥& 时，隐含层输出是ℎ& 。则此时即 1 时刻循环神经网络输入值
是𝑥& ,输出值是ℎ& 。把 1 时刻的输出值ℎ& 状态保存下来，当下一时刻来临时，ℎ& 和𝑥( 同时
作为ℎ( 的输入，共同决定着ℎ( 的值。以此类推，直到得到末尾𝑡时刻输出。
对于一般循环神经网络，常采用 BPTT 算法进行模型训练[36]，RNN 的参数需要时
间方向的反馈算法来进行优化。通过各个神经元的输出来得到损失函数，再通过梯度下
降进行各个参数的求解。而在梯度计算中，当遇到建模长时间序列时，由于在传播过程
中发生累积，随着时间推移，运算过程中产生的数据量开始逐步增加，导致信息损失会
产生累积，同时加大资源的消耗。再加上 RNN 本身的循环存在问题，可能会导致梯度
消失或者梯度爆炸的问题[37]。这导致 RNN 在一些分类识别类似的应用中没有办法得到
较优的实践效果[38]。其中我们可以通过设定阈值来缓解梯度爆炸的问题，但梯度消失会
导致的整个循环神经网络系统中下一个节点的对前面节点的感知能力变弱，传统 RNN
较难解决这个问题。不论是梯度爆炸，还是梯度消失都会导致网络的实际建模缺陷，以
至于在长时间序列上由于无法参考时间间隔较远的序列状态而容易导致模型训练失败。
2.1.2 门控循环单元网络概述
随着循环神经网络的发展，长短期记忆网络 [39]（long short-term memory network,
8
LSTM）和门控循环单元网络[40]（Gated Recurrent Unit, GRU）相继被提出。两种模型均

通过门控机制的引入来缓解 RNN 预测过程中的长期依赖问题。LSTM 通过引入三个门
（输入门、控制门和输出门）来控制来对数据进行控制。GRU 与 LSTM 的预测能力相
当，但没有像 LSTM 一样引入新的记忆单元，而是通过更新门和重置门来控制信息的存
取与遗忘。相比 LSTM，GRU 的结构更为简单，训练过程会更加容易。GRU 的循环单
元结构如图 2-3 所示。
图 2-3 GRU 循环单元结构图[40]

如图所示，𝑥* 和ℎ9 分别表示𝑡时刻的输入和输出，ℎ*2& 表示上一单元的隐藏状态，GRU
的通过𝑥* 和ℎ*2& 来获取更新门𝑧和重置门𝑟的状态。𝑧和𝑟的都在 0～1 之间取值。其中𝑧受
上一循环时的隐藏状态的输入以及当前时刻输入的影响。𝑧的取值越小，表示遗忘的信
息越多。反之𝑧的取值越大，则表示保留下的信息越多。𝑟则表示之前状态的保留，𝑟越
小，表示上一时刻输入的隐藏状态被遗忘的越多。GRU 的隐藏层的更新计算公式如式
（2-2）至（2-4）所示。
𝑧* = 𝜎(𝑊= ⋅ [𝑥* , ℎ*2& ]) （2-2）
𝑟* = 𝜎 (𝑊B ⋅ [𝑥* , ℎ*2& ]) （2-3）
ℎC* = 𝑡𝑎𝑛ℎ(𝑊 ⋅ [𝑥* , 𝑟* ⨀ℎ*2& ]) （2-4）
ℎ* = 𝑧⨀ℎ*2& + (1 − 𝑧)⨀ℎC* （2-5）

其中，𝑊B 、𝑊GH 、𝑊表示 GRU 中用来学习的参数矩阵。𝑡𝑎𝑛ℎ表示激活函数。⨀表示
更新操作。ℎC9 表示重置之后的信息与当前输入𝑥* 相结合，主要用于记忆当前状态。公式
（2-5）则表示 GRU 中记忆更新，遗忘部分隐藏状态的信息，同时获取部分当前时刻的

输入信息。
9
2.1.3 回声状态网络概述
回声状态网络[41]（Echo State Network，ESN）是近年来热门研究方向之一，是德国

科学家 Jaeger 在 2001 年提出的一种新型循环神经网络技术。回声状态网络提出的早期，
是被用于无线通信中的混沌系统预测，后期由于它具有良好的非线性拟合能力以及优异
的序列预测挖掘能力而在时间序列的预测上得到了广泛的应用。
ESN 的结构示意图如图 2-3 所示。其中，𝑢(𝑡)表示的是𝐾个输入节点，𝑦(𝑡)表示的是
𝐿个输出节点，中间圆圈部分代表的是储备池网络，内含𝑁个内部节点，𝑥(𝑡)表示的是储
备池状态。圆圈中的线表示神经元之间的连接情况，实线代表彼此之间的联系是必要的，
虚线连接的部分是否必要存在视不同情况而定。
𝑊OP 𝑊 𝑊ST*
u(1) y(1)
u(2) y(2)
u(3) y(3)
u(4) y(4)
u(t) y(t)
x(t)
输入层储备池输出层

(K 个节点) (N 个节点) (L 个节点)
图 2-4 回声状态网络详细示意图[41]
在 ESN 中，模型训练的时候，输入连接权值和储备池系数都是初始化后固定的，训
练只会改变输出连接权值，而不会对其他造成影响。在模型训练中，储备池状态按照公
式（2-6）进行更新:
𝑋(𝑡 + 1) = 𝑓(𝑊OP 𝑢(𝑡 + 1) + 𝑊BQR 𝑥(𝑡) + 𝑊ST* 𝑦(𝑡)) （2-6）
在公式（2-6）中，𝑢(𝑡)、𝑦(t)表示的是时间序列中𝑡时刻的输入以及输出，𝑥(𝑡) ∈
𝑅W×Y (D 表示的是输入的维度)表示t时刻的储备池状态，𝑓(∙)函数为非线性的储备池结点
的激活函数，通常在时序预测时选用双曲正切函数𝑡𝑎𝑛ℎ(∙)，𝑊OP ∈ 𝑅\×W 表示输入到隐含
10
层之间的输入连接权重，𝑊BQR 则表示隐含层之间的连接。网络的输出按式(2-7)计算:
𝑦(𝑡 + 1) = 𝑓(𝑊ST* 𝑢(𝑡 + 1), 𝑥(𝑡 + 1), 𝑦(𝑡)) （2-7）

其中，𝑊ST* 代表的是隐含层到输出层的输出权重，此处𝑓(∙)代表的则是输出部分的
激活函数。
回声状态网络通过引入一个储备池作为内部的计算网络。它是由大量神经元共同组
成的，且神经元彼此之间并非是完全互相连接的，未连接的情况下神经元彼此连接的权
值的大部分取值是零。同时，在模型训练过程中，这个连接权值也不需要参与，可以直
接随机生成，而且生成后固定[42]。ESN 模型训练并不复杂，只需要对输出权重训练即可，
而且求解过程也比其他循环网络简单[43]。当有一列数据输入到储备池中时，会引发其内
的非线性状态空间，能够把输入数据映射到高维空间，最终的结果再通过与其相连的输
出神经元输出。这种计算方法也称作储备池计算模型[44]。
储备池是 ESN 结构中的计算网络，直接影响整个网络模型的计算性能，是整个结
构中的核心部分。储备池的计算性能主要与其参数设置有关，它的核心的参数有：储备
池规模𝑁^ 、谱半径𝑆𝑅、稀疏程度𝐶𝑅和输入比例𝐼𝑆这四个方面[45]，回声状态网络的构造
方法并不复杂，不过在具体应用的时候，需要对网络中的部分重要的参数进行处理，对
其进行经验选择和调整。在处理的过程中，第一步需要明确的的是储备池的大小𝑁^ ，因
为储备池节点的多少直接关系到系统功能的复杂程度[46]。在这点上，各类神经网络算法
是普适的。ESN 的节点与其他神经网络相比要多一些，规模也要更加庞大复杂。但回声
状态网络的训练方法相对其它神经网络算法来说，训练算法要简单很多，所需训练的参
数只有一个，且线性方程即可求解，能够使得训练能够快速完成。
第二步需要确定𝑊OP 和谱半径𝑆𝑅，它们对网络的短期记忆能力有着至关重要的影响
影响[47]。𝑊OP 随机初始化生成，𝑊OP 的生成的值越小，𝑆𝑅越设置接近 1，ESN 的短期记忆
周期也会被对应的延长。但与此同时，回声状态网络的灵敏度也会下降，造成 ESN 无法
灵敏应对系统的快速变化，进而对系统建模产生影响。因此，如何平衡好网络记忆能力
和灵敏度之间的关系，还需要根据实际变量情况进行参数设置。
最后神经元激活函数的选择也很重要。通常线性和非线性神经元网络都能够做到很
好的保持回声状态。线性神经元能够提供较好的短期记忆[48]，ESN 模型提出之初，使用
的就是使用线性来验证的回声状态。然而由于实际情况中，神经网络的非线性系统分布
更广。因此我们通常在内部函数选择中，选取了常用的双曲正切函数𝑡𝑎𝑛ℎ(∙)作为激活函
11
数。
ESN 对比传统递归神经网络的训练要相对简单很多。除𝑊ST* 需要训练外，其他部分
随机初始化后不会发生变化。利用最小均方误差原理，将输出的预测值不断逼近样本的
观测值，图 2-5 表示回声状态网络的建立流程示意图。
确定储备池大小样本数据加载到输入输出输入向量加载到输入节点
随机生成连接矩阵空转一定时间
空转一定时间
缩放矩阵，使得普半径更细记录储备池状态
<1
生成连接矩阵储备池系数线性回归求解输出权重从输出节点取得成果
初始化训练使用
图 2-5 回声状态网络建立流程示意图
回声状态网络的出现为循环神经网络的研究开辟了一个新的纪元。ESN 与 RNN 在
算法和建模方面均有很大差异，两者的信息存储和转换的方式也均不相同。与 RNN 相
比，回声状态网络引入储备池计算模式，储备池替换掉了传统递归神经网络中的隐藏层，
因此在进行模型训练时，需要训练的唯一参数就是输出加权矩阵心[49]。这使得模型训练
难度得以优化，同时又减少了计算量。闭式求解损失函数可以规避梯度下降求解导致的
局部极小现象，能够同时可以做到保证全局最优性，使得预测精度更高[50]。规避了 RNN
存在的训练算法复杂，数据量大的问题。概括来讲，与 RNN 相比，ESN 网络具有如下
明显的优势：
1）ESN 的训练方式非常灵活，无论是应用于实际的在线方式还是于大规模批量的
方式，都可以实现。
2）ESN 凭借其结构优势，不会像 RNN 一样，在递归神经网络中产生分叉现象。
3）ESN 训练过程简单高效，计算简单，即使在最小误差均方误差情况下，依旧能
够达到收敛状态。
近些年 ESN 凭借其拟合能力好，训练效率高的优势，逐渐引起了越来越多的学者
的关注，回声状态网络已逐渐成为递归神经网络中的研究热点之一。
12
2.2 非负矩阵理论
在时间序列的研究中，我们通常需要进行大量的数据采集，根据的多个维度进行观
察和分析，进而来分析数据之间的关系和寻找规律进行预测。但是当数据维度过多时，
数据采集和分析会变得复杂，且每个维度之间可能会存在关联性，会进一步加大了数据
分析的难度。但若盲目减少数据分析指标，又会导致信息丢失，造成无法对所收集数据
进行全面分析，使得我们得到的分析结论产生误差。这种情况下，数据降维应运而生。
数据降维的主要目的是（1）降低时间以及空间的复杂度；（2）减少非必要特征提取工
作量；（3）数据降噪；（4）较简单的模型在小数据集上有更强的鲁棒性。通过数据降
维处理，将时间序列中关系紧密的多个变量组合成少数两两互不相关新的变量，不仅可
以用较少的综合指标分别代表存在于各个变量中的各类信息，同时还能减少大量数据处
理过程中的复杂度[51,52,53,54]。
数据特征降维主要通过矩阵分解的方法实现，目前有很多主流的用于解决实际问题
的矩阵分解方法。常见的有主成分分析法，独立成分分析法，奇异矩阵分级以及独立成
分分析等[55]。通过把原始的高维矩阵𝑉 分解为被分解成两个低维矩阵𝑊和𝐻。但这些降维
的方法都有一个现象，就是拆分得到的矩阵可正可负，而负的矩阵元素在一些实际应用
中没有实际意义。在 1999 年的自然杂志上，Lee 和 Seung 提出的非负矩阵分解
（Nonnegative Matrix Factorization）可以很好的解决拆分矩阵元素为负的问题[56,57]。通
过对矩阵分子添加非负性约束，令拆分后得到的全部子矩阵都是非负的，于此同时，还
可以达到非线性降维的目的。这种表示方法简单，不仅能够减少存储空间减少计算机资
源，同时其他矩阵分解方法相比还具有可解释性。由于非负矩阵分解去除负元素，使用
性更强，更符合对一些客观实时的描述，因此应用前景十分广泛。因而本文在时间序列
降维的处理过程中，选择用非负矩阵分解的方法来对达到降维的目的。
2.2.1 非负矩阵基本原理
对于一个𝑀维的随机向量𝑣进行了𝑁次观测，记录这些观测值为𝑣g ，𝑗 = 1,2, ⋯ , 𝑁。
取𝑉 = [𝑉∙& , 𝑉∙( , . . . , 𝑉∙W ]，其中𝑉∙g = 𝑣g ，𝑗 = 1,2, … , 𝑁 。NMF 算法要求发现非负的𝑀 × 𝐿的
基底矩阵𝑊 = [𝑊∙& , 𝑊∙( , . . . , 𝑊∙W ]，以及𝐿 × 𝑁的系数矩阵𝐻 = [𝐻∙& , 𝐻∙( , . . . , 𝐻∙W ]，即对于给
定矩阵𝑉 ∈ 𝑅lP×m ，寻找非负矩阵𝑊 ∈ 𝑅lP×B 和非负矩阵𝐻 ∈ 𝑅lB×m ，使得𝑉 ≈ 𝑊𝐻。用数学
13
公示表达详见公式（2-8），其中，原始矩阵𝑉P×m 每一列代表一个样本数据，n 是样本数

据的总数。
𝑉P×m = 𝑊P×B 𝐻B×m （2-8）
将矩阵分解为矩阵𝑊和矩阵𝐻，矩阵𝑊P×B （𝑊 ≥ 0）被称为基底矩阵，它是用来表
示被选取的数据特征集合。矩阵𝐻B×m （𝐻 ≥ 0）则表示线性组合系数矩阵。在矩阵分解
中，是允许丢失一部分非重要信息的，因而此公式中把严格等于限制条件放宽为近似条
件。因为矩阵𝑊和矩阵𝐻含义不同，故而通常情况下，𝑟的选择是要小于样本数𝑛的，即
r ámn /(m + n) 。系数矩阵𝐻可以看作是原始矩阵𝑉在基地矩阵W上的投影，因而在后续的

数据分析中𝑉就可以用𝐻代替，来达到矩阵𝑉降维目的。
2.2.2 非负矩阵求解方法
矩阵分解的方法是不唯一的，通常需要加约束条件，来得到不同的解，跟进不同需
求进行不同的约束。非负矩阵分解的约束条件就是基地矩阵𝑊 ≥ 0以及线性矩阵𝐻 ≥ 0。
因为有了约束限制，对原始矩阵𝑉的精确分解进一步增加了难度。因而在实际应用中，
通过预先设定一个目标损失函数，使得原始矩阵𝑉与基底矩阵和系数矩阵乘积𝑊𝐻的误
差逐步逼近目标损失函数。若要𝑊与𝐻的乘积𝑊𝐻预先逼近原始矩阵𝑉，则非线性矩阵分
解的主要目的则转化为目标损失函最小值的求解，非负矩阵分解中所采用的是通过迭代
地找出合适的𝑊和𝐻，使目标函数最小化来求解局部最优解[58]。
在基础的非负矩阵分解中，常用的函数分别是基于欧氏距（Euclidian Distance，ED）
的目标函数和基于广义 KL 散度（Generalized Kullback-Leibler Divergence，GKLD）的目
标函数[59]。基于欧氏距离的目标函数是：
1 1
min D(V || H ) = || V - WH || 2F = å (Vij - (WH ij ))2 W , H ³0 （2-9）
W, H 2 2 ij
基于 KL 散度的目标函数是：
Vij
min D(V || WH ) = å [Vij log - Vij + (WH )ij ] W , H ³0 （2-10）
W ,H
ij (WH )ij
公式中的[𝑉Og ]表示的是𝑉中的第𝑖行第𝑗列的元素。对于𝐷(𝑉||𝑊𝐻)而言，目标函数同
时对于矩阵𝑊和矩阵𝐻而言并不是凸函数。但是对于其中的任意单一矩阵，目标函数则
14
是一个凸函数。Lee 和 Seung 在在相关文献中提到了采用更新规则来求取目标函数最优

解问题，即通过固定𝑊𝐻中的一个变量𝑊或𝐻，来去不断求解另一个变量。迭代思想即
非负矩阵分解中常用的求解目标函数局部最优解的方法。
2.3 图神经网络
深度学习在传统结构化数据，如语音、图像、文本等领域的处理取得了很大的突破，
而对于复杂的非结构性网络，由于其数据结构复杂，大小任意，即没有像图像一样的空
间局部性，同时也没有固定的参考节点，处理难度则进一步加大。针对此类问题的建模，
图神经网络应运而生。
图神经网络[60]（Graph Neural Network，GNN）处理的数据一般是图结构数据，它是
由顶点和与其相连的邻边组成的一种数据结构。GNN 通过图中节点和相邻节点间的信
息传递来更新节点信息，能够对图节点之间的依赖关系进行建模。图神经网络根据其顶
点之间是否存在相互关系，图又可以分为有向图、无向图以及循环图等[61]。图神经网络
的应用广泛[62,63,64]，在知识图谱，社交网络、通信网络等领域均有重要应用。
图 2-6 四种图网络示意图
2.3.1 图神经网络基本原理
图神经网络中的图表示实体之间的关系。GNN 的输入和输出都是一个图，其作用
是对图上所有属性进行的一个可以优化的变换，该过程只会改变图的属性，不会改变图
的连接性，因此可以保持图的对称信息。GNN 本质提示就是提取特征，把相邻节点的特
征结合起来，并将结合得到的信息和自身特征进行融合。所以 GNN 其实就是通过聚合、
更新以及循环不断将相邻节点的信息进行融合，进而实现对图节点间的相互依赖关系进
行建模的过程。若用公式表达来 GNN 原理，则如（2-11）所示：
15
ℎTv2&
ℎuv = 𝜎 wx𝑊v y + 𝐵v ℎTv2& {| （2-11）
|𝑁(𝑣)|
T∈W(u)
其中，ℎ表示节点的特征，下标𝑢或𝑣 表示节点的索引，上标𝑘 表示层数，𝜎表示激活

函数，𝑊v 和 𝐵v 表示矩阵，是模型需要训练的参数。 𝑁(𝑣)表示节点的邻接点集合，公式
G €•‚
•
右侧中𝑊v ∑T∈W(u) |W(u)|表示聚合，其余部分表示更新。
在基础的图网络原理中，顶点向量和边向量实际上相当于分别构造一个多层感知机
（Multilayer Perceptron，MLP），MLP 它是对每一个向量独自作用的，而图的连接信息
没有使用到。因此提出了图卷积神经网络（Graph Convolutional Network, GCN）来实现
连接关系进行信息传递。
2.3.2 图卷积神经网络概述
图卷积神经网络[65]（Graph Convolutional Network, GCN）与卷积神经网络类似，是

对自己和相邻的节点进行加权求和。但是与卷积神经网络不同的是，GCN 不仅局限于处
理网格数据，还能够处理更为复杂的没有特定形状和大小的拓扑结构数据。与 CNN 一
样，GCN 也是通过参数的共享来达到网络中信息传递的。图中每进行一层卷积运算，各
个节点均会聚合除自身以外的其他相邻节点的特征。图卷积神经网络的结构示意图如图
2-7 所示，GCN 的输入是一个拓扑结构的图，通过数据预处理把输入的图传递到卷积层，
再在各个卷积层中每个节点再逐步进行卷积处理，进而得到输入信息的全部特征和局部
特征。作为图神经网络的演变，GCN 的公式表达式可以由图神经网络公式变形得到，见
公式（2-12）。
ℎTv2&
ℎuv = 𝜎 w𝑊v y | （2-12）
T∈W(u)∪u
ƒ|𝑁(𝑢)||𝑁(𝑣)|
由𝑢 ∈ 𝑁(𝑣) ∪ 𝑣可知，GCN 在聚合处理的过程中，收集的输入信息不仅仅包括与节

点𝑣相邻节点们的信息，还包括节点自身𝑣本身的特征信息。分母变为|𝑁(𝑢)||𝑁(𝑣)|，也
表明 GCN 不再像是 GNN 中分母进行简单的平均加权处理，而是一种更复杂的加权和。
这种处理不仅考虑了节点𝑣的邻接点的个数，还考虑了每个邻接点𝑢 自身的相邻节点的
个数。更新过程也不再考虑节点自己的上一层信息，直接让收集好的节点信息乘上矩阵
𝑊v 后再激活处理就可以达到目的，极大的简化了处理过程。
16
图 2-7 图卷积神经网络的结构示意图[66]
上述聚合邻居节点属性这种图卷积的处理方法也也可以称为空域上的图卷积。除此
之外，还有谱域上的图卷积。谱域上的图卷积与 CNN 的卷积操作类似，核心是通过图
的拉普拉斯矩阵和傅里叶变换来进行卷积操作。
2.4 本章小结
本章主要介绍了本文所需用到的相关技术知识。首先介绍了循环神经网络，包括
RNN、GRU 以及 ESN 的基本结构。回声状态网络的出现很好的解决了之前传统递归神
经网络中存在的一些计算复杂、模型训练困难等问题。随后介绍了非负矩阵分解的基本
原理，同时也对它的两种求解方法做了一个简单的介绍。本章的最后介绍了图网络以及
图卷积网络的相关概念以及基本原理，为后续模型的介绍提供了理论基础。
17
第三章基于矩阵分解的回声状态网络
3.1 引言
针对无法通过先验知识建模序列间关系的多变量时间序列预测问题，由于常见的一
些基于循环网络的模型无法建模序列间关系，因此对于此类多变量预测问题，如何能够
更好的提取序列间的共享信息，并实现对序列进行动态建模来捕捉其特有信息是本章要
解决的关键问题。
在多变量问题研究方面，目前常采用的方式是特征变量提取或者筛选[67]。（1）特
征变量提取主要是通过空间映射实现的。把输入序列从高维映射到低维，来减少输入序
列的变量个数。（2）特征变量筛选则是根据实际预测目标进行特征评估，筛掉多余和无
关的变量来达到输入维度降低的目的。
通过第二章的相关介绍可知，由于非负矩阵分解中，通过对矩阵分子添加非负性约
束，能够保证拆分出来得到的子矩阵都具有非负性。于此同时，还能够达到非线性的降
维目的。非负矩阵分解去除负元素，使用性更强，更符合对一些客观实时的描述，应用
前景广泛。回声状态网络相比于常见的循环神经网络，具有训练简单的优点，同时能够
规避 RNN 在模型训练过程中因使用梯度下降求解而导致的局部极小现象，同时可以做
到保证全局最优性。由于 ESN 优具有优秀的拟合能力和高效的训练方式，因而在时间
序列的预测问题上表现的十分优异，是解决时间序列预测问题的重要模型。
基于此，本章针对无法通过先验知识建模序列间关系的多变量时间序列的预测问题，
提出了一种基于矩阵分解的回声状态网络（Factorization Echo State Network，FESN）模
型，采用的是非负矩阵分解与回声状态网络相结合的方法，来隐式建模多变量时间序列
之间的关系。通过矩阵分解来提取序列间的相关关系，利用回声状态网络对分解后的序
列进行预测，从而来提升多变量时间序列预测准确性。
3.2 模型介绍
3.2.1 模型基本原理及结构
本章所介绍的基于矩阵分解的回声状态网络一共分为两个部分：非负矩阵分解模块
和回声状态网络模块，FESN 网络模型的结构示意图如图 3-1 所示。首先我们对输入数
据矩阵𝑌进行非负矩阵分解来产生两个重要因子矩阵，分别是时间序列因子矩阵𝐹和时
18
序依赖因子矩阵𝑋，其中时序因子矩阵𝐹捕捉了输入序列的时序不变特征，是一个静态矩
阵。而时序依赖因子矩阵𝑋则是捕捉了随着时间发生变化的依赖因子。由于时序依赖因
子矩阵𝑋中存在复杂动态特性，我们利用 ESN 回声状态网络对存在矩阵𝑋中的这部分进
行建模。把历史的时序依赖因子值输入到 ESN 中，并计算出下时刻的时序依赖因子𝑋PQ‡ ，
得到𝑋PQ‡ 后，接着进行矩阵运算𝐹𝑋PQ‡ 即可求出预测值𝑌PQ‡ 。在该模型中，非负矩阵可
以将输入矩阵中原本存在互相影响的变量进行了拆分，解决了回声状态网络无法建模多
变量之间关系从而导致预测性能较低的问题。ESN 的融入增强了矩阵分解原有的对时序
建模和多尺度结构捕捉能力，并且增强了复杂动态性的建模能力。本章的后续部分将进
一步阐述 FESN 的非负矩阵模块和回声状态网络模块的两部分的作用原理以及训练方
法。
图 3-1 矩阵分解回声状态网络模型的示意图
3.2.2 非负矩阵分解模块
FESN 采用非负矩阵分解方法对输入序列进行特征分解。对于一个给定𝑁维特征的
时间序列𝑈(𝑇) = [𝑢(1), 𝑢(2). . . 𝑢(𝑡)]，其中𝑇表示时间序列的长度，𝑢(𝑡)表示每个特征在
时间𝑡是的观测值。将每个维度的时间序列堆叠成一个𝑀 × 𝑇的输入矩阵𝑌W×" ，寻找一个
中间变量𝐾，把矩阵𝑀 × 𝑇进行非负矩阵分解，分别拆分为时间序列因子𝑁 × 𝐾维的矩阵
𝐹W×ˆ ，和时序依赖因子矩阵𝐾 × 𝑇维的矩阵𝑋ˆ×" ，其中矩阵𝐾表示连接多变量时间序列
之间的关系。即如公式所示：
𝑌W×" ≈ 𝐹W×ˆ × 𝑋ˆ×" （3-1）
非负矩阵分解中，主要目的是求解|𝑌W×" − 𝐹W×ˆ × 𝑋ˆ×" |的最小值，即通过模型训练
19
求解矩阵𝐹W×ˆ 和𝑋ˆ×" 解使得损失函数最小，利用梯度下降法进行求解，训练过程如公式

（3-2）到（3-6）所示。
损失函数表达详见公式（3-2）：
W " v
𝐼 = y y[𝑌Og − (y 𝐹O‰ ∙ 𝑋‰g )] （3-2）

OŠ& gŠ& ‰Š&
计算梯度表达如下：
W " v
𝜕𝐼
= y y[2(𝑌Og − (y 𝐹O‰ ∙ 𝑋‰g ) ∙ (𝐹O‰ )( ] = −2[(𝐹" 𝑌)‰g − (𝐹 " 𝐹𝑌)‰g ] （3-3）
𝜕𝑋‰g
OŠ& gŠ& ‰Š&
梯度下降法训练，求解时序依赖因子矩阵𝑋：
v
∂I
𝑋‰g = 𝑋‰g − 𝛼‰g （3-4）
∂𝑋‰g
•
•‘
令𝛼‰g = (’“’”) ，代入公式，求解得到矩阵 X：
•‘
v
(F – Y)‰g
𝑋‰g = 𝑋‰g （3-5）
(F – FX)‰g
同理用梯度下降法训练，求解时序因子矩阵𝐹如公式（3-6）：
v
(𝑌X – )O‰
𝐹O‰ = 𝐹O‰ （3-6）
(FXX– )‰g
由非负矩阵分解我们得到时序依赖因子矩阵𝑋，即把原本的𝑁维特征的时间序列降
维成𝑘维特征的时间序列𝑈(𝑇) = [𝑢(1), 𝑢(2). . . 𝑢(𝑡)]。
3.2.3 回声状态网络模块
将经由非负矩阵分解拆分出的𝑈(𝑇)作为回声状态网络的输入序列进行时序预测。即
回声状态网络部分的核心分别是：
1）输入值：𝐾维时间序列𝑢(0), 𝑢(1), ⋯ , 𝑢(𝑡 − 1)
2）目标值：𝑣 (0), 𝑣 (1), ⋯ , 𝑣(𝑡 − 1)
3）预测值： 𝑣 (𝑡 + 1). 𝑣 (𝑡 + 2), ⋯
其中，𝑢(𝑡)代表输入， 𝑟(𝑡)代表储备池的状态向量，𝑣(𝑡)代表输出向量。模型参数
是三个矩阵𝑊™^ 、𝑊BQR 和𝑊^š 。从输入到储备池的输入转化矩阵𝑊™^ ，输入𝐼是𝐾维向量，
𝑅是𝑀维向量，𝑂是𝐿维的向量，所以 I 到 R 的输入转化矩阵𝑊™^ 是一个𝑀 × 𝐾的矩阵，从
20
𝑅到𝑂的输出转化矩阵是一个𝐿 × 𝑀的矩阵。储备池是一个𝑀个节点的网络，这个网络是
一个𝑀 × 𝑀的矩阵，用𝑊BQR 来刻画，每个节点有一个状态，是一个标量整个网络可以用
一个向量，初体的𝑟(𝑡)表示。其中输入转化矩阵𝑊™^ ，储备池状态转化矩阵𝑊BQR 两个参数
是我们通过网格搜索事先设定好的，唯一需要通过训练得到的参数即输出转化𝑊^š 。整
个模型的训练过程分为两个部分，分别是输入训练和输出训练，训练过程如下所示。
输入训练部分：首先我们开始进行前馈训练，训练待学习的输出系数矩阵𝑊^š 。𝑊™^ ∙
𝑢(𝑡)表示从输入到储备池状态表示，则储备池状态更新：
𝑟(𝑡 + 𝛥𝑡) = 𝑓[ 𝑊BQR ∙ 𝑟(𝑡) + 𝑊™^ ∙ 𝑢(𝑡)] （3-7）
𝑊^š ∙ 𝑟(𝑡)表示从储备池到输出的状态，训练目标表达式为：
2&
𝑊^š = 𝑉𝑅" （𝑅𝑅" + 𝜂𝐼）（3-8）
训练过程中的目标函数如（3-9）所示：
WŸ
𝛹 = y |𝑣(𝑡) − 𝑊^š ⋅ 𝑟(𝑡)|( ∙ 𝑟(𝑡) + 𝜂|𝑊^š |( （3-9）

*Š l&
其中，储备池状态𝑟(𝑡)更新规则是：当前时刻𝑊BQR ∙ 𝑟(𝑡)当前时刻𝑟的状态加上当前
时刻𝑟(𝑡)的输入。𝑓是一个𝑡𝑎𝑛ℎ激活函数，用来求得下一个时间步的状态。𝑣(𝑡)表示真实
的信号输出，𝜂|𝑊^š |( 表示正则画像，主要目的是避免优化上的问题，比如过拟合。其中
𝑊™^ ，𝑊BQR 和正则化因子，是需要提前通过网格计算设定好。输入系数矩阵𝑊™^ 对模型影
响较小，一般采用用-1 到 1 之间的均匀分布，把𝑘维的输入向量映射到𝑀维上，而𝑀远
大于𝐾，输入中的每一个信号，需要连接𝑀/𝐾个储备池中的节点。储备池状态系数矩阵
𝑊BQR 是整个网络的链接矩阵，是一个𝑀 × 𝑀维的稀疏矩阵，是一个有向或者无向的随机
网络，平均度是𝐾。其中𝑀非常大，远大于𝐾和𝐿。而回声状态网络工作的好坏，重点看
谱半径，谱半径指的是矩阵中特征值绝对值最大的哪一个，通常在大于 1 和小于 1 范围
进行选择验证。由于初始化的时储备池的每个节点节点会初始化为零向量，因此我们丢
掉前面的𝑑步，从特定的初始状态输入。𝑊^š 是该网络的学习目标。𝑉，𝑅表示𝑣(𝑡)和𝑟(𝑡)
堆砌向量。输出部分训练：当𝑊^š 确定后，有时会进行反馈训练，训练过程如公式（3-
10）至（3-12）所示。
把储备池的输出反向作为输入，得到：
𝑢(𝑡) = 𝑊^š ∙ 𝑟(𝑡) （3-10）
21
储备池状态更新公式：
𝑟(𝑡 +△ 𝑡) = ¤ 𝑊BQR ∙ 𝑟(𝑡) + 𝑊™^ ∙ 𝑢(𝑡) （3-11）
得到输出序列表达式：
𝑢(𝑡 +△ 𝑡) = 𝑊^š ∙ 𝑟(𝑡 +△ 𝑡) （3-12）
进行反馈训练时，把储备池的输出当作输入，往后继续预测，因而误差是慢慢积累
的。回声状态网络的反馈训练部分分为两种，分别是冷启动训练和热启动训练。热启动
训练指的是前馈训练到最终一个时间步后，直接继续预测，储备池状态用训练的最终时
间步的状态。而冷启动，训练后预测一个新的时间序列，先用前面一些时间步状态把储
备池初始化好，再继续预测。本文主要进行模型数据验证，采用同一套数据集进行划分，
分别进行模型训练及数值预测。
3.2.4 FESN 的训练流程
表 3-1 FESN 算法流程表

算法 1 FESN 算法流程
u输入时间序列，𝑖m¦§ 矩阵分解最大内部迭代，
输入：
𝛼‰g ，𝜂正则化参数，ESN 相关参数
输出：时间序列因子矩阵𝐹，时序依赖因子矩阵𝑋，ESN 输出层参数𝑊^š
1. 初始化𝐹« ~ 𝒩(0，𝛪)，𝑋« ~ 𝒩(0，𝛪)，其中𝐹« ≥ 0，𝑋« ≥ 0

2. 更新𝑋vl&
3. 𝑖从 0 到𝑖m¦§ 执行
∂I
4. 𝑋vl& = 𝑋v − 𝛼‰g
∂𝑋v
5. 𝑋vl& = 𝑋O¯°±
6. 更新𝐹vl&
7. 𝑖从 0 到𝑖m¦§ 执行
∂I
8. 𝐹vl& = 𝐹v − 𝛼‰g
∂𝐹v
9. 初始化𝑊™^ ~ 𝒩(0，𝛪)，𝑊BQR ~ 𝒩(0，𝛪)
10. 储备池状态更新： r(t + Δt) = 𝑓[ 𝑊BQR ∙ 𝑟(𝑡) + 𝑊™^ ∙ 𝑢(𝑡)]
2&
11. 𝑊^š = 𝑉𝑅" （𝑅𝑅" + 𝜂𝐼）
14. 返回𝑋 ∗ =𝑋vl& ，𝐹 ∗ =𝐹vl& ，𝑊^š
经过上述非负矩阵分解模块和回声状态网络模块的训练，得到回声状态网络的𝑘维
22
预测向量𝑣(𝑅) = [𝑣*l& ，𝑣*l& . . . 𝑣B ]，𝑅表示预测数据集部分输入序列长度，将预测数据集
输出向量堆叠为矩阵形式得到𝐾 × 𝑅维输出矩阵𝑉ˆ×^ ，再与之前矩阵分解拆分的时序依

赖因子矩阵𝐹W×ˆ 进行矩阵运算，即得到最终输出预测矩阵𝐻W×^ ≡ 𝐹W×ˆ ∗ 𝑉ˆ×^ 。至此，
模型训练预测完毕。整个 FSEN 的算法流程表详见表 3-1 所示，模型的训练以及预测的
流程图如图 3-2 所示。
图 3-2 矩阵分解回声状态网络算法流程图（左图为模型训练图，右图为模型预测图）
23
3.3 实验
本节主要针对模型 FESN 和其他几种时间序列模型进行实验分析对比，以及多数据
集验证，再通过统计指标分析来判别时间序列预测的准确度。
3.3.1 数据集介绍
本次实验共选取六个多变量公开数据集来进行模型验证。这些数据集的详细信息见
表 3-2 所示。六个公开数据集来源和内容分别是：
1）Exchange_Rate 数据集：来自 laiguokun 的个人主页。主要收集了澳大利亚至英国，
加拿大，瑞士，中国，日本，新西兰和新加坡等八个国家，从 1990 年至 2016 年的每日
汇率数据。
2）Electricity 数据集：来自 UCI 数据库。记录了从 2012 到 2014 期间，321 位用户
的电量使用情况，记录间隔 15 分钟，本实验取用部分用户数据进行实验。
3）ETT 数据集：电力变压器数据集 (ET Dataset)，来自 Informer@AAAI2021。该
数据集提供了两年的数据，每个数据点每分钟记录一次（用 m 标记），它们分别来自中
国同一个省的两个不同地区。
4）House 数据集：房屋能源使用情况数据集，来自 KB-74 OPSCHALER 项目。是
为海牙应用科学大学的辅修应用数据科学进行每小时分辨率的房屋气体消耗预测。通过
电力消耗，风速，降雨强度，温度以及时间戳等特征来预测房屋的能源使用情况。
5）PM2.5 数据集：来自 UCI 数据集，记录了北京市从 2010 年至 2014 年的 PM2.5，
从时间、温度、气压、风向以及降雪/雨量等共 13 个维度的影响进行分析。
6）Solar-Energy 数据集：太阳能数据集，来自 ISEI。生产记录了 2006 年，每 10 分
钟从阿拉巴马州的发电厂采样的太阳能生产数据。
表 3-2 实验数据集详细信息
名称时间序列长度特征数采样率
Exchange_Rate 7588 8 1天
Electricity 26304 321 15 分钟
ETT 17421 7 1 分钟
House 6352 5 1 小时
PM2.5 43825 13 1 小时
Solar-Energy 52560 137 10 分钟
由于本实验所采用的数据集都是具有实际含义的，量纲和其单位均不相同。而指标
24
之间的量纲对于时间序列预测这种回归分析上，也会产生一定的影响，所以我们对数据
集需要做归一化预处理。归一化处理即是将数据指标限定在一定范围，令它们位于相同
的数量级，使得彼此具有可比性，提高预测的精度。除此之外，将数据指标进行归一化
处理后，还能够优化梯度下降求解过程中的速度，使其趋于平缓，可以较好的收敛到最
优解。
min-max 标准化（Min-Max Normalization）和零均值标准化（Z-score Standardization），
是在归一化处理中经常使用的两种方法。本实验采用 min-max 标准化方法，将数据集的
各数据指标缩放，映射到[0，1]数据范围内，对其进行归一化处理。min-max 标准化方
法的数学表达式见公式（3-13），其中{𝑥& ，𝑥( ，...，𝑥P }表示原数据集，{y& ，y( ，...，
y· }表示进行归一化处理后的新数据集。
mOP
𝑥O − &¸g¸P {𝑥O }
𝑦O = m¦§ mOP (3-13)
&¸g¸P
{𝑥O } − &¸g¸P {𝑥O }
对数据进行预处理后，数据集划分是模型构建中的重要一环。由于直接使用训练集
对模型进行性能评估，会很容易产生过拟合现象，这样会影响模型泛化能力，不利于模
型学习。因而需要将数据集进行划分，拆成互斥的训练集和测试集。其中，训练集用来
进行参数调整，使用测试集进行性能验证，可以有效验证模型的性能。本实验采用留出
法从原始数据集中随机抽取 80%作为训练集，来进行参数调整训练模型，余下的数据划
为测试集用来对模型预测效果进行验证。
3.3.2 实验设置
本章所提出的新型时间序列预测模型 FESN，是由非负矩阵分解和回声状态网络两
部分共同组成的。这两个模块都需要进行相应的超参数的设定，在非负矩阵分解中，需
要设定的参数即是将原矩阵拆分为两个矩阵的中间转化系数𝐾。在回声状态网络中，涉
及的超参数主要集中在储备池，包括输入比例𝐼𝑆，储备池规模𝑁^ ，谱半径𝑆𝑅以及稀疏程
度𝐶𝑅。由于回声状态网络的预测性能主要是由于储备池的各个参数决定的，因而在预测
模型训练中，储备池的参数尤为重要。
实验中矩阵分解的超参数K的选择是需要跟进输入序列的维度和序列的长度来确定。
通常会选择原小于输入矩阵行或列的数值，这样保证拆分出来的矩阵初始值会小于输入
矩阵，方便后续各个分解矩阵进行迭代求解。回声状态网络中储备池的输入比例𝐼𝑆的作
25
用是用来调节输入信号的大小，通过相乘，使变量尽可能的分布在激活函数的对应区域
之中，需根据实际输入进行设置。储备池内的神经元的量级决定了它的大小，因此𝑁^ 也
代表了储备池中所包含的神经元的量级，通常选择一百到一千之间。𝑆𝑅表示的是循环连
接权重𝑊BQR 矩阵的谱半径，通常情况下，𝑆𝑅设置时选取的大小是不超过 1 的，用来保证
整体系统具有回声状态属性以及系统稳定。SR设置时需要选取小于 1 的值，来保证整体
系统具有回声状态属性。稀疏程度𝐶𝑅表示的是循环连接权重𝑊BQR 中非零元素的比例，通
常设置一个较小的值，取值范围在百分之一到百分之五之间。除了上述模型参数外，我
们还需要设置一个输出正则化系数𝜆^ ，通常选则 0—1 之间。本实验旨在进行模型有效
性验证，为方便实验，在电力数据集和太阳能数据集抽取 40 维特征进行验证。实验中
各个数据集的超参数设置情况详见表 3-3。
表 3-3 矩阵分解回声状态网络超参数
数据集 𝐾 𝐼𝑆 𝑁^ 𝑆𝑅 𝐶𝑅 𝜆^
Exchange_Rate 6 1e-1 400 0.2 0.01 1
Electricity 30 1e-1 500 0.2 0.05 0.9
ETT 5 1e-3 500 0.9 0.01 0.8
House 3 1e-3 500 0.9 0.01 0.4
PM2.5 10 1e-1 500 0.9 0.05 0.8
Solar-Energy 35 1e-1 500 0.9 0.05 0.8
本次实验所进行的时间序列预测属于回归分析，因而选取回归问题中常见的均方误
差（MSE）和平均绝对误差（MAE）作为统计指标，来评判模型的预测效果。下面对两
个指标进行简单介绍。
MSE 是用来表示预测值和真实值之间的误差平方的平均值，数据结果中得到的
MSE 越小，表明所采用的模型其预测的精度越高。MSE 的数学表达式见公式（3-14）：
P 1
MSE = y (𝑦½O − 𝑦O )( (3-14)
OŠ& 𝑛
其中 y½¾ 表示预测值𝑖时刻模型得到的预测值，y¾ 表示𝑖时刻的真实值，𝑛表示预测的步长。

MAE 是所有单个观测值与算术平均值的偏差的绝对值的平均，它可以更好的反应
预测值误差的实际情况[68]。MAE 的数学表达式详见公式（3-15）：
1 P
MAE = y |𝑦½O − 𝑦O )| (3-15)
𝑛 OŠ&
MSE 和 MAE 都是表示预测值与真实值的偏离程度，两者数值越小，表明模型预测

的精度越高。且由于 MSE 带有乘方，对比 MAE 来说对异常值会更加敏感。
26
3.3.3 对比实验
本次实验共使用了六个时间序列预测模型进行数据对比，来验证基于矩阵分解的回
声状态网络模型的有效性。除本文需要进行验证的 FSEN 模型外，实验数据集还进行了
ESN、RNN、LSTM、CNN、CRNN 以及 VAR 等相关多变量时间序列预测的方法进行的
对比实验，分别得出每个模型的均方误差和平均绝对误差。根据统计指标结果，分析
FESN 是否具有预测优势。同时进行了单步时序预测和多步时序预测。下面对本次实验
中采用的对比方法进行简单介绍：
VAR[69]：向量自回归因模型。是单变量自归因模型在多元时间变量上的衍生。通
过内生变量的函数构造来搭建模型。
CNN[70]：经典卷积神经网络。一维卷积来进行时间序列预测，对输入的时间序列做
卷积和以及特征提取。
LSTM[71]：循环神经网络的一种，使用 LSTM 单元的递归神经网络。它在 RNN 络
基础基础上增加了 3 个门控制，可以控制实现自循环权重的动态调节，结合 LSTM 层来
进行多元时间序列预测。
CRNN[72]：一种结合卷积神经网络（CNN）和递归神经网络（RNN）的预测模型，
首先使用 CNN 来提取多元时间序列的变量特征，再通过 RNN 来捕获输入序列的的依
赖关系。
ESN 和 RNN 均在第二章有过详细介绍，此处不再赘述。
（1）单步预测对比分析
本实验首先进行单步预测，验证 FSEN 和其他预测方法的预测精度对比，上述对比
方法均复现模型算法代码实现，实验结果详见表 3-4。
表中一共展示了 FESN 以及其它六种方法在六个数据集上的预测结果。给出了每个
数据集在不同预测模型下的误差统计指标 MAE 和 MSE 的值。其中，加粗表示的分别为
整组对比实验中，不同数据集预测的最佳数据。可以看出，在所有对比方法中，大部分
较低的预测误差均集中于 FESN，ESN、CRNN 和 CNN 这几个网络模型上，表明这几种
网络模型相对可以得到较好的预测效果。传统循环神经网络 RNN 和 LSTM 在不同数据
集上预测效果不同，不过在预测结果精度上表现略逊色一筹。整个实验过程中 VAR 的
模型预测效果最差，误差指标 MAE 和 MSE 的值远高于其他深度学习模型的预测方法，
27
在个别数据集上尤为明显。主要是因为 VAR 是以统计性质为基础的，所描绘的是单个

变量过去值与数据集中其它变量的过去值之间的线性关系，当变量之间关系是非线性时，
它很难进行变量之间关系的捕捉。而神经网络模型是针对时间序列建模，可以更好的捕
捉到时序之间的非线性关系。且在 VAR 模型预测的过程中，当变量之间存在依赖关系，
随着变量的增加，模型复杂度二次方增长，很容易导致过拟合，进而对模型的预测效果
产生影响。
表 3-4 矩阵分解回声状态网络与其他模型实验对比（单步预测）
Exchange_Rate Electricity ETT
模型 MSE MAE 模型 MSE MAE 模型 MSE MAE
VAR 0.01262 0.07342 VAR 0.00439 0.04966 VAR 0.00511 0.05612
RNN 0.00310 0.04155 RNN 0.00241 0.03478 RNN 0.00224 0.03476
LSTM 0.00276 0.03845 LSTM 0.00200 0.03122 LSTM 0.00221 0.03127
CNN 0.00103 0.02535 CNN 0.00126 0.02617 CNN 0.00095 0.02089
CRNN 0.00056 0.01643 CRNN 0.00063 0.01781 CRNN 0.00083 0.01921
ESN 0.00068 0.01612 ESN 0.00072 0.01917 ESN 0.00094 0.01959
FESN 0.00054 0.01554 FESN 0.00058 0.01731 FESN 0.00080 0.01853
House PM2.5 Solar-Energy
VAR 0.00433 0.04441 VAR 0.01789 0.07871 VAR 0.01858 0.07069
RNN 0.00226 0.03012 RNN 0.00530 0.04452 RNN 0.00201 0.03410
LSTM 0.00407 0.04194 LSTM 0.00145 0.01692 LSTM 0.00208 0.01571
CNN 0.00142 0.02334 CNN 0.00067 0.01051 CNN 0.00059 0.01197
CRNN 0.00100 0.01724 CRNN 0.00055 0.00697 CRNN 0.00021 0.00621
ESN 0.00101 0.01763 ESN 0.00049 0.00674 ESN 0.00022 0.00639
FESN 0.00094 0.01692 FESN 0.00043 0.00632 FESN 0.00019 0.00621
从表 3-4 实验结果还可以明显看出，在实验中基于矩阵分解的回声状态网络模型的
预测误差值最小，尤其是对比同样表现较优的基础回声状态网络 ESN，引入矩阵分解模
型后，预测性能在不同数据集上均有提升，误差指标无论是 MAE 和 MSE 的值，在每个
数据集有不同幅度的减少。表 3-5 记录了各个数据上 FESN 对比 ESN 预测结果中误差指
标 MSE 和 MAE 的下降情况。
由于 ESN 本身具有较好的时序建模和多尺度结构捕捉能力，以及良好的复杂动态
28
性的建模能力，在时序预测问题本身就上具有一定的优势。FESN 在传统回声状态网络
的基础上融入矩阵分解这一模型，可以更好的拆分出多变量时间序列中变量之间相互作
用关系的影响，同时还可以降低输入到回声状态网络中的数据维度，减小 ESN 预测过
程中的计算量。可以使得预测的精度更高，效果更好。
表 3-5 FSEN 对比 ESN 误差指标下降幅度
数据集 MSE MAE
Exchange_Rate 20.58% 3.60%
Electricity 19.44% 9.70%
ETT 14.89% 5.40%
House 6.93% 4.27%
PM2.5 12.24% 6.23%
Solar-Energy 13.64% 2.82%
（2）多步预测分析
虽然在实验中，为保证预测结果的准确性，常常采用单步预测方法。但在实际的生
产生活中，单一时间段的预测往往无法满足实际需求，需要对未来几个时间段的值进行
预测，因此模型在面对多步时间序列预测时，能否依旧保持预测有效性，就显得尤为重
要。鉴于上述原因，除单步实验外，本实验还进行了长期预测，也就是多步预测。常用
的长期预测的方法有：直接策略，递归策略，直接递归相结合，多输入多输出以及直接
多输出。由于递归容易因单步误差的累计，导致预测误差随着逐层的输入不断被放大，
影响最终的预测性能，因而本文采用直接法进行多步预测实验。在上述实验的基础上，
保持各参数不变，单独调整预测时间步，用于验证上述各预测模型的多步预测的有效性。
本次多步实验设定的所有预测模型向后预测 6 个时间步，即步长 dif 设置为 6。得到的
每个数据集在不同预测模型下的多步实验预测结果如表 3-6 所示。
同理，在表 3-6 中仍用加粗来表示整组对比实验中，不同数据集预测的最佳数据。
可以看出，在多步预测实验中，FESN 仍可以保持最好的预测效果，说明 FESN 在多步
时序预测的过程中仍然可以保持较高的预测精度。同时横向对比表 4-3 和表 4-4 的数据，
可以看出，多步预测实验中每个数据集在不同模型的预测结果得到的误差指标 MSE 和
MAE 的值均高于单步预测的值。主要原因是多步预测预测任务难度大，需要对序列趋
势的捕捉能力要求更高，因此整体对比单步预测精度有所下降。
29
表 3-6 矩阵分解回声状态网络与其他模型实验对比（多步预测：步长为 6）
Exchange_Rate Electricity ETT
VAR 0.01405 0.07689 VAR 0.00462 0.05175 VAR 0.00582 0.05793
RNN 0.00358 0.04353 RNN 0.00268 0.03758 RNN 0.00353 0.04228
LSTM 0.00308 0.04006 LSTM 0.00250 0.03508 LSTM 0.00566 0.04982
CNN 0.00184 0.03059 CNN 0.00215 0.03418 CNN 0.00322 0.04010
CRNN 0.00074 0.02016 CRNN 0.00183 0.03147 CRNN 0.00232 0.03384
ESN 0.00145 0.02430 ESN 0.00187 0.03155 ESN 0.00452 0.04622
FESN 0.00073 0.01940 FESN 0.00169 0.03013 FESN 0.00218 0.03279
House PM2.5 Solar-Energy
VAR 0.00476 0.05136 VAR 0.01964 0.08261 VAR 0.01879 0.07046
RNN 0.00272 0.03537 RNN 0.00778 0.04858 RNN 0.00278 0.04027
LSTM 0.00536 0.04868 LSTM 0.00211 0.01584 LSTM 0.00298 0.02230
CNN 0.00228 0.03161 CNN 0.00193 0.01565 CNN 0.00134 0.02059
CRNN 0.00202 0.02869 CRNN 0.00116 0.01450 CRNN 0.00131 0.02050
ESN 0.00218 0.02990 ESN 0.00106 0.01418 ESN 0.00157 0.02379
FESN 0.00200 0.02858 FESN 0.00081 0.01163 FESN 0.00130 0.02035
（3）可视化分析
本实验选取汇率 Exchange_Rate 数据集中某一维度做对比，进行可视化分析，来观
察每个模型在该数据集上的预测值和真实值的差距。对比情况详见图 3-3。其中图中红
色部分所代表的是预测值，蓝色部分指的是真实值。两条曲线的吻合程度可以直观的看
出每个模型的预测值和真实值之间的偏离情况，可以更方便的看出本实验中采用的每种
预测模型在时序预测中的性能的高低。由于向量自回归预测结果过差，此处不展示其预
测情况。
30
图 3-3 各个预测模型预测值和真实值对比（单步预测）
3.3.4 超参数分析
本次实验中一共设计 6 个超参数设置，分别是矩阵分解系数K，储备池输入比例𝐼𝑆，
规模𝑁^ ，谱半径𝑆𝑅，稀疏度𝐶𝑅，以及输出正则化因子𝜆^ 。本实验选取单独 Exchange_Rate
数据集进行超参数分析实验，梯度设置某个超参数的值，保持其他参数不变，观察该超
参数对实验预测结果的影响。对于每一项超参数调整的误差指标数值，均重复 5 次实验，
最后取 5 次实验的平均值记录在表格，详见表 3-7 所示，仍用加粗表示参数调节过程中
的到的最好的预测结果。
从表格 4-6 的数据可以看出，在 FESN 模型中，矩阵分解系数𝐾和储备池输入单元
尺度𝐼𝑆两个超参数对预测值影响较大，尤其是𝐾的值对最终预测效果的影响非常明显。
其余超参数储备池规模𝑁^ ，谱半径𝑆𝑅，稀疏度𝐶𝑅，以及输出正则化因子𝜆^ 的变化对预
测值影响很小。整体实验结果观察，MSE 在区间[0.00054,0.00055]波动，MAE 在区间
[0.0155-0.0160]之间波动，变化不大，说明模型的性能对于这些超参数的设置并不敏感。
31
表 3-7 矩阵分解回声状态网络参数不同设置对比
数据集 𝐾 𝐼𝑆 𝑁^ 𝑆𝑅 𝐶𝑅 𝜆^ MSE MAE
1 le-2 500 0.9 0.02 0.5 0.01568 0.09165

2 le-2 500 0.9 0.02 0.5 0.00292 0.03815
3 le-2 500 0.9 0.02 0.5 0.00118 0.02581
4 le-2 500 0.9 0.02 0.5 0.00088 0.02280
𝐾值设置
5 le-2 500 0.9 0.02 0.5 0.00075 0.02093
6 le-2 500 0.9 0.02 0.5 0.00056 0.01623
7 le-2 500 0.9 0.02 0.5 0.00059 0.01716
8 le-2 500 0.9 0.02 0.5 0.00061 0.01721
6 le-1 500 0.9 0.02 0.5 0.00055 0.01575
6 le-2 500 0.9 0.02 0.5 0.00056 0.01623
6 le-3 500 0.9 0.02 0.5 0.00058 0.01647
𝐼𝑆值设置
6 le-4 500 0.9 0.02 0.5 0.00071 0.01879
6 le-5 500 0.9 0.02 0.5 0.00102 0.02231
6 le-6 500 0.9 0.02 0.5 0.00132 0.02492
6 le-1 200 0.9 0.02 0.5 0.00055 0.01595
6 le-1 400 0.9 0.02 0.5 0.00054 0.01571
𝑁^ 值设置
6 le-1 600 0.9 0.02 0.5 0.00055 0.01572
6 le-1 800 0.9 0.02 0.5 0.00055 0.01592
6 le-1 400 0.2 0.02 0.5 0.00054 0.01565
6 le-1 400 0.4 0.02 0.5 0.00054 0.01569
𝑆𝑅值设置
6 le-1 400 0.6 0.02 0.5 0.00055 0.01578
6 le-1 400 0.8 0.02 0.5 0.00054 0.01575
6 le-1 400 0.2 0.01 0.5 0.00054 0.01560
𝐶𝑅值设置 6 le-1 400 0.2 0.03 0.5 0.00054 0.01568
6 le-1 400 0.2 0.05 0.5 0.00054 0.01565
6 le-1 400 0.2 0.01 0.1 0.00055 0.01587
6 le-1 400 0.2 0.01 0.3 0.00054 0.01572
𝜆^ 值设置
6 le-1 400 0.2 0.01 0.7 0.00054 0.01560
6 le-1 400 0.2 0.01 1 0.00054 0.01554
由于矩阵分解系数𝐾和输入单元尺度𝐼𝑆对实验预测结果影响较大，本实验进一步细
化调整范围，参照表 3-7，使得超参数𝐾从 1 到 8 递进变化，观察 MSE 和 MSE 的值。

可以观察到：
32
1）当矩阵分解系数𝐾 = 1时，相当于把原本 8 维的序列重构成了一个一维序列，输

入到 ESN 进行预测，根据统计指标数据观察，此时预测效果最差。
2）当𝐾的值从 1 到 6 逐渐提升时，FSEN 模型的预测效果也在逐步提升。表明当矩
阵分解拆分出的用于 ESN 输入的序列维度较小的时候，特征空间不足以表达多变量时
间序列。在合理范围内，输入序列的维度越多，得到的预测效果越好。
3）当矩阵分解系数𝐾的值大于 6 时，观察 MSE 和 MAE 的值开始逐渐变大，预测
效果开始变差。这是由于拆分出维度太大的时候，不能很好的建模多变量之间的关系。
因而导致预测效果变差。
参数𝐼𝑆的作用是用来调节输入信号的大小的，通常情况下，需要处理的输入对象的
非线性越强，𝐼𝑆设置越大。从表 3-7 可以看出，随着𝐼𝑆的不断减小，预测效果越来越差。
3.3.5 运行效率分析
从上几个小节的实验可以得到，无论在单步时间序列预测还是多步预测问题上，
FESN 在与其他预测方法的对比实验中，均可以获得较好的预测精度，尤其在与传统回
声状态网络这一基础模型做对比，误差指标有明显下降。为验证 FESN 在获得较好预测
性能的同时，能否具有较好的预测效率，本小节进行了运行时间的对比实验。本实验采
用个人电脑进行，具体参数如下。其中 CPU 参数：IntelCore i5-6200U，2.3GHz 主频。
内存信息：8GB， DDR4 ，2133MHz+256GB ，实验代码使用 python3.0 实现。所采用的

实验数据集仍为 Exchange_Rate 数据集，共 7588 个样本量，8 个变量特征。
在 Exchange_Rate 数据集上进行运行效率实验，得到 FESN 的 5 次实验平均运行时
间为 3.18 秒，ESN 的 5 次实验平均的运行时间为 3.10 秒，整体运行时间相差不多。FESN
略有逊色的原因主要是由于矩阵分解模块的引入，增加了参数训练进而增加了计算复杂
度。但同时矩阵分解也降低了输入到 ESN 模块的特征，减少了 ESN 的输入序列复杂度，
使得 ESN 模块的所需运行时间缩短。所以整体运行时间相较于传统 ESN 运行时间接近，
虽牺牲了一些运行效率，但获得了更好的预测性能。其余对比模型中，VAR 运行效率最
好，5 次实验平均运行时间为 3.05 秒，但其在预测性能上不具有优势。其余模型由于自
身结构和参数训练复杂等原因，运行时间均久于 FESN。
3.4 本章小结
本章主要介绍了基于矩阵分解的回声状态网络模型的基本原理，后通过对比实验对
33
FESN 进行了预测验证。实验中一共采用六个数据集在 FESN，ESN、RNN、LSTM、CNN、

CRNN 和 VAR 七种时间序列预测模型上分别进行了时序预测。选取了 MSE 以及 MAE
作为统计指标，对模型的预测性能进行分析。通过模型输出值与真实值可视化数据对比，
证明了基于矩阵分解的回声状态网络与常用的其他几种时序预测模型相比，预测准确度
更高，性能更好。同时还进行了多步预测，验证了 FESN 在长期预测问题上同样具有较
好的性能，适用于实际中复杂的预测问题。
34
第四章自适应时空图循环神经网络
4.1 引言
本章针对交通序列预测，来研究存在先验知识建模序列间关系的多变量时间预测问
题。目前的相关研究主要存在两方面的不足：（1）目前使用图卷积网络作为捕捉空间依
赖的交通预测模型，在 GCN 的特征变换中使用的是节点的共享参数，没有考虑到不同
节点的交通模式可能会不同，造成无法捕捉到细粒度的节点模式。（2）现有的 GCN 模
式大多使用基于节点在路网中的实际距离得到的邻接矩阵，而没有考虑在空间位置上相
距较远的节点也可能存在相似的模式，建模时充分考虑时间、空间融合特征，能够更好
的提升模型预测的准确性。
针对上述问题，本文提出了自适应时空图循环神经网络（Adaptive Spatial-Temporal
Graph Convolutional Recurrent Network，ASTGCRN），主要内容如下：
1）建立时空依赖关系，进行空间图、时间图以及自适应图三图融合，来分别捕捉节
点间物理空间关系，远距离的节点相似性以及细颗粒节点模式，
2）通过引入节点自适应参数模块（NAPL）和来捕获交通序列中细粒度节点模式，
同时将经过 NAPL 的节点嵌入以及数据自适应图生成模块中的节点嵌入相统一；
3）考虑时间依赖性，把图卷积模块集成到 GRU 中，替换 GRU 中的 MLP 层来学习
特定节点的模式。
本章后续会针对 ASTGCRN 模型展开详细的介绍，并进行相应的实验进行评估验
证，最后针对本章内容做出相关工作总结。
4.2 模型介绍
4.2.1 模型的基本原理及结构
本文构建了一个自适应时空图循环神经网络（ASTGCRN）来解决此类多变量时间
序列预测问题。在建模序列间的相关性时，ASTGCRN 先根据路网距离先验知识构建空
间图，再利用动态规整算法（Dynamic Time Wrapping，DTW）对序列间时序模式相似性
进行建模，生成了时间图，时间图可以捕捉到空间位置相距较远的相似节点的依赖关系。
为了充分建模节点的空间关系，本文还引入了自适应图，根据节点嵌入自适应地学习节
点相似性。通过结合空间图、时间图、自适应图，生成融合图，融合图考虑了节点间的
35
路网距离、时序模式相似性，且能够自动地从数据中推断出隐含的节点依赖关系。考虑
到不同节点的交通模式不同，我们为每个节点分配特定的参数，以捕捉细粒度的节点模
式。本文引入节点自适应参数学习模块，通过对 GCN 中的共享参数进行矩阵分解，通
过嵌入可学习节点，从所有节点共享参数中生成特定节点的参数。
ASTGCRN 的整体结构如图 4-1 所示。模型采用编码器-解码器架构[73]，它将观察
序列编码为隐状态，利用线性层对隐状态进行解码，生成未来序列[74]。ASTGCRN 不仅
可以捕获序列中细粒度的节点的时空依赖关系，同时还可以捕捉到距离较远的具有相似
模式的节点。
图 4-1 自适应时空图循环神经网模式结构图
4.2.2 节点自适应学习
节点自适应参数学习（Node Adaptive Parameter Learning，NAPL）是在传统 GCN 算

法上的改进，通过节点嵌入增加了 GCN 的特征学习。传统的图卷积的计算方式[75]为公
式（4-1）:
& &
𝑍 = Á𝐼W + 𝐷2( 𝐴𝐷2( Ã × 𝜃 + 𝑏 （4-1）
其中，𝑋 ∈ 𝑅W•Å 和𝑍 ∈ 𝑅W•Æ 分别表示图卷积网络的输入和输出，𝐴 ∈ 𝑅W•W 和D分别

代表图的邻接矩阵和度矩阵，𝜃 ∈ 𝑅Å•Æ 表示共享参数，𝑏 ∈ 𝑅Æ 表示偏差。GCN 的目的是
在所有节点之间用共享的𝜃和𝑏对节点𝑋 O ∈ 𝑅&•Å 和𝑍 O ∈ 𝑅&•Æ 进行特征变换。
这种序列间使用共享参数虽有助于节点中显著模式的学习，但由于时间序列数据具
36
有动态性，不同环境会导致其属性发生变化，且不同序列之间也会存在着模式不同。序
列共用共享参数学习会难以捕捉这部分动态变化，导致预测精度收到影响。因此每个节
点都需要一个参数来去学习节点的特定模式。但为一个节点分配一个参数又会导致𝜃过
大而容易产生过拟合问题，尤其是当节点数量较多时。NAPL 则是通过把共享参数进行
矩阵分解降维，分解为一个节点嵌入矩阵𝐸È 和一个权重池𝑊È 。这样既能兼顾学习过程
中细粒度的节点模式，又不会造成因每个节点分配参数而导致学习复杂甚至过拟合的问
题。NAPL-GCN 用公式表示见式（4-2）：
& &
𝑍 = Á𝐼W + 𝐷2( 𝐴𝐷2( Ã × 𝐸È 𝑊È + 𝐸È 𝑊È （4-2）
4.2.3 自适应时空融合图
以图卷积网络为基础的相关模型在进行预测时，通常需要通过距离和相似度来事先
定义一个邻接矩阵，目前定义邻接矩阵的方法主要有两种：一种是通过节点间的距离来
定义，一种是通过节点属性或交通流量序列本身的相似性来定义。但是这样定义方式存
在着弊端：首先，序列间关系复杂，预定义图无法涵盖其完整的空间依赖关系。且这些
预定义图也并非根据预测任务来建立的，可能会导致预测偏差。其次，以预定义图为基
础的预测十分依赖先验知识，如出现错误容易导致模型失效。因此，为了充分建模序列
的空间依赖关系，我们从以下三方面考虑：
1）考虑空间邻域信息，根据不同节点之间的路网相对距离定义空间图；
2）考虑时序模式相似性，计算节点之间的 DTW 距离，对于空间距离较远，而实际
交通情况存在相似时序模式的节点建立联系，生成时间图；
3）隐含空间依赖关系：由于预定义图可能无法完全捕获空间依赖关系，利用可学习
的节点嵌入，生成自适应图。
（1）空间图
空间图根据空间邻域的信息来生成。将所有节点及其成对关系表示为加权图，公式
表达为：
𝑀ÉÈ = (𝑉, 𝐸, 𝐴) （4-3）
其中 𝑉表示序列中的节点|𝑉| = 𝑁。 𝐸表示与节点相连的边的集合，边是根据权重连
接的。𝐴 ∈ 𝑅W 𝑁 O 表示通过路网距离定义的邻接矩阵。
37
（2）时间图
常用的衡量时间序列之间相似度的方法可以分为三种：分别是基于序列时间步长、
基于序列形状以及基于序列变化。本文采用动态规整算法来生成时间图。动态时间规整
算法[76]（Dynamic Time Warping，DTW）是衡量时间序列相似度的典型算法。其核心思
想是，先通过计算两个序列各个点之间的距离矩阵，再寻找一条从矩阵左上角到右下角
的路径，使得路径上的元素和最小。
对于给定两个时间序列𝑋 = (𝑥& , 𝑥( , ⋯ , 𝑥W )和𝑌 = (𝑦& , 𝑦( , ⋯ , 𝑦m )，可以引入序列距离
矩阵𝑀P×m ，其入口为𝑀O×g = Ê𝑥O − 𝑦g Ê，那么代价矩阵𝑀"È 可以被定义:
𝑀"È (𝑖, 𝑗) = 𝑀O,g + 𝑚𝑖𝑛Ì𝑀"È (𝑖, 𝑗 − 1), 𝑀"È (𝑖 − 1, 𝑗), 𝑀"È (𝑖, 𝑗)Í （4-4）
经过i和j的多次迭代，𝑑𝑖𝑠𝑡(𝑋 , 𝑌) = 𝑀"È (𝑚 , 𝑛)&/( 是𝑋和𝑌之间的最终距离，它可以代

表两个时间序列之间的相似度。由公式（4-3）可以看出，DTW 是一种基于动态规划的
算法，其主要目的是求解最优路径/最小代价路径。即序列点𝑥O 和𝑦g 匹配。
𝛺 = Ì𝜔& ，𝜔( ， ⋯ ，𝜔Ó Í，𝑚𝑎𝑥(𝑛, 𝑚) ≤ 𝜆 ≤ 𝑛 + 𝑚 （4-5）
通过公式（4-4）迭代生成，它的元素𝜔Ó = Ì𝑥O , 𝑦g Í示 𝑥O 和𝑦g 的匹配。DTW 模型的算法过
程详见表 4-1 和表 4-2。

表 4-1 时间图生成算法
算法 4-1 时间图生成
输入: 初始化𝑉中𝑁个时间序列(|𝑉| = 𝑁)
1. 初始化W，重置矩阵TDL：算法 4-2 定义时间距离计算

2. for 𝑖 = 1,2, ⋯ , 𝑁 do
3. for 𝑗 = 1,2, ⋯ , 𝑁 do
4. 𝑑𝑖𝑠𝑡O,g = 𝑇𝐷𝐿Ê𝑉O − 𝑉g Ê (算法 2)
5. end
排序最小的𝐾(𝐾 ≤ 𝑁)个元素及其索引
𝑗 = {𝑗& , 𝑗( , ⋯ , 𝑗v }
6.
𝑑𝑖𝑠𝑡O,g‚ ≤ 𝑑𝑖𝑠𝑡O,g‚ ≤ 𝑑𝑖𝑠𝑡O,g‚ if 𝚥̃ ∈ 𝑗 then
𝑊O,Ù̃ = 𝑊 Ù̃ ,O = 1;
7. end
8. 返回时间图𝐺 和加权矩阵𝑊
38
表 4-2 时间距离计算算法
算法 4-2 时间距离计算( 𝑇𝐷𝐿)

𝑋 = (𝑋& , 𝑋( , ⋯ , 𝑋W ) ∈ 𝑅P× ，
输入: 𝑌 = (𝑦& , 𝑦( , ⋯ , 𝑦m ) ∈ 𝑅m× ，
时间步长 𝑇
1. for 𝑖 = 1,2, ⋯ , 𝑁 do
2. for 𝑗 = 𝑚𝑎𝑥(0, 𝑇 − 1)， ⋯ ，𝑚𝑖𝑛(𝑚, 𝑖 + 𝑇 + 1)
do
3. 𝑀O,g = Ê𝑋O − 𝑌g Ê ;
(
4. if 𝑖 =0，𝑗 =0 then 𝑀á (𝑖, 𝑗) = 𝑀O,g ;
(
5. else if 𝑖 =0，𝑗 =0 then 𝑀á (𝑖, 𝑗) = 𝑀O,g + 𝑀O,g2& ;
(
6. else if 𝑗 =0，𝑗 =0 then 𝑀á (𝑖, 𝑗) = 𝑀O,g + 𝑀O2&,g ;
(
7. else if 𝑗 = 𝑖 − 𝑇 then 𝑀á (𝑖, 𝑗) = 𝑀O,g + 𝑚𝑖𝑛Ì𝑀O2&,g2& , 𝑀O2&,g Í ;
(
8. else if 𝑗 = 𝑖 + 𝑇 then 𝑀á (𝑖, 𝑗) = 𝑀O,g + 𝑚𝑖𝑛Ì𝑀O2&,g2& , 𝑀O,g2& Í ;
(
9. else 𝑀á (𝑖, 𝑗) = 𝑀O,g + 𝑚𝑖𝑛Ì𝑀O2&,g2& , 𝑀O,g2& , 𝑀O2&,g Í ;
10. end
11. end
12. 返回 d𝑖𝑠𝑡(𝑋 , 𝑌) = 𝑀á (𝑚 , 𝑛)&/(
（3）自适应图
使用数据自适应图生成（Data Adaptive Graph Generation，DAGG）模块来生成自适
应图。DAGG 模块可以用来挖掘隐藏的序列关系，首先通过随机初始化生成一个可学习
的嵌入节点𝐸Ü ，然后，类似于通过节点相似度定义图，我们可以通过乘上𝐸Ü 和 𝐸Ü" 来推
断每对节点之间的空间依赖关系。
& &
𝐷2( 𝐴𝐷2( = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥Ì𝑅𝑒𝐿𝑈(𝐸Ü ∙ 𝐸Ü" )Í （4-6）
其中𝐸Ü ∈ 𝑅W× ß ,它每一行代表一个节点的嵌入，𝑑Q 表示节点嵌入的维度。训练时，

𝐸Ü 会不断地进行自动更新来学习序列间的隐藏相关关系，从而生成图卷积的自适应矩阵。
‚ ‚
softmax 函数用于对自适应矩阵进行归一化，𝑅𝑒𝐿𝑈是一个激活函数。直接生成𝐷2à 𝐴𝐷2à
39
来减少迭代训练过程中不必要的重复计算。结合公式（4-1）和（4-6），DAGG- GCN 用
可以公式表达成式:
𝑍 = (𝐼W + 𝑠𝑜𝑓𝑚𝑎𝑥(𝑅𝑒𝐿𝑈(𝐸Ü ∙ 𝐸Ü" ))) × 𝜃 （4-7）
生成了空间图、时间图以及自适应图后，对三种图进行融合。结合公式（4-2）、（4-
3）、（4-4）和（4-7）,最后的公式就可以写成：
𝑍 = (𝐼W + 𝑠𝑜𝑓𝑚𝑎𝑥(𝑅𝑒𝐿𝑈(𝛼𝑀ÉÈ + 𝛽𝑀"È + 𝐸Ü ∙ 𝐸Ü" ))) × 𝐸È 𝑊È + 𝐸È 𝑊È （4-8）
其中𝑀ÉÈ 和𝑀"È 分别代表上面生成的空间图和时间图，𝐸Ü 𝐸Ü" 代表自适应图，𝛼和𝛽为
𝑀ÉÈ 和𝑀"È 的权重。
4.2.4 自适应时空图循环神经网络原理
自适应时空图循环网络 ASTGCRN，它集成了 NAPL- GCN、DTW、DAGG 和门控

循环单元(GRU)等模块来捕捉序列中特定节点的时空依赖关系。在 ASTGCRN 中，使用
节点自适应增强后的图卷积层替换 GRU 中的多层感知机（MLP）层来学习特定节点的
模式。它还可以通过 DAGG 模块自动发现序列空间依赖关系。与 GRU 类似，ASTGCRN
中的所有参数都可以通过反向传播进行端到端训练。公式表达为（4-9）至（4-13）。
𝐴ã = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(Relu(αMÉÈ + βM "È +EÜ EÜ" )) （4-9）
𝑧* = 𝜎Ì𝐴ãèX:,9 , h92& ëEWì + Ebì Í （4-10）
𝑟* = 𝜎Ì𝐴ãèX:,9 , h92& ëEWî + Ebî Í （4-11）
ℎC* = tanhÌ𝐴ãèX:,9 , r⨀h92& ëEWñH + EbñH Í （4-12）
ℎ* = z⨀h92& + (1 − z)⨀ℎC* （4-13）

在公式中，𝑋:,* ，ℎ* 分别表示𝑡时的输入和输出，𝑧表示重置门，𝑟为更新门。𝐸 、𝑊= 、
𝑊B 、𝑊GH 、𝑏= 、𝑏B 和𝑏GH 是 ASTGCRN 中的可学习参数。其中⨀表示更新操作。从公式可
以看出，ASTGCRN 将 NAPL-GCN 层和 DAGG 中的嵌入矩阵统一为E，而不是在两者
中学习单独的节点嵌入矩阵，这样可以确保所有 GCN 层之间所嵌入的可学习节点一致。
4.2.5 自适应时空图循环神经网络训练
在多步预测实验中为捕获节点的时空关系，模型中堆叠了几个 ASTGCRN 层作为编

码器。用𝐻 ∈ 𝑅W× ó 表示输入，通过线性变换将𝑅W× ó 投影到𝑅W×ô 来得到所有节点的下一
40
步𝜏的预测值。为减少运行时间得到的预测值我们不以序列形式输出，而是以 L1 损失为
训练目标，一起优化多步预测的损失。此时 ASTGCRN 损失函数表达为：
OŠ*lô
ℒ(𝑊÷ ) = y Ê𝑋:,𝑖 − 𝑋½ :,𝑖 Ê (4-14)

OŠ*l&
其中，𝑊÷ 表示网络中所有可学习的参数，𝑋:,O 和𝑋C:,O 分别表示时间步𝑖的所有节点的真

实值和预测值，L1 通过反向传播和 Adam 优化器来优化。
4.3 实验
4.3.1 数据集介绍
本章实验共选取三个公开的真实交通流量数据集： PEMS04、PEMS07 以及
PEMS08 来进行模型性能验证。这些数据集的详细信息见表 4-2 所示：
表 4-2 实验数据集详细信息
数据集节点边时间步长
PEMS04 307 340 16992
PEMS07 883 846 28224
PEMS08 170 295 17856
这三个数据集是由 Caltrans 性能测量系统通过每 30 秒实时测量一次加州的公路交
通流量收集而成的，分别来自加州的不同地区。我们对每 5 分钟的交通流量做聚合操作，
得到每天 288 个数据点。基于路网距离，利用实际道路网络构建每个数据集的空间图，
表中显示了节点和边的数量信息。采用 Z-score 对数据输入进行标准化，使训练过程更
加稳定。
4.3.2 实验设置
在实验中，我们划分数据集的 60%用于训练，20%用于验证，余下 20%用于测试。

利用前 12 个时刻的值预测后 12 个时刻。我们使用网格搜索，根据模型在预测任务验证
集上的综合性能设置超参数，实验细节如下：实验中，模型堆叠了两层 ASTGCRN 层作
为编码器。GRU 隐藏层单元设置为 64，批处理的大小也设置为 64。三个数据
集的学习率都设置为 0.003，PeMSD4 和 P eMSD7 数据集的嵌入维度均为 1 0，
PeMSD8 数据集的嵌入维度为 2 ，参数𝛼和 𝛽均设为 1。 ASTGCRN 中的所有参数
都可以通过时间反向传播，进行端到端的训练来进行相关参数的更新。实验中选择 L1
41
作为损失函数，使用 Adam 优化器对所有深度学习模型进行优化，使得预测
值与观测值之间的损失函数最小。共进行 100 次迭代训练。实验是在 PyTorch
平台上使用 Intel Core i7−6850K、3.60-GHz CPU、64GB RAM 和 GeForce GTX 1080 Ti
11G GPU 实现的。
1）MAE：平均绝对误差。
1 P
𝑀𝐴𝐸 = y |𝑦½O − 𝑦O )| (4-15)
𝑛 OŠ&
2）MAPE：平均绝对百分比误差。不仅考虑预测值与真实值的误差，还考虑了误差
与真实值之间的比例。
P
1 𝑦O − 𝑦½O
𝑀𝐴𝑃𝐸 = y ù ù (4-16)
𝑛 𝑦O
OŠ&
3）RMSE：均方根误差。在 MSE 的基础上做平方根衡量观测值与真实值之间的偏
差。
P
1 (4-17)
𝑅𝑆𝐸 = ú y(𝑦O − 𝑦½O )(
𝑛
OŠ&
其中，其中y½¾ 表示预测值𝑖时刻模型得到的预测值，𝑦O 表示预测值𝑖时刻模型的真实值，

𝑛表示所要预测的步长。
4.3.3 对比实验
本实验一共选取 8 个在多变量预测问题中的一些深度模型，在 3 个公开交通数据集

上与 ASTGCRN 进行对比实验，对比的基准方法包括：
1） FC-LSTM [ 7 3 ] ：具有完全连接的 LSTM 隐藏单元的递归神经网络。
2） TCN [ 7 7 ] ：时域卷积网络，融合了时域上的建模能力，卷积的低参数
量下的特征提取能力。
3） DCRNN [24]：扩散卷积递归神经网络，使用图上的双向随机行走来捕获空
间相关性。
4） STGCN [ 2 5 ] : 时空卷积网络，用一维卷积和图卷积分别捕获时间和空
间相关关系。
5） ASTGCN [ 2 7 ] ：基于注意力的时空图卷积网络，在 STGCN 基础上引
42
入时空注意机制，捕获序列时空关系。
错误 !未找到引用源。
6） STSGCN ：时空同步图卷积网络，利用局部时空子图模块
独立建模局部相关。
7） STFGNN [ 7 8 ] ：时空融合图神经网络，通过组装 CNN 模块和时空融
合图形模块，来同时捕捉局部和全局相关性。
8） AGCRN [ 7 9 ] ：自适应图卷积循环网络，用两个自适应模块来增强 GCN
的流量预测任务。
实验中选取的基线方法可以分为两类：一类是基于图卷积网络的模型
（模型 DCRNN、STGCN、ASTGCN、STSGCN、STFGNN、AGCRN、ASTGCRN），
一类是经典深度时序预测模型（ FC-LSTM，TCN）。
由表 4-3 中的实验结果可知，ASTGCRN 模型在与其他时间序列预测模
型的对比实验中预测效果最佳。从实验结果可以看出：
表 4-3 ASTGCRN 与其他模型预测性能对比实验结果
PEMS04 PEMS07 PEMS08

模型
MAE MAPE(%) RMSE MAE MAPE(%) RMSE MAE MAPE(%) RMSE
FC-LSTM 25.14 20.33 39.59 29.98 15.33 42.84 22.2 15.32 32.06
TCN 22.81 14.31 36.87 30.53 13.88 41.02 21.42 13.09 34.03
DCRNN 24.7 17.12 38.12 28.3 11.66 38.58 17.86 11.45 27.83
STGCN 22.7 14.59 35.55 25.38 11.08 38.78 18.02 11.4 27.83
ASTGCN 22.93 16.56 35.22 28.05 13.92 42.57 18.61 13.08 28.16
STSGCN 21.19 13.9 33.65 24.26 10.21 39.03 17.13 10.96 26.8
STFGNN 20.48 16.77 32.51 23.46 9.21 36.6 16.94 10.6 26.25
AGCRN 19.83 12.97 32.3 22.37 9.12 36.55 15.95 10.09 25.22
ASTGCRN 19.68 13 31.92 20.97 8.82 34.77 15.92 10.21 25.21
1） DCRNN、STGCN、ASTGCN、STSGCN、STFGNN、AGCRN、ASTGCRN 等
基于图卷积网络的方法整体看相对优于经典深度时序预测模型（ FC-LSTM，
TCN）的方法，证明了路网信息和 GCN 在交通预测中的作用显著，同时也
说明建模序列空间相关性在多变量时序预测中至关重要。
2）基于 GCN 的方法中，AGCRN 和 ASTGCRN 的性能最好，这是由于
43
AGCRN 和 ASTGCRN 两种模型在图网络的基础上增加了节点自适应模块，
可以捕获细粒度的节点模式，获取序列信息更全面。
3）本文提出的 ASTGCRN 方法优于目前现有的时序预测模型中效果最
好的 AGCRN，尤其在 PEMS04、PEMS07 两个个数据集的提升较为明显，在 MAE
指标上分别带来了 5%和 3.3%的性能提升。这是由于我们的模型同时融合了空间
图、自适应图和时间图，充分考虑了空间依赖性，实现了更优的性能。
4.3.4 消解实验
本节中，我们进行了消解实验分别来验证空间图、自适应图和时间图的
有效性，我们将 ASTGCRN 与四种变体模型进行比较。分别是：
1） ASTGCRN-Identity ：该模型使用单位矩阵矩阵来代替空间图、自适
应图和时间图，以单位矩阵作为邻接矩阵表明节点之间不产生相互作用；
2） ASTGCRN-w/o SG：该模型为去掉空间图的模型，忽略节点之间的
位置关系。
3） ASTGCRN-w/o AG：该模型为去掉自适应图的模型，忽略节点动态
属性的影响。
4） ASTGCRN-w/o TG：该模型为去掉时间图的模型，忽略节点之间的
时间特征的相似性。
表 4-4 中展示的是在 PEMS07 数据集上未来 12 个时刻预测结果的平均
MAE、 MAPE、 RMSE。
表 4-4 ASTGCRN 消解实验结果
模型 MAE MAPE(%) RMSE
ASTGCRN-Identity 29.08 15.12 41.96
ASTGCRN-w/o SG 21.25 8.66 34.78
ASTGCRN-w/o AG 24.61 10.03 40.21
ASTGCRN-w/o TG 21.92 8.94 35.82
ASTGCRN 20.97 8.82 34.77
通过表 4-4 的实验结果，我们可以观察到：
1）在不考虑节点之间相互作用的情况下，ASTGCRN-Identity 的误差最
大。 MAE、MAPE(%)和 RMSE 三个指标分别下降了 38.7%、71.4%和 20.7%。
44
2）其余三种变体模型的性能均差于 ASTGCRN，这验证了空间图、自
适应图和时间图是有效的，多图融合使得 ASTGCRN 具有建模复杂空间依
赖关系的能力。
3）通过比较，在三个误差相对较小的变体模型中，我们发现 STGCRN-
w/o AG 误差上升更多， ASTGCRN-w/o SG 误差上升最小。表明自适应图更
有助于提升预测性能。
4.4 本章小结
本章针对交通序列预测，来研究存在先验知识建模序列间关系的多变量时间预测问
题。指出了目前的相关研究主要存在两方面的不足：一是基于 GCN 的深度模型在 GCN
的特征变换中使用的是节点的共享参数，无法捕捉到细粒度的节点模式。二是现有的
GCN 模式大多使用基于节点在路网中的实际距离得到的邻接矩阵，而没有考虑在空间
位置上相距较远的节点也可能存在相似的模式。基于此提出了自适应时空图循环神经网
络模型。介绍了模型中主要组成模块及各个模块的主要用途，同时通过对比实验和消解
实验在 3 个公开的交通数据集上进行了模型的有效性验证。实验结果表明，ASTGCRN
模型可以有效提升交通序列的预测结果。
45
总结与展望
随着多变量时间序列的应用在时间序列问题中的占比越来越高，单一变量的预测已
经无法满足日新月异的时代变化。因而如何提升多变量时间序列的预测精度，成为时序
预测问题中一个重要的研究课题。由于在多变量时间序列的预测问题中，变量间往往含
有复杂的依赖关系，因此多变量时间序列预测的比单变量时间序列预测问题相比要更为
困难。如何能够提升多变量时间序列的预测精度，是研究学者们一直不断探索的课题，
也是当下十分热门的研究方向。
本文通过多变量序列间是否存在或能通过先验知识给出序列间关系，将多变量序列
问题的研究分为两种：一种是无先验知识建模序列间关系的多变量时序预测问题，即没
有相关的知识对其序列间关系建模。但在很多实际应用中都需要捕捉这部分序列的共享
信息，同时又要满足对序列独有的动态特征进行建模。还有一种是能通过相关领域知识
建模序列间关系的多变量时序预测问题，比如交通流量预测，具备先验的路网知识，可
以通过图神经网络来建立序列间的时空依赖关系。针对上述两种多变量预测问题，本文
分别提出了两种应对模型。
1）针对无先验知识建模序列间关系的多变量时间序列预测问题，本文提出了一种
基于矩阵分解的回声状态网络（FESN）模型。将输入的多变量时间序列进行矩阵分解拆
分出动态矩阵和静态矩阵。其中单独拆分出的静态矩阵包含变量之间相互影响关系，而
拆分出的与时间相关的基底矩阵变量之间是相互独立的。由于时序依赖因子矩阵中存在
复杂动态特性，对于这部分利用 ESN 回声状态网络对这其进行建模。在该模型中，矩阵
分解的融入，解决了传统 ESN 无法进行多变量之间建模问题。ESN 的融入则增强了矩
阵分解原有的对时序建模，增强了复杂动态性的建模能力。本文对 FESN 模型进行了单
多步实验验证，以及可视化和超参数实验分析，进一步验证了 FESN 在处理多变量时序
问题上的有效性。
2）针对存在先验知识建模序列间关系的多变量时间序列预测问题，本文提出了自
适应时空图循环神经网络（ASTGCRN）模型。该模型融合了空间图、时间图以及自适
应图，分别捕捉序列空间依赖性，时间相似性以及节点动态属性。模型遵循用于序列学
习的编码器-解码器框架，通过多图融合的模式来多方位学习多变量时间序列之间的变
化。ASTGCRN 不仅可以捕获序列中细粒度的节点的时空依赖关系，同时还可以捕捉到
46
总结与展望
距离较远的具有相似模式的节点。本文对 ASTGCRN 模型在三个公开交通数据集上进行

了对比实验和消解实验，实验结果表明 ASTGCRN 对比一些其他时间序列预测模型有更
好的性能，多图融合的模式可以显著提升模型的准确性。
综上所述，本文通过提出的两种针对多变量时间序列预测的模型在多变量时间序列
预测的研究方向上，取得了一定的成果。按照本文的研究内容，未来可以围绕以下几个
方向深入展开：
1）由于本文主要在模型的性能验证上，实验中选用的数据集规模较小。而在实际
生产应用中，面对大规模的海量数据，如何更好的实现本文所提出的模型的预测效果，
可以进行深入的拓展研究。
2）在时间序列的预测问题中，多尺度依赖问题也近年来研究的热点，如何提升本
文模型以至于可以高效学习数据中多尺度依赖问题，也是后续深入展开的一个重要方向。
3）在一些实际应用场景中（如传感器采集交通数据集时），数据的采集会出现缺失
值和异常值。在预测过程中面对数据中的缺失值和异常值时，如何优化模型进行更好的
预测，也是后续实际应用中研究的一个重要方向。
47
参考文献
[1] Mahua Bose,Kalyani Mali. Designing fuzzy time series forecasting models: A survey[J].
International Journal of Approximate Reasoning,2019,111: 78 – 99.
[2] 吕盛祥.基于集成回声状态网络的时间序列预测问题研究[D].华中科技大学,2019.
[3] Box G E, Jenkins G M, Reinsel G C, et al. Time series analysis: forecasting and control[M].
John Wiley & Sons, 2015.
[4] Werbos P.J. Backpropagation Through Time: What It Does and How to Do It[J].
Proceedings of the IEEE, 1990, 78(10):1550-1560.
[5] Zhang G P. Time series forecasting using a hybrid ARIMA and neural network model[J].
Neurocomputing, 2003, 50 : 159 – 175.
[6] Ahmed N K, Atiya A F, GAYAR N E, et al. An empirical comparison of ma-chine learning
models for time series forecasting[J]. Econometric Reviews, 2010,29(5-6) : 594 – 621.
[7] Yin J, Rao W, Yuan M, et al. Experimental Study of Multivariate Time Series Forecasting
Models[C]. Proceedings of the 28th ACM International Conferenceon Information and
Knowledge Management. 2019 : 2833 – 2839.
[8] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2000(01):36-46.
[9] Dashti M, Derhami V, Ekhtiyari E. Yarn tenacity modeling using artificial neural networks
and development of a decision support system based on genetic algorithms[J]. Journal of
AI and Data Mining, 2014, 2(1): 73-78.
[10] Mu Y, Liu X, Yang Z, et al. A parallel C4. 5 decision tree algorithm based on MapReduce[J].
Concurrency and Computation: Practice and Experience, 2017, 29(8): e4015.
[11] Pe'er D. Bayesian network analysis of signaling networks: a primer[J]. Science's STKE,
2005, 2005(281): pl4-pl4.
[12] Cramer J S. The origins of logistic regression[J]. Tinbergen Institute Discussion Paper,
2002.
[13] Ke N.R, Goyal A, Bilaniuk O, et al. Sparse Attentive Backtracking: Temporal Credit
Assignment Through Reminding[A]. Neural Information Processing Systems[C].
2018:7651-7662.
48
参考文献
[14] Lv S X, Peng L, Wang L. Stacked autoencoder with echo-state regression for tourism
demand forecasting using search query data [J]. Applied Soft Computing, 2018, 73: 119-
133.
[15] Chung J, Ahn S, Bengio Y, et al. Hierarchical Multiscale Recurrent Neural Networks[A].
International Conference on Learning Representations[C]. 2017.
[16] Zheng K , Qian B , Li S , et al. Long-short Term Echo State Network for Time Series
Prediction[J]. IEEE Access, 2020, PP(99):1-1.
[17] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8):
1735-1780.
[18] Box G, Jenkins G. Some recent advances in forecasting and control[J]. Journal of the Royal
Statistical Society. Series C (Applied Statistics), 1968, 17(2):91–109.
[19] Bai L, Yao L, Kanhere S S, et al. Passenger demand forecasting with multi-task
convolutional recurrent neural networks[C]//Pacific-Asia Conference on Knowledge
Discovery and Data Mining. Springer, Cham, 2019: 29-42.
[20] Tang X, Yao H, Sun Y, et al. Joint modeling of local and global temporal dynamics for
multivariate time series forecasting with missing values[C]//Proceedings of the AAAI
Conference on Artificial Intelligence. 2020, 34(04): 5956-5963.
[21] Yao H, Wu F, Ke J, et al. Deep multi-view spatial-temporal network for taxi demand
prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1)：
2588-2595.
[22] Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: Probabilistic forecasting with
autoregressive recurrent networks[J]. International Journal of Forecasting, 2020, 36(3):
1181-1191.
[23] Li S, Jin X, Xuan Y, et al. Enhancing the locality and breaking the memory bottleneck of
transformer on time series forecasting[C]//Advances in Neural Information Processing
Systems, 2019: 5243-5253.
[24] Yaguang Li, Rose Yu, Cyrus Shahabi, Yan Liu, Diffusion Convolutional Recurrent Neural
Network: Data-Driven Traffic Forecasting, ICLR 2018.
49
[25] Yu B, Yin H, Zhu Z. Spatio-Temporal Graph Convolutional Networks: A Deep Learning

Framework for Traffic Forecasting[J].IJCAI 2018.
[26] Song C, Lin Y, Guo S, et al. Spatial-temporal synchronous graph convolutional networks:
A new framework for spatial-temporal network data forecasting[C]//Proceedings of the
AAAI Conference on Artificial Intelligence. 2020, 34(01): 914-921.
[27] Zheng C , X Fan, Wang C , et al. GMAN: A Graph Multi-Attention Network for
Traffic Prediction[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020,
34(1):1234-1241.
[28] Guo S, Lin Y, Feng N, et al. Attention based spatial-temporal graph convolutional networks
for traffic flow forecasting[C]//Proceedings of the AAAI conference on artificial
intelligence. 2019, 33(01): 922-929.
[29] Wu Z, Pan S, Long G, et al. Graph wavenet for deep spatial-temporal graph
modeling[C]//Proceedings of the 28th International Joint Conference on Artificial
Intelligence. 2019: 1907-1913.
[30] Wang H, Li S, Wang T, et al. Hierarchical Adaptive Temporal-Relational Modeling for
Stock Trend Prediction[J]//Proceedings of the Thirtieth International Joint Conference on
Artificial Intelligence.2021:3691-3698.
[31] Han J, Liu H, Zhu H, et al. Joint Air Quality and Weather Prediction Based on Multi-
Adversarial Spatiotemporal Networks[C]//Proceedings of the 35th AAAI Conference on
Artificial Intelligence. 2021.
[32] Marino D L,Amarasinghe K,Manic M. Building energy load forecasting using deep neural
net-works[C]//IECON 2016 - 42nd Annual Conterence of the IEEE Industrial Electroomls
Society.Florence,2016:7046-7051.
[33] Williams R J, Zipser D. A learning algorithm for continually running fully recurrent neural
networks[J]. Neural computation, 1989, 1(2): 270-280.
[34] Rumelhart D.E, Hinton G.E, Williams R.J, et al. Learning Representations by Back-
propagating Errors[J]. Nature, 1988, 323(6088):696-699.
[35] Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016:367-415.
50
参考文献
[36] Assaad M., Boné R., Cardot H. A new boosting algorithm for improved time-series
forecasting with recurrent neural networks [J]. Information Fusion. 2008, 9: 41-55.
[37] Hochreiter S,Schmidhuber J. Long Short-term Memory[J]. Neural Computation, 1997,
9(8):1735-1780.
[38] 张旭. 基于循环神经网络的时间序列预测方法研究[D].南京大学,2019.
[39] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8):
1735-1780.
[40] Cho K, van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN
Encoder–Decoder for Statistical Machine Translation[C]//Proceedings of the 2014
Conference on Empirical Methods in Natural Language Processing. 2014: 1724-1734.
[41] Jaeger H, Haas H. Harnessing nonlinearity: Predicting chaotic systems and saving energy
in wireless communication[J]. Science, 2004, 304(5667): 78−80.
[42] Gallicchio C , Micheli A . Tree Echo State Networks[J]. Neurocomputing, 2013,
101(3):319–337.
[43] Rodan A , Tino P . Minimum Complexity Echo State Network[J]. IEEE Transactions on
Neural Networks, 2011, 22(1):131-44.
[44] Jaeger H. The “echo state” approach to analysing and training recurrent neural
networkswith an erratum note[J]. Bonn, Germany: German National Research Center for
Information Technology GMD Technical Report, 2001, 148(34): 13.
[45] Zhang G , Zhang C , Zhang W D . Evolutionary echo state network for long-term time
series prediction: on the edge of chaos[J]. Applied Intelligence, 2020, 50(2):1-12.
[46] Kong Y, Zang H, Ma X. Improving TCP congestion control with machine
intelligence[C]//Proceedings of the 2018 Workshop on Network Meets AI & ML. 2018:
60-66.
[47] Tiao G C, Tsay R S. Some advances in non linear and adaptive modelling in time series[J].
Journal of forecasting, 1994, 13(2) : 109-131.
[48] Sorjamaa A, Hao J, Reyhani N, et al. Methodology for long term prediction of time series[J].
Neurocomputing, 2007, 70(16-18) : 2861-2869.
51
[49] Wang L, Lv S X, Zeng Y R. Effective sparse adaboost method with ESN and FOA for
industrial electricity consumption forecasting in China [J]. Energy, 2018, 155: 1013-1031.
[50] 许美玲. 基于回声状态网络的多元时间序列预测研究[D].大连理工大学,2016.
[51] 史加荣,白姗姗.基于随机方差调整梯度的非负矩阵分解[J].吉林大学学报(理学
版),2021,59(01):128-135.
[52] 李欣鑫. 基于深度学习网络模型及非负矩阵分解的高光谱图像解混[D].哈尔滨工业
大学,2020.
[53] 秦臻. 基于非负矩阵分解的时序数据聚类方法[D].哈尔滨工业大学,2016.
[54] 李乐,章毓晋.非负矩阵分解算法综述[J].电子学报,2008(04):737-743.
[55] Kapp V , May M C , Lanza G , et al. Pattern Recognition in Multivariate Time Series:
Towards an Automated Event Detection Method for Smart Manufacturing Systems[J].
Journal of Manufacturing and Materials Processing, 2020, 4(3):88.
[56] Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J].
Nature, 1999, 401(6755):788.
[57] Seung D, Lee L. Algorithms for non-negative matrix factorization[J]. Advances in Neural
Information Processing Systems, 2001, 13: 556-562.
[58] 徐森,卢志茂,顾国昌. 结合 K 均值和非负矩阵分解集成文本聚类算法[J]. 吉林大学
学报（工学版）, 2011, 41(4): 1077-1082.

[59] 仇希如. 基于非负矩阵分解的多视图特征学习研究[D].大连理工大学,2019.
[60] Gori M, Monfardini G, Scarselli F. A new model for learning in graph
domains[C]//Proceedings. 2005 IEEE International Joint Conference on Neural Networks.
2005, 2(2005): 729-734.
[61] F. Scarselli, M. Gori, A. C. Tsoi, et al. The graph neural network model[J]. IEEE
Transactions on Neural Networks, 2008, 20(1): 61-80.
[62] Kipf T, Welling M. Semi-supervised classification with graph convolutional
networks[C]//Proceedings of International Conference on Learning Representations. 2017：
1-14.
52
参考文献
[63] Ying Z, You J, Morris C, et al. Hierarchical graph representation learning with
differentiable pooling[C]//Proceedings of Advances in Neural Information Processing
Systems, 2018,31: 4800-4810.
[64] Zhang M, Chen Y. Link Prediction Based on Graph Neural Networks[C]//Proceedings of
Advances in Neural Information Processing Systems, 2018,31: 5165-5175.
[65] T. N. Kipf, M. Welling. Semi-supervised classification with graph convolutional
networks[C]. 5th International Conference on Learning Representations, ICLR 2017:1-10.
[66] 王冀琛. 基于动态时空网络的城市交通流量预测算法研究[D]. 北京交通大学, 2020.
[67] 梁志平. 多变量时间序列相关分析及建模预测研究[D].大连理工大学,2010.
[68] 贾俊平，何晓群，金勇．统计学[M].第四版.中国人民大学出版社，2009:374.
[69] J. D. Hamilton. Time series analysis[M]. Princeton New Jersey, 1994.
[70] Quan W, Wang K, Yan D M, et al. Distinguishing between natural and computer-generated
images using convolutional neural networks[J]. IEEE Transactions on Information
Forensics and Security, 2018, 13(11): 2772-2787.
[71] Gers F.A, Schmidhuber J, Cummins F, et al. Learning to Forget: Continual Prediction with
LSTM[J]. Neural Computation, 2000,12(10):2451-2471.
[72] Cirstea R G , Micu D V , Muresan G M , et al. Correlated Time Series Forecasting using
Deep Neural Networks: A Summary of Results[J]. 2018.

[73] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J].
Advances in neural information processing systems, 2014, 27:3104-3112.
[74] Wang C, Zhu Y, Zang T, et al. Modeling inter-station relationships with attentive temporal
graph convolutional network for air quality prediction[C]//Proceedings of the 14th ACM
International Conference on Web Search and Data Mining. 2021: 616-634.
[75] Defferrard M, Bresson X, Vandergheynst P. Convolutional neural networks on graphs with
fast localized spectral filtering[J]. Advances in neural information processing systems,
2016, 29:3844–3852.
[76] Kocyan T, Martinovic J, Drázdilová P, et al. Searching Time Series Based On Pattern
Extraction Using Dynamic Time Warping[C]//Dateso. 2013: 129-138.
53
[77] Lea C, Flynn M D, Vidal R, et al. Temporal convolutional networks for action segmentation
and detection[C]//proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2017: 156-165.
[78] Li M, Zhu Z. Spatial-temporal fusion graph neural networks for traffic flow
forecasting[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(5):
4189-4196.
[79] Bai L, Yao L, Li C, et al. Adaptive graph convolutional recurrent network for traffic
forecasting[J]. Advances in Neural Information Processing Systems, 2020, 33: 17804-
17815.
54
攻读硕士学位期间取得的研究陈果
攻读硕士学位期间取得的研究成果
一、与学位内容相关的其它成果（包括专利、著作、获奖项目等）
发明专利：
专利名称：一种多元时间序列的预测方法
专利状态：已受理申请号：2021102753551 发明人：朱思宇
55
致谢
白驹过隙，时光飞逝。转眼间在华南理工大学求学的生涯即将结束。在硕士研究生
三年的求学中，既有艰辛和汗水，也有收获和成长。既有遇到困难的迷茫，也有获取知
识的喜悦。很荣幸在华南理工大学度过人生中宝贵的三年时光，也很荣幸遇到我的老师
和同学们，感谢他们这一路的关怀与帮助，见证了我的成长。
首先感谢我的指导教师，马千里老师。马老师是一位态度严谨，认真负责，为人和
善的师长。虽然由于工作原因，无法一直在实验室跟随马老师学习。但马老师对所有同
学一视同仁，用严谨的逻辑，对科学前沿的把握，细心耐心的对我的学术研究进行指导
和督促。马老师教给我们的不仅是学业上的知识，还有对问题的思考方式。带着审视的
眼光，多维度的去进行思考，培养我们养成良好的思维习惯，对我不仅仅在学习上，在
生活和工作中也得到了很大的帮助。在论文撰写期间，从论文的方向，题目的选则，大
纲的拟定以及在文字表述上，都给予了我十分宝贵的指导建议，给了我很大帮助，能够
在三年硕士研究生活中遇到这样一位严谨负责的老师是我的荣幸。
此外，还要感谢一路给予我帮助的朱思颖和李森同学，对我的论文给予了很多帮助
和建议。在论文推进过程中遇到任何有疑问的地方，都耐心的给予帮助和解答，同时也
细心的指出我撰写中一些不规范的细节，帮助我更好的完成。感谢邱智涛、潘琼、陈亚
妹同学在三年硕士研究生活中给予的帮助，做课程作业时，经常一起讨论问题，对作业
上遇到的任何问题和困难，能够不厌其烦的帮助和解答。能够遇到这些同学，也是我这
硕士三年生涯中的一笔宝贵财富。
在这里，还要感谢我的领导，对我学业上的支持。每次因课程及论文请假都给予了
审批和支持，关心我的进度，工作上也给予了很大的信任和帮助。
还要特别感谢我的父母，感谢他们对我的教育，以及一直以来的尊重和支持，他们
永远是我前进和拼搏的动力。
最后，感谢评阅这篇论文的专家评审们，感谢你们给予的宝贵指导意见。
朱思宇
2022 年 4 月 3 日于华南理工大学
56
３．
答辩委员会对论文的评语


（主要内容包括：
１．
对论文的综合评价２对论文主要工作和创造性成果的简要介绍；
．


；
３．对作者掌握基础理论、专业知识程度独立从事科研工作能力以及在答辩中表现的评价、


；
４．
存在的不足之处和建议；
５．
答辩委员会结论意见等 

）
朱思宇同学的硕士学位论文针对多变量时间序列预测问题进行研究根据是否能通过

 。
先验知识给出序列间关系将该问题分为无法通过先验知识获取变量间关系的多变量时序

 ，
预测问题和以通先知识获取变量间关系的多变量时序预测问题并针对两类多变量
可过验 
 ，
时间序列预测问分别提出了两种新型神
题经网络模型论文选题具有定的理论研宄和实 

一
践意义 

。
针对第类多变量时间序列预测问题论文提出了基于矩阵分解的回声状态网络模型
一
，


；
针对第二类多变量时间序列预测问题提出了自适应时空图循环神经网络模型论文提出 
 ，。
的方法在多个数据集上取得了较好的实验结果验证了模型的有效性， 

。
论文的理论分析和模型设计合理算法与方案描述较为标准规范可看出作者有较 
 ，、，
好的科研工作能力所做工作具有定的创新性
一
， 

。
在答辩过程中答辩人表述清楚逻辑清晰能准确理解并回答专家提出的问题经 
 ，
、，
。
记
答辩委员会无名投票表表决致同意通过朱思宇同学的硕士学位论文答辩，
一
，


予
硕士位
建议授


。
学
论答辩文
日
期
年：
 答委Ｍ上２〈
月６日辩
员会委员
＿１
＿


人
表决票数：业及予位ｎ
同
意毕授
学
（


票
业但不
同
予位
意毕，
同意授学（
〇
） 

票
不
业同
意毕（
０
）


票
表
决结果
（
打
业及予位
“ ”
Ｖ）：
同意毕授学（／ 

）
业但位同意毕
，
不同意授予学（ 

）
 业不同意毕（）
爲




，
＋卜

（）
主席
一 


細
答员
签名）


，
签
答辩秘


书
騎版名



第
１页共１２页
请姓申
人名
：朱思 

宇

基于深度神经网络模型的多变量时间序列预测 朱思宇

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于深度神经网络模型的多变量时间序列预测 朱思宇

Uploaded by

Copyright:

Available Formats

专业学位硕士学位论文

South China University of Technology

2.1.1 RNN 基本原理

循环神经网络[33]（Recurrent Neural Networks, RNN）它是由 Ronald Williams 和 David

图 2-1 RNN 循环单元结构图[33]

随着循环神经网络的发展，长短期记忆网络 [39]（long short-term memory network,

LSTM）和门控循环单元网络[40]（Gated Recurrent Unit, GRU）相继被提出。两种模型均

图 2-3 GRU 循环单元结构图[40]

ℎC* = 𝑡𝑎𝑛ℎ(𝑊 ⋅ [𝑥* , 𝑟* ⨀ℎ*2& ]) （2-4）

ℎ* = 𝑧⨀ℎ*2& + (1 − 𝑧)⨀ℎC* （2-5）

更新操作。ℎC9 表示重置之后的信息与当前输入𝑥* 相结合，主要用于记忆当前状态。公式

（2-5）则表示 GRU 中记忆更新，遗忘部分隐藏状态的信息，同时获取部分当前时刻的

回声状态网络[41]（Echo State Network，ESN）是近年来热门研究方向之一，是德国

输入层 储备池 输出层

𝑦(𝑡 + 1) = 𝑓(𝑊ST* 𝑢(𝑡 + 1), 𝑥(𝑡 + 1), 𝑦(𝑡)) （2-7）

确定储备池大小 样本数据加载到输入输出 输入向量加载到输入节点

生成连接矩阵储备池系数 线性回归求解输出权重 从输出节点取得成果

取𝑉 = [𝑉∙& , 𝑉∙( , . . . , 𝑉∙W ]，其中𝑉∙g = 𝑣g ，𝑗 = 1,2, … , 𝑁 。NMF 算法要求发现非负的𝑀 × 𝐿的

公示表达详见公式（2-8），其中，原始矩阵𝑉P×m 每一列代表一个样本数据，n 是样本数

r ámn /(m + n) 。系数矩阵𝐻可以看作是原始矩阵𝑉在基地矩阵W上的投影，因而在后续的

是一个凸函数。Lee 和 Seung 在在相关文献中提到了采用更新规则来求取目标函数最优

其中，ℎ表示节点的特征，下标𝑢或𝑣 表示节点的索引，上标𝑘 表示层数，𝜎表示激活

图卷积神经网络[65]（Graph Convolutional Network, GCN）与卷积神经网络类似，是

由𝑢 ∈ 𝑁(𝑣) ∪ 𝑣可知，GCN 在聚合处理的过程中，收集的输入信息不仅仅包括与节

求解矩阵𝐹W×ˆ 和𝑋ˆ×" 解使得损失函数最小，利用梯度下降法进行求解，训练过程如公式

𝐼 = y y[𝑌Og − (y 𝐹O‰ ∙ 𝑋‰g )] （3-2）

𝛹 = y |𝑣(𝑡) − 𝑊^š ⋅ 𝑟(𝑡)|( ∙ 𝑟(𝑡) + 𝜂|𝑊^š |( （3-9）

𝑟(𝑡 +△ 𝑡) = ¤ 𝑊BQR ∙ 𝑟(𝑡) + 𝑊™^ ∙ 𝑢(𝑡) （3-11）

3.2.4 FESN 的训练流程

表 3-1 FESN 算法流程表

1. 初始化𝐹« ~ 𝒩(0，𝛪)，𝑋« ~ 𝒩(0，𝛪)，其中𝐹« ≥ 0，𝑋« ≥ 0

预测向量𝑣(𝑅) = [𝑣*l& ，𝑣*l& . . . 𝑣B ]，𝑅表示预测数据集部分输入序列长度，将预测数据集

输出向量堆叠为矩阵形式得到𝐾 × 𝑅维输出矩阵𝑉ˆ×^ ，再与之前矩阵分解拆分的时序依

其中 y½¾ 表示预测值𝑖时刻模型得到的预测值，y¾ 表示𝑖时刻的真实值，𝑛表示预测的步长。

MSE 和 MAE 都是表示预测值与真实值的偏离程度，两者数值越小，表明模型预测

在个别数据集上尤为明显。主要是因为 VAR 是以统计性质为基础的，所描绘的是单个

数据集 𝐾 𝐼𝑆 𝑁^ 𝑆𝑅 𝐶𝑅 𝜆^ MSE MAE

1 le-2 500 0.9 0.02 0.5 0.01568 0.09165

化调整范围，参照表 3-7，使得超参数𝐾从 1 到 8 递进变化，观察 MSE 和 MSE 的值。

1）当矩阵分解系数𝐾 = 1时，相当于把原本 8 维的序列重构成了一个一维序列，输

内存信息：8GB， DDR4 ，2133MHz+256GB ，实验代码使用 python3.0 实现。所采用的

FESN 进行了预测验证。实验中一共采用六个数据集在 FESN，ESN、RNN、LSTM、CNN、

节点自适应参数学习（Node Adaptive Parameter Learning，NAPL）是在传统 GCN 算

其中，𝑋 ∈ 𝑅W•Å 和𝑍 ∈ 𝑅W•Æ 分别表示图卷积网络的输入和输出，𝐴 ∈ 𝑅W•W 和D分别

矩阵𝑀P×m ，其入口为𝑀O×g = Ê𝑥O − 𝑦g Ê，那么代价矩阵𝑀"È 可以被定义:

经过i和j的多次迭代，𝑑𝑖𝑠𝑡(𝑋 , 𝑌) = 𝑀"È (𝑚 , 𝑛)&/( 是𝑋和𝑌之间的最终距离，它可以代

算法，其主要目的是求解最优路径/最小代价路径。即序列点𝑥O 和𝑦g 匹配。

𝛺 = Ì𝜔& ，𝜔( ， ⋯ ，𝜔Ó Í，𝑚𝑎𝑥(𝑛, 𝑚) ≤ 𝜆 ≤ 𝑛 + 𝑚 （4-5）

通过公式（4-4）迭代生成，它的元素𝜔Ó = Ì𝑥O , 𝑦g Í示 𝑥O 和𝑦g 的匹配。DTW 模型的算法过

程详见表 4-1 和表 4-2。

1. 初始化W，重置矩阵TDL：算法 4-2 定义时间距离计算

4. 𝑑𝑖𝑠𝑡O,g = 𝑇𝐷𝐿Ê𝑉O − 𝑉g Ê (算法 2)

算法 4-2 时间距离计算( 𝑇𝐷𝐿)

2. for 𝑗 = 𝑚𝑎𝑥(0, 𝑇 − 1)， ⋯ ，𝑚𝑖𝑛(𝑚, 𝑖 + 𝑇 + 1)

其中𝐸Ü ∈ 𝑅W× ß ,它每一行代表一个节点的嵌入，𝑑Q 表示节点嵌入的维度。训练时，

𝑍 = (𝐼W + 𝑠𝑜𝑓𝑚𝑎𝑥(𝑅𝑒𝐿𝑈(𝛼𝑀ÉÈ + 𝛽𝑀"È + 𝐸Ü ∙ 𝐸Ü" ))) × 𝐸È 𝑊È + 𝐸È 𝑊È （4-8）

其中𝑀ÉÈ 和𝑀"È 分别代表上面生成的空间图和时间图，𝐸Ü 𝐸Ü" 代表自适应图，𝛼和𝛽为

𝑀ÉÈ 和𝑀"È 的权重。

自适应时空图循环网络 ASTGCRN，它集成了 NAPL- GCN、DTW、DAGG 和门控

𝐴ã = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(Relu(αMÉÈ + βM "È +EÜ EÜ" )) （4-9）

𝑧* = 𝜎Ì𝐴ãèX:,9 , h92& ëEWì + Ebì Í （4-10）

𝑟* = 𝜎Ì𝐴ãèX:,9 , h92& ëEWî + Ebî Í （4-11）

ℎC* = tanhÌ𝐴ãèX:,9 , r⨀h92& ëEWñH + EbñH Í （4-12）

基于深度神经网络模型的多变量时间序列预测朱思宇

基于深度神经网络模型的多变量时间序列预测朱思宇

ℎ* = 𝑧⨀ℎ2& + (1 − 𝑧)⨀ℎC （2-5）

输入层储备池输出层

确定储备池大小样本数据加载到输入输出输入向量加载到输入节点

生成连接矩阵储备池系数线性回归求解输出权重从输出节点取得成果

预测向量𝑣(𝑅) = [𝑣l& ，𝑣l& . . . 𝑣B ]，𝑅表示预测数据集部分输入序列长度，将预测数据集