08 3 多媒体技术的综合应用多模态数据融合

多媒体技术勤读力耕立己达人
多模态学习导学
1 多模态数据概述
2 多模态学习的典型应用
3 多模态学习的研究内容与方法
参考文献：
[1] 杨曦 , 宋彬 . 多模态数据融合与检索技术 , 西安电子科技大学出版社 , 2021.
[2] 刘建伟 , 丁熙浩 , 罗雄麟 . 多模态深度学习综述 , 计算机应用研究 , 2020, 37(6).
11:24
1. 多模态数据概述
模态是指事物发生或存在的方式，多模态是指两个或两个以上模态的各种
形式的组合。不同模态是从不同角度描述同一事物，从而可以更全面地观
察和分析事物。
其他模态：触觉、嗅觉、味觉、超声、电磁等信息。
11:24
2. 多模态学习的典型应用
• 多模态学习指建立模型使计算机学习多个模态的信息，并且实现模态间信
息的融合、交流和转换。
• 典型应用：当前主要关注文本、图像、视频、语音信号。
• 视听语音识别：将视听信息融合以克服噪声干扰，提高识别准确度。
研究案例：对两种模态进行训练比单一模
态达到的效果好。融合发生在最后一个隐
藏层，通过双线性 DNN 模型捕捉模态中的
非线性特征间的相关性。然后在融合空间
训练一个 Softmax 网络。
11:24
• 图文情感分析：更好
地理解对某些事件的
态度或观点。
研究案例：用结合视觉注意机
制的长短期记忆网络 LSTM ，
捕捉图像与文本之间的关联，
以获取图像情感。
11:24
• 协同标注：使用资源丰富的模态辅助另一个资源相对少的模态进行学习。
迁移学习 (Transfer learning) 属于协同学习的范畴：从相关领域中迁移
标注数据改进目标领域的学习效果。
11:24
• 多模态转化 (Multimodal Translation): 也称为映射，是将一个

模态的信息转化为另一个模态的信息。
11:24
• 多模态检索 (Multimodal Retrieval): 针对一种模态的查询词，返
回与之相关的不同模态的检索结果。本质上是对来自同一个实例的不
同模态信息寻找对应关系，度量模态间的相似性。
11:24
3. 多模态学习的研究内容与方法
• 从学术问题的角度多模态学习的可分为：模态表示、模态转化、
模态融合和模态对齐。
• 模态表示 (Multimodal Representation) ：模态表示利用多模态
之间的互补性，剔除模态间的冗余，从而学习到更好的特征表示
。
• 模态转化（ Translation/Mapping ）：转化也称为映射，将一个
模态转换为另一个模态。如：机器翻译、语音翻译、图片或视频
描述、语音合成、唇读。
• 模态融合（ Fusion ）：多模态融合是指综合来自两个或多个模态
的信息以进行预测的过程。
• 模态对齐（ Alignment ）：对来自同一个实例的不同模态信息的
子分支 / 元素寻找对应关系。如：多模态检索。
11:24
3.1 模态表示—单模态
文本：声音：提取声音信号的语义特征向量。
单词的独热表示两个步骤： (1) 声音模拟信号转换为声
单词的低维空间表示音数字信号并完成特征向量的提取；
序列的袋子表示 ( 顺序 ) (2) 提取特征向量的高阶表示。
序列的低维空间表示
图像：用 CNN 卷积和池化产生图像的矩阵表示，用全连接层产生图像

的向量表示。如： AlexNet 、 VGG 、 GoogLeNet 、 ResNet 。
视频：包含空间和时间两
个属性信息。空间属性由
CNN 提取，时间属性由
CNN 或 LSTM 从邻近帧提取
。
(a) 单通道 CNN (b) 双通道 CNN
11:24
3.1 模态表示
• 多模态表示包含多个模态的信息，是多个模态共用的语义空间中的
向量。当缺少某些模态数据信息时，依然能产生多模态表示。最简
单的方式就是串联各模态表示。
• 多模态表示学习：利用多模态之间的互补性和关联性，剔除冗余，
从而为每个模态提取最具有判别性的特征表示。包括：联合表示和
协同表示。
共享的子空间各自的子空间
11:24
3.1 模态表示
• 联合表示 (Joint representation) ：把多个模态投影到一个共享

的子空间，形成一个多模态向量空间。从一个模态的向量可以生
产另外一个模态的向量。
11:24
3.1 模态表示
• 协同表示 (Coordinated representation) ：每个模态分别映射到

各自的表示空间，但映射后的向量之间满足一定的约束关系，例
如线性相关。
11:24
3.2 模态转化 / 映射
• 模态转化：将模态中信息转化到另一个模态。转化的研究主要在图片
和语句、语句和声音、语言和语言等两个模态之间。
• 按转化结果的可预测性分为有界转化和开放性转化。
• 有界转化是将源模态中的一个元素转化为目标模态中的某个元素，目
标元素没有前后序列关系。如跨媒体检索、语音生成。
• 开放性转化是指转化结果为目标模态有前后顺序关系的多个元素组成
的序列。目标模态常为句子，如机器翻译、图像标注、语句生成和声
音识别等。
• 各种应用均有大量方法发表。
11:24
3.3 多模态数据融合
• 早期融合 (Early Fusion): 先从每种模态中分别提取特征，然后在
特征级别使用不同方法进行融合，即特征融合。
• 后期融合 (Late Fusion): 不在原始数据上融合，而是对每种模态分
别用不同算法进行训练，将得到的结果以某种决策方式进行融合。
早期融合
后期融合
11:24
• 中期融合 (Intermediate Fusion): 针对不同模态数据的特点选择
不同的神经网络，例如图像用 CNN ，文本用 RNN 或者选择多个全连接
层完成特征提取，然后通过共享表示层对不同的特征表示进行融合。
从而在共同空间中挖掘隐含的相关性。
效果佳，最流行。
应用于人机交互、
问答系统、情感分
析、姿态识别。
11:24
实现的方法：
•传统方法：基于规则，基于分类，基于估计。
•基于池化的方法：通过计算视觉与文字的特征向量创造表示空间，以进
行特征向量融合以及多模态向量的交互。
•基于深度学习的方法：分为判别模型和生成模型。将注意力集中在特征
图的特定区域或特征序列的特定时间步长上，可以提高整体性能。
•基于图神经网络的方法：适用于各模态内的拓扑关系图建模，也适用于
多个模态间的拓扑关系建模，可以传递更多的模态数据信息。
11:24
3.3.1 基于池化的融合方法 ( 略 )
（ 1 ）张量融合网络方法
Part1 为模态嵌入子网络，其对于语言、视觉和声音模态有不同的设计；
Part2 是张量融合层（ Tensor Fusion Layer, TFL ），是为了解决不同模
态之间交互的问题而设计的；
Part3 是情绪推理子网络，其承接张量融合层的输出，并进行情感推理。
11:24
3.3.1 基于池化的融合方法
（ 2 ）低秩多模态融合方法
该融合方法可以认为是张量融合网络方法的等价升级版，其利用低秩权值张量分解提高多模态融合的效率并且不影响多模态融合的性能。
首先低秩多模态融合方法通过将单模态输入分别传递到三个子嵌入网络中，得到单模态表示向量。然后低秩多模态融合方法通过与特定
模态因子进行低秩多模态融合输出多模态表示向量。
11:24
3.3.1 基于池化的融合方法
（ 3 ）多项式张量池化方法
通过堆叠多项式张量池化块搭建了层次多项式融合网络。
一个多项式张量池化块在一个“接收窗口”上运行，该“接收窗口”覆盖
了所有八个时间点和三种模态的特征。这样，多项式张量池化块就可以捕
获窗口内总共二十四个混合特征之间的高阶非线性交互作用。
多项式张量池化块与一个小的“接收窗口”相关联，它自然地表现出局部
相关性。
11:24
3.3.2 基于深度学习的融合方法 ( 略 )
（ 1 ）基于判别模型的多模态数据融合方案
 多模态卷积神经网络 m-CNN 为了充分捕捉语义关联，在端到端架构中设计了单词等级、词组等级和句子等级三种等级的融合策略。
 单词等级和词组等级的融合是指将句子中的部分单词或词组与图像的部分区域相融合。句子等级的融合则指整个句子和图像的
整体相融合。
 设计了三个子网络，分别是：图像子网络、匹配子网络和评估子网络。
11:24
3.3.2 基于深度学习的融合方法
（ 2 ）基于判别模型的多模态数据融合方案
 模态数据的兴趣相关产品相似模型 (Multimodal Interest-Related Item Similarity model, Multimodal IRIS) 将用户与产品的
交互信息以及产品的图像数据与文本数据相融合，用于产品的推荐。
 Multimodal IRIS 模型由三个模块组成，即多模态特征学习模块、兴趣相关网络（ Interest-Related Network, IR
N ）和产品相似度推荐模块。
11:24
（ 3 ）基于生成模型的多模态数据融合方法
 编码器是基于生成模型中常见的一种模型。通常意义的自编码器原理很简单，包括一个编码器和解码器，数学上都表现为输入信号的变换运算。编码器经变换运算将输入信号编码成信号，而解码器将经编码的转换成输出信号。
 自编码器区别于多层感知器的最重要的一点是采用无监督学习方式，训练时输入即输出，不需要额外的标签。
 输入层到隐含层为编码器，它可以从高维输入空间变换到低维隐含空间，即学习到数据的隐含表示。
 隐含层到输出层为解码器，利用学习到的隐含特征重构输出逼近原始输入数据。
11:24
 典型的自编码器结构，输入层的 x1 , x2 , ..., xn 通过编码器的编码过程得到隐藏层的低维向量，
再通过解码器重构输出逼近输入的 x1 , x2 , ..., xn 。
11:24
 两模态深度自编码器首先从音频输入和视频输入中分别得到音频表示向量和视频表示向量，
然后经过编码融合得到共享表示向量，最后经过解码器得到音频重建向量和视频重建向量。
11:24
（ 6 ）基于注意力机制多模态数据融合方法
 注意力机制允许模型将注意力集中在特征图的特定区域或特征序列的特定时间点上。通过该机制，不仅仅可以提高性能，而且可以提高特征表示的可解释性。
 注意力决策过程不是一次性地使用所有信息，而是选择性地将注意力集中在需要的场景部分，忽略不重要的部分。
 基于键的注意力机制使用键值来搜索显著的局部特征。
 基于键的注意力机制在视觉描述类的问题上应用广泛。它提供了一种方法来评估一个模态内或模态间特征的重要性。
11:24
 多模态对抗表示网络（ Multimodal Adversarial Representation Network, MARN ）用
于点击率（ Click-Through Rate ， CTR ）预估任务。
11:24
 无键注意力机制主要用于分类或回归任务。在这样的应用场景中，由于结果是在单一步骤中生成的，很难定义一个键来引导注意力模块。或者，注意力机制是直接应用于局部特征，不涉及任何键。公式如下：
 由于无键注意力机制可以从原始输入中选择显著的线索的性质，无键注意机制适用于存在语义冲突、重复和噪声等问题的多模态特征融合任务。
ei  score  ai 
exp  ei 
i  L
 exp e 
i 1
i
 vT ai
score(ai )   T
v tanh Wai 
11:24
3.3.3 基于图神经网络的融合方法 ( 略 )
图卷积神经网络举例
图神经网络还可以根据任务的不同进行网络结构的修改，除了图卷积神经网络之外还有图注意力网络（ Graph Attention Network, GAT ），关系图卷积神经网
络（ Relational Graph Convolutional Network, R-GCN ），这些图神经网络结构旨在解决具有不同结构、不同特征关系的图网络特征提取。
跨模共享特定特征传输算法
解决以往的研究中只专注于将不同的模态嵌入到同一个特征空间中来学习共同的表达，而忽视了特征的差异性的问题
根据模态共有特征建立不同模态样本的亲和力模型，然后在模态之间传递模态共有的特征和模态特定的特征
11:24
3.4 多模态数据对齐
• 模态对齐（ Alignment ）：对来自同一个实例的不同模态信
息的子分支 / 元素寻找对应关系。如：多模态检索。
• 多模态数据检索 : 以一种模态的数据作为请求，检索出另
外一种模态的数据。
• 策略一：学习一个多模态数据的共享层，基于共享层来建模
各模态数据之间的关联。得到两个模态信息的公共部分。
11:24
• 策略二：首先各模态分别学习信息的表示；然后将不同模态的
数据通过关联分析映射到一个公共表示空间。
CCA, Canonical
Correlation Analysis
11:24
 多模态检索数据集信息总结
数据集模态样本数类别数
Pascal VOC 图像 - 标签（异构） 9963 20
Wikipedia 图像 - 文本（异构） 2866 10
NUS-WIDE 图像 - 标签（异构） 269648 81
INRIA-Websearch 图像 - 文本（异构） 71478 353
Flickr30K 图像 - 句子（异构） 31783 --

图像 - 文本 - 视频 - 音
XMedia 12000 20
频 -3D 模型（异构）
Clickture 图像 - 文本（异构） 11360 万 --
红外图像 - 自然图像
RegDB 4120 206
（异源）
CUFS 照片 - 素描（异源） 606 606
11:24
3.4 多模态数据检索
(略)
（ 1 ）无监督的深度学习检索方法
 双模态受限玻尔兹曼机
（ a ）浅层双模态受限玻尔兹曼机
（ Restricted Boltzmann Machine ， RBM ）模型（ b ）双模态深度置信网络（ Deep Belief Network, DBN ）模型
（ c ）视频深度自编码器模型（ d ）双模态深度自编码器模型
11:24
 对应自动编码器（ Correspondence Autoencoder ， Corr-AE ）
（ a ）对应自编码器模型（ Corr-AE ）（ b ）对应跨模态自编码器模型（ Corr-Cross-AE ）
（ c ）对应全模态自编码器模型（ Corr-Full-AE ）
11:24
 对应自动编码器（ Correspondence Autoencoder ， Corr-AE ）
深度网络模型由三个堆叠的部分组成。前两个部
分都是 RBM ，第三部分可以引入上述的三个对
应自编码器（ Corr-AE ， Corr-Cross-
AE ， Corr-Full-AE ）中的任何一个
深度网络模型
11:24
 联合嵌入模型
该框架由三部分组成：一个复合语义语言模型，一个深度视频模型以及一个联合嵌入模型。基
于这三个模型，该框架能够完成三个任务：自然语言生成、视频检索和语言检索。
11:24
（ 2 ）基于成对数据的深度学习检索方法
与无监督深度学习检索方法相比，基于成对数据的深度学习检索方法利用更多相似对（或
不相似对）来学习不同数据形式之间有意义的度量距离，这可以视为异构度量学习。
异构数据度量学习的基本原理
两张硬币图与其对应的文本描述距离相近，而两个图像 - 文本对之间距离较远，通过距离
度量可以将图像与其各自对应的文本拉近，将不同图像 - 文本对距离拉远。通过相似对与不相
似对进行异质数据间的度量学习，从而提升检索精度。
11:24
 潜在特征学习法
隐藏特征是社交媒体网络中数据的一种潜在表示形式，其学习方法包括：组成和分解特定结构的底层特征以及整合来自相
互联系的社交媒体数据的集体效应。根据产生的隐藏特征空间可以执行更高级别的社交媒体任务，例如连接分析、跨
模态检索等。
基于隐藏特征学习的社会媒体数据分析框架
11:24
 模态特定深度结构方法（ Modality-Specific Deep Structure ， MSDS ）
该模型使用两种类型的卷积神经网络将原始数据分别映射到图像和文本的隐藏空间表示。用于文本特
征提取的卷积神经网络引入词嵌入学习，这种学习可有效提取有意义的文本特征以进行文本分类。
MSDS 结构
11:24
（ 4 ）有监督的深度学习检索方法
 正则化深度神经网络（ Regularized Deep Neural Network ， RE-DNN ）
该网络模型用于跨模态的语义映射
设计并实现了一个 5 层神经网络来学习该模型，以捕获不同输入之间的高度非线性关系，用于将视觉和文本特征映射到公共语义空
间中，从而可以测量不同模态之间的相似性。
输入文件模态表示语义特征多模态联合建模

Mv J
I C1 C2 C3 C4 C5 F6 F7
W(1)v W(2)v
ψ
W(3)
W(4)
Railway lines began topic 1

operating locally B topic 2
during the 1840s, but O
it was ... T topic 3 Π
⸱⸱⸱ W(1)t W(2)t
T Mt
11:24
 深度语义匹配方法（ Deep Semantic Matching ， deep-SM ）
学习了两个独立的深度网络，以将图像和文本映射到具有更高抽象层的公共语义空间，因此可
以根据它们共享的真实标签来建立两个模态之间的相关性。
11:24
 对抗跨模态检索（ Adversarial Cross-modal Retrieval ， ACMR ）
基于对抗式学习寻求有效的公共子空间
对抗跨模态检索框架主要包括： 1 ）特征投射器 2 ）模态分类器
特征投射器试图在公共子空间中生成模态不变表示，并试图欺骗模态分类器
11:24
4 书面作业
撰写研读报告一份，具体要求如下：
1.查询、选择并阅读与本课程相关的论文，写出对该论文的理解；
2.选择研究论文，不要综述。论文应为近年研究成果，发表时间不超过
5 年。论文层次不能太低，不要 EI 会议论文，为简单起见建议按照下
述标准选读 :
(1)SCI 论文；或者 (2) 下述目录中的论文： https://zhuanlan.zhih
u.com/p/455793154
3.报告的结构为：论文基本信息 ( 作者、题目、刊物、时间 ) 、论文的
研究背景、方法、结果或结论。
4.全文 2000 汉字左右为宜。
5.ITC 提交，不交纸质版，截止时间在考试后，见系统。
11:24
图像、视频和语音技术的研究中国走在前列。
11:24
感谢同学们的合作，祝同学们学业有成，
并将个人发展融入民族复兴的伟大事业！
11:24

08 3 多媒体技术的综合应用多模态数据融合

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

08 3 多媒体技术的综合应用多模态数据融合

Uploaded by

Copyright:

Available Formats

多媒体技术勤读力耕立己达人

• 多模态转化 (Multimodal Translation): 也称为映射，是将一个

图像：用 CNN 卷积和池化产生图像的矩阵表示，用全连接层产生图像

• 联合表示 (Joint representation) ：把多个模态投影到一个共享

• 协同表示 (Coordinated representation) ：每个模态分别映射到

INRIA-Websearch 图像 - 文本（异构） 71478 353

Flickr30K 图像 - 句子（异构） 31783 --

（ a ）对应自编码器模型（ Corr-AE ）（ b ）对应跨模态自编码器模型（ Corr-Cross-AE ）

输入文件模态表示语义特征多模态联合建模

Railway lines began topic 1

You might also like

08 3 多媒体技术的综合应用 多模态数据融合

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

08 3 多媒体技术的综合应用 多模态数据融合

Uploaded by

Copyright:

Available Formats

多媒体技术 勤读力耕 立己达人

• 多模态转化 (Multimodal Translation): 也称为映射，是将一个

图像：用 CNN 卷积和池化产生图像的矩阵表示，用全连接层产生图像

• 联合表示 (Joint representation) ：把多个模态投影到一个共享

• 协同表示 (Coordinated representation) ：每个模态分别映射到

INRIA-Websearch 图像 - 文本（异构） 71478 353

Flickr30K 图像 - 句子（异构） 31783 --

（ a ）对应自编码器模型 （ Corr-AE ） （ b ）对应跨模态自编码器模型 （ Corr-Cross-AE ）

输入文件 模态表示 语义特征 多模态联合建模

Railway lines began topic 1

You might also like

08 3 多媒体技术的综合应用多模态数据融合

08 3 多媒体技术的综合应用多模态数据融合

多媒体技术勤读力耕立己达人

（ a ）对应自编码器模型（ Corr-AE ）（ b ）对应跨模态自编码器模型（ Corr-Cross-AE ）

输入文件模态表示语义特征多模态联合建模