Professional Documents
Culture Documents
8
2023 年 8 月 Electric Power Information and Communication Technology Aug. 2023
中图分类号:TP391.4 文献标志码:A 文章编号:2095-641X(2023)08-029-07 DOI:10.16543/j.2095-641x.electric.power.ict.2023.08.05
著录格式:王栋,李达,杨珂,等.基于多模态信息融合的深度伪造检测[J].电力信息与通信技术,2023,21(8):29-35.
基于多模态信息融合的深度伪造检测
王栋 1,2,李达 2,3,杨珂 2,3,郭庆雷 2,3,王合建 2,3
(1.国网数字科技控股有限公司,北京市 西城区 100053;
2.国网区块链科技(北京)有限公司,北京市 西城区 100053;
3.国家电网有限公司区块链技术实验室,北京市 西城区 100053)
摘要:深度伪造技术的快速发展和应用给国家和社会安全、个人信息数据、企业安全等造成了潜在威胁。从电网
企业的实际业务场景出发,针对现有深度伪造检测方法的泛化能力不足问题,文章提出一种基于多模态信息融合
的深度伪造检测方法,为保护电网企业合法权益提供支撑。提出的方法在基准人脸伪造数据集
FaceForensics++(FF++)进行验证评估,结果表明该方法在人脸伪造检测方面性能优良、鲁棒性好,同时多模态信
息融合使得模型泛化性得到了很好的提升。
关键词:多模态信息融合;VisionTransformer 模型;深度伪造
ABSTRACT: The rapid development and application of deep forgery generation technology have posed potential threats
to personal privacy data, social stability, national and enterprise security, etc. Starting from the actual business scenarios
of power grid enterprises, and aiming at the insufficient generalization ability of existing deep forgery detection methods,
this paper proposes a deep forgery detection method based on multimodal information fusion to provide support for
protecting the legitimate rights and interests of power grid enterprises. The method proposed in this paper is verified and
evaluated in the benchmark face forgery dataset FaceForensics++(FF++). The experimental results show that the method
has good performance and robustness in face forgery detection, and multimodal information fusion improves the
generalization of the model.
KEY WORDS: multimodal information fusion; VisionTransformer model; Deepfake
0 引言 人脸替换;而保留身份信息的深度伪造生成类型主
要为属性编辑及表情重演。随着深度伪造技术的不
深度伪造(Deepfake)技术是指利用生成对抗网
断更新迭代,当前的深度伪造类型不仅仅停留在视
络(generative adversarial network,GAN)等模型实现
觉层面,还囊括了音频类型的伪造(见图 1)。
伪造图像、视频的生成 [1] 。该项技术最早起源于
2017 年,一个名为 Deepfakes 的用户在 Reddit 网站
上发布了用女明星的脸替换色情视频中人脸的视
频[2]。从身份信息相关的角度可以将深度伪造生成
大致分为 2 类:一是与身份信息无关的伪造类型的
人脸合成;二是与身份信息相关的伪造类型的人脸
合成。其中,与身份信息相关的伪造类型人脸合成
又包括不保留身份信息的伪造与保留信息的伪造
类型。不保留身份信息的深度伪造生成类型主要为
图 1 深度伪造典型类型与新兴伪造类型
基金项目:国网数科控股公司科技项目“电力生产运行数据深度伪 Fig. 1 Typical types of deepfakes and emerging
造排查、数据取证、鉴定与溯源技术研究”(1200/2022-72001B)。 types of forgery
www.dlxxtx.com
30 王栋等:基于多模态信息融合的深度伪造检测 Vol. 21 No. 8
深度伪造生成技术已在多个领域大量应用, 伪造样本。
如:视频换脸、语音合成、修复影像、虚拟数字人 当前,深度伪造在电力场景下的应用较少,但
等越来越频繁地出现在社交娱乐、影视制作等领 还需防范深度伪造带来的风险。为了更好的将深
域。随着深度伪造生成技术变得更智能、更便捷, 度伪造检测技术应用于电力场景,本文针对深度
一些不法分子利用深度伪造生成技术生成有害的 伪造检测泛化能力不足的问题,如新型伪造方法
音视频内容,除人脸替换带来的淫秽色情视频泛滥 生成的伪造图像、图像尺寸缩放的伪造图像和图
外,在人脸合成、语音合成等领域,很多不法分子 像质量压缩的伪造图像等,提出基于多模态信息
盗用他人身份进行网络诈骗、网络攻击,侵犯他人 融合的深度伪造检测方法,并与现有深度伪造检
隐私权利,对国家和社会安全、企业名誉权以及他 测方法在基准数据集进行对比,从而验证本文方
人合法权益等造成了严重威胁,深度伪造生成技术 法的有效性。
的恶意使用,已日渐发展为虚假信息战的新武器。
1 模态信息
所以,研究更鲁棒、更泛化的深度伪造检测技术变
得更迫切。 每种信息的来源或形式都可以称为一种模态。
电网公司涉及业务范围大,是关乎国计民生的 狭义来讲,多媒体数据如文本、音频、图像、视频
骨干企业,深度伪造生成技术的滥用或将对电网企 等都属于模态的一种;广义上讲,模态是指对原始
业造成难以评估的影响。在编辑制作能源电力新闻 数据集根据不同的特征提取方法得到的不同特征
过程中,需要对从境内外获取的视频素材进行鉴 组合[12]。
别,防止利用深度伪造生成技术恶意伪造电网企业 针对深度伪造检测任务,独立于模态概念本
领导的讲话内容,通过合成假视频抹黑企业重要人 身,不同的计算机视觉任务对模态有不同的定义。
物。在线路设备运检、电网建设和营销查窃电等涉 对于深度伪造检测任务也有特定的模态。除了常见
外电力生产运行业务中,需要对现场施工音视频进 的图像、音频、视频模态,还包含如图像分解信息
行鉴别,防止伪造音视频借助社交媒体快速传播, 模态中的频域信息。不同的模态组合成了不同的任
影响企业在公众心中的形象,从而影响企业的名誉 务输入,通常情况下深度伪造检测技术被形式化为
和利益。 视频或图像的二分类问题[13],即挖掘真假图像/视频
国内外学者针对深度伪造技术开展大量研究, 的鉴别性信息。不同模态形式提供了形式各异的可
来应对深度伪造生成技术带来的威胁与挑战。一方 供真伪检测的鉴别性线索。RGB 空间提供伪影、贴
面,传统的图像伪造检测采用基于信号处理的方 合痕迹等伪造线索;图像分解信息提供频域、噪声、
法,区分图像的两类特征(频域特征、统计特征), 纹理等伪造线索。
以此进行伪造检测,但此类伪造检测方法依赖于特 1.1 RGB 空间
定的篡改痕迹。文献[3]通过提取图像上的噪声指纹 RGB 空间的单模态深度伪造检测关注图像的
实现伪造检测。文献[4]提出了一种基于 RGB 流和 伪影、贴合痕迹等信息,从而发现伪造线索。
噪声流的 Faster R-CNN 网络,通过 RGB 流提取的 基于 RGB 空间图像的单模态深度伪造检测主
输入特征发现篡改痕迹,噪声流通过比对噪声特征 要包含基于具体伪影线索的检测方法 [14]和基于贴
与源区域噪声的差别检测伪造痕迹。文献[5]基于卷 合痕迹的检测方法 [15]。基于伪影线索的检测方法
积神经网络构建了一种像素级的伪造图像检测方 从图像处理角度出发,以像素级粒度捕捉生成图
法,对 GAN 生成的伪造图像进行检测。文献[6]通 像中存在的模糊及叠影等异常现象,如发丝、牙
过在 Adobe Photoshop 上编写脚本,实现伪造图像 齿中的伪影,以上伪影是生成算法在生成过程中
内容的检测。然而,通过在传统图像伪造检测技术 难以建模类似发丝、牙齿等细节而留下的瑕疵。
[7-8]
使用的检测模型 中加入噪声,可绕过伪造检测方 基于贴合痕迹的检测方法主要关注脸部五官区域
法的检出。文献[9]提出了基于视频中人物是否眨眼 与周围区域的光照或色彩不一致,其经典做法是
来判断 视频 是否伪 造, 通过长 期循 环卷积 网络 采用真实样本,裁出五官区域,添加模糊等后处
(long-term recurrent convolutional networks , 理手段来模拟伪造样本的贴合痕迹,捕捉伪造线
[10]
LRCN) 动态预测下一帧眼部状态,该方法虽在 索。以上方法根据伪造特征的区分度高低直接影
[11]
EBV 等数据集上表现出良好的性能 ,但是该方法 响检测算法的性能优劣,此外,由于只适配存在
难以应对攻击者有意规避检测算法而精心处理的 这种特定痕迹的伪造样本,在逼真程度较高的样
www.dlxxtx.com
第 21 卷 第 8 期 电 力 信 息 与 通 信 技 术 31
本或经过攻击者精心抹除伪造痕迹的样本上检测 者互补鉴别性信息,提升伪造检测的性能。典型的
性能不足。 RGB 空间与图像分解信息的多模态伪造检测方法
1.2 图像分解信息 主要包括 RGB 空间信息与频域信息融合、RGB 空
基于图像分解信息的单模态深度伪造检测,关 间信息与噪声信息相融合[18-20],相比于单模态,模
注低层的图像滤波信息,从频谱、噪声、纹理等角 态融合的方式更具优势。
度发现伪造线索。
2 Vision Transformer 模型
基于频谱信息的深度伪造检测方法,典型是
F3-Net[16],其主要技术出发点是针对压缩后的媒体 Vision Transformer(ViT)是一个运用于计算机
文件,如图像和视频,对于这种模糊的、低分辨率 视觉方面的 Transformer,即 Transformer 的视觉版
的图像和视频,其伪造篡改痕迹在 RGB 空间中难 本。近几年 Transformer 在自然语言处理领域十分
以发现,但是在频域特征中可以发现其伪造篡改痕 火热,也慢慢从自然语言处理逐渐应用于计算机视
迹。频率信息存在对图像尺寸敏感的特性,对于经 觉检测任务。Transformer 在图像处理中主要应用于
过缩放的图像和视频往往会丢失频谱信息,导致该 图像分类任务,整个网络主要分为两部分:特征提
检测方法鲁棒性不足。 取和图像分类。ViT 模型结构如图 3 所示,由 Linear
基于图像纹理信息的深度伪造检测方法 [17]
通 Projection of Flattened Patches 模块、Transformer
常采用 Canny 边缘检测算子提取图像中的细节,虽 Encoder 模块和 MLP Head 模块组成,其中 Linear
然能充分挖掘局部伪造细节,但是此类方法对压缩 Projection of Flattened Patches 模块实现图像的分块
和模糊程度敏感,高压缩和高模糊的图片难以充分 和向量序列的生成,Transformer Encoder 模块利用
提取到其中的纹理或边沿细节,导致此类方法鲁棒 注意力机制提取高维特征(见图 3 右侧),MLP Head
性不足。 模块实现分类。
1.3 RGB 与图像分解信息融合
针对前述分析可知,在原始 RGB 空间中,表
现不明显的伪造痕迹,会在不同的图像分解信息中
体现出特异性差异,如图 2 所示,第一行是真实人
脸信息,第二行是伪造人脸信息。原始 RGB 图像
中难以肉眼发觉的伪造痕迹,但是在噪声分布图
中,真实和伪造的人脸体现出明显的不一致,其中,
真实人脸区域噪声分布相对更加均匀,而伪造人脸
区域噪声分布较少;在纹理图中也呈现了相同规
律,真实人脸图像的纹理图可以捕捉到更多五官区
域的纹理信息,但是伪造人脸图像的纹理图却丢失
此类细节。
图 3 ViT 模型结构
Fig. 3 Typical modalities in deepfake detection
2.1 特征提取
首先将输入图像按照一定区域大小划分为图
像块(Patch),本文使用卷积网络实现图像分块,设
置卷积核大小为 16×16,步长也为 16×16,即
PatchSize 为 16,基于此每个 Patch 的特征提取过程
不会有重叠。当输入的图片是 224×224×3 时,可
图 2 真假图像在噪声信息和纹理信息中的差异
Fig. 2 Differences between real and fake images in noise 以获得一个 14×14×768 的特征层。
and texture information 然后将特征层组合成序列,将 14×14×768 的
为了弥补 RGB 空间中伪造痕迹的欠缺,采用 特征平铺成 196×768 的特征层,之后在图片序列
图像分解信息与 RGB 空间的模态融合,从而让两 中添加上 Cls Token,该 Token 作为一个单位的序列
www.dlxxtx.com
32 王栋等:基于多模态信息融合的深度伪造检测 Vol. 21 No. 8
信息一起进行特征提取,此时获得一个 196×768
的特征层。将该序列传入 Transformer Encoder 中进
行特征提取,这是 Transformer 特有的多头自注意
力结构,通过这种自注意力机制,关注每个图像块
的重要程度。
其中 ViT 不需要与卷积神经网络(convolutional
neural network , CNN) 相 结 合 , 只 用 单 纯 的
Transformer 模型实现图像识别。具体而言,ViT 使
用图像分块 Patch 的思想,将每个 Patch 看成是自
然语言处理(natural language processing,NLP)中的 图 5 基于 ViT 的多模态伪造检测模型
Fig. 5 Multimodal forgery model based on ViT
1 个 Token , 通 过 flatten 以 及 嵌 入 层 产 生
Patch-embedding 和 Position-embedding,类似于词 2)特征融合方式。
向量的形式;然后就可以直接输送进 Transformer 特征融合方式有 2 种,一种是元素对应相
的 Encoder 模块,从而完成分类的任务。 加,简称 add;另一种是把特征图堆到一起,简
2.2 图像分类 称 concatenate(以下简称 Concat)。本文特征融合
上一步中在图片序列中添加了表示单位序列 方式是基于 Concat 形式,如图 6 所示,RGB 空
信息的 Cls Token,特征提取过程中,该 Token 与其 间的特征与频域空间特征进行融合,需将 2 个特
他的特征进行特征交互,融合其他图片序列的特 征矩阵在某个维度叠加, 这要 求矩阵 在连 接维
征。最终,利用 Multi-head Self-attention 结构对提 度上可以相同也可以不同,但是在其他维度上
取特征后的 Cls Token 进行全连接分类。自注意力 必须相等,叠加后,该维度会增加,值是 2 个
矩阵运算如图 4 所示,其中 Q 是查询向量、K 是键 矩阵的该维度的相加和,如 RGB 空间特征矩阵
向量、V 是值向量、 d k 是向量的长度,Z 是进行 的维度是 N×M×W,频域空间特征矩阵的维度是
N×M×W,2 个空间特征融合后的矩阵的维度是
注意力运算后得到的结果 Z=Attention(Q,K,V)。
N×M×2W。
dk
图 4 自注意力矩阵运算
Fig. 4 Self-attention matrix operation
3 基于多模态信息融合的深度伪造检测方法
本文选取 RGB 空间与频域空间的模态信息融 图 6 特征融合方式
合的深度伪造检测,并使用 ViT 模型作为伪造检测 Fig.6 Feature fusion method
的基础模型。 3)交叉熵损失函数。
3.1 多模态信息融合的深度伪造检测 交叉熵损失主要度量在同一随机变量中 2 个概
1)RGB 空间与频域空间融合。 率分布之间的差异性,经常应用在分类任务中,单
首先,将原始图像进行离散余弦变换(discrete 分类任务中基本全部使用交叉熵损失,二分类及多
cosine transform,DCT)得到频域信息,然后将 RGB 分类任务中交叉熵损失使用十分广泛。
图像信息与经过 DCT 变换的频域信息分别使用 本文提出的多模态信息融合鉴伪任务是一个
ViT 模型进行特征提取,再将拼接的 2 个域的特 二分类任务,需预测输入人脸图片为真或假,即只
征进行训练,每次输入 8 个视频进行训练,模型如 有正例和负例,且两者的概率和是 1,所以不需要
图 5 所示。 预测一个向量,只需要预测一个概率。其中 ŷ 是模
www.dlxxtx.com
第 21 卷 第 8 期 电 力 信 息 与 通 信 技 术 33
训练、测试
FaceForensics++(C23) 37 007 37 005 36 996 29 468 29 496
(Baseline)
www.dlxxtx.com
34 王栋等:基于多模态信息融合的深度伪造检测 Vol. 21 No. 8
www.dlxxtx.com
第 21 卷 第 8 期 电 力 信 息 与 通 信 技 术 35
IEEE,2022:2784-2794. 李达(1991),男,工程师,通信作者,从事区
www.dlxxtx.com