基于多模态信息融合的深度伪造检测王栋

第 21 卷第 8 期电力信息与通信技术 Vol. 21 No.
8
2023 年 8 月 Electric Power Information and Communication Technology Aug. 2023
中图分类号：TP391.4 文献标志码：A 文章编号：2095-641X(2023)08-029-07 DOI：10.16543/j.2095-641x.electric.power.ict.2023.08.05
著录格式：王栋，李达，杨珂，等．基于多模态信息融合的深度伪造检测[J]．电力信息与通信技术，2023，21(8)：29-35．
基于多模态信息融合的深度伪造检测
王栋 1,2，李达 2,3，杨珂 2,3，郭庆雷 2,3，王合建 2,3
（1．国网数字科技控股有限公司，北京市西城区 100053；
2．国网区块链科技(北京)有限公司，北京市西城区 100053；
3．国家电网有限公司区块链技术实验室，北京市西城区 100053）
Deepfake Detection Based on Multi-mode Information Fusion

WANG Dong1,2, LI Da2,3, YANG Ke2,3, GUO Qinglei2,3, WANG Hejian2,3
(1. State Grid Digital Technology Holding Co., Ltd., Xicheng District, Beijing 100053, China;
2. State Grid Blockchain Technology (Beijing) Co., Ltd., Xicheng District, Beijing 100053, China;
3. Blockchain Technology Laboratory of State Grid Corporation of China, Xicheng District, Beijing 100053, China)
摘要：深度伪造技术的快速发展和应用给国家和社会安全、个人信息数据、企业安全等造成了潜在威胁。从电网
企业的实际业务场景出发，针对现有深度伪造检测方法的泛化能力不足问题，文章提出一种基于多模态信息融合
的深度伪造检测方法，为保护电网企业合法权益提供支撑。提出的方法在基准人脸伪造数据集
FaceForensics++(FF++)进行验证评估，结果表明该方法在人脸伪造检测方面性能优良、鲁棒性好，同时多模态信
息融合使得模型泛化性得到了很好的提升。
关键词：多模态信息融合；VisionTransformer 模型；深度伪造
ABSTRACT: The rapid development and application of deep forgery generation technology have posed potential threats
to personal privacy data, social stability, national and enterprise security, etc. Starting from the actual business scenarios
of power grid enterprises, and aiming at the insufficient generalization ability of existing deep forgery detection methods,
this paper proposes a deep forgery detection method based on multimodal information fusion to provide support for
protecting the legitimate rights and interests of power grid enterprises. The method proposed in this paper is verified and
evaluated in the benchmark face forgery dataset FaceForensics++(FF++). The experimental results show that the method
has good performance and robustness in face forgery detection, and multimodal information fusion improves the
generalization of the model.
KEY WORDS: multimodal information fusion; VisionTransformer model; Deepfake
0 引言人脸替换；而保留身份信息的深度伪造生成类型主
要为属性编辑及表情重演。随着深度伪造技术的不
深度伪造(Deepfake)技术是指利用生成对抗网
断更新迭代，当前的深度伪造类型不仅仅停留在视
络(generative adversarial network，GAN)等模型实现
觉层面，还囊括了音频类型的伪造(见图 1)。
伪造图像、视频的生成 [1] 。该项技术最早起源于
2017 年，一个名为 Deepfakes 的用户在 Reddit 网站
上发布了用女明星的脸替换色情视频中人脸的视
频[2]。从身份信息相关的角度可以将深度伪造生成
大致分为 2 类：一是与身份信息无关的伪造类型的
人脸合成；二是与身份信息相关的伪造类型的人脸
合成。其中，与身份信息相关的伪造类型人脸合成
又包括不保留身份信息的伪造与保留信息的伪造
类型。不保留身份信息的深度伪造生成类型主要为
图 1 深度伪造典型类型与新兴伪造类型
基金项目：国网数科控股公司科技项目“电力生产运行数据深度伪 Fig. 1 Typical types of deepfakes and emerging
造排查、数据取证、鉴定与溯源技术研究”(1200/2022-72001B)。 types of forgery
www.dlxxtx.com
30 王栋等：基于多模态信息融合的深度伪造检测 Vol. 21 No. 8
深度伪造生成技术已在多个领域大量应用，伪造样本。
如：视频换脸、语音合成、修复影像、虚拟数字人当前，深度伪造在电力场景下的应用较少，但
等越来越频繁地出现在社交娱乐、影视制作等领还需防范深度伪造带来的风险。为了更好的将深
域。随着深度伪造生成技术变得更智能、更便捷，度伪造检测技术应用于电力场景，本文针对深度
一些不法分子利用深度伪造生成技术生成有害的伪造检测泛化能力不足的问题，如新型伪造方法
音视频内容，除人脸替换带来的淫秽色情视频泛滥生成的伪造图像、图像尺寸缩放的伪造图像和图
外，在人脸合成、语音合成等领域，很多不法分子像质量压缩的伪造图像等，提出基于多模态信息
盗用他人身份进行网络诈骗、网络攻击，侵犯他人融合的深度伪造检测方法，并与现有深度伪造检
隐私权利，对国家和社会安全、企业名誉权以及他测方法在基准数据集进行对比，从而验证本文方
人合法权益等造成了严重威胁，深度伪造生成技术法的有效性。
的恶意使用，已日渐发展为虚假信息战的新武器。
1 模态信息
所以，研究更鲁棒、更泛化的深度伪造检测技术变
得更迫切。每种信息的来源或形式都可以称为一种模态。
电网公司涉及业务范围大，是关乎国计民生的狭义来讲，多媒体数据如文本、音频、图像、视频
骨干企业，深度伪造生成技术的滥用或将对电网企等都属于模态的一种；广义上讲，模态是指对原始
业造成难以评估的影响。在编辑制作能源电力新闻数据集根据不同的特征提取方法得到的不同特征
过程中，需要对从境内外获取的视频素材进行鉴组合[12]。
别，防止利用深度伪造生成技术恶意伪造电网企业针对深度伪造检测任务，独立于模态概念本
领导的讲话内容，通过合成假视频抹黑企业重要人身，不同的计算机视觉任务对模态有不同的定义。
物。在线路设备运检、电网建设和营销查窃电等涉对于深度伪造检测任务也有特定的模态。除了常见
外电力生产运行业务中，需要对现场施工音视频进的图像、音频、视频模态，还包含如图像分解信息
行鉴别，防止伪造音视频借助社交媒体快速传播，模态中的频域信息。不同的模态组合成了不同的任
影响企业在公众心中的形象，从而影响企业的名誉务输入，通常情况下深度伪造检测技术被形式化为
和利益。视频或图像的二分类问题[13]，即挖掘真假图像/视频
国内外学者针对深度伪造技术开展大量研究，的鉴别性信息。不同模态形式提供了形式各异的可
来应对深度伪造生成技术带来的威胁与挑战。一方供真伪检测的鉴别性线索。RGB 空间提供伪影、贴
面，传统的图像伪造检测采用基于信号处理的方合痕迹等伪造线索；图像分解信息提供频域、噪声、
法，区分图像的两类特征(频域特征、统计特征)，纹理等伪造线索。
以此进行伪造检测，但此类伪造检测方法依赖于特 1.1 RGB 空间
定的篡改痕迹。文献[3]通过提取图像上的噪声指纹 RGB 空间的单模态深度伪造检测关注图像的
实现伪造检测。文献[4]提出了一种基于 RGB 流和伪影、贴合痕迹等信息，从而发现伪造线索。
噪声流的 Faster R-CNN 网络，通过 RGB 流提取的基于 RGB 空间图像的单模态深度伪造检测主
输入特征发现篡改痕迹，噪声流通过比对噪声特征要包含基于具体伪影线索的检测方法 [14]和基于贴
与源区域噪声的差别检测伪造痕迹。文献[5]基于卷合痕迹的检测方法 [15]。基于伪影线索的检测方法
积神经网络构建了一种像素级的伪造图像检测方从图像处理角度出发，以像素级粒度捕捉生成图
法，对 GAN 生成的伪造图像进行检测。文献[6]通像中存在的模糊及叠影等异常现象，如发丝、牙
过在 Adobe Photoshop 上编写脚本，实现伪造图像齿中的伪影，以上伪影是生成算法在生成过程中
内容的检测。然而，通过在传统图像伪造检测技术难以建模类似发丝、牙齿等细节而留下的瑕疵。
[7-8]
使用的检测模型中加入噪声，可绕过伪造检测方基于贴合痕迹的检测方法主要关注脸部五官区域
法的检出。文献[9]提出了基于视频中人物是否眨眼与周围区域的光照或色彩不一致，其经典做法是
来判断视频是否伪造，通过长期循环卷积网络采用真实样本，裁出五官区域，添加模糊等后处
(long-term recurrent convolutional networks ，理手段来模拟伪造样本的贴合痕迹，捕捉伪造线
[10]
LRCN) 动态预测下一帧眼部状态，该方法虽在索。以上方法根据伪造特征的区分度高低直接影
[11]
EBV 等数据集上表现出良好的性能，但是该方法响检测算法的性能优劣，此外，由于只适配存在
难以应对攻击者有意规避检测算法而精心处理的这种特定痕迹的伪造样本，在逼真程度较高的样
www.dlxxtx.com
第 21 卷第 8 期电力信息与通信技术 31
本或经过攻击者精心抹除伪造痕迹的样本上检测者互补鉴别性信息，提升伪造检测的性能。典型的
性能不足。 RGB 空间与图像分解信息的多模态伪造检测方法
1.2 图像分解信息主要包括 RGB 空间信息与频域信息融合、RGB 空
基于图像分解信息的单模态深度伪造检测，关间信息与噪声信息相融合[18-20]，相比于单模态，模
注低层的图像滤波信息，从频谱、噪声、纹理等角态融合的方式更具优势。
度发现伪造线索。
2 Vision Transformer 模型
基于频谱信息的深度伪造检测方法，典型是
F3-Net[16]，其主要技术出发点是针对压缩后的媒体 Vision Transformer(ViT)是一个运用于计算机
文件，如图像和视频，对于这种模糊的、低分辨率视觉方面的 Transformer，即 Transformer 的视觉版
的图像和视频，其伪造篡改痕迹在 RGB 空间中难本。近几年 Transformer 在自然语言处理领域十分
以发现，但是在频域特征中可以发现其伪造篡改痕火热，也慢慢从自然语言处理逐渐应用于计算机视
迹。频率信息存在对图像尺寸敏感的特性，对于经觉检测任务。Transformer 在图像处理中主要应用于
过缩放的图像和视频往往会丢失频谱信息，导致该图像分类任务，整个网络主要分为两部分：特征提
检测方法鲁棒性不足。取和图像分类。ViT 模型结构如图 3 所示，由 Linear
基于图像纹理信息的深度伪造检测方法 [17]
通 Projection of Flattened Patches 模块、Transformer
常采用 Canny 边缘检测算子提取图像中的细节，虽 Encoder 模块和 MLP Head 模块组成，其中 Linear
然能充分挖掘局部伪造细节，但是此类方法对压缩 Projection of Flattened Patches 模块实现图像的分块
和模糊程度敏感，高压缩和高模糊的图片难以充分和向量序列的生成，Transformer Encoder 模块利用
提取到其中的纹理或边沿细节，导致此类方法鲁棒注意力机制提取高维特征(见图 3 右侧)，MLP Head
性不足。模块实现分类。
1.3 RGB 与图像分解信息融合
针对前述分析可知，在原始 RGB 空间中，表
现不明显的伪造痕迹，会在不同的图像分解信息中
体现出特异性差异，如图 2 所示，第一行是真实人
脸信息，第二行是伪造人脸信息。原始 RGB 图像
中难以肉眼发觉的伪造痕迹，但是在噪声分布图
中，真实和伪造的人脸体现出明显的不一致，其中，
真实人脸区域噪声分布相对更加均匀，而伪造人脸
区域噪声分布较少；在纹理图中也呈现了相同规
律，真实人脸图像的纹理图可以捕捉到更多五官区
域的纹理信息，但是伪造人脸图像的纹理图却丢失
此类细节。
图 3 ViT 模型结构
Fig. 3 Typical modalities in deepfake detection
2.1 特征提取
首先将输入图像按照一定区域大小划分为图
像块(Patch)，本文使用卷积网络实现图像分块，设
置卷积核大小为 16×16，步长也为 16×16，即
PatchSize 为 16，基于此每个 Patch 的特征提取过程
不会有重叠。当输入的图片是 224×224×3 时，可
图 2 真假图像在噪声信息和纹理信息中的差异
Fig. 2 Differences between real and fake images in noise 以获得一个 14×14×768 的特征层。
and texture information 然后将特征层组合成序列，将 14×14×768 的
为了弥补 RGB 空间中伪造痕迹的欠缺，采用特征平铺成 196×768 的特征层，之后在图片序列
图像分解信息与 RGB 空间的模态融合，从而让两中添加上 Cls Token，该 Token 作为一个单位的序列
www.dlxxtx.com
信息一起进行特征提取，此时获得一个 196×768
的特征层。将该序列传入 Transformer Encoder 中进
行特征提取，这是 Transformer 特有的多头自注意
力结构，通过这种自注意力机制，关注每个图像块
的重要程度。
其中 ViT 不需要与卷积神经网络(convolutional
neural network ， CNN) 相结合，只用单纯的
Transformer 模型实现图像识别。具体而言，ViT 使
用图像分块 Patch 的思想，将每个 Patch 看成是自
然语言处理(natural language processing，NLP)中的图 5 基于 ViT 的多模态伪造检测模型
Fig. 5 Multimodal forgery model based on ViT
1 个 Token ，通过 flatten 以及嵌入层产生
Patch-embedding 和 Position-embedding，类似于词 2）特征融合方式。
向量的形式；然后就可以直接输送进 Transformer 特征融合方式有 2 种，一种是元素对应相
的 Encoder 模块，从而完成分类的任务。加，简称 add；另一种是把特征图堆到一起，简
2.2 图像分类称 concatenate(以下简称 Concat)。本文特征融合
上一步中在图片序列中添加了表示单位序列方式是基于 Concat 形式，如图 6 所示，RGB 空
信息的 Cls Token，特征提取过程中，该 Token 与其间的特征与频域空间特征进行融合，需将 2 个特
他的特征进行特征交互，融合其他图片序列的特征矩阵在某个维度叠加，这要求矩阵在连接维
征。最终，利用 Multi-head Self-attention 结构对提度上可以相同也可以不同，但是在其他维度上
取特征后的 Cls Token 进行全连接分类。自注意力必须相等，叠加后，该维度会增加，值是 2 个
矩阵运算如图 4 所示，其中 Q 是查询向量、K 是键矩阵的该维度的相加和，如 RGB 空间特征矩阵
向量、V 是值向量、 d k 是向量的长度，Z 是进行的维度是 N×M×W，频域空间特征矩阵的维度是
N×M×W，2 个空间特征融合后的矩阵的维度是
注意力运算后得到的结果 Z=Attention(Q,K,V)。
N×M×2W。
dk
图 4 自注意力矩阵运算
Fig. 4 Self-attention matrix operation
3 基于多模态信息融合的深度伪造检测方法
本文选取 RGB 空间与频域空间的模态信息融图 6 特征融合方式
合的深度伪造检测，并使用 ViT 模型作为伪造检测 Fig.6 Feature fusion method
的基础模型。 3）交叉熵损失函数。
3.1 多模态信息融合的深度伪造检测交叉熵损失主要度量在同一随机变量中 2 个概
1）RGB 空间与频域空间融合。率分布之间的差异性，经常应用在分类任务中，单
首先，将原始图像进行离散余弦变换(discrete 分类任务中基本全部使用交叉熵损失，二分类及多
cosine transform，DCT)得到频域信息，然后将 RGB 分类任务中交叉熵损失使用十分广泛。
图像信息与经过 DCT 变换的频域信息分别使用本文提出的多模态信息融合鉴伪任务是一个
ViT 模型进行特征提取，再将拼接的 2 个域的特二分类任务，需预测输入人脸图片为真或假，即只
征进行训练，每次输入 8 个视频进行训练，模型如有正例和负例，且两者的概率和是 1，所以不需要
图 5 所示。预测一个向量，只需要预测一个概率。其中 ŷ 是模
www.dlxxtx.com
型预测样本是正例的概率，y 是样本标签，如果样式中：TP 表示被检测为正样本，实际是正样本；TN

本属于正例，取值为 1，否则取值为 0，其数学表表示被检测为负样本，实际是负样本；FP 表示被检
达式为：测为正样本，实际是负样本；FN 表示被检测为负样
Lloss = -( y · log( yˆ ) + (1 - y ) · log(1 - yˆ )) (1) 本，实际是正样本。ROC_AUC 表示在 ROC 曲线
交叉熵搭配 Softmax 使用，将输出的结果进行下(0,0)和(1,1)之间的面积，基本汇总了所有阈值下
处理，使其多个分类的预测值和为 1，再通过交叉的模型性能，其最优值可能为 1。
熵计算损失。
4 实验及分析
3.2 模型训练过程
将 FaceForensics++(简称 FF++)(C23)视频中本实验从 RGB 空间、RGB 空间与图像分解
提取的帧裁剪成 224×224 的人脸图像作为 ViT 信息(本实验选取图像分解信息中的频域信息)融合
模型的输入，并分别训练了基于 ViT 的处理 RGB 2 方面出发，使用 ViT 模型实现输入特征的深度伪
空间图像特征的模型(RGB 空间)以及基于 ViT 的造检测，探索 ViT 模型在不同空间模态上的伪造检
处理 RGB 与频域融合空间图像特征的模型测性能、鲁棒性及泛化性的表现。
(RGB+频域)，数据集的批处理大小(Batchsize)分 4.1 数据集
别为 24 和 8，最大训练周期(Epoch)均为 1000，本文采用基准人脸伪造数据集 FF++，该数据集
初始学习率均为 0.000 1，采用 Adam 优化器在训包含由 4 种人脸处理算法产生的人脸伪造数据，4 种
练过程中调整参数的学习率，损失函数使用交叉人脸处理算法包括 DeepFakes(DF)，Face2Face(F2F)，
熵损失。 FaceSwap(FS)以及 NeuralTextures(NT)，如表 1 所
3.3 评测标准示，其中原始图像 Pristine 37 007 张，DF 算法生成
本文使用的评估指标为准确率(accuray，ACC) 的图像 37 005 张，F2F 算法生成的图像 36 996 张，
和二分类预测得分曲线下的 AUC(ROC_AUC)。其 FS 算法生成的图像 29 468 张，NT 算法生成的图像
中 ACC 定义为： 29 496 张。本实验选择 FF++数据集中高分辨率图
ACC=(TP+TN)/(TP+TN+FP+FN) (2) 像(C23)作为训练数据集。
表 1 数据集类型与数量分布
Table 1 Dataset type and quantity distribution
DeepFakes Face2Face FaceSwap Neural Textures
数据类型 Pristine 图像/张备注
生成的图像/张生成的图像/张生成的图像/张生成的图像/张
训练、测试
FaceForensics++(C23) 37 007 37 005 36 996 29 468 29 496
(Baseline)
FaceForensics++(C40) 37 007 37 005 36 996 29 468 29 496 测试鲁棒性
CelebDF 真实图像：17 800 张；伪造图像：34 000 张测试泛化性
为了评估 ViT 模型在人脸伪造检测方面的鲁棒表 2 RGB 空间实验结果

Table 2 RGB space experiment results
性与泛化性，采用 FF++数据集中低分辨率图像
测试项 ACC/AUC 结果
(C40) 作为评估模型鲁棒性的测试数据，使用
BASELINE(C23 测试) 0.923 705/0.968 112
CelebDF 数据评估模型的泛化性。CelebDF 数据集
鲁棒性(C40 测试) 0.721 029/0.830 269
中共 51 800 张人脸图像，其中真实图像 17 800 张，
泛化性(CelebDF 测试) 0.611 216/0.742 599
伪造图像 34 000 张。
表 3 RGB 空间与频域信息空间融合实验结果
4.2 实验结果
Table 3 Experimental results of RGB space and frequency
本文采用 FF++(C23)数据集作为训练数据，使 domain information space fusion
用 ViT 模型在图像 RGB 空间以及 RGB 和频域信息测试项 ACC/AUC 结果
融合空间上进行训练，每经过一个最大训练周期保 BASELINE(C23 测试) 0.918 572/0.964 728
存一次模型权重，并在 FF++(C23)、FF++(C40)、鲁棒性(C40 测试) 0.721 465 2/0.837 931
CelebDF 数据集上对保存的权重进行分段测试，评泛化性(CelebDF 测试) 0.659 556/0.784 480
估其伪造检测性能、鲁棒性以及泛化性，实验结果由表 2 可知，ViT 模型在原始 RGB 空间上表现

如表 2 和表 3 所示。良好，检测性能达到了 0.924/0.968，鲁棒性表现为
www.dlxxtx.com
0.721/0.830，不仅表示了 Transformer 迁移到计算机提升泛化性十分有效。

视觉方面的适配度高，且在人脸伪造检测这单一任 4.3 实验总结
务上性能优良、鲁棒性好。针对深度伪造音视频攻击，本文提出的多模态
由表 3 可知在加入频域信息后泛化性从特征融合的检测算法与其他经典单模态算法相比
0.611/0.742 提升到了 0.659/0.784，表明多模态融合性能更优越，该方法使用每个模态特征提取相互并
的方法能更加有效地捕捉到伪造痕迹，检测性能也行的方式，加强了图像与视频的表征能力，便于提
更加出色。取更具表现性的特征，不仅减少了模型的训练时
本文从多模态角度出发实现深度伪造检测，为间，还提高了预测结果的准确率，加快模型的收敛。
了验证本文模型的优越性，将 RGB 空间与频域信同时通过增加频域特征使泛化性得以提升，这也意
息空间融合实验结果与其他模型结果进行对比，味着多模态伪造检测模型适用场景可能增多，增加
实验结果如表 4 与表 5 所示。表 4 为在 FF++(C23) 了模型的迁移适配能力，对未来模型的迁移泛化具
数据集上的 ACC 与 AUC 结果；表 5 为将在有重大意义。
FF++(C23)上训练的模型迁移至 CelebDF 数据集上
5 结语
的结果，以测试其泛化性，结果以 AUC 表示。
表 4 本文 Baseline 实验结果与其他模型结果对比
本文针对深度伪造检测泛化能力不足问题，提
Table 4 Comparison between the results of Baseline 出一种基于多模态信息融合的深度伪造检测方法，
experiment and those of other models 用于排查电力场景中深度伪造内容。通过实验测
方法 ACC/% AUC/% 试、验证与评估，得出如下结论。
MesoNet[21] 83.10 84.00 1）ViT 模型在图像 RGB 空间上检测效果表现
LD-CNN[22] 78.45 —
良好，Transformer 迁移到计算机视觉领域的适配
Steg.Features[23] 70.97 —
度高，并且针对音视频伪造检测单一任务上鲁棒
DSP-FWA[14] — 93.00
性好。
Face X-ray[24] — 87.40
2）将 RGB 空间模态信息与频域空间模态信息
Xception[25] — 96.30
相融合进行深度伪造检测，两种模态相互并行，提
本文方法 91.86 96.47
取到更具表现性的特征，使 ViT 模型的泛化性能提
表5 本文实验结果泛化性与其他模型结果升，使得该伪造检测模型应用场景更广泛。
泛化性对比
Table 5 Comparison of generalization of experimental
3）后续研究可丰富多模态域，从更多可能采
results in this paper with that of other models 集到人脸合成异常的域去捕捉伪造痕迹，进一步提
AUC/% 高算法的泛化性和鲁棒性。
方法
FF++（C23） CelebDF
参考文献
[26]
Two-stream 70.10 53.80
[1] CHESNEY R，CITRON D．Deepfakes and the new disinformation
FWA[14] 80.10 56.90
war[J]．Foreign Affairs，2019，98(1)：147-155．
Multi-task[27] 76.30 54.30 [2] 曹秀莲，汤益华．深度伪造检测技术发展现状研究[J]．网络安全
[28] 技术与应用，2022(5)：49-51．
Capsule 96.60 57.50
[14] [3] COZZOLINO D，VERDOLIVA L．Noiseprint：a CNN-based camera
DSP-FWA 93.00 64.60
model fingerprint[J]．IEEE Transactions on Information Forensics and
DCViT[29] 98.30 60.80
Security，2020，15：144-159．
[30]
MaDD 99.29 67.44 [4] ZHOU Peng，HAN Xintong，MORARIU V I，et al．Learning rich
VST [31]
95.83 63.47 features for image manipulation detection[C]//Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition．
本文方法 96.47 78.44
Salt Lake City：IEEE，2018：1053-1061．
由表 4 可以看出，本文提出的基于 ViT 的伪造 [5] NATARAJ L，MOHAMMED T M，MANJUNATH B S，et al．
Detecting GAN generated fake images using co-occurrence
检测方法比其他网络模型在鉴伪方面表现更优越，
matrices[C]//Proceedings of the IS&T International Symposium on
并且较经典伪造检测算法 Face X-ray 效果提升近 Electronic Imaging：Media Watermarking，Security，and Forensics．
10%，证实了本文方法的有效性与优越性。 IS&T，2019：532．
[6] WANG Shengyu ， WANG O ， OWENS R ， et al ． Detecting
由表 5 可以看出，本文提出的融合频域的方式
photoshopped faces by scripting photoshop[C]//Proceedings of the
较其他模型泛化性大幅提升，证实了多模态特征对 IEEE/CVF International Conference on Computer Vision．Seoul：
www.dlxxtx.com
IEEE，2019：10071-10080． [21] AFCHAR D，NOZICK V，YAMAGISHI J，et al．MesoNet：a compact

[7] MCCLOSKEY S，ALBRIGHT M．Detecting GAN-generated Imagery facial video forgery detection network[C]//2018 IEEE International
using Color Cues[J]．arXiv：1812.08247，2018． Workshop on Information Forensics and Security (WIFS)．Hong
[8] GÜERA D，DELP E J．Deepfake video detection using recurrent Kong，China：IEEE，2018：1-7．
neural networks[C]//2018 15th IEEE International Conference on [22] COZZOLINO D ， POGGI G ， VERDOLIVA L ． Recasting
Advanced Video and Signal Based Surveillance (AVSS)．Auckland： residual-based local descriptors as convolutional neural networks：an
IEEE，2018：1-6． application to image forgery detection[C]//Proceedings of the 5th
[9] LI Yuezun，CHANG M C，LYU Siwei．In Ictu Oculi：Exposing AI ACM Workshop on Information Hiding and Multimedia Security．
created fake videos by detecting eye blinking[C]//2018 IEEE Philadelphia：ACM，2017：159-164．
International Workshop on Information Forensics and Security [23] FRIDRICH J，KODOVSKY J．Rich models for steganalysis of digital
(WIFS)．Hong Kong，China：IEEE，2018：1-7． images[J]．IEEE Transactions on Information Forensics and Security，
[10] ZEINALI H，STAFYLAKIS T，ATHANASOPOULOU G，et al． 2012，7(3)：868-882．
Detecting spoofing attacks using VGG and SincNet：BUT-Omilia [24] LI Lingzhi，BAO Jianmin，ZHANG Ting，et al．Face X-ray for more
submission to ASVspoof 2019 challenge[C]//INTERSPEECH 2019． general face forgery detection[C]//Proceedings of the IEEE/CVF
Graz：ISCA，2019：1073-1077． Conference on Computer Vision and Pattern Recognition．Seattle：
[11] CHO K，VAN MERRIËNBOER B，GULCEHRE C，et al．Learning IEEE，2020：5000-5009．
phrase representations using RNN encoder-decoder for statistical [25] CHOLLET F．Xception：deep learning with depthwise separable
machine translation[C]//Proceedings of the 2014 Conference on convolutions[C]//Proceedings of the IEEE Conference on Computer
Empirical Methods in Natural Language Processing．Doha：ACL， Vision and Pattern Recognition．Honolulu：IEEE，2017：1800-1807．
2014：1724-1734． [26] ZHOU Peng，HAN Xintong，MORARIU V I，et al．Two-stream neural
[12] 赵永良，付鑫，吴尚远，等．基于计算机视觉的智能仓储图像识 networks for tampered face detection[C]//2017 IEEE Conference on
别系统设计与实现[J]．电力信息与通信技术，2019，17(12)：31-36． Computer Vision and Pattern Recognition Workshops (CVPRW)．
ZHAO Yongliang，FU Xin，WU Shangyuan，et al．Design and Honolulu：IEEE，2017：1831-1839．
implementation of intelligent warehouse image recognition system [27] NGUYEN H H，FANG Fuming，YAMAGISHI J，et al．Multi-task
based on computer vision[J] ． Electric Power Information and learning for detecting and segmenting manipulated facial images and
Communication Technology，2019，17(12)：31-36(in Chinese)． videos[C]//2019 IEEE 10th International Conference on Biometrics
[13] 阚博文，CUI A，朱文东，等．基于深度学习的绝缘开关图像分类 Theory，Applications and Systems (BTAS)．Tampa：IEEE，2019：
(英文)[J]．电力信息与通信技术，2018，16(3)：8-15． 1-8．
KAN Bowen，CUI A，ZHU Wendong，et al．Classifying images of [28] NGUYEN H H，YAMAGISHI J，ECHIZEN I．Capsule-forensics：
isolator switch using convolutional neural networks[J]．Electric Power using capsule networks to detect forged images and videos[C]//
Information and Communication Technology，2018，16(3)：8-15(in ICASSP 2019-2019 IEEE International Conference on Acoustics，
Chinese)． Speech and Signal Processing (ICASSP)．Brighton：IEEE，2019：
[14] LI Yuezun，LYU Siwei．Exposing DeepFake videos by detecting face 2307-2311．
warping artifacts[C]//Proceedings of the IEEE/CVF Conference on [29] WODAJO D ， ATNAFU S ． Deepfake video detection using
Computer Vision and Pattern Recognition．Long Beach：CVPR， convolutional vision transformer[J]．arXiv：2102.11126，2021．
2019：46-52． [30] ZHAO Hanqing，WEI Tianyi，ZHOU Wenbo，et al．Multi-attentional
[15] MATERN F，RIESS C，STAMMINGER M．Exploiting visual deepfake detection[C]//Proceedings of the IEEE/CVF Conference on
artifacts to expose DeepFakes and face manipulations[C]//2019 IEEE Computer Vision and Pattern Recognition．Nashville：IEEE，2021：
Winter Applications of Computer Vision Workshops (WACVW)． 2185-2194．
Waikoloa：IEEE，2019：83-92． [31] XU Yuting，JIA Gengyun，HUANG Huaibo，et al．Visual-semantic
[16] QIAN Yuyang，YIN Guojun，SHENG Lu，et al．Thinking in transformer for face forgery detection[C]//2021 IEEE International
frequency ： face forgery detection by mining frequency-aware Joint Conference on Biometrics (IJCB)．Shenzhen：IEEE，2021：1-7．
clues[C]//16th European Conference on Computer Vision．Glasgow：
Springer，2020：86-103．收稿日期：2022-10-25。
[17] KIM D K，KIM K．Generalized facial manipulation detection with 作者简介：
edge region feature extraction[C]//Proceedings of the IEEE/CVF 王栋(1985)，男，高级工程师，从事区块链、
Winter Conference on Applications of Computer Vision．Waikoloa：信息安全研究工作；
IEEE，2022：2784-2794．李达(1991)，男，工程师，通信作者，从事区
[18] WANG Junke，WU Zuxuan，OUYANG Wenhao，et al．M2TR：块链、电力系统自动化研究工作，lida@sgdt.sgcc.
Multi-modal multi-scale transformers for deepfake detection[C]// com.cn；

王栋杨珂(1990)，男，高级工程师，从事信息安全、
Proceedings of the 2022 International Conference on Multimedia
区块链研究工作；
Retrieval．Newark：ACM，2022：615-623．
郭庆雷(1988)，男，高级工程师，从事区块链、
[19] KONG Chenqi，CHEN Baoliang，LI Haoliang，et al．Detect and
电力系统自动化研究在；
locate：exposing face manipulation by semantic- and noise-level
王合建(1984)，男，高级工程师，从事区块链、
telltales[J] ． IEEE Transactions on Information Forensics and
电力系统自动化研究工作。
Security，2022，17：1741-1756．
[20] ZHOU Yipin，LIM S N．Joint audio-visual deepfake detection[C]// （责任编辑张京娜）
Proceedings of the IEEE/CVF International Conference on Computer
Vision．Montreal：IEEE，2021：14780-14789．
www.dlxxtx.com

基于多模态信息融合的深度伪造检测王栋

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于多模态信息融合的深度伪造检测王栋

Uploaded by

Copyright:

Available Formats

第 21 卷第 8 期电力信息与通信技术 Vol. 21 No.

Deepfake Detection Based on Multi-mode Information Fusion

型预测样本是正例的概率，y 是样本标签，如果样式中：TP 表示被检测为正样本，实际是正样本；TN

FaceForensics++(C40) 37 007 37 005 36 996 29 468 29 496 测试鲁棒性

CelebDF 真实图像：17 800 张；伪造图像：34 000 张测试泛化性

为了评估 ViT 模型在人脸伪造检测方面的鲁棒表 2 RGB 空间实验结果

融合空间上进行训练，每经过一个最大训练周期保 BASELINE(C23 测试) 0.918 572/0.964 728

存一次模型权重，并在 FF++(C23)、FF++(C40)、鲁棒性(C40 测试) 0.721 465 2/0.837 931

CelebDF 数据集上对保存的权重进行分段测试，评泛化性(CelebDF 测试) 0.659 556/0.784 480

估其伪造检测性能、鲁棒性以及泛化性，实验结果由表 2 可知，ViT 模型在原始 RGB 空间上表现

0.721/0.830，不仅表示了 Transformer 迁移到计算机提升泛化性十分有效。

IEEE，2019：10071-10080． [21] AFCHAR D，NOZICK V，YAMAGISHI J，et al．MesoNet：a compact

Winter Conference on Applications of Computer Vision．Waikoloa：信息安全研究工作；

[18] WANG Junke，WU Zuxuan，OUYANG Wenhao，et al．M2TR：块链、电力系统自动化研究工作，lida@sgdt.sgcc.

Multi-modal multi-scale transformers for deepfake detection[C]// com.cn；

You might also like

基于多模态信息融合的深度伪造检测 王栋

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于多模态信息融合的深度伪造检测 王栋

Uploaded by

Copyright:

Available Formats

第 21 卷 第 8 期 电 力 信 息 与 通 信 技 术 Vol. 21 No.

Deepfake Detection Based on Multi-mode Information Fusion

型预测样本是正例的概率，y 是样本标签，如果样 式中：TP 表示被检测为正样本，实际是正样本；TN

FaceForensics++(C40) 37 007 37 005 36 996 29 468 29 496 测试鲁棒性

CelebDF 真实图像：17 800 张；伪造图像：34 000 张 测试泛化性

为了评估 ViT 模型在人脸伪造检测方面的鲁棒 表 2 RGB 空间实验结果

融合空间上进行训练，每经过一个最大训练周期保 BASELINE(C23 测试) 0.918 572/0.964 728

存一次模型权重，并在 FF++(C23)、FF++(C40)、 鲁棒性(C40 测试) 0.721 465 2/0.837 931

CelebDF 数据集上对保存的权重进行分段测试，评 泛化性(CelebDF 测试) 0.659 556/0.784 480

估其伪造检测性能、鲁棒性以及泛化性，实验结果 由表 2 可知，ViT 模型在原始 RGB 空间上表现

0.721/0.830，不仅表示了 Transformer 迁移到计算机 提升泛化性十分有效。

IEEE，2019：10071-10080． [21] AFCHAR D，NOZICK V，YAMAGISHI J，et al．MesoNet：a compact

Winter Conference on Applications of Computer Vision．Waikoloa： 信息安全研究工作；

[18] WANG Junke，WU Zuxuan，OUYANG Wenhao，et al．M2TR： 块链、电力系统自动化研究工作，lida@sgdt.sgcc.

Multi-modal multi-scale transformers for deepfake detection[C]// com.cn；

You might also like

基于多模态信息融合的深度伪造检测王栋

基于多模态信息融合的深度伪造检测王栋

第 21 卷第 8 期电力信息与通信技术 Vol. 21 No.

型预测样本是正例的概率，y 是样本标签，如果样式中：TP 表示被检测为正样本，实际是正样本；TN

CelebDF 真实图像：17 800 张；伪造图像：34 000 张测试泛化性

为了评估 ViT 模型在人脸伪造检测方面的鲁棒表 2 RGB 空间实验结果

存一次模型权重，并在 FF++(C23)、FF++(C40)、鲁棒性(C40 测试) 0.721 465 2/0.837 931

CelebDF 数据集上对保存的权重进行分段测试，评泛化性(CelebDF 测试) 0.659 556/0.784 480

估其伪造检测性能、鲁棒性以及泛化性，实验结果由表 2 可知，ViT 模型在原始 RGB 空间上表现

0.721/0.830，不仅表示了 Transformer 迁移到计算机提升泛化性十分有效。

Winter Conference on Applications of Computer Vision．Waikoloa：信息安全研究工作；

[18] WANG Junke，WU Zuxuan，OUYANG Wenhao，et al．M2TR：块链、电力系统自动化研究工作，lida@sgdt.sgcc.