You are on page 1of 9

Machine Translated by Google

人脸的多对抗判别深度域泛化
演示攻击检测

Jiawei  Li  
Rui  Shao  Xiangyuan  Lan  Pong  C.  Yuen  
香港浸会大学计算机科学系
{ruishao,  jwli,  pcyuen}@comp.hkbu.edu.hk,  xiangyuanlan@life.hkbu.edu.hk  

抽象的 训练 见域 看不见的域

人脸呈现攻击已成为人脸识别社区中越来越重要的问题。
许多 领域
1

奥卢
人脸反欺骗方法已经被提出,
但它们
不能很好地概括“看不见的”攻击。本工作重点从领域泛化的角度提高
广义的
人脸反欺骗方法的泛化能力。我们建议通过一种新颖的多对抗判别深 领域
特征空间
2
度主泛化框架来学习泛化特征的速度。在这个框架中,一个多对抗性的
决明子
深域泛化是在 密歇根州立大学

域  3

伊迪亚普
测试
双重力三元组挖掘约束。
这确保了
学习到的特征空间是有区别的,
并且由多个源域共享,
因此更能泛化到
新的 图  1.  本文旨在学习一个可区分且由多个源域共享的特征空间,
因此
更适用于新的人脸呈现攻击。
面对演示攻击。
并入辅助人脸深度监督以进一步增强泛化能力

能力。
对四个公共数据集的广泛实验验证了所提出方法的有效性。

[ 32]。
提出了基于时间的方法来提取
各种时间线索, 例如面部动作[23,  28,  26]
一、
简介 或  rPPG  [16,  18]。
尽管这些方法在训练和测试数据来自同一数据集的
数据集内实验中获得了有希望的性能, 但在跨数据集实验中性能显着下
人脸识别技术已成功应用 降
在现实生活中的各种应用中,例如自动柜员机(ATM)、
手机和入口
其中训练和测试数据来自不同的数据集。
警卫系统。容易接近人脸带来 这是因为现有的人脸反欺骗方法捕获
人脸识别的便利性,还包括演示攻击(PA)。就像打印的照片纸一样简 数据集有偏差的分化线索[1],
因此
单(即, 不能很好地推广到具有不同特征的测试数据
打印攻击)或数字图像/视频(即视频重播)可以轻松破解部署的人脸识 与训练数据相比的分布(由不同的
别系统 攻击或记录环境的材料)。
在手机或笔记本电脑中, 当这些恶搞在视觉上接近真实面孔时。那么,
如 解决这个问题的直接方法是利用领域适应技术[27,  12,  25,  20,  34,
何应对这些
人脸识别步骤之前的演示攻击 7,  24,  29,  6,  30,  33,  3]  来对齐训练和测试数据之间的特征分布,以便
成为人脸识别社区中越来越重要的问题。 训练的模型
可以在目标数据上调整源数据。 然而,在人脸反欺骗的场景中,
我们毫无
已经提出了各种面部反欺骗方法。 头绪
基于外观的方法旨在区分真实和 当我们训练我们的模型时,
在测试数据(目标域)
上。这是
基于各种外观线索的假人脸,例如颜色或纹理[5]、
图像失真线索[31]或 使用所有可能的材料和在所有可能的环境中进行训练和训练也很难或
深度  fea 不可能收集攻击

10023
Machine Translated by Google

调整我们的模型。提高泛化能力 电源自动和自适应地搜索和学习这个
面对不使用目标域的反欺骗方法 没有对齐任何先前分布的广义特征空间。
信息,
本文利用域泛化
方法。
域泛化假设在所见多重性之下存在一个泛化特征空间

二、
相关工作
源域和看不见但相关的目标域,
预测模型在其上使用训练数据学习
人脸反欺骗方法。
目前的人脸反欺骗方法大致可以分为
可见的源域可以很好地泛化到不可见的
目标域。
基于外观的方法和基于时间的方法。
域学习的广义特征空间 基于外观的方法旨在检测基于
泛化方法应该由多个共享 各种外观提示。 多尺度  LBP  [19]和颜色
源域和判别[15,  22]。
这样, 提出了纹理[5]方法来提取各种LBP
空间可以利用面部的共同区分线索 灰度、
RGB、
HSV  或  YCbCr  颜色步长的描述符,
以区分真假面孔。

跨多个源域的反欺骗, 它们是 像失真分析[31]检测由于图像或视频的外观质量低于真实图像或视
不太可能有领域偏见, 因此更普遍。 频而导致的表面失真
例如,
而不是专注于某些特定领域
攻击的屏幕边框等区分线索 脸部皮肤。 杨等人。  [32]使用  CNN  提取不同的深度
图  1  中  CASIA  数据集中的样本,
在此学习的模型 真假面孔之间的特征。 另一方面,
广义特征空间能够提取所有源域共享的更广义的线索。
以此目的, 基于时间的方法旨在通过
通过多个帧提取各种时间线索。
一种多对抗性深域泛化方法是 在[ 23,28,26 ]中提出了动态纹理来提取不同的面部动作。 刘等人。  
提出自动和自适应地学习这个由多个源域共享的通用特征空间。
具 [17,  16]建议
体来说,在对抗性学习方案下, 估计来自  RGB  人脸视频的  rPPG  信号以进行检测。 此外,  [18]中
提出的工作涵盖了
为生成域共享而训练的生成器 外观和时间线索,
它学习了一个  CNN‑RNN
特征,
在学习过程中同时与多个领域鉴别器竞争,
逐渐 模型来估计不同的人脸深度和  rPPG  信号
在真脸和假脸之间。然而,
性能
引导学习到的特征对于多域鉴别器是不可区分的。
因此,
特征空间 基于外观和时间的方法都容易
在测试数据所在的跨数据集测试中被降级
在特征生成器成功欺骗所有域鉴别器后,
可以自动发现所有源域共 来自不同的数据集(域),
因此特征分布与训练域不同。
这个到期了
享的内容。
为了提高辨别力
因此,
上述方法可能会提取一些偏向于特定攻击材料或训练数据集
在对抗性做主泛化过程中学习了泛化特征空间,
我们在学习过程中 中记录环境的差异化线索。
因此,
从领域泛化的角度来看,这
进一步施加了双力三元组挖掘约束,
以确保

在域内和跨域中,
每个样本到其正值的距离都小于其负值。此外,
为 论文提出捕捉更广义的微分
了进一步 解决打印和视频重放攻击的线索。
加强学习特征的泛化能力, 深度领域泛化方法。几个深
我们在学习过程中将人脸深度信息作为辅助超级视觉。
它们都由 已经提出了域泛化方法。
莫蒂安等人。  [21]提出联合最小化语义

提议的框架。 深度学习中的对齐损失和分离损失
注意一个类似的深域泛化方法 楷模。 李等人。  [14]设计了一个用于端到端域泛化学习的低秩参
[15]中提出了基于对抗性学习的方法, 数化  C  NN  模型。
它通过对抗性特征学习将多个源域与任意先验分布对齐来学习广义 [15]中提出了最相关的工作, 它学习了一个
特征空间。 但是,
只需对齐 通过对抗性学习将多个源域与预定义分布对齐, 从而得到广义特征
空间。
多个源域到一个预定义的分布可能 但是, 不能保证预定义的分布是特征空间的最优分布。 所以,
次优。
广义特征空间存在于可见的多个源域和不可见的
只需将多个源域对齐到预定义的
目标域。
这意味着可以根据 分布可能是次优的。
相反,
在我们提出的
深度域泛化框架,
泛化特征空间是基于
多个源域。
为此,我们利用共享
和多源之间的判别信息做 由多个源域提供的知识。

10024
Machine Translated by Google

假深度
域  1
深度 深度
估计 失利

真实深度
奥卢

域  2 从
特征
F1  
F2
特征 分类
分类器
...
失利
发电机 嵌入器 Fn

... 决明子
三胞胎
域  N 失利

双力

伊迪亚普
三重挖矿

特征 鉴别器_1
Extractor_1  特征 鉴别器_2
进阶
提取器_2 失利
特征 ... 鉴别器_N ...
提取器_N

多对抗深度域泛化

图  2.  所提出方法的概述。
多对抗性深域泛化首先被提出来学习一个由多个判别源域共享的泛化特征空间。
此外,对学习过程施加双力三元组挖掘的
约束, 提高了学习特征空间的可辨别性。进一步结合了辅助人脸深度,
以在该特征空间中学习更广义的区分线索。
实线的模块表示它正在接受训练,而
虚线的模块表示它的参数是固定的。

3.  建议方法 对抗性学习过程中的空间。
此外,
作为在特征空间中学习更多泛
化分化线索的指导,
人脸深度的辅助监督被进一步纳入学习过
3.1。
概述 程。

本文的重点是学习一个广义的特征空间来应对各种看不见的
人脸呈现攻击。 3.2.Multi‑adversarial  Deep  Domain  Generalization
尽管测试样本来自一个不可见的域,但它们在人脸呈现攻击中仍
假设有N个源域  s  的图像, 记为X  =  {X1,  X2, ...,  XN },
对应的
然与多个源域共享一些共同属性。例如,
与源域相比,来自未见域
的打印或视频重放攻击可能以不同的材料或不同的环境呈现, 标签记为Y  =  {Y1,  Y2, ...,  YN } ,
类别为K  
的K  (=  2
人脸反欺骗任务中

其中Y  =  0/1  是攻
但它们本质上都是基于论文或视频屏幕的。可以从跨多个源域 击/真实的标签)。 给定每个源域中的标记数据, 每个源域中的判别
我们可以从利用
的一些共享和有区别的信息中利用公共属性。也就是说,具有判 信息开始。
别性并由多个源域共享的特征空间更有可能被很好地泛化到看
不见的领域。基于这个想法,
如图  2  所示,
本文提出了一种新颖的
多对抗判别深度域泛化框架来学习这个泛化特征空间。 具体来
预训练多源特征提取器。 对于N个源域,
我们分别基于具有交叉
说,
训练一个特征生成器与多个域判别器竞争, 从而逐步学习共
熵损失的  K  路分类预训练多个特征提取器(M1、  M2、 ...、  
享和判别特征的速度。同时,
施加双力三元组挖掘约束以提高特
MN )。
我们以源域1的特征提取器的预训练为例, 如下图所示:
征的判别能力

Lcls(X1,  Y1;  M1,  C1)  =
(1)
−  E(x1,y1) (X1,Y1)  X  1l[k  =  y1]logC1(M1(x1))
k=1

10025
Machine Translated by Google

域  1 有区别的 以上多对抗性深域泛化如下:


M_1 域1的特征空间 有区别的

特征空间  1

域  2 D_1
M_2
有区别的
域2的特征空间
LDG(X,  X1,  X2, ...,  DN )  =
广义的
域  3
X Ex X[log(Di(G(x)))] (2)
有区别的 D_2 特征空间
M_3 域3的特征空间

+  Exi Xi  [log  (1  ‑  Di  (Mi  (xi)))]
D_3
有区别的 有区别的
其中G表示特征生成器,
它试图学习
广义的 特征空间  2 特征空间  3
G 特征空间 无法区分的广义特征空间
每个判别源特征空间同时进行。  Di表示第i  个域鉴别器,
它试图

图  3.  多对抗深度域泛化的细节。
为了简单起见,
假设我们有三个源域。
我们训练一个特 将学习到的特征空间与源域i的判别特征空间区分开来。通过特征空
征生成器来与三个领域竞争 间中的这种多对抗学习过程,可以由特征生成器G自动学习和生成广
义特征空间。
判别器同时进行,
共享特征空间将是
在这个特征生成器成功愚弄之后自适应地学习
所有域鉴别器。

3.3.  Dual‑force  Triplet‑mining  约束
因此,我们获得了多个判别特征空间 在打印和视频中继攻击中, 类内距离
由多个经过训练的特征提取器(M1、  M2、 ...、  MN )
编码的源 容易大于类间距离。 如图。
域。
然而,这些区分特征空间包含很大一部分区分线索 图  4  显示了说明此问题的视频重放攻击的典型情况。在图  4  中,
对于
每个真实的主题, 假
偏向于每个源域,
从而禁用它们 具有相同身份的面孔具有相似的面部特征,
可以很好地推广到看不见的攻击。 而不同身份的真面目有着不同的
多对抗深度域泛化。
至 面部特征。 这使得每个领域中每个主题的负数都比正数更相似。 到期
为人脸反欺骗学习更通用的特征空间,
我们希望利用源的多个特征 的
提取器编码的共同判别信息 针对不同的攻击材料或记录环境
不同域之间, 这个问题也可能比较严重
域。更广义的面部分化线索 在跨域场景下。 因此,学习到的广义特征空间的判别能力容易受到
因此,反欺骗将从常见的判别信息中被利用,
这些信息不太可能有偏
见 正在退化。
因此,我们的目标是改善歧视
到任何源域,因此具有更好的泛化性 通过挖掘样本之间的三元关系的能力。
能力。 具体来说,
在学习特征空间时,我们强制:
为此,我们引入了一种多对抗深度主泛化方法。
因为广义特征空间 1)
每个主题到其域内正数的距离
包含共同的判别信息, 小于其域内负值,2)
并且同时每个受试者与其跨域正值的距离小于
其跨域负值。我们称之为
这个空间可以通过查找共享空间来发现
多个判别源特征空间。
这意味着这个特征空间同时与每个 作为双重力三重挖掘约束。
这样,在域泛化过程中,
可以通过这个约
束来提高泛化特征空间的判别能力
源域的判别特征空间。
假设我们有N个源域。因此, 我们 过程。
因此,
我们可以得到:
具有分别由N个预先训练的特征提取器编码的N个判别特征空间。

N个判别特征空间引入  N  个域判别器
LT  rip(X,  Y;  G,  E)  =
分别训练一个特征生成器来竞争 X [kE  (G  (x  a))  ‑  E(G(x ))k
同时使用所有N个域鉴别器。 一个 ∀ya=yp,ya6=in,i=j
因此,在此特征生成器成功欺骗之后, 共享特征空间将自动和自适应 ‑  kE  (G  (x  a ))  ‑  E(G(x  n ))k +  a1]+ (3)
地学习
所有N个域鉴别器。图  3  显示了当我们有三个源域时这种多对抗域 +  c  X [kE  (G  (x  a))  ‑  E(G(x ))k
泛化过程的说明。我们制定
‑  kE  (G  (x  a ))  ‑  E(G(x  n ))k +  a2]+

10026
Machine Translated by Google

伊迪亚普

积极的
主题一
2
LDep(X;  Dep)  =  kDep(G(X))  ‑  Ik 2 (4)

消极的
其中Dep是深度估计器,  I是人脸深度
用于监督的地图。

3.5.多对抗判别深域
概括
消极的

如图  2  所示,
加入分类器C来计算分类损失LCls。
我们将上述目标整合为
积极的 一个统一的

主题  2

决明子 多对抗判别深域泛化框架(MADDG)
如下:

图  4.  Dual‑force  Triplet‑mining  约束说明。
在印刷和视频中继攻击中,
负面影响可能更多 分钟 最大限度 LMDDG  =
G、
E、C、
DEP D1,D2,...,DN
与intra和cross中每个受试者的阳性相似 (5)
域。
这个约束试图通过最小化类内距离同时最大化类间距离来解决这个问题 LDG  +  LT  裂口+  LDep  +  LCls

在内部和跨域中。 请注意,
由于人脸反欺骗数据集的训练数据有限以及设计的网络结构复
杂,
我们将训练过程分解为两个

易于处理的优化阶段:
1)训练G、
E、C
其中E表示特征嵌入器,
上标  s  a和p表示同一类,
而a和n是不同的类。
下标i和j
和D1,  D2, ...,  DN一起,
具有  multi‑adversarial  do  main  泛化损失、
dual‑force  triplet‑mining  loss  
代表相同

分类损失。  2)
用辅助人脸深度信息损失训练G和Dep 。
以上两个阶段
域,
而i和k是不同的域。  α1和α2代表预定义的域内和跨域边距,

在训练过程中迭代重复直到收敛。
总体目标是使特征生成器G能够生成广义
分别。
特征空间。

3.4.辅助面深度信息
4.  实验
为了利用更广义的分化线索
广义特征空间,
我们进一步结合人脸 4.1。
数据集
深度线索作为训练我们的特征生成器的辅助信息。
通过空间信息的对比可以
看出,
活人脸是有脸型的。 表  1.  四个实验数据集的比较。
额外的 复杂的 攻击 展示
数据集
光 背景 类型 设备
深度,
而攻击面呈现在平面和平面中 打印的照片
C 不 是的 剪切照片 iPad
纸张或视频屏幕没有面部深度。
因此, 重播的视频
打印的照片 iPhone  3GS
人脸深度信息可以被利用为更通用 我 是的 是的 显示照片 iPad
重播的视频
面部呈现攻击检测的区分线索。 iPad  空气
米 不 是的 打印的照片
我们利用最先进的密集人脸对齐网络 重播的视频 iPhone  5S
打印的照片 戴尔  1905FP
命名为  PRNet  [10]来估计真实人脸的深度图, ‧ 是的 不 显示照片 Macbook  视网膜
重播的视频
作为对真实面孔的监督。
深度
全零的地图被设置为假脸的监督。
估计的人脸深度信息也可以是域 我们评估我们在四种公众面孔反欺骗方面的工作
有偏见。
因此,
不同于[18]中的方法 包含打印和视频重放攻击的数据集:
Oulu‑NPU  [4]  (简称  O),
CASIA‑
使用估计的人脸深度直接做分类, MFSD  [35]  (C
我们将人脸深度作为辅助信息 简称)、 Idiap  Replay‑Attack  [8]  (简称  I)
和  MSU  MFSD  [31]  (简
进入域泛化的训练过程。
在这个 称  M)。
表1显示了变化
方式,
引导特征空间利用更通用的 这四个数据集。
一些真实面孔的样本和
学习中与面部深度相关的差异化线索 攻击如图  5  所示。
从表  1  和图  5  中,
我们
过程。
该辅助深度信息被合并为 可以看到很多变化,
由于差异
如下: 关于材质、
光照、
背景、
分辨率等

10027
Machine Translated by Google

(a)  卡西亚 (b)  伊迪亚普 (c)  密歇根州立大学 (d)  奥卢

图  5.来自  CASIA‑MFSD  [35]、  Idiap  Replay‑Attack  [8]、
MSU‑MFSD  [31]和  Oulu‑NPU  [4]数据集的样本帧。
数字
绿色边框代表真实面孔,红色边框代表视频重放攻击。从这些例子中,
可以
看到由于材料、
照明、背景、分辨率等方面的差异而导致的大跨数据集变化,导致显着
这些数据集之间的域转移。

表  2.  拟议网络的所有组件的结构细节。
特征生成器 鉴别器 特征嵌入器和分类器 深度估计器
层Chan./Stri。
外尺寸 层Chan./Stri。
超出尺寸 层Chan./Stri。超出尺寸 层Chan./Stri。
超出尺寸
输入 输入 输入 输入
图片 半场  1‑3 半场  1‑3 半1‑1+半1‑2+半1‑3
conv1‑1   64/1   256   转换  2‑1   128/2   16   转换3‑1 128/1   32   转换4‑1  128/1  32
conv1‑2   128/1   256   转换  2‑2   256/2   8   pool2‑1   ‑/2   16   转换4‑2  64/1  32
conv1‑3   196/1   256   转换  2‑3   512/2   4   conv3‑2   256/1   16   转换4‑3  1/1  32
conv1‑4   128/1   256   转换  2‑4 1/1 3 pool2‑2   ‑/2   8
pool1‑1   ‑/2   128   conv3‑2 512/1 8
conv1‑5   128/1   128   平均池化
conv1‑6   196/1   128   fc3‑1   1/1   128
conv1‑7   128/1   128   fc3‑2 1/1 1
pool1‑2   ‑/2   64
conv1‑8   128/1   64
conv1‑9   196/1   64
conv1‑10   128/1   64
pool1‑3 ‑/2 32

on,
存在于这四个数据集中。
因此,
显着 conv4‑1  用于深度估计。
此操作有助于缓解
这些数据集中存在域转移。 训练过程,
使人脸深度的辅助信息同时影响不同的层

4.2.实验设置
学习过程中的特征生成器。
在我们的实验中,
我们将一个数据集视为一个域。 培训详情。  Adam  优化器[13]用于
为简单起见,
随机选择四个数据集中的三个作为源域,
我们在其中进行域泛 优化。
如  3.5  节所述,
我们训练
化,
剩下的一个是未见域 整个网络有两个迭代阶段。
由于两个训练阶段之间的模型复杂度不同,
我们

测试,
在训练过程中无法访问。 在第一阶段使用学习率  1e‑5,
训练
一半总错误率  (HTER)  [2]  (总和的一半 G、
E、C和D1 、  D2、 ...、  DN一起。  G和Dep是
错误接受率和错误拒绝率)
和曲线下面积(AUC)
被用作我们的评估指标 在第二阶段以  1e‑4  的学习率训练。

批量大小为每个域  20  个,
因此  3  次训练总共有  60  个。
超参数γ、  α1和α2设
实验。 置为
分别为  0.1、
0.1  和  0.5。
4.3.实施细节
测试。
对于一个新的测试样本x,
其分类  s  core  l计算如下:  l  =  C(E(G(x)))
网络结构。
我们的深度网络是在  PyTorch  平台上实现的。
详细结构
其中G、
E、C分别是训练好的特征生成器、
特征嵌入器和分类器。
所提出的网络如表  2  所示。
具体而言,
特征生成器、
特征嵌入器和深度估计器
中的每个卷积层后面都有一个批次
4.4.实验比较
归一化层和一个整流线性单元  (ReLU)  激活函数,
所有卷积核大小为  3×3。 4.4.1  基线方法

按照[14]  中的标准设置,
每个卷积 我们比较了几种最先进的人脸反欺骗
判别器中的层后面是批归一化层和  LeakyReLU  激活函数,
所有内核大小为   方法如下:
多尺度LBP(MS  LBP)  [19] ;
4×4。
输入图像的大小为256  ×  256  ×  6, 二进制  CNN  [32];
图像失真分析(IDA)  [31];
颜色纹理(CT)  [5];  LBPTOP  [23];
和辅助[18]:
该方法学习  CNN‑RNN  
我们提取每个输入图像的  RGB  和  HSV  通道。
受残差网络[11]  的启发,
我们 模型以从一帧和  rPPG  信号中估计人脸深度
使用
一个快捷连接,
将  pool1‑1、
pool1‑2  和  pool1‑3  的响应串联起来,
发送到 通过多个帧。
为了公平地比较我们只使用一帧信息的方法,
我们实现了它的人
脸深度

10028
Machine Translated by Google

表  3.  四个测试集上的人脸反欺骗方法比较, 用于人脸反欺骗的域泛化。
O&C&I  到  M  O&M&I  到  C  O&C&M  到  I  I&C&M  到  O
方法
HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)
多发性硬化症 29.76 78.50 54.28 44.98 50.30 51.64 50.29 49.31
二进制CNN 29.25 82.87 34.88 71.94 34.47 65.88 29.61 77.54
国际开发协会 66.67 27.86 55.17 39.05 28.35 78.25 54.20 44.59
颜色纹理 28.09 78.47 30.58 76.89 40.40 62.78 63.59 32.71
LBPTOP 36.90 70.80 42.60 61.05 49.45 49.54 53.15 44.09
辅助(仅限深度) 22.72 85.88 33.52 73.15 29.14 71.69 30.17 77.61
– – 28.4 – 27.6 – – –
辅助(全部)
我们的  (MADDG) 17.69 88.06 24.5 84.51 22.19 84.99 27.98 80.02

表  4.  对抗性域泛化方法在四个测试集上进行人脸反欺骗域泛化的比较。
O&C&I  to  M  O&M&I  to  C  O&C&M  to  I I&C&M  到  O
方法
HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)
MMD‑AAE 27.08 83.19 44.59 58.29 31.58 75.18 40.98 63.08
我们的  (MADDG)  17.69 88.06 24.5 84.51 22.19 84.99 27.98 80.02

估计组件(表示为辅助(仅深度))。 框架。  MADDG  wo/mgan表示建议的
我们还比较了其报告的结果(表示为  Auxil  iary(All))。
此外,
我们还比较了 没有多对抗域泛化组件的网络。
在此设置中,
我们删除了多个
人脸反欺骗任务领域泛化中相关的最新方法:  MMD‑AAE  [15]。
我们网络中的域鉴别器(D1, ...,  DN )
培训过程。  MADDG  wo/trip表示所提出的网络没有双力三元组挖掘约束组
件。
在这种情况下,
我们不计算

4.4.2  比较结果
并反向传播双力三元组挖掘损失
从表  3  和图  6  的比较结果可以看出 培训过程。  MADDG  wo/dep表示所提出的网络不包含辅助人脸深度
可以看出,
所提出的方法比所有方法都好
最先进的人脸反欺骗方法[19,  32,  31, 信息。
在此设置中,
我们删除了深度估计器
5,  18]。
这是由于所有现有的人脸反欺骗 深入培训过程。
方法专注于从多个特征空间中学习 表  5  显示,
如果排除任何组件,
建议的网络性能会下降。
这验证了
仅适合源域  s  中的数据的源域。
相比之下,
所提出的多对抗判别式深域泛化明
确地利用了 每个组件对整个网络的贡献,
并表明所提出的网络在一个统一的框架中同时优化所有组件可以获得
多个源特征空间的域关系,以及
学习之间的共享和区分信息 更好的性能。
他们。
这学习了一个更广义的特征空间
可能在源域和看不见的目标域之间共享,
因此它更能够提取更通用的区分线索
4.5.2  融合策略比较
来进行人脸反欺骗。
当我们有多个域数据时,
通常会使用融合策略。
因此,
我们增加了两个基线
此外,
在表  4  和图  6  中,
与最先进的域泛化方法[15]  相比,
我们在人脸反欺
骗任务中也表现出色。
这说明 比较, 即表6中的score‑level  fusion和feature‑level  fusion。
在score‑level  fusion中,
我们训练了多个
与通过将多个源域对齐到预定义的分布来学习的特征空间相比,
通过以下方式 AlexNets  分别用于所有源域,
并对所有训练的  CNNs  的测试分数使用平均融
自动和自适应地学习的特征空间 合
目标域。
在特征级融合中,
如[9],
我们训练
我们提出的域泛化框架对于人脸反欺骗任务更可行。 多个  AlexNets  并通过以下方式融合  FC7  层的特征
级联。
再集成一个全连接层来对融合特征进行分类。
表  6  显示了我们的方法

4.5.讨论
优于上述两种融合策略。
简单的融合策略无法应对各种跨域

4.5.1  消融研究
场景,
以便在某些场景中,
例如  O&M&I  to  C,
所有测试集的消融研究的实验结果如表5所示。
MADDG表示提出的 两种基线方法的性能都显着下降。
相比之下,
我们的方法在所有情况下都是稳
健的。

10029
Machine Translated by Google

O&C&I  到  M O&M&I  到  C O&C&M  to  I I&C&M  到  O


1 1 1 1

辅助(深度) 辅助(深度) 辅助(深度) 辅助(深度)


MMD‑AAE MMD‑AAE MMD‑AAE MMD‑AAE
二进制CNN 二进制CNN
0.8 二进制CNN
0.8 二进制CNN 0.8 0.8
颜色纹理 颜色纹理 颜色纹理 颜色纹理
国际开发协会 国际开发协会
国际开发协会 国际开发协会

MS_LBP MS_LBP MS_LBP MS_LBP


LBPTOP LBPTOP LBPTOP LBPTOP
0.6 0.6 0.6 0.6
我们的 我们的 我们的 我们的

0.4 0.4 0.4 0.4

0.2 0.2 0.2 0.2

0 0 0 0
0 0.2 0.4  0.6错误生活 0.8 1 0 0.2 0.4  0.6错误生活 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

率 率 虚假生活率 虚假生活率

图  6.  用于人脸反欺骗领域泛化的四个测试集的  ROC  曲线。

表  5.在四个测试集上对所提出的框架的不同组件进行评估,
用于面部域泛化
反欺骗。
O&C&I  到  M O&M&I  到  C O&C&M  to  I I&C&M  到  O
方法
HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)
MADDG  wo/mgan 21.55   85.83   28.67   82.27   36.50   63.15   29.63   77.40
MADDG  w/旅行 20.84   85.95   30.46   77.99   34.99   71.37   29.75   75.93
MADDG  wo/dep 34.29 69.92 39.95 62.42 37.44 62.82 39.39 64.19
我们的(MADDG) 17.69 88.06 24.5 84.51 22.19 84.99 27.98 80.02

表  6.四个测试集上的融合策略比较, 用于人脸反欺骗的域泛化。
O&C&I  到  M O&M&I  到  C O&C&M  to  I I&C&M  到  O
方法
HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)
分数融合 21.00 86.18 46.62 57.05 34.17 71.53 31.12 76.42
特征融合 25.62 74.57 52.32 48.23 46.29 52.71 32.56 76.01
我们的  (MADDG)  17.69 88.06 24.5 84.51 22.19 84.99 27.98 80.02

4.5.3  有限源域 利用域共享和区分属性
当有更多的源域时,
学习更多的通用线索
当源域极其有限时,
我们评估了所提出方法的域泛化能力 可用,
因此具有域泛化的优势
可以通过我们的方法更好地利用。
数据集可用(即只有两个源数据集)。
自从
MSU和Idiap之间存在显着的域差异 5.  结论
数据集, 我们选择这两个数据集作为源域。
因此,
选择其余的(Oulu和CASIA)
进行测试。
表  7  中的结果显示了建议的 为了提高人脸反欺骗的泛化能力,
本文利用域泛化技术在不使用

方法比其他方法执行得更好。
这验证了
即使在具有挑战性的情况下,
我们的方法也更有效。 目标域数据。
具体来说,
一种新颖的多对抗
提出了深度域泛化方法来训练一个
表  7.  域泛化与有限源的比较 特征生成器同时与多个域判别器竞争,
从而使广义特征空间
用于人脸反欺骗的域。
M&I  到  C 我也是
方法 可以自动和自适应地学习。
广义特征空间的判别能力通过
HTER(%)  AUC(%)  HTER(%)  AUC(%)
多发性硬化症 51.16   52.09   43.63   58.07
特征学习中的双力三元组挖掘约束
国际开发协会 45.16   58.8   54.52   42.17
过程。
同时,
加入了人脸深度监督,
进一步增强了该算法的泛化能力。
CT  55.17  LBPTOP  
45.27 46.89   53.31   45.16
54.88 47.26 50.21
我们的 41.02 64.33 39.35 65.10 特征空间。
在四个公众中进行广泛的实验
数据集验证了所提出方法的有效性。

此外,
与表  7  中的结果相比,
当我们
6.  致谢
有更多的源域如表3中do  main  generalization的normal设置,
其他方法无
法得到 本项目由香港研资局部分资助
很大的改进和所提出的方法优于 GRF  HKBU12201215。  X.  Lan  的工作部分得到了浸大一
他们在更大的差距。
这意味着我们的方法更有能力 级创业补助金的支持。

10030
Machine Translated by Google

参考

10031

You might also like