苏曼萨哈 - Wenhao Xu

Machine Translated by Google
领域不可知的特征学习
基于图像和视频的人脸反欺骗
苏曼萨哈 | Wenhao Xu
苏黎世联邦理工学院苏黎世联邦理工学院
suman.saha@vision.ee.ethz.ch wenhxu@student.ethz.ch
梅内劳斯·卡纳基斯 Stamatios Georgoulis
苏黎世联邦理工学院苏黎世联邦理工学院
menelaos.kanakis@vision.ee.ethz.ch stamatios.georgoulis@vision.ee.ethz.ch
Yuhua Chen 丹达·帕尼·波德尔卢克·范古尔

苏黎世联邦理工学院苏黎世联邦理工学院 KU Leuven 和 ETH 苏黎世
yuhua.chen@vision.ee.ethz.ch paudel@vision.ee.ethz.ch vangool@vision.ee.ethz.ch
决明子密歇根州立大学奥卢‑NPU

抽象的伊迪亚普类风湿病
居住
如今，
越来越多的移动和计算设备导致了对更安全的用户身份验证
系统的需求。面部反欺骗是一种针对生物特征用户身份验证的措施，特别
是面部识别，它试图防止欺骗攻击。最先进的反欺骗技术利用深度神经网
络的能力，根据来自训练集图像或视频样本的线索来学习判别特征，以检打印
攻击
测欺骗攻击。然而，由于问题的特殊性质，
即由于不同背景、照明条件、
相机
分辨率、欺骗材料等因素导致的巨大变化，这些技术通常无法推广到新样
本。
在本文中，我们明确地解决了这个问题并提出了一个类条件域鉴别器视频
模块，该模块与梯度反转层相结合，试图生成具有鉴别性但同时对上述可重播
攻击
变性具有鲁棒性的实时和欺骗特征因素。
图 1. 来自四个公开可用的人脸反欺骗数据集的样本帧：
CASIA‑MFSD [68]、 MSU‑MFSD
[63]、 Oulu‑NPU [9]和 Idiap Replay‑Attack (RA) [13]。
请注意，
由于不同的攻击工具、
背
景、
照明条件、
相机分辨率等因素，
可以观察到很大的可变性，
从而导致这些数据集之间出现显
着的域转移。
设备，重要的是开发方便且安全的登录方式。最近，由于每个人面部的独

特性以及这种方法的易用性（例如 Apple 的 FaceID），
生物特征认证，
广泛的实验分析表明，
无论是在数值改进方面还是在可视化学习特征方特别是面部识别，已经成为一种有吸引力的用户识别方式。然而，
与此同
面，
所提出的方法都优于现有的基于图像和视频的反欺骗技术。时，
黑客在试图欺骗某人的脸以欺骗身份验证系统方面变得更有创造
力。
典型的例子包括在纸上打印一个人的面部照片（打印攻击），在另
一台设备上播放描述该人面部的视频（重放攻击），戴上特殊的面具来
密切模仿某人的面部外观（面具攻击）
等。可以理解的是，被能够有效检
测此类攻击，
正式称为人脸反欺骗
一、
简介
人们越来越多地使用笔记本电脑和智能手机等计算设备来工作、支
付账单、购物以及与社交圈互动、
娱乐等。鉴于我们不断使用这些设备
1
(FAS)，
是计算机视觉中的一个关键问题。一个骨干网络，
并尝试从哪个来源进行分类
一方面，
面对反欺骗的传统方法依赖于手工制作的特征，
如 LBP [13, 15, 每个样本的域，
取决于它所长的类（即活的或恶搞的）。
后者在前向传播过程
中充当恒等变换形式，
但在反向传播过程中将梯度乘以某个负常数
16]、
HoG [30, 67]和 SURF [8]，
以检测差异
在实时和恶搞面部图像之间的纹理中，
或
启发式方法，
如眨眼[46]、
嘴唇运动[29]和视觉传播，
本质上颠倒了其后续层的目标。
在我们的例子中，
这实际上意味着
节奏[50]，
以识别不存在的规律性
欺骗攻击。
但是，
上述方法骨干网络现在的任务是额外的目标
要么不适用于所有可能的欺骗攻击，
即生成实时和欺骗的特征表示
print、
replay 和 mask，
或者它们无法泛化到不同的数据集，
因为学习到的特征跨域无法区分。
请注意，
我们的方法
专门针对适用于基于图像和基于视频的输入，
但我们
“训练过的”
纹理，
由于数据集之间的差异很大明确避免包含额外的组件作为输入，
例如
不同的背景、
光照条件等因素，深度[2]或 rPPG 信号[42]，
因为后者需要
相机分辨率，
恶搞材料等，
如在昂贵的地面实况标签以训练网络。
图1。我们的主要贡献可以总结为：
（1）
一个类条件域鉴别器模块（第3.3 节），
另一方面，
现代方法使用卷积神经网络 (CNN) [66, 38, 47, 2, 42, 27 ] 它
与梯度反转层相结合，
促进了领域不可知特征的学习； (2) 一个 LSTM 网络
在许多计算机视觉任务中表现出令人印象深刻的表现，
这主要归功于其出色的
代表性（§ 3.2,3.5）
学习时域不可知特征作为
在大规模训练时学习到的特征的力量补充信息； (3) 最先进的结果
数据集。
尽管性能有所提高，
但仍有四个具有挑战性的领域泛化测试集（§ 4.2）
FAS 中的公开挑战。
一个值得注意的是 domain1 附带对特征嵌入（第4.4 节）
和类激活图（第4.6 节）
的可视化分析。
转移[36]问题。
后者发生在网络训练时
在一个完全不可见的数据集（目标域）
上测试一个数据集（源域）。
这在 FAS
文献中被称为“交叉测试”，
而在 2、
相关工作
在下文中，
我们将描述传统的、
基于特征的
相同的数据集称为“内部测试”。
现有的基于深度学习的方法显示出有希望的
以及现代的、
基于 CNN 的 FAS 方法。
然后我们
内部测试结果，
但它们的性能显着
详细说明 FAS 上的少数领域泛化工作。
传统方法出现之前
在交叉测试设置下评估时会降级[52]。
CNNs [32]，
面对反欺骗的典型方法
这种性能下降的主要原因是功能
结合使用手工制作的特征和浅层分类技术来检测差异
源之间的分布差异（见图2）
和由几个数据集特定线索引起的目标域，
实时和恶搞图像之间的纹理。
最多
例如：
（1）
环境条件（照明、
背景）、
（2）
欺骗媒介（打印机、
显示屏）
和（3）
视
手工制作的特征的典型例子包括
频捕获设备的质量
LBP [43, 13, 15, 16]，
HoG [30, 67]，
DoG [59, 49]，
SIFT [48]和 SURF [8]。至于分类器，这些工作
（不同的手机、
平板电脑）。
因此，
模型学习
依赖 SVM，
在较小程度上依赖 LDA。
在一个类似的
根据这些区分实时样本和恶搞样本
静脉，
其他传统方法采用启发式
数据集相关线索，
但未能正确分类来自具有不同线索集的未知数据集的样本。
利用恶搞中不存在的“活泼”
线索
攻击。
这种启发式的例子是眨眼[46, 57]，
在本文中，
我们解决了上述领域
嘴唇运动[29]，
视觉节奏[50]， Haralick 纹理
域泛化设置下 FAS 中的移位问题。
也就是说，
网络是在多个数据集上训练的
特征[1]、
音频[ 12、
11] 、
动态纹理[17]或其他[ 59、
40、
41 ]。
解决人
脸反欺骗的另一种方法
（源域），
但随后在完全看不见的地方进行了测试
是利用视频中的时间线索，
例如，
数据集（目标域）。
我们的目标是使用源域样本生成域不可知特征表示，
该样
巴拉德瓦杰等人。 [5]尝试使用运动放大
本将泛化到看不见的目标域样本，
以便每个样本，
无论其域来源如何，
增强面部表情，而[31]尝试使用运动
和纹理提示。
考虑变化的因素
比较的图像，
如光照、
姿势等，
可以有效地归类为直播或恶搞。
为此，
使用不同的色彩空间 (HSV, YCbCr) [6, 7], 图像
我们建议使用与梯度反转层相结合的类条件域鉴别器模块[20]。
失真分析[63]，
或时间变换
域[3, 55]和傅里叶谱[37]，
已经
前者采用从生成的特征表示
探索了。
一般来说，
这些传统方法要么
1 本文中的术语域用于指代数据集。不适用于所有可能的欺骗攻击，
即打印、
重放、
2
（一个）
看不见的目标域 (二)
打印重播现场样品打印重播
居住攻击攻击居住攻击攻击
源域源域
(奥卢‑NPU) (奥卢‑NPU)
源域
现场样品
看不见的目标域
打印攻击样本
打印重播打印重播
源域
看不见的目标域
现场样品
重放攻击示例
目标域目标域源域
密歇根州立大学‑MFSD (卡西亚) 打印攻击样本
图 2. 来自 ResNet50 主干的 CNN 特征的 t‑SNE 可视化，
在多个源域（即 FAS 数据集）
上训练并在看不见的目标域上进行了测试。为了更好地可
视化，我们在这些图中仅显示一个源域和一个目标域。我们可以很容易地识别人脸反欺骗中固有的域转移问题。也就是说，来自源域和目标域的实时
样本和欺骗样本在特征空间中没有正确对齐，导致学习到的特征表示在目标域上的泛化能力很差。
掩码，或者它们无法泛化到不同的数据集，因为学习的特征专门用于“训为 FAS 预训练的 CNN。他们使用与我们不同的源域组合（即 NUAA

练的”纹理，
由于不同的背景、照明条件、
相机分辨率、恶搞材料等变化因 [59]、 Idiap Replay‑Attack [13]、 CASIA‑MFSD [68]数据集），
因此
素，
数据集之间的差异很大。他们的方法不能直接比较。
上述工作尽管表现出改进的性能，部分归因于 CNN 的使用，但在跨
基于 CNN 的方法通过将 CNN 应用于图像分类和对象识别任务[ 32、域（即数据集）泛化方面仍然面临着开放的挑战。如前所述，不同 FAS 数
24、
56、 58 ]所取得的令人印象深刻的结果，促使研究人员也将它们应用据集（例如
于其他计算机视觉任务。人脸反欺骗也不例外。显而易见的选择是用从
通用 CNN 中学习到的特征替换手工制作的特征以在大规模数据集上
训练时具有强大的表示能力而闻名这就是在[47, 38] 中所做的。不同重放攻击[13]和 CASIA‑FASD [68]），
这反过来导致交叉测试结果不
的是，杨等人。 [66]使用 CNN 作为二元分类器，为输入图像分配实时/ 佳。
在本文中，我们超越了当前基于 CNN 的方法，明确地解决了 FAS 中
欺骗标签。他们使用 RGB 图像的多尺度金字塔作为输入，而 Feng 等的域转移问题，而不依赖于来自额外线索（如深度或 rPPG 信号）的监
人。 [18]探索了多种线索的使用，例如图像质量和运动线索。接下来，徐督，
这需要大量的注释工作才能获得。
等人。 [64]结合了视频输入并提出了一个 LSTM‑CNN 模型来利用来自
额外帧的信息。 [53, 54]中提出了动态纹理来提取不同的面部动作。最
近，Atoum 等人。 [2]介绍了一种受多任务启发的方法，该方法结合了纹领域泛化方法。为了解决跨不同数据集的 do main shift 问题，域适
理和深度特征的估计，用于二进制实时/欺骗分类，后来由 Liu 等人扩应[25, 19, 62, 20, 21]和泛化[28, 45, 65, 23, 22, 33, 44, 35]技术已被
展。 [42]还包括与时间监督的融合，即 rPPG 信号。最后，Joorabloo 等用于计算机想象。在每种情况下，目标都是弥合来自源域和目标域的数据
人。 [27]遵循不同的路径，并使用 GAN 架构将恶搞脸反向分解为恶搞之间的分布差距，以便创建泛化到新域的与域无关的特征表示。在本文
噪声和活人脸，从而利用恶搞噪声进行分类。布雷桑等人。 [10]探索与a 中，我们主要对域泛化技术感兴趣，这些技术在 FAS 中基本上未被利用，
相关的深度、显着性和照明图但有以下例外。李等人。 [34]鼓励通过考虑空间和时间信息并最小化交
叉熵损失和泛化损失来学习泛化特征表示。涂等人。 [61]提出在 CNN
训练中使用 Total Pairwise Confusion loss，并结合 CNN 模型中的
Fast Domain Adaptation 组件来解释
3
主要变化。
邵等人。 [52]结合学习a 最小化 live/spoof 分类损失，
同时
由具有双力三元组挖掘约束的多个判别源域共享的广义特征空间，
以提高学习它与一个类条件域鉴别器（§3.3）
和一个梯度反转层竞争的时间
特征的可辨别性
最大化live和spoof的域分类损失
空间。
总的来说，
与上述作品相比分别取样。
在训练过程中，
编码器逐渐学习共享和判别特征
我们的框架为多个领域提供了更好的集成，
并且，
正如将在 Sec 中显示的那样。 4，
在四个公共数据集上申述。
图3 给出了系统概览。
取得了显着的改进结果。您可以观察到两种变化（见图3）。
首先，
一个
基于图像的 (IB) 网络，
遵循图像级训练，
其中训练示例由图像和
3. 建议的方法
其相关的真实标签（“现场”
或“恶搞”）。
3.1。
人脸反欺骗中的域转移问题这是为了演示仅给出单个图像作为输入的场景，
并且系统必须决定是否
我们的主要目标是学习广义特征表示，
以解决 FAS 数据集中目前存在的域
转移问题。
也就是分布是否是恶搞攻击。
但是，
FAS 也可以是视频
分类问题，
即我们期望最终输出为
属于的实时样本和恶搞样本之间的差异是输入视频样本的实时/恶搞标签。
因此，
一个
到多个源和看不见的目标域。
为了显示按照图像级协议训练的 CNN 可能会失败
这个问题，
我们使用从生成的 t‑SNE 图（图2）如果我们逐帧处理结果，
则
ResNet50 [26]主干的 CNN 特征在多个源域（即 FAS 数据集）
上训练以进行视频本身通常包含更丰富的信息。
对于这样
实时/欺骗分类，
并在看不见的目标域上进行测试。
可以实例，
我们希望网络学习强时间
与 IB 网络学习的空间表示互补的特征。
基于这个想法，
我们
如图2 (a) 所示，
活样本的 CNN 特征来自
看不见的目标域远离现场样本还提出了一个经过训练的基于视频（VB）
的网络
特征空间中的源域。
同样在图2 在 IB 网络旁边，
遵循交替训练方案[42]。
这个 VB 网络使用相同的 ResNet
(b)，
我们可以看到来自目标的打印攻击特征
域与源域的打印攻击相距甚远，主干，即ResNet主干的模型参数
在 IB 和 VB 网络之间共享。
不像
并且目标域的重放攻击特征被转移
对源域的实时样本。
好安静 IB网络，
VB网络输入视频序列和
从这些插图中可以明显看出，
即使是像 ResNet 模型这样的深度神经网络工作通过多个长短期记忆处理这些
本身也不够（LSTM）
单元并为每个输入输出一个类标签
来解决这个问题。
这需要专门的机制视频序列。
它可以利用跨多个源域共享的公共属性来学习更通用的特征表示。
此处使用术
3.3.类条件域鉴别器
语公共属性来指代
在图3 (c) 中，
我们展示了我们的网络架构
跨多个领域的打印和重播的共同内在属性。
例如，
虽然这些提出了类条件域鉴别器（CCDD）。
CCDD由两个全连接层FC1和FC2组成，
攻击可能是使用不同的欺骗生成的紧接着是一个活生生的恶搞头。 FC1 和 FC2 层
媒体（即不同的打印机或视频捕获设备），后面是 ReLU 和 dropout 层。
在训练期间，
由实时和欺骗训练示例组成的
或者在不同的环境条件下（例如照明、
背景场景），
它们本质上是基于纸质材 SGD 小批量通过 FC1 和 FC2 层进行处理。
料或显示屏。
因此，
通过利用这些
因此，
FC2 层的输出首先被分成
可以预期，
可以从跨多个源域的共享和区分本机信息中学习更好的特征表示的 “live”
和“spoof”
批次，
然后，
它们被传递到各自的头上。
现场和恶搞头有
共同属性，
即
相同的层配置，
即每个层都包含一个
强大的实时/欺骗分类，
同时线性变换层后跟一个域分类器。
域不可知论。
我们期望这样的表示能够在看不见的目标域上展示更好的泛化能
他们输出两个分数向量sl和sf具有 D 个分数，
力。即每个域的softmax概率分数。
笔记
也就是说，我们对基于图像和视频的CCDD（图3 （a）
和（b）
中
3.2.系统总览
的DIB和DVB）
使用相同的网络架构。
针对上述问题，
我们提出了一个提出的CCDD与梯度反转相结合
学习基于图像和视频的新颖框架层将所需的条件不变性属性强加于
领域不可知的特征表示（见图3）。
更多的学习到的特征表示。
条件不变性由类条件损失实现（见下文），
具体来说，
一个 ResNet 主干（编码器）
被训练为 min
4
(a) 基于图像的 (IB) 网络 (c) 类条件域判别器活头
ResNet 特征领域
输入图像域1 FC31
现场恶搞分类器
分类器恢复恢复
输入图像域2 资源网 FC1 FC2
条件类退出退出恶搞头
骨干
域鉴别器
GRL 层领域
输入图像域 N (DIB) FC32 分类器
(b) 基于视频 (VB) 的网络长短期记忆体
特征
资源网
输入帧域1
时间步长 1 骨干长短期记忆体
现场恶搞
输入帧域 N 分类器
资源网特征
长短期记忆体
骨干康卡特
条件类
GRL 层域鉴别器
输入帧域1 (DVB)
资源网
长短期记忆体
时间步 T 骨干
输入帧域 N
图 3. 所提议方法的不同组成部分的概述。
有关详细信息，
请参阅第3节。
它只考虑源域标签信息，旨在使每个类中的表示在不同域之间难以区分别为DIB； θe和θc是编码器（即 ResNet 主干网）和标签分类器（即

分。
我们提出了一个 t‑SNE 可视化（第 4.4 节）
来证明所提出的 CCDD live/spoof 分类器）的模型参数； Ll和Ls是实时和欺骗头的域分类损
学习正确地将目标域的实时和欺骗特征与源域的特征对齐。此外，我们失（即多项式），分别针对“实时” 和“欺骗”训练示例惩罚不正确的域
提供了定量的实验结果来证明 CCDD 的有效性。 A.1中提供了更详细标签预测； Lc是惩罚不正确的类标签（即“live” 或“spoof”）预测
的网络设计。的标签分类（例如多项式）损失； i 表示训练样例的索引， F 是训练样例
的数量，即 i = {1, 2, . . . ， F}; bi是一个二进制变量，表示第 i 个示例的
类标签，即bi = 0 表示该示例是活的， bi = 1 表示它是一个恶搞。在 IB
网络训练期间，编码器的模型参数θe学习以最小化跨不同域的类条件分
布[39]的差异。这是通过最大化 DIB 的实时和欺骗头的域分类损失来完
成的。
3.4.梯度反转层
梯度反转层（GRL） [20]最初是为无监督域适应提出的。相反，我
们将 CCDD 与 GRL 结合起来，
以便从 FAS 的多个源域中学习与域无
关的特征。特别是，我们使用了两个 GRL 层，一个在基于图像的网络中，
另一个在基于视频的网络中（图 3）。 GRL 本质上所做的是在反向
传播期间通过将梯度乘以负标量（即适应因子λGRL）来反转梯度。在前
向传播期间，它保持输入不变，即它充当身份转换。通过这样做，它基本
换句话说，它试图使特征分布（渴望类别 c ∈ C）在不同域之间最大程
上颠倒了其后续层的目标，即我们的例子中的CCDD。这实际上意味着，
骨干网络现在的任务是生成在多个源域中无法区分的实时和欺骗特征度地相似。同时，
live 和 spoof 头寻求参数θl和θs以最小化类条件域分
表示。类损失。
这产生了我们 IB 网络的能量函数：
一世
E(θe, θc, θf , θl , θs) = X 大号
C (θe, θc)
我=1...F
一世一世
升_ 大号
+ λIB X (θe, θf , θl) + X s
i=1...F i=1...F b=1 (θe, θf , θs) ！
b=0
3.5.优化成本
(1)
首先，
我们指定用于优化 IB 网络的能量函数（图 3 （a））。考虑现在，我们指定用于优化 VB 网络的能量函数（图 3 (b)）。设：
以下符号： θf 、 θl和θs是公共层（即 FC1 和 FC2）
的模型参数，
实时 ^θr为 LSTM 网络的模型参数； θf , θl和 θs是公共层（即
和恶搞头 FC1 和 FC2）
的模型参数，
live
5
表 1. 在四个域泛化测试集上与最先进的 FAS 方法的比较。
O&C&I→M 运维→C 运维管理→我 I&C&M→O
方法
HTER(%) AUC(%) HTER(%) AUC(%) HTER(%) AUC(%) HTER(%) AUC(%)
多发性硬化症[43] 29.76 78.50 54.28 44.98 50.30 51.64 50.29 49.31

二进制 CNN [66] 29.25 82.87 34.88 71.94 34.47 65.88 29.61 77.54
国际开发协会[63] 66.67 27.86 55.17 39.05 28.35 78.25 54.20 44.59
颜色纹理[7] 28.09 78.47 30.58 76.89 40.40 62.78 63.59 32.71
低血压[17] 36.90 70.80 42.60 61.05 49.45 49.54 53.15 44.09
辅助（仅限深度） [42] 22.72 85.88 33.52 73.15 29.14 71.69 30.17 77.61
‑ ‑ 28.4 ‑ 27.6 ‑ ‑ ‑
辅助(全部) [42]
我们的 15.42 91.13 17.41 90.12 15.87 91.72 14.72 93.08
表 2. 在四个域泛化测试集上与最先进的域泛化 FAS 方法的比较。
方法
MMD‑AAE [35] 27.08 83.19 44.59 58.29 31.58 75.18 40.98 63.08

玛德格[52] 17.69 88.06 24.5 84.51 22.19 84.99 27.98 80.02
我们的 15.42 91.13 17.41 90.12 15.87 91.72 14.72 93.08
基于视频的类条件分别做主判别器和恶搞头； ^ θc是 LSTM 的标签作为源域，
以及剩余的不可见域，
分类器（即 live/spoof 分类器）
的模型参数。
以类似的方式，
在 VB 网在训练期间未访问，保留用于评估
络训练期间只要。
半总错误率 (HTER) [4]和面积不足
在我们的实验中，
曲线（AUC）被用作评估指标。
编码器和 LSTM 的模型参数（即θe和
^ θr)学习通过最大化不同域的类条件分布的差异来最小化实施细节。我们使用 ResNet‑50 [26]作为我们的
骨干网。输入图像的维度是
活头和恶搞头的域分类损失 224×224。在训练期间，我们使用 SGD 优化器，并遵循另一种训练方
DVB 的。
同时，直播和恶搞头部寻求法[42]来训练我们的 IB
最小化类条件的参数 θl和 θs 和 VB 网络（图3）。我们使用恒定的学习率
域分类损失。这产生为能量函数 0.0003，动量 0.9 和重量衰减 0.00001。这
对于我们的 VB 网络：
IB 网络的 mini‑batch 大小为 48，即来自三个域中的每个域的 16 个
大号
一世
训练图像。对于VB网络，
E(θe,^θr,^θc,^θf ,^ θl ,^ θs) = X C (θe,^θr,^θc)
mini‑batch 大小为 6，即 2 个训练视频序列
我=1...F
三个源域中的每一个，以及 LSTM 序列
长度为 8。 LSTM 的输入维度为 2048，而
一世一世
+ λVB X
大号
l (θe,^θr,^θf ,^θl) + X 大号
我=1...F 我=1...F s (θe,^θr,^θf,^ θs) ！隐藏层维度为 2 56。我们使用一个常数 GRL

b=0 b=1
适应因子（λGRL = ‑0.2） [20]，并设置λIB和
一世一世一世
(2) λVB至 1。其他实验细节见
大号
c ,
大号
l
和我
s 是 live/spoof 分类损失和 A2。
域分类损失（用于现场和恶搞
头）用于 VB 网络。 λIB和λVB是标量参数，加权两个损失的相对重要
4.2.与最先进的比较
性
方程式中的条款。 1和等式。 2分别。请注意，编码器的模型参数θe在在表1 中，我们将我们的完整模型与最先进的 FAS 方法进行了比
基于图像和视频的网络中共享。较。我们提出的方法在所有四个域泛化测试集上都优于[43, 66, 63, 7,
17, 42] 。
明显更好的性能
4. 实验主要在于学习丰富的泛化特征的能力，
它很好地适应了看不见的目标域（见图4）。
4.1。
实验设置
请注意，
这些 FAS 方法并未明确解决
数据集。我们在四个方面公开评估我们的方法域转移问题，因此自然不能很好地概括看不见的目标域。
相比之下，我
可用的 FAS 数据集： Oulu‑NPU [9] （简称 O），们提出的方法通过利用可用信息（实时和欺骗）显式地学习了可概括的
CASIA‑MFSD [68] （简称C）， Idiap Replay‑Attack [13] 表示
（简称 I）和 MSU‑MFSD [63] （简称 M）。
培训和评估。我们认为一个数据集是具有基本事实标签的示例）
来自多个来源。
特别是，它学会了映射所有的
我们实验中的一个领域。我们的模型学习领域直播和恶搞
来自四分之三数据集的广义表示，样本（来自多个源域）
到一个共同的特征空间，
其中实时和欺骗特征相
如[52]。特别是，我们随机选择三个数据集距甚远，
6
打印重播
居住攻击攻击
资源
域 1
资源
域 2
资源
域 3
目标
领域
(a) ResNet‑50 (b) 拟议模型 (c) 拟议模型
可视化 3 个源域和 1 仅可视化 3 个源域可视化 3 个源域和 1
个目标域个目标域
图 4. 来自 ResNet (a) 与我们的完整模型 (b,c) 的 CNN 特征的 t‑SNE 图，
均在三个源域上训练
并在一个看不见的目标域上进行测试（最好以彩色查看）。请注意，源域和目标域的实时特征相距甚远（a）；
对于源域和目标域的欺骗特征可以注意到类似的趋势，但是我们的模型学习将所有实时和欺骗组合在一起
特征（来自多个源域）分成两个不同的集群（b），从而提高分类精度。重要的是，学到的
表示可以很好地在目标域 (c) 上泛化。
表 3. 在四个域泛化测试集上对提议的 FAS 架构中不同组件的消融研究。
ResNet DIB LSTM DVB
X 21.66 89.64 25.92 82.16 20.12 90.1 18.81 89.53
X X 18.33 90.58 21.29 85.82 17.63 86.3 17.05 90.01
X X 17.92 90.27 19.26 87.85 18.0 89.78 16.42 90.82
X X X 18.33 88.25 21.11 88.22 18.25 85.61 17.05 91.09
X X X 14.58 92.58 18.7 89.35 15.13 95.76 14.86 93.00
X X X X 15.42 91.13 17.41 90.12 15.87 91.87 14.72 93.08
同时是域不变的。不同的域泛化训练集。
我们的基线本身表现出一些理想的性能。
在补
此外，
我们与最先进的 do main 泛化 FAS 方法[52]进行比较，并充材料中，
我们报告了用打火机进行的实验
与
领域泛化中相关的最先进方法 ResNet 骨干网。在 ResNet 上添加 DIB 时
对于人脸反欺骗任务： MMD‑AAE [35] ，
如[52]。骨干，结果在所有四个方面都得到了持续改进
这些方法明确地解决了域转移问题。测试集。再加上LSTM，结果又是
表2显示了这种比较，其中我们的方法始终获得更好的性能。我们得显着改善。最后，
我们的完整模型提升了
出结论结果进一步。结合 ResNet 和 LSTM，
提供
所提出的方法可以更有效地克服特征空间中的分布差异。此外，三个测试设置的结果略好于
[52] 使用 ResNet 和 DIB 的模型。
但是，将 DVB 添加到
与我们的方法相比，它相对昂贵且不可端到端训练。带有 ResNet 和 LSTM 的模型并没有带来任何进一步的
改进。
然而，
当 DVB 与
ResNet、
DIB 和 LSTM，
即我们的完整模型，
改进了
4.3.模型组件的烧蚀研究 ResNet 基线。
这一观察通过利用空间（DIB 或基于图像）
和时间验
到目前为止，
我们已经用我们的完整模型展示了结果：证了这一点
包含所有不同的组件，即 ResNet 骨干网（ResNet）、图像级域鉴（DVB 或基于视频）与领域无关的特征，
我们提出的模型可以在两
别器（DIB）、个最
LSTM 模块 (LSTM) 和视频级域鉴别器 (DVB)。在下文中，我们将在具有挑战性的领域泛化测试集（O&M&I→C
使用这些组件的不同组合时进行详细的消融研究。表 3 总结了所有和 I&C&M→O)。
四个域泛化测试集的实验结果。当我们
4.4.学习到的 CNN 特征的可视化
图4描绘了 CNN 激活的 t‑SNE 图（即
表 3 中提到 DIB 或 DVB ，
它自动包括特征）
来自我们的 ResNet 基线与我们的完整
相关的 GRL 层。模型。
两个网络都在 3 个源域（即 Oulu‑NPU、CASIA‑MFSD 和
证明所提出模型的适用性 MSU‑MFSD）
上进行了训练
组件，我们首先为消融研究设置自己的基线。基线由一个 ResNet‑50 并在目标域上进行了测试（即 Idiap 重放攻击）。
笔记
主干和一个实时/恶搞分类器组成，该分类器在四个也就是说，（b）和（c）
中的图是使用相同的
训练好的模型，即我们的完整模型，和同一套
7
现场和恶搞样本。
然而，
为了更好的可视化，
我们已经禁用了（图5）
最初由[20]提出，
用于无监督的主要适应（表4 中的 Dis）。
请注意，
对
于本节中的实验，
我们使用了仅用于训练目的另外两个数据集，
即 SiW（简
(b) 中的目标域。
从 (b) 中可以看出，
我们的模型称 S） [42]
学习更多关于实时和恶搞图像的判别特征。
更有趣的是表示
和 Idiap replay‑mobile（简称 R） [14]。
继[42]之后，
我们的模型学习到的与看不见的目标域的实时和欺骗特征很好地对齐，
正如在 Oulu‑NPU 数据集上进行测试时，我们使用 ACER 指标。
从
在 (c) 中激活目标域可视化所看到的那样。
相比之下，表4 可以看出，我们的 ResNet‑DIB 给出了
最好的表现。
使用 ResNet‑Dis 时，
性能略有下降。
即使将 Dis 与 DIB de 结合
ResNet 学习表示在目标域上表现出相对较弱的泛化能力，
如 (a) 所示。
在里面使用也会严重影响 Oulu‑NPU 的性能。
从这些
后一种情况，
来自的实时、
打印和重放攻击功能实验中，
我们观察到来自多个源域的学习特征表示取决于类
多个源域在特征空间中相距很远，
而我们的模型学习最小化实时和欺骗特征之间的域间距离，
如（b，
c）所示。标签（即现场和恶搞）
可以提供歧视性和
领域不可知的特征，
而仅在主标签上调节它们可能无法正确对齐实时和恶搞
从这些可视化中，
我们可以得出结论，
我们的网络可以很好地概括目标域。
特别
特征，
导致分类准确率低。
由于提出的 DIB 可以访问类（实时和欺骗）
和做主
在 (c) 中观察目标域如何生存和欺骗特征要标签，
与 Dis 相比，
它能够通过正确分组来自多个实时特征的实时特征来学
与现场和恶搞功能正确对齐习更好的表示
(b) 中的源域。
源域到一个集群和欺骗特征到另一个（见图4）。
领域鉴别器 (Dis)
FC‑1
恢复
FC‑2
恢复
FC‑3
领域
4.6.类激活图可视化
退出退出分类器
在本节中，
我们提供类的可视化分析
激活映射以获得关于决策的直觉
图 5. 我们默认的域鉴别器网络 (Dis) 的架构组件。网络在做出特定预测时做出。
为了
这种可视化，
我们使用 Grad‑CAM [51]技术。
在图6中，
我们展示了直播的类激活图，
(a) 直播 (b) 打印攻击 (c) 视频攻击
打印和重放攻击测试样本。
可以进行一些有趣的观察。
该网络更加重视面部区
域以检测“实时”
类别（参见
Fig. 6 (a)) 与大多数信息一样直观
关于一张活脸来自面部区域。
例如，
活体皮肤的纹理、
眨眼、
头部运动
等等另一方面，
对于打印攻击，
网络支付
更注意纸的表面（在其上
图 6. 提议网络的激活图可视化。
对于 (a)、 (b) 和 (c) 列，
原始输入图像及其图像被打印）
（图6 （b））。
对于视频重放攻击，
如果
显示了相关的网络类激活图。强大的功能，
例如“背景中的一只手” 和“平板电脑”
屏幕”
出现，
然后网络做出决定
表 4. 不同领域判别器在三个领域泛化测试集上的性能比较。这些显着信息（图6 （c）
顶部）。
在缺少...之下
S&O&I&R S&O&C&R S&C&I&R
如此强大的特征，
它试图同时看到面部区域和
ResNet Dis DIB →C →我 →O 背景（图6 （c）
底部）。
HTER (%) HTER (%) 宏碁(%)
X 17.5 20.6 10.27 5. 结论
X X 15.3 17.7 8.75
X XX 15.1 17.0 23.4
在本文中，
我们解决了一个内在的问题
X X 14.0 14.7 8.05
面对反欺骗，
即因素的巨大变化
比如不同的背景、
光照条件、
相机分辨率，
恶搞材料等，
使功能
4.5.不同域鉴别器的影响
CNNs为此任务学习的表示过于依赖领域，
导致测试时性能下降
我们进行实验来分析使用效果
不同域鉴别器对 FAS 性能的影响。在看不见的域上。
我们提出了一种基于自然地适合这个“领
我们考虑两种域鉴别器架构：域”
的可推广特征学习的解决方案
建议的 DIB（图3）
和默认域分类器基于图像和基于视频的人脸中的移位问题
8
反欺骗。
我们提供广泛的实验 A.3。
具有较小主干的实验结果
我们方法的多个方面，
除其他外，
我们
在本节中，
我们将展示我们的实验结果
在不同的领域展示最先进的性能
与主要论文中使用的 ResNet 50 相比，主干网络更小（即
测试集，
我们说明了
ResNet‑18）。我们用 ResNet‑18 替换我们提出的框架中的
通过泛化学习的特征表示，
以及
ResNet‑50 主干并训练
通过类激活映射网络的可视化
该模型。
在表7 中，
我们表明即使我们提出的
做预测时要注意。
对于未来的工作，
我们
框架使用较弱的骨干网络，它在四个具有挑战性的域泛化测试集上显示出
想使用多模式输入并应用域
一致的改进。
请注意，
I&C&M →O 在这四个域泛化中具有最小的训练集
不可知的多模态特征学习以进一步改进
分类精度。
数据集（表6）。
对于这个较小的数据集，
我们提出
框架使用 ResNet‑18 实现了更好的性能
骨干。
A. 附录
A.4。
评估模型的普遍性
A.1。
详细的网络设计
为了评估模型的泛化能力，
我们增加
在本节中，
我们将介绍所提议网络的详细架构设计。
我们使用源域的数量。
通过这样做，
我们允许
ResNet‑50 作为网络来查看在主题、
环境条件、
攻击工具、
视频捕获设备等方面变化很大的
我们的骨干网络和 PyTorch 用于实现目的。
在表5 中，
我们展示了分层网实况和恶搞示例。
有人可能会争辩说，
在
络设计
我们提出的类条件域鉴别器在这种情况下，
改进只是通过添加更多
（CCDD）
和现场/欺骗分类器（LSC）。
请注意，数据。
为了确保不是这种情况，
我们还比较了结果
ResNet‑50 主干输入 224 × 224 图像并输出针对相同数据的 ResNet 基线。
如图所示
一个 2048 维的特征向量，
作为 CCDD 和 LSC 的输入。 FC31 和 FC32 表8，
我们的基于图像的网络 (DIB) 在三个不同的域泛化测试设置上实现
层了对 ResNet 基线的一致改进。
请注意，
对于
（即 CCDD 输出 3 softmax 的活头和恶搞头）
3 个源域的概率分数。 FC2（或在本节中我们使用的实验仅用于训练目的另外两个数据集，
即 SiW（简
最后）
LSC 层输出 2 个 softmax 概率分数称 S） [42]和
对于 2 个类别标签 ‑ “live”
和“spoof”。 Idiap replay‑mobile（简称 R） [14]。
虽然，
进一步
LSTM 网络的输入张量的形状是可以通过添加基于视频的
[T × B × 2048] 其中 T 是序列长度， B 是网络（LSTM 和 DVB），
在这里我们只展示了基于图像的 FAS 的改进，
排
SGD 小批量大小。我们将 T 和 B 分别设置为 8 和 2。
对于每个时间步 t，
除了基于视频的情况。
继[42] 之后，
在 Oulu‑NPU 上进行测试时
LSTM 输出 256
维特征向量，其中 t = 1, 2, ..., 8。
这 8 个数据集，
我们使用 ACER 指标并通过对四个测试协议的 ACER
特征向量被连接到单个特征向量进行平均来报告结果（在表 8 中）。
暗淡。 2048 然后作为输入传递给 LSC。
A.5。
领域适应实验
A2。
额外的实验细节
在本节中，
我们将我们提出的方法与现有领域的人脸反欺骗性能进行
我们使用[52]中的四个域泛化数据集比较
它们是从以下公开可用的基于适应的 FAS 方法[36, 60, 61]。
对于这些实验，
我们遵循标准的无监督
人脸反欺骗数据集：
Oulu‑NPU [9] （简称O），域适应训练设置，
即使用来自单个源域（具有真实标签）
的示例和来自目标
CASIA‑MFSD [68] （简称C），
Idiap Replay‑Attack [13] 域的未标记训练示例来训练网络。
为了与域适应训练设置保持一致，
（简称 I）
和 MSU‑MFSD [63] （简称 M）。
在表6 中，
我们展示了
训练、
验证和测试集的详细信息
对于这四个数据集中的每一个。 CASIA‑MFSD 和 MSU MFSD 没有验证
集并遵循标准我们使用默认域鉴别器（参见第 4.5 节，
在实践中，
我们使用训练集的一个子集作为这两个数据集的验证集。
在推图 5）。
结果如表9 所示。
在四个中
理时，
我们域适应测试集，
我们提出的框架在三个测试集上的表现优于[36, 60, 61] ，
接收来自基于图像和视频的预测并显示
live/spoof 分类器（参见主论文中的图 3）。
作为一个其余一项的可比结果。
这些结果
最后的输出，我们选择在验证集上表现最好的那个。我们初始化 ResNet‑50 证明我们提出的模型可以在域适应和域泛化设置下被利用。
请注意，
在本
文中，
我们对后者感兴趣
具有 ImageNet [32]预训练权重的主干。
9
表 5. 拟议网络的架构细节。
CCDD（类条件域鉴别器）现场/恶搞分类器
层输入暗淡。
输出暗淡。层输入暗淡。
输出暗淡。
FC1 2048 1024 FC1 2048 512
恢复恢复
退出退出
FC2 1024 1024 FC2 512 2（数量。
类标签）
恢复
退出
FC31（活头）
1024 3（数量源域）
FC32（恶搞头）
1024 3（数量源域）
表 6. 本工作中使用的域泛化训练、
验证和测试集。
数据集名称训练集验证集测试集
O&C&I→M 来自 Oulu‑NPU、
CASIA‑MFSD 和 Idiap 来自 Oulu‑NPU 的验证集， MSU‑MFSD 测试集
Replay‑Attack 的训练集。 CASIA‑MFSD 和 Idiap 重放攻击。
运维→C 来自 Oulu‑NPU、
MSU‑MFSD 和 Idiap 来自 Oulu‑NPU、
MSU‑MFSD 和 Idiap CASIA‑MFSD 测试集
Replay‑Attack 的训练集。 Replay‑Attack 的验证集。
运维管理→我来自 Oulu‑NPU、
CASIA‑MFSD 和 MSU‑ 来自 Oulu‑NPU、
CASIA‑MFSD 和 MSU‑ Idiap Replay‑Attack 测试集
MFSD 的训练集。 MFSD 的验证集。
I&C&M→O 来自 Idiap Replay‑Attack、
CASIA‑MFSD 和 MSU‑MFSD 的训练来自 Idiap Replay‑Attack、
CASIA‑MFSD 和 MSU‑ Oulu‑NPU 测试集
集。 MFSD 的验证集。
表 7. 使用更小的骨干网络 (ResNet‑18) 改进人脸反欺骗性能 (HTER%)。
模型 O&C&I→M O&M&I→C O&C&M→I I&C&M→O
ResNet‑18 骨干网 27.5 31.67 21.63 14.83

我们的模型（使用 ResNet‑18 主干） 22.5 28.52 20.38 12.78
表 8. 在三个域泛化测试集上评估模型的泛化性。
模型 S & O & I & R → C HTER (%) S & O & C & R → I HTER (%) S & C & I & R → O ACER (%)
ResNet‑50 17.5 20.6 10.27
我们的 IB 网络 14.0 14.7 8.05
表 9. 与现有基于域适应的人脸反欺骗方法在四个域适应测试集上的比较。
M→I 我→中 Ⅰ→C C→I
方法
HTER (%) HTER (%) HTER (%) HTER (%)
李等人。 [36] 33.30 33.20 12.30 39.20

你等人。 [60] 27.50 25.83 ‑ ‑
你等人。 [61] 25.80 23.50 23.50 21.40

我们的完整模型 9.38 12.91 16.11 11.38
设置，
但正如我们从这些实验结果中观察到的，设置 ‑ O&C&M→I（见表6）。在图7 中，我们展示了
我们的模型进行了小的调整可以实现显着 ResNet‑50 与我们提出的模型的 SNE 可视化
对以前的设置也进行了改进。在剩余的三个领域泛化训练集上进行训练 O&C&I→M、
李等人。 [36]有不同的域适应策略，
我们选择任何能给出最佳结 O&M&I→C 和 I&C&M→O（参见
果的策略。表6)。
图7中的每一行代表一个域泛化训练/测试设置（见表6）。
第
模型并在表9 中与我们的模型进行比较。 Li 等人。 [34]方法无法一个地块
与我们的方法相比，因为他们假设列（在图7 中）
是使用 ResNet‑50 基线生成的
不同的域只是不同的相机型号，模型。
而第二列和第三列中的图
是相当限制的。
在我们的例子中，
它们是不同的数据集，（在图7 中）
是使用我们提出的模型生成的。
为了
使我们还能够解决欺骗媒介的变化，但是，
为了更好的可视化，
我们已停用
照明和背景。第二列中目标域的可视化。
A.6。
学习到的 CNN fea 的 t‑SNE 可视化
可以在主要的图 4 中进行类似的观察
真实
纸。
第二列和第三列中的 t‑SNE 图
表明我们的模型（1）
学习了更多的判别特征
我们比较了 t‑SNE 可视化（第 4.4 节，
图 4 用于实时和恶搞图像（第二列）； (2) 对齐良好
主要）来自目标域实时和欺骗源特性
ResNet‑50 基线与我们提出的模型域的实时和欺骗功能。
相比之下，ResNet 50 特征在
根据领域泛化训练和测试
10
(a) O&C&I→M
(b) 运维管理→C
(c) I&C&M→O
ResNet‑50 建议模型建议模型

可视化 3 个源域和 1 个仅可视化 3 个源域可视化 3 个源域和 1 个
目标域目标域
打印重播打印重播
资源资源
域 1 域 3
资源目标
域 2 领域
图 7. 来自 ResNet‑50 基线和我们提出的网络的学习 CNN 特征的 t‑SNE 可视化。
目标域，
如图7 （第一列）
所示。欺骗数据集。图8显示了使用 Grad‑CAM [51]生成的类激活图。从这
些激活图中可以进行类似的观察（如本文第 4.6 节），即对于“实
A.7.类激活图可视化时”样本，
面部区域周围的网络激活很高。对于“打印攻击”，网络激
与主要论文中的 4.6 节类似，
这里我们展示了一些额外的类激活活在后面很高
图，用于来自四个人脸抗的“实时”、 “打印攻击”和“重放攻击”
样
本
11
居住打印攻击视频重放攻击
CASIA‑MFSD
密歇根州立大学‑MFSD
Idiap 重放攻击
奥卢‑NPU
地面区域（Oulu‑NPU 除外），
即网络学习
通过检测纸张材料表面出现的十个小伪影来对打印攻击进行分类（在其上
面部图像已打印）。 Oulu‑NPU 的高分辨率打印可能会迫使网络同时查看
两者
面部区域以及背景。
对于“视频回放
攻击”，
网络试图从
面部区域和背景。
重要线索
对重放攻击进行分类可能包括 CRT 显示器中出现的波纹图案、
显示器的独特
纹理
屏幕框架等
参考
12
13
14
[56] 凯伦西蒙扬和安德鲁齐瑟曼。
用于大规模图像识别的非常深的卷积网络。
arXiv 预印本 arXiv:1409.1556, 2014. 3
[57] Lin Sun, Gang Pan, Zhaohui Wu, and Shihong Lao.
使用条件随机场的基于闪烁的实时人脸检测。
在国际生物识别会议上，
第
252‑260 页。 Springer, 2007. 2 [58] Christian Szegedy, Wei Liu,
Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov,
Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich。
使用卷积
更深入。
在 IEEE 计算机视觉和模式识别会议论文集上，
第 1‑9 页，
2015
年。
3
[59] Xiaoyang Tan, Yi Li, Jun Liu, and Lin Jiang. Face liveness
detection from a single image with sparse low rank bilinear
discriminative model. In European Conference on Computer
Vision, pages 504–517. Springer, 2010. 2, 3 [60] Xiaoguang Tu,
Hengsheng Zhang, Mei Xie, Yao Luo, Yuefei Zhang, and Zheng Ma.
Deep transfer across domains for face anti‑spoofing. arXiv
preprint arXiv:1901.05633, 2019. 9, 10 [61] Xiaoguang Tu, Jian
Zhao, Mei Xie, Guodong Du, Heng sheng Zhang, Jianshu Li, Zheng
Ma, and Jiashi Feng. Learn ing generalizable and identity‑
discriminative representations for face anti‑spoofing. arXiv
preprint arXiv:1901.05602, 2019. 3, 9, 10 [62] Eric Tzeng, Judy
Hoffman, Ning Zhang, Kate Saenko, and Trevor Darrell. Deep
domain confusion: Maximizing for domain invariance. arXiv preprint
arXiv:1412.3474, 2014. 3 [63] Di Wen, Hu Han, and Anil K Jain.
Face spoof detection with image distortion analysis. IEEE
Transactions on Information Forensics and Security, 10(4):746–761,
2015. 1, 2, 6, 9 [64] Zhenqi Xu, Shan Li, and Weihong Deng.
Learning temporal features using lstm‑cnn architecture for
face anti‑spoofing.
2015 年第三届 IAPR 亚洲模式识别会议 (ACPR)，
第 141‑145 页。 IEEE,
2015. 3 [65] 郑旭，
文立，
李牛，
徐东。
利用潜在域的低秩结构进行域泛化。
在欧洲计算机视觉会议上，
第 628‑643 页。 Springer, 2014. 3 [66] 杨建伟,
雷振, 斯坦 Z Li。
学习用于面部反欺骗的卷积神经网络。 arXiv 预印本
arXiv:1408.5601, 2014. 2, 3, 6
[67] 杨建伟、
雷震、
廖胜才、
斯坦志立。
使用依赖于组件的描述符进行人脸活体检
测。 2013 年国际生物识别会议 (ICB)，
第 1‑6 页。 IEEE, 2013. 2 [68]
张志伟, 严俊杰, 刘思飞, 雷振, 董毅, 和斯坦 Z Li。
具有多种攻击的人脸反
欺骗数据库。 2012 年第 5 届 IAPR 生物指标国际会议 (ICB)，
第 26‑31
页。 IEEE, 2012. 1, 3, 6, 9
15

苏曼萨哈 - Wenhao Xu

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

苏曼萨哈 - Wenhao Xu

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Yuhua Chen 丹达·帕尼·波德尔卢克·范古尔

yuhua.chen@vision.ee.ethz.ch paudel@vision.ee.ethz.ch vangool@vision.ee.ethz.ch

决明子密歇根州立大学奥卢‑NPU

设备，重要的是开发方便且安全的登录方式。最近，由于每个人面部的独

掩码，或者它们无法泛化到不同的数据集，因为学习的特征专门用于“训为 FAS 预训练的 CNN。他们使用与我们不同的源域组合（即 NUAA

它只考虑源域标签信息，旨在使每个类中的表示在不同域之间难以区分别为DIB； θe和θc是编码器（即 ResNet 主干网）和标签分类器（即

多发性硬化症[43] 29.76 78.50 54.28 44.98 50.30 51.64 50.29 49.31

MMD‑AAE [35] 27.08 83.19 44.59 58.29 31.58 75.18 40.98 63.08

我=1...F 我=1...F s (θe,^θr,^θf,^ θs) ！隐藏层维度为 2 56。我们使用一个常数 GRL

ResNet‑18 骨干网 27.5 31.67 21.63 14.83

李等人。 [36] 33.30 33.20 12.30 39.20

你等人。 [61] 25.80 23.50 23.50 21.40

ResNet‑50 建议模型建议模型

You might also like

苏曼萨哈 - Wenhao Xu

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

苏曼萨哈 - Wenhao Xu

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Yuhua Chen 丹达·帕尼·波德尔 卢克·范古尔

yuhua.chen@vision.ee.ethz.ch paudel@vision.ee.ethz.ch vangool@vision.ee.ethz.ch

决明子 密歇根州立大学 奥卢‑NPU

设备，重要的是开发方便且安全的登录方式。 最近， 由于每个人面部的独

掩码，或者它们无法泛化到不同的数据集，因为学习的特征专门用于“训 为 FAS 预训练的 CNN。 他们使用与我们不同的源域组合（即 NUAA

它只考虑源域标签信息， 旨在使每个类中的表示在不同域之间难以区 分别为DIB； θe和θc是编码器（即 ResNet 主干网） 和标签分类器（即

多发性硬化症[43] 29.76 78.50 54.28 44.98 50.30 51.64 50.29 49.31

MMD‑AAE [35] 27.08 83.19 44.59 58.29 31.58 75.18 40.98 63.08

我=1...F 我=1...F s (θe,^θr,^θf,^ θs) ！ 隐藏层维度为 2 56。我们使用一个常数 GRL

ResNet‑18 骨干网 27.5 31.67 21.63 14.83

李等人。 [36] 33.30 33.20 12.30 39.20

你等人。 [61] 25.80 23.50 23.50 21.40

ResNet‑50 建议模型 建议模型

You might also like

Yuhua Chen 丹达·帕尼·波德尔卢克·范古尔

决明子密歇根州立大学奥卢‑NPU

设备，重要的是开发方便且安全的登录方式。最近，由于每个人面部的独

掩码，或者它们无法泛化到不同的数据集，因为学习的特征专门用于“训为 FAS 预训练的 CNN。他们使用与我们不同的源域组合（即 NUAA

它只考虑源域标签信息，旨在使每个类中的表示在不同域之间难以区分别为DIB； θe和θc是编码器（即 ResNet 主干网）和标签分类器（即

我=1...F 我=1...F s (θe,^θr,^θf,^ θs) ！隐藏层维度为 2 56。我们使用一个常数 GRL

ResNet‑50 建议模型建议模型