You are on page 1of 15

Machine Translated by Google

领域不可知的特征学习
基于图像和视频的人脸反欺骗

苏曼萨哈  | Wenhao  Xu  
苏黎世联邦理工学院 苏黎世联邦理工学院

suman.saha@vision.ee.ethz.ch wenhxu@student.ethz.ch

梅内劳斯·卡纳基斯 Stamatios  Georgoulis
苏黎世联邦理工学院 苏黎世联邦理工学院

menelaos.kanakis@vision.ee.ethz.ch stamatios.georgoulis@vision.ee.ethz.ch

Yuhua  Chen   丹达·帕尼·波德尔 卢克·范古尔


苏黎世联邦理工学院 苏黎世联邦理工学院 KU  Leuven  和  ETH  苏黎世

yuhua.chen@vision.ee.ethz.ch paudel@vision.ee.ethz.ch vangool@vision.ee.ethz.ch

决明子 密歇根州立大学 奥卢‑NPU


抽象的 伊迪亚普类风湿病

居住
如今,
越来越多的移动和计算设备导致了对更安全的用户身份验证
系统的需求。面部反欺骗是一种针对生物特征用户身份验证的措施,特别
是面部识别,它试图防止欺骗攻击。最先进的反欺骗技术利用深度神经网
络的能力,根据来自训练集图像或视频样本的线索来学习判别特征,以检 打印
攻击
测欺骗攻击。然而,由于问题的特殊性质,
即由于不同背景、照明条件、
相机
分辨率、欺骗材料等因素导致的巨大变化,这些技术通常无法推广到新样
本。
在本文中,我们明确地解决了这个问题并提出了一个类条件域鉴别器 视频

模块,该模块与梯度反转层相结合,试图生成具有鉴别性但同时对上述可 重播
攻击
变性具有鲁棒性的实时和欺骗特征因素。
图  1.  来自四个公开可用的人脸反欺骗数据集的样本帧:
CASIA‑MFSD  [68]、  MSU‑MFSD  
[63]、  Oulu‑NPU  [9]和  Idiap  Replay‑Attack  (RA)  [13]。
请注意,
由于不同的攻击工具、

景、
照明条件、
相机分辨率等因素,
可以观察到很大的可变性,
从而导致这些数据集之间出现显
着的域转移。

设备,重要的是开发方便且安全的登录方式。 最近, 由于每个人面部的独


特性以及这种方法的易用性(例如  Apple  的  FaceID),
生物特征认证,
广泛的实验分析表明,
无论是在数值改进方面还是在可视化学习特征方 特别是面部识别,已经成为一种有吸引力的用户识别方式。 然而,
与此同
面,
所提出的方法都优于现有的基于图像和视频的反欺骗技术。 时,
黑客在试图欺骗某人的脸以欺骗身份验证系统方面变得更有创造
力。
典型的例子包括在纸上打印一个人的面部照片(打印攻击), 在另
一台设备上播放描述该人面部的视频(重放攻击),戴上特殊的面具来
密切模仿某人的面部外观(面具攻击)
等。可以理解的是,被能够有效检
测此类攻击,
正式称为人脸反欺骗
一、
简介

人们越来越多地使用笔记本电脑和智能手机等计算设备来工作、支
付账单、购物以及与社交圈互动、
娱乐等。鉴于我们不断使用这些设备

1
Machine Translated by Google

(FAS),
是计算机视觉中的一个关键问题。 一个骨干网络,
并尝试从哪个来源进行分类
一方面,
面对反欺骗的传统方法依赖于手工制作的特征,
如  LBP  [13,  15, 每个样本的域,
取决于它所长的类(即活的或恶搞的)。
后者在前向传播过程
中充当恒等变换形式,
但在反向传播过程中将梯度乘以某个负常数
16]、
HoG  [30,  67]和  SURF  [8],
以检测差异
在实时和恶搞面部图像之间的纹理中,

启发式方法,
如眨眼[46]、
嘴唇运动[29]和视觉 传播,
本质上颠倒了其后续层的目标。
在我们的例子中,
这实际上意味着
节奏[50],
以识别不存在的规律性
欺骗攻击。
但是,
上述方法 骨干网络现在的任务是额外的目标
要么不适用于所有可能的欺骗攻击,
即 生成实时和欺骗的特征表示
print、
replay  和  mask,
或者它们无法泛化到不同的数据集,
因为学习到的特征 跨域无法区分。
请注意,
我们的方法
专门针对 适用于基于图像和基于视频的输入,
但我们
“训练过的”
纹理,
由于数据集之间的差异很大 明确避免包含额外的组件作为输入,
例如
不同的背景、
光照条件等因素, 深度[2]或  rPPG  信号[42],
因为后者需要
相机分辨率,
恶搞材料等,
如在 昂贵的地面实况标签以训练网络。
图1。 我们的主要贡献可以总结为:
(1)
一个类条件域鉴别器模块(第3.3  节) ,
另一方面,
现代方法使用卷积神经网络  (CNN)  [66,  38,  47,  2,  42,  27 ] 它
与梯度反转层相结合,
促进了领域不可知特征的学习;  (2)  一个  LSTM  网络
在许多计算机视觉任务中表现出令人印象深刻的表现,
这主要归功于其出色的
代表性 (§  3.2,3.5)
学习时域不可知特征作为
在大规模训练时学习到的特征的力量 补充信息;  (3)  最先进的结果
数据集。
尽管性能有所提高,
但仍有 四个具有挑战性的领域泛化测试集(§  4.2)
FAS  中的公开挑战。
一个值得注意的是  domain1 附带对特征嵌入(第4.4  节)
和类激活图(第4.6  节)
的可视化分析。
转移[36]问题。
后者发生在网络训练时
在一个完全不可见的数据集(目标域)
上测试一个数据集(源域)。
这在  FAS  
文献中被称为“交叉测试”,
而在 2、
相关工作

在下文中,
我们将描述传统的、
基于特征的
相同的数据集称为“内部测试”。
现有的基于深度学习的方法显示出有希望的
以及现代的、
基于  CNN  的  FAS  方法。
然后我们
内部测试结果,
但它们的性能显着
详细说明  FAS  上的少数领域泛化工作。
传统方法出现之前
在交叉测试设置下评估时会降级[52]。
CNNs  [32],
面对反欺骗的典型方法
这种性能下降的主要原因是功能
结合使用手工制作的特征和浅层分类技术来检测差异
源之间的分布差异(见图2)
和由几个数据集特定线索引起的目标域,
实时和恶搞图像之间的纹理。
最多
例如:
(1)
环境条件(照明、
背景)、
(2)
欺骗媒介(打印机、
显示屏)
和(3)

手工制作的特征的典型例子包括
频捕获设备的质量
LBP  [43,  13,  15,  16],
HoG  [30,  67],
DoG  [59,  49],
SIFT  [48]和  SURF  [8]。 至于分类器, 这些工作
(不同的手机、
平板电脑)。
因此,
模型学习
依赖  SVM,
在较小程度上依赖  LDA。
在一个类似的
根据这些区分实时样本和恶搞样本
静脉,
其他传统方法采用启发式
数据集相关线索,
但未能正确分类来自具有不同线索集的未知数据集的样本。
利用恶搞中不存在的“活泼”
线索
攻击。
这种启发式的例子是眨眼[46,  57],
在本文中,
我们解决了上述领域
嘴唇运动[29],
视觉节奏[50],  Haralick  纹理
域泛化设置下  FAS  中的移位问题。
也就是说,
网络是在多个数据集上训练的
特征[1]、
音频[ 12、
11] 、
动态纹理[17]或其他[ 59、
40、
41 ]。
解决人
脸反欺骗的另一种方法
(源域),
但随后在完全看不见的地方进行了测试
是利用视频中的时间线索,
例如,
数据集(目标域)。
我们的目标是使用源域样本生成域不可知特征表示,
该样
巴拉德瓦杰等人。  [5]尝试使用运动放大
本将泛化到看不见的目标域样本,
以便每个样本,
无论其域来源如何,
增强面部表情,而[31]尝试使用运动
和纹理提示。
考虑变化的因素
比较的图像,
如光照、
姿势等,
可以有效地归类为直播或恶搞。
为此,
使用不同的色彩空间  (HSV,  YCbCr)  [6,  7],  图像
我们建议使用与梯度反转层相结合的类条件域鉴别器模块[20]。
失真分析[63],
或时间变换
域[3,  55]和傅里叶谱[37],
已经
前者采用从生成的特征表示
探索了。
一般来说,
这些传统方法要么
1  本文中的术语域用于指代数据集。 不适用于所有可能的欺骗攻击,
即打印、
重放、

2
Machine Translated by Google

(一个)
看不见的目标域 (二)
打印 重播 现场样品 打印 重播
居住 攻击 攻击 居住 攻击 攻击

源域 源域
(奥卢‑NPU) (奥卢‑NPU)
源域
现场样品

看不见的目标域
打印攻击样本

打印 重播 打印 重播
居住 攻击 攻击 居住 攻击 攻击
源域
看不见的目标域
现场样品
重放攻击示例
目标域 目标域 源域
密歇根州立大学‑MFSD (卡西亚) 打印攻击样本

图  2.  来自  ResNet50  主干的  CNN  特征的  t‑SNE  可视化,
在多个源域(即  FAS  数据集)
上训练并在看不见的目标域上进行了测试。为了更好地可
视化, 我们在这些图中仅显示一个源域和一个目标域。 我们可以很容易地识别人脸反欺骗中固有的域转移问题。 也就是说,来自源域和目标域的实时
样本和欺骗样本在特征空间中没有正确对齐, 导致学习到的特征表示在目标域上的泛化能力很差。

掩码,或者它们无法泛化到不同的数据集,因为学习的特征专门用于“训 为  FAS  预训练的  CNN。 他们使用与我们不同的源域组合(即  NUAA  


练的”纹理,
由于不同的背景、照明条件、
相机分辨率、恶搞材料等变化因 [59]、  Idiap  Replay‑Attack  [13]、  CASIA‑MFSD  [68]数据集),
因此
素,
数据集之间的差异很大。 他们的方法不能直接比较。

上述工作尽管表现出改进的性能,部分归因于  CNN  的使用,但在跨
基于  CNN  的方法通过将  CNN  应用于图像分类和对象识别任务[ 32、 域(即数据集)泛化方面仍然面临着开放的挑战。如前所述, 不同  FAS  数
24、
56、 58 ]所取得的令人印象深刻的结果, 促使研究人员也将它们应用 据集(例如
于其他计算机视觉任务。 人脸反欺骗也不例外。 显而易见的选择是用从
通用  CNN  中学习到的特征替换手工制作的特征 以在大规模数据集上
训练时具有强大的表示能力而闻名 这就是在[47,  38]  中所做的。 不同 重放攻击[13]和  CASIA‑FASD  [68]),
这反过来导致交叉测试结果不
的是, 杨等人。  [66]使用  CNN  作为二元分类器, 为输入图像分配实时/ 佳。
在本文中, 我们超越了当前基于  CNN  的方法, 明确地解决了  FAS  中
欺骗标签。 他们使用  RGB  图像的多尺度金字塔作为输入, 而  Feng  等 的域转移问题, 而不依赖于来自额外线索(如深度或  rPPG  信号) 的监
人。  [18]探索了多种线索的使用, 例如图像质量和运动线索。 接下来, 徐 督,
这需要大量的注释工作才能获得。
等人。  [64]结合了视频输入并提出了一个  LSTM‑CNN  模型来利用来自
额外帧的信息。  [53,  54]中提出了动态纹理来提取不同的面部动作。 最
近,Atoum  等人。  [2]介绍了一种受多任务启发的方法, 该方法结合了纹 领域泛化方法。 为了解决跨不同数据集的  do  main  shift  问题, 域适
理和深度特征的估计, 用于二进制实时/欺骗分类, 后来由  Liu  等人扩 应[25,  19,  62,  20,  21]和泛化[28,  45,  65,  23,  22,  33,  44,  35]技术已被
展。  [42]还包括与时间监督的融合, 即  rPPG  信号。最后,Joorabloo  等 用于计算机想象。 在每种情况下, 目标都是弥合来自源域和目标域的数据
人。  [27]遵循不同的路径, 并使用  GAN  架构将恶搞脸反向分解为恶搞 之间的分布差距, 以便创建泛化到新域的与域无关的特征表示。 在本文
噪声和活人脸, 从而利用恶搞噪声进行分类。 布雷桑等人。  [10]探索与a 中,我们主要对域泛化技术感兴趣, 这些技术在  FAS  中基本上未被利用,
相关的深度、 显着性和照明图 但有以下例外。 李等人。  [34]鼓励通过考虑空间和时间信息并最小化交
叉熵损失和泛化损失来学习泛化特征表示。 涂等人。  [61]提出在  CNN  
训练中使用  Total  Pairwise  Confusion  loss, 并结合  CNN  模型中的  
Fast  Domain  Adaptation  组件来解释

3
Machine Translated by Google

主要变化。
邵等人。  [52]结合学习a 最小化  live/spoof  分类损失,
同时
由具有双力三元组挖掘约束的多个判别源域共享的广义特征空间,
以提高学习 它与一个类条件域鉴别器(§3.3)
和一个梯度反转层竞争的时间
特征的可辨别性
最大化live和spoof的域分类损失
空间。
总的来说,
与上述作品相比 分别取样。
在训练过程中,
编码器逐渐学习共享和判别特征
我们的框架为多个领域提供了更好的集成,
并且,
正如将在  Sec  中显示的那样。  4,
在四个公共数据集上 申述。
图3  给出了系统概览。
取得了显着的改进结果。 您可以观察到两种变化(见图3)。
首先,
一个
基于图像的  (IB)  网络,
遵循图像级训练,
其中训练示例由图像和
3.  建议的方法
其相关的真实标签(“现场”
或“恶搞”)。
3.1。
人脸反欺骗中的域转移问题 这是为了演示仅给出单个图像作为输入的场景,
并且系统必须决定是否
我们的主要目标是学习广义特征表示,
以解决  FAS  数据集中目前存在的域
转移问题。
也就是分布 是否是恶搞攻击。
但是,
FAS  也可以是视频
分类问题,
即我们期望最终输出为
属于的实时样本和恶搞样本之间的差异 是输入视频样本的实时/恶搞标签。
因此,
一个
到多个源和看不见的目标域。
为了显示 按照图像级协议训练的  CNN  可能会失败
这个问题,
我们使用从生成的  t‑SNE  图(图2) 如果我们逐帧处理结果,

ResNet50  [26]主干的  CNN  特征在多个源域(即  FAS  数据集)
上训练以进行 视频本身通常包含更丰富的信息。
对于这样
实时/欺骗分类,
并在看不见的目标域上进行测试。
可以 实例,
我们希望网络学习强时间
与  IB  网络学习的空间表示互补的特征。
基于这个想法,
我们
如图2  (a)  所示,
活样本的  CNN  特征来自
看不见的目标域远离现场样本 还提出了一个经过训练的基于视频(VB)
的网络
特征空间中的源域。
同样在图2 在  IB  网络旁边,
遵循交替训练方案[42]。
这个  VB  网络使用相同的  ResNet
(b),
我们可以看到来自目标的打印攻击特征
域与源域的打印攻击相距甚远, 主干, 即ResNet主干的模型参数
在  IB  和  VB  网络之间共享。
不像
并且目标域的重放攻击特征被转移
对源域的实时样本。
好安静 IB网络,
VB网络输入视频序列和
从这些插图中可以明显看出,
即使是像  ResNet  模型这样的深度神经网络工作 通过多个长短期记忆处理这些
本身也不够 (LSTM)
单元并为每个输入输出一个类标签
来解决这个问题。
这需要专门的机制 视频序列。
它可以利用跨多个源域共享的公共属性来学习更通用的特征表示。
此处使用术
3.3.类条件域鉴别器
语公共属性来指代

在图3  (c)  中,
我们展示了我们的网络架构
跨多个领域的打印和重播的共同内在属性。
例如,
虽然这些 提出了类条件域鉴别器(CCDD)。
CCDD由两个全连接层FC1和FC2组成,
攻击可能是使用不同的欺骗生成的 紧接着是一个活生生的恶搞头。  FC1  和  FC2  层
媒体(即不同的打印机或视频捕获设备), 后面是  ReLU  和  dropout  层。
在训练期间,
由实时和欺骗训练示例组成的  
或者在不同的环境条件下(例如照明、
背景场景),
它们本质上是基于纸质材 SGD  小批量通过  FC1  和  FC2  层进行处理。
料或显示屏。
因此,
通过利用这些

因此,
FC2  层的输出首先被分成
可以预期,
可以从跨多个源域的共享和区分本机信息中学习更好的特征表示的 “live”
和“spoof”
批次,
然后,
它们被传递到各自的头上。
现场和恶搞头有
共同属性,

相同的层配置,
即每个层都包含一个
强大的实时/欺骗分类,
同时 线性变换层后跟一个域分类器。
域不可知论。
我们期望这样的表示能够在看不见的目标域上展示更好的泛化能
他们输出两个分数向量sl和sf具有  D  个分数,
力。 即每个域的softmax概率分数。
笔记
也就是说, 我们对基于图像和视频的CCDD(图3  (a)
和(b)

3.2.系统总览
的DIB和DVB)
使用相同的网络架构。
针对上述问题,
我们提出了一个 提出的CCDD与梯度反转相结合
学习基于图像和视频的新颖框架 层将所需的条件不变性属性强加于
领域不可知的特征表示(见图3)。
更多的 学习到的特征表示。
条件不变性由类条件损失实现(见下文),
具体来说,
一个  ResNet  主干(编码器)
被训练为  min

4
Machine Translated by Google

(a)  基于图像的  (IB)  网络 (c)  类条件域判别器 活头

ResNet  特征 领域
输入图像域1 FC31
现场恶搞 分类器
分类器 恢复 恢复
输入图像域2 资源网 FC1 FC2
条件类 退出 退出 恶搞头
骨干
域鉴别器
GRL  层 领域
输入图像域  N (DIB) FC32 分类器

(b)  基于视频  (VB)  的网络 长短期记忆体

特征
资源网
输入帧域1
时间步长  1 骨干 长短期记忆体

现场恶搞
输入帧域  N 分类器

资源网 特征
长短期记忆体
骨干 康卡特
条件类
GRL  层 域鉴别器
输入帧域1 (DVB)

资源网
长短期记忆体
时间步  T 骨干
输入帧域  N

图  3.  所提议方法的不同组成部分的概述。
有关详细信息,
请参阅第3节。

它只考虑源域标签信息, 旨在使每个类中的表示在不同域之间难以区 分别为DIB;  θe和θc是编码器(即  ResNet  主干网) 和标签分类器(即  


分。
我们提出了一个  t‑SNE  可视化(第  4.4  节)
来证明所提出的  CCDD   live/spoof  分类器) 的模型参数;  Ll和Ls是实时和欺骗头的域分类损
学习正确地将目标域的实时和欺骗特征与源域的特征对齐。 此外, 我们 失(即多项式), 分别针对“实时” 和“欺骗”训练示例惩罚不正确的域
提供了定量的实验结果来证明  CCDD  的有效性。  A.1中提供了更详细 标签预测;  Lc是惩罚不正确的类标签(即“live” 或“spoof”) 预测
的网络设计。 的标签分类(例如多项式) 损失;  i  表示训练样例的索引, F  是训练样例
的数量, 即  i  =  {1,  2, . . . ,  F};  bi是一个二进制变量,表示第  i  个示例的
类标签, 即bi  =  0  表示该示例是活的,  bi  =  1  表示它是一个恶搞。 在  IB  
网络训练期间, 编码器的模型参数θe学习以最小化跨不同域的类条件分
布[39]的差异。 这是通过最大化  DIB  的实时和欺骗头的域分类损失来完
成的。
3.4.梯度反转层
梯度反转层(GRL)  [20]最初是为无监督域适应提出的。 相反,我
们将  CCDD  与  GRL  结合起来,
以便从  FAS  的多个源域中学习与域无
关的特征。 特别是, 我们使用了两个  GRL  层,一个在基于图像的网络中,
另一个在基于视频的网络中(图  3)。  GRL  本质上所做的是在反向
传播期间通过将梯度乘以负标量(即适应因子λGRL) 来反转梯度。在前
向传播期间, 它保持输入不变, 即它充当身份转换。 通过这样做,它基本
换句话说,它试图使特征分布(渴望类别  c  ∈  C) 在不同域之间最大程
上颠倒了其后续层的目标, 即我们的例子中的CCDD。 这实际上意味着,
骨干网络现在的任务是生成在多个源域中无法区分的实时和欺骗特征 度地相似。同时,
live  和  spoof  头寻求参数θl和θs以最小化类条件域分
表示。 类损失。
这产生了我们  IB  网络的能量函数:

一世

E(θe,  θc,  θf ,  θl ,  θs)  =  X 大号
C (θe,  θc)
我=1...F

一世 一世

升_ 大号
+  λIB  X (θe,  θf ,  θl)  +  X s
i=1...F   i=1...F  b=1 (θe,  θf ,  θs) !
b=0
3.5.优化成本
(1)
首先,
我们指定用于优化  IB  网络的能量函数(图  3  (a))。 考虑 现在, 我们指定用于优化  VB  网络的能量函数(图  3  (b))。 设:  
以下符号:  θf 、  θl和θs是公共层(即  FC1  和  FC2)
的模型参数,
实时 ^θr为  LSTM  网络的模型参数;   θf ,   θl和   θs是公共层(即  
和恶搞头 FC1  和  FC2)
的模型参数,
live

5
Machine Translated by Google

表  1.  在四个域泛化测试集上与最先进的  FAS  方法的比较。
O&C&I→M 运维→C 运维管理→我 I&C&M→O
方法
HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)

多发性硬化症[43] 29.76   78.50   54.28   44.98   50.30   51.64   50.29   49.31


二进制  CNN  [66] 29.25   82.87   34.88   71.94   34.47   65.88   29.61   77.54
国际开发协会[63] 66.67   27.86   55.17   39.05   28.35   78.25   54.20   44.59
颜色纹理[7] 28.09   78.47   30.58   76.89   40.40   62.78   63.59   32.71
低血压[17] 36.90   70.80   42.60   61.05   49.45   49.54   53.15   44.09
辅助(仅限深度)  [42] 22.72 85.88 33.52   73.15 29.14   71.69 30.17 77.61
‑ ‑ 28.4   ‑ 27.6   ‑ ‑ ‑
辅助(全部)  [42]
我们的 15.42 91.13 17.41 90.12 15.87 91.72 14.72 93.08

表  2.  在四个域泛化测试集上与最先进的域泛化  FAS  方法的比较。
O&C&I→M 运维→C 运维管理→我 I&C&M→O
方法
HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)

MMD‑AAE  [35] 27.08   83.19   44.59   58.29   31.58   75.18   40.98   63.08


玛德格[52] 17.69   88.06   24.5   84.51   22.19   84.99   27.98   80.02
我们的 15.42 91.13 17.41 90.12 15.87 91.72 14.72 93.08

基于视频的类条件分别做主判别器和恶搞头;  ^  θc是  LSTM  的标签 作为源域,
以及剩余的不可见域,
分类器(即  live/spoof  分类器)
的模型参数。
以类似的方式,
在  VB  网 在训练期间未访问, 保留用于评估
络训练期间 只要。
半总错误率  (HTER)  [4]和面积不足
在我们的实验中,
曲线(AUC) 被用作评估指标。
编码器和  LSTM  的模型参数(即θe和
^  θr)学习通过最大化不同域的类条件分布的差异来最小化 实施细节。 我们使用  ResNet‑50  [26]作为我们的
骨干网。 输入图像的维度是
活头和恶搞头的域分类损失 224×224。 在训练期间, 我们使用  SGD  优化器,并遵循另一种训练方
DVB  的。
同时,直播和恶搞头部寻求 法[42]来训练我们的  IB
最小化类条件的参数   θl和   θs 和  VB  网络(图3)。 我们使用恒定的学习率
域分类损失。 这产生为能量函数 0.0003, 动量  0.9  和重量衰减  0.00001。这
对于我们的  VB  网络:
IB  网络的  mini‑batch  大小为  48,即来自三个域中的每个域的  16  个
大号
一世

训练图像。 对于VB网络,
E(θe,^θr,^θc,^θf ,^  θl ,^  θs)  =  X C (θe,^θr,^θc)
mini‑batch  大小为  6,即  2  个训练视频序列
我=1...F
三个源域中的每一个, 以及  LSTM  序列
长度为  8。 LSTM  的输入维度为  2048, 而
一世 一世

+  λVB  X
大号
l  (θe,^θr,^θf ,^θl)  +  X 大号

我=1...F 我=1...F s  (θe,^θr,^θf,^  θs) ! 隐藏层维度为   2 56。我们使用一个常数   GRL


b=0 b=1
适应因子(λGRL  =  ‑0.2)  [20], 并设置λIB和
一世 一世 一世
(2) λVB至  1。 其他实验细节见
大号
c ,
大号
l
和我
s 是  live/spoof  分类损失和 A2。
域分类损失(用于现场和恶搞
头)用于  VB  网络。  λIB和λVB是标量参数, 加权两个损失的相对重要
4.2.与最先进的比较

方程式中的条款。  1和等式。  2分别。 请注意,编码器的模型参数θe在 在表1  中, 我们将我们的完整模型与最先进的  FAS  方法进行了比
基于图像和视频的网络中共享。 较。 我们提出的方法在所有四个域泛化测试集上都优于[43,  66,  63,  7,  
17,  42] 。
明显更好的性能

4.  实验 主要在于学习丰富的泛化特征的能力,
它很好地适应了看不见的目标域(见图4)。
4.1。
实验设置
请注意,
这些  FAS  方法并未明确解决
数据集。 我们在四个方面公开评估我们的方法 域转移问题,因此自然不能很好地概括看不见的目标域。
相比之下,我
可用的  FAS  数据集: Oulu‑NPU  [9]  (简称  O), 们提出的方法通过利用可用信息(实时和欺骗)显式地学习了可概括的
CASIA‑MFSD  [68]  (简称C), Idiap  Replay‑Attack  [13] 表示
(简称  I)和  MSU‑MFSD  [63]  (简称  M)。
培训和评估。 我们认为一个数据集是 具有基本事实标签的示例)
来自多个来源。
特别是,它学会了映射所有的
我们实验中的一个领域。 我们的模型学习领域 直播和恶搞
来自四分之三数据集的广义表示, 样本(来自多个源域)
到一个共同的特征空间,
其中实时和欺骗特征相
如[52]。特别是, 我们随机选择三个数据集 距甚远,

6
Machine Translated by Google

打印 重播
居住 攻击 攻击
资源
域  1

资源
域  2

资源
域  3

目标
领域
(a)  ResNet‑50 (b)  拟议模型 (c)  拟议模型
可视化  3  个源域和  1   仅可视化  3  个源域 可视化  3  个源域和  1  
个目标域 个目标域

图  4.  来自  ResNet  (a)  与我们的完整模型  (b,c)  的  CNN  特征的  t‑SNE  图,
均在三个源域上训练
并在一个看不见的目标域上进行测试(最好以彩色查看)。 请注意, 源域和目标域的实时特征相距甚远(a);
对于源域和目标域的欺骗特征可以注意到类似的趋势, 但是我们的模型学习将所有实时和欺骗组合在一起
特征(来自多个源域) 分成两个不同的集群(b), 从而提高分类精度。 重要的是, 学到的
表示可以很好地在目标域  (c)  上泛化。

表  3.  在四个域泛化测试集上对提议的  FAS  架构中不同组件的消融研究。
O&C&I→M 运维→C 运维管理→我 I&C&M→O
ResNet  DIB  LSTM  DVB
HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)  HTER(%)  AUC(%)
X 21.66 89.64   25.92   82.16 20.12 90.1   18.81 89.53
X X 18.33   90.58   21.29   85.82   17.63   86.3   17.05   90.01
X X 17.92   90.27   19.26 87.85   18.0   89.78   16.42   90.82
X X X 18.33   88.25   21.11   88.22   18.25   85.61   17.05   91.09
X X X 14.58   92.58   18.7   89.35   15.13   95.76   14.86   93.00
X X X X 15.42 91.13 17.41 90.12 15.87 91.87 14.72 93.08

同时是域不变的。 不同的域泛化训练集。
我们的基线本身表现出一些理想的性能。
在补
此外,
我们与最先进的  do  main  泛化  FAS  方法[52]进行比较, 并 充材料中,
我们报告了用打火机进行的实验

领域泛化中相关的最先进方法 ResNet  骨干网。在  ResNet  上添加  DIB  时
对于人脸反欺骗任务: MMD‑AAE  [35] ,
如[52]。 骨干, 结果在所有四个方面都得到了持续改进
这些方法明确地解决了域转移问题。 测试集。 再加上LSTM, 结果又是
表2显示了这种比较,其中我们的方法始终获得更好的性能。 我们得 显着改善。 最后,
我们的完整模型提升了
出结论 结果进一步。 结合  ResNet  和  LSTM,
提供
所提出的方法可以更有效地克服特征空间中的分布差异。 此外,   三个测试设置的结果略好于
[52] 使用  ResNet  和  DIB  的模型。
但是,将  DVB  添加到
与我们的方法相比,它相对昂贵且不可端到端训练。 带有  ResNet  和  LSTM  的模型并没有带来任何进一步的
改进。
然而,
当  DVB  与
ResNet、
DIB  和  LSTM,
即我们的完整模型,
改进了
4.3.模型组件的烧蚀研究 ResNet  基线。
这一观察通过利用空间(DIB  或基于图像)
和时间验
到目前为止,
我们已经用我们的完整模型展示了结果: 证了这一点
包含所有不同的组件, 即  ResNet  骨干网(ResNet)、 图像级域鉴 (DVB  或基于视频) 与领域无关的特征,
我们提出的模型可以在两
别器(DIB)、 个最
LSTM  模块  (LSTM)  和视频级域鉴别器  (DVB)。 在下文中, 我们将在 具有挑战性的领域泛化测试集(O&M&I→C
使用这些组件的不同组合时进行详细的消融研究。 表  3  总结了所有 和  I&C&M→O)。
四个域泛化测试集的实验结果。 当我们
4.4.学习到的  CNN  特征的可视化

图4描绘了  CNN  激活的  t‑SNE  图(即
表  3  中提到  DIB  或  DVB ,
它自动包括 特征)
来自我们的  ResNet  基线与我们的完整
相关的  GRL  层。 模型。
两个网络都在  3  个源域(即  Oulu‑NPU、CASIA‑MFSD  和  
证明所提出模型的适用性 MSU‑MFSD)
上进行了训练
组件, 我们首先为消融研究设置自己的基线。 基线由一个  ResNet‑50   并在目标域上进行了测试(即  Idiap  重放攻击)。
笔记
主干和一个实时/恶搞分类器组成, 该分类器在四个 也就是说, (b)和(c)
中的图是使用相同的
训练好的模型, 即我们的完整模型, 和同一套

7
Machine Translated by Google

现场和恶搞样本。
然而,
为了更好的可视化,
我们已经禁用了 (图5)
最初由[20]提出,
用于无监督的主要适应(表4  中的  Dis)。
请注意,

于本节中的实验,
我们使用了 仅用于训练目的 另外两个数据集,
即  SiW(简
(b)  中的目标域。
从  (b)  中可以看出,
我们的模型 称  S)  [42]
学习更多关于实时和恶搞图像的判别特征。
更有趣的是表示
和  Idiap  replay‑mobile(简称  R)  [14]。
继[42]之后,
我们的模型学习到的与看不见的目标域的实时和欺骗特征很好地对齐,
正如 在  Oulu‑NPU  数据集上进行测试时, 我们使用  ACER  指标。

在  (c)  中激活目标域可视化所看到的那样。
相比之下, 表4  可以看出, 我们的  ResNet‑DIB  给出了
最好的表现。
使用  ResNet‑Dis  时,
性能略有下降。
即使将  Dis  与  DIB  de  结合
ResNet  学习表示在目标域上表现出相对较弱的泛化能力,
如  (a)  所示。
在里面 使用也会严重影响  Oulu‑NPU  的性能。
从这些

后一种情况,
来自的实时、
打印和重放攻击功能 实验中,
我们观察到来自多个源域的学习特征表示取决于类
多个源域在特征空间中相距很远,
而我们的模型学习最小化实时和欺骗特征之间的域间距离,
如(b,
c)所示。 标签(即现场和恶搞)
可以提供歧视性和
领域不可知的特征,
而仅在主标签上调节它们可能无法正确对齐实时和恶搞
从这些可视化中,
我们可以得出结论,
我们的网络可以很好地概括目标域。
特别
特征,
导致分类准确率低。
由于提出的  DIB  可以访问类(实时和欺骗)
和做主
在  (c)  中观察目标域如何生存和欺骗特征 要标签,
与  Dis  相比,
它能够通过正确分组来自多个实时特征的实时特征来学
与现场和恶搞功能正确对齐 习更好的表示
(b)  中的源域。
源域到一个集群和欺骗特征到另一个(见图4)。
领域鉴别器  (Dis)

FC‑1
恢复
FC‑2
恢复
FC‑3
领域
4.6.类激活图可视化
退出 退出 分类器

在本节中,
我们提供类的可视化分析
激活映射以获得关于决策的直觉
图  5.  我们默认的域鉴别器网络  (Dis)  的架构组件。 网络在做出特定预测时做出。
为了
这种可视化,
我们使用  Grad‑CAM  [51]技术。
在图6中,
我们展示了直播的类激活图,
(a)  直播 (b)  打印攻击 (c)  视频攻击
打印和重放攻击测试样本。
可以进行一些有趣的观察。
该网络更加重视面部区
域以检测“实时”
类别(参见

Fig.  6  (a))  与大多数信息一样直观
关于一张活脸来自面部区域。
例如,
活体皮肤的纹理、
眨眼、
头部运动

等等另一方面,
对于打印攻击,
网络支付
更注意纸的表面(在其上
图  6.  提议网络的激活图可视化。
对于  (a)、 (b)  和  (c)  列,
原始输入图像及其 图像被打印)
(图6  (b))。
对于视频重放攻击,
如果
显示了相关的网络类激活图。 强大的功能,
例如“背景中的一只手” 和“平板电脑”
屏幕”
出现,
然后网络做出决定
表  4.  不同领域判别器在三个领域泛化测试集上的性能比较。 这些显着信息(图6  (c)
顶部)。
在缺少...之下
S&O&I&R  S&O&C&R  S&C&I&R
如此强大的特征,
它试图同时看到面部区域和
ResNet  Dis  DIB →C →我 →O 背景(图6  (c)
底部)。
HTER  (%)  HTER  (%) 宏碁(%)
X 17.5   20.6   10.27 5.  结论
X X 15.3   17.7   8.75
X XX 15.1   17.0   23.4
在本文中,
我们解决了一个内在的问题
X X 14.0 14.7 8.05
面对反欺骗,
即因素的巨大变化
比如不同的背景、
光照条件、
相机分辨率,
恶搞材料等,
使功能
4.5.不同域鉴别器的影响
CNNs为此任务学习的表示过于依赖领域,
导致测试时性能下降
我们进行实验来分析使用效果
不同域鉴别器对  FAS  性能的影响。 在看不见的域上。
我们提出了一种基于自然地适合这个“领
我们考虑两种域鉴别器架构: 域”
的可推广特征学习的解决方案
建议的  DIB(图3)
和默认域分类器 基于图像和基于视频的人脸中的移位问题

8
Machine Translated by Google

反欺骗。
我们提供广泛的实验 A.3。
具有较小主干的实验结果
我们方法的多个方面,
除其他外,
我们
在本节中,
我们将展示我们的实验结果
在不同的领域展示最先进的性能
与主要论文中使用的  ResNet  50  相比, 主干网络更小(即  
测试集,
我们说明了
ResNet‑18)。 我们用  ResNet‑18  替换我们提出的框架中的  
通过泛化学习的特征表示,
以及
ResNet‑50  主干并训练
通过类激活映射网络的可视化
该模型。
在表7  中,
我们表明即使我们提出的
做预测时要注意。
对于未来的工作,
我们
框架使用较弱的骨干网络, 它在四个具有挑战性的域泛化测试集上显示出
想使用多模式输入并应用域
一致的改进。
请注意,
I&C&M  →O  在这四个域泛化中具有最小的训练集
不可知的多模态特征学习以进一步改进
分类精度。

数据集(表6)。
对于这个较小的数据集,
我们提出
框架使用  ResNet‑18  实现了更好的性能
骨干。
A.  附录
A.4。
评估模型的普遍性
A.1。
详细的网络设计
为了评估模型的泛化能力,
我们增加
在本节中,
我们将介绍所提议网络的详细架构设计。
我们使用   源域的数量。
通过这样做,
我们允许
ResNet‑50  作为 网络来查看在主题、
环境条件、
攻击工具、
视频捕获设备等方面变化很大的
我们的骨干网络和  PyTorch  用于实现目的。
在表5  中,
我们展示了分层网 实况和恶搞示例。
有人可能会争辩说,

络设计
我们提出的类条件域鉴别器 在这种情况下,
改进只是通过添加更多
(CCDD)
和现场/欺骗分类器(LSC)。
请注意, 数据。
为了确保不是这种情况,
我们还比较了结果
ResNet‑50  主干输入  224  ×  224  图像并输出 针对相同数据的  ResNet  基线。
如图所示
一个  2048  维的特征向量,
作为  CCDD  和  LSC  的输入。  FC31  和  FC32   表8,
我们的基于图像的网络  (DIB)  在三个不同的域泛化测试设置上实现
层 了对  ResNet  基线的一致改进。
请注意,
对于
(即  CCDD  输出  3  softmax  的活头和恶搞头)
3  个源域的概率分数。  FC2(或 在本节中我们使用的实验 仅用于训练目的 另外两个数据集,
即  SiW(简
最后)
LSC  层输出  2  个  softmax  概率分数 称  S)  [42]和
对于  2  个类别标签  ‑  “live”
和“spoof”。 Idiap  replay‑mobile(简称  R)  [14]。
虽然,
进一步
LSTM  网络的输入张量的形状是 可以通过添加基于视频的
[T  ×  B  ×  2048]  其中  T  是序列长度, B  是 网络(LSTM  和  DVB),
在这里我们只展示了基于图像的  FAS  的改进,

SGD  小批量大小。 我们将  T  和  B  分别设置为  8  和  2。
对于每个时间步  t,
除了基于视频的情况。
继[42]  之后,
在  Oulu‑NPU  上进行测试时
LSTM  输出  256
维特征向量, 其中  t  =  1,  2, ...,  8。
这  8  个 数据集,
我们使用  ACER  指标并通过对四个测试协议的  ACER  
特征向量被连接到单个特征向量 进行平均来报告结果(在表  8  中)。
暗淡。  2048  然后作为输入传递给  LSC。
A.5。
领域适应实验
A2。
额外的实验细节
在本节中,
我们将我们提出的方法与现有领域的人脸反欺骗性能进行
我们使用[52]中的四个域泛化数据集 比较
它们是从以下公开可用的 基于适应的  FAS  方法[36,  60,  61]。
对于这些实验,
我们遵循标准的无监督
人脸反欺骗数据集:
Oulu‑NPU  [9]  (简称O), 域适应训练设置,
即使用来自单个源域(具有真实标签)
的示例和来自目标
CASIA‑MFSD  [68]  (简称C),
Idiap  Replay‑Attack  [13] 域的未标记训练示例来训练网络。
为了与域适应训练设置保持一致,
(简称  I)
和  MSU‑MFSD  [63]  (简称  M)。
在表6  中,
我们展示了
训练、
验证和测试集的详细信息
对于这四个数据集中的每一个。  CASIA‑MFSD  和  MSU  MFSD  没有验证
集并遵循标准 我们使用默认域鉴别器(参见第  4.5  节,
在实践中,
我们使用训练集的一个子集作为这两个数据集的验证集。
在推 图  5)。
结果如表9  所示。
在四个中
理时,
我们 域适应测试集,
我们提出的框架在三个测试集上的表现优于[36,  60,  61] ,
接收来自基于图像和视频的预测 并显示
live/spoof  分类器(参见主论文中的图  3)。
作为一个 其余一项的可比结果。
这些结果
最后的输出, 我们选择在验证集上表现最好的那个。 我们初始化  ResNet‑50 证明我们提出的模型可以在域适应和域泛化设置下被利用。
请注意,
在本
文中,
我们对后者感兴趣
具有  ImageNet  [32]预训练权重的主干。

9
Machine Translated by Google

表  5.  拟议网络的架构细节。
CCDD(类条件域鉴别器) 现场/恶搞分类器
层 输入暗淡。
输出暗淡。 层 输入暗淡。
输出暗淡。
FC1 2048 1024 FC1 2048 512
恢复 恢复
退出 退出
FC2 1024 1024 FC2 512 2(数量。
类标签)
恢复
退出
FC31(活头)
1024 3(数量源域)
FC32(恶搞头)
1024 3(数量源域)

表  6.  本工作中使用的域泛化训练、
验证和测试集。
数据集名称 训练集验证集 测试集

O&C&I→M 来自  Oulu‑NPU、
CASIA‑MFSD  和  Idiap   来自  Oulu‑NPU  的验证集, MSU‑MFSD  测试集
Replay‑Attack  的训练集。  CASIA‑MFSD  和  Idiap  重放攻击。
运维→C 来自  Oulu‑NPU、
MSU‑MFSD  和  Idiap   来自  Oulu‑NPU、
MSU‑MFSD  和  Idiap   CASIA‑MFSD  测试集
Replay‑Attack  的训练集。 Replay‑Attack  的验证集。
运维管理→我 来自  Oulu‑NPU、
CASIA‑MFSD  和  MSU‑ 来自  Oulu‑NPU、
CASIA‑MFSD  和  MSU‑ Idiap  Replay‑Attack  测试集
MFSD  的训练集。 MFSD  的验证集。
I&C&M→O  来自  Idiap  Replay‑Attack、
CASIA‑MFSD  和  MSU‑MFSD  的训练 来自  Idiap  Replay‑Attack、
CASIA‑MFSD  和  MSU‑ Oulu‑NPU  测试集
集。 MFSD  的验证集。

表  7.  使用更小的骨干网络  (ResNet‑18)  改进人脸反欺骗性能  (HTER%)。
模型 O&C&I→M  O&M&I→C  O&C&M→I  I&C&M→O

ResNet‑18  骨干网 27.5   31.67   21.63   14.83


我们的模型(使用  ResNet‑18  主干) 22.5 28.52 20.38 12.78

表  8.  在三个域泛化测试集上评估模型的泛化性。
模型 S  &  O  &  I  &  R  →  C  HTER  (%)  S  &  O  &  C  &  R  →  I  HTER  (%)  S  &  C  &  I  &  R  →  O  ACER  (%)
ResNet‑50 17.5   20.6   10.27
我们的  IB  网络 14.0 14.7 8.05

表  9.  与现有基于域适应的人脸反欺骗方法在四个域适应测试集上的比较。
M→I 我→中 Ⅰ→C C→I
方法
HTER  (%)  HTER  (%)  HTER  (%)  HTER  (%)

李等人。  [36] 33.30   33.20   12.30 39.20


你等人。  [60] 27.50   25.83   ‑ ‑

你等人。  [61] 25.80 23.50 23.50 21.40


我们的完整模型 9.38 12.91 16.11 11.38

设置,
但正如我们从这些实验结果中观察到的, 设置  ‑  O&C&M→I(见表6)。在图7  中,我们展示了  
我们的模型进行了小的调整可以实现显着 ResNet‑50  与我们提出的模型的  SNE  可视化
对以前的设置也进行了改进。 在剩余的三个领域泛化训练集上进行训练 O&C&I→M、
李等人。  [36]有不同的域适应策略,
我们选择任何能给出最佳结 O&M&I→C  和  I&C&M→O(参见
果的策略。 表6)。
图7中的每一行代表一个域泛化训练/测试设置(见表6)。

模型并在表9  中与我们的模型进行比较。 Li  等人。  [34]方法无法 一个地块
与我们的方法相比, 因为他们假设 列(在图7  中)
是使用  ResNet‑50  基线生成的
不同的域只是不同的相机型号, 模型。
而第二列和第三列中的图
是相当限制的。
在我们的例子中,
它们是不同的数据集, (在图7  中)
是使用我们提出的模型生成的。
为了
使我们还能够解决欺骗媒介的变化, 但是,
为了更好的可视化,
我们已停用
照明和背景。 第二列中目标域的可视化。

A.6。
学习到的  CNN  fea  的  t‑SNE  可视化
可以在主要的图  4  中进行类似的观察
真实
纸。
第二列和第三列中的  t‑SNE  图
表明我们的模型(1)
学习了更多的判别特征
我们比较了  t‑SNE  可视化(第  4.4  节,
图  4 用于实时和恶搞图像(第二列);  (2)  对齐良好
主要) 来自 目标域实时和欺骗源特性
ResNet‑50  基线与我们提出的模型 域的实时和欺骗功能。
相比之下,ResNet  50  特征在
根据领域泛化训练和测试

10
Machine Translated by Google

(a)  O&C&I→M

(b)  运维管理→C

(c)  I&C&M→O

ResNet‑50 建议模型 建议模型


可视化  3  个源域和  1  个 仅可视化  3  个源域 可视化  3  个源域和  1  个
目标域 目标域

打印 重播 打印 重播
居住 攻击 攻击 居住 攻击 攻击
资源 资源
域  1 域  3

资源 目标
域  2 领域

图  7.  来自  ResNet‑50  基线和我们提出的网络的学习  CNN  特征的  t‑SNE  可视化。

目标域,
如图7  (第一列)
所示。 欺骗数据集。图8显示了使用  Grad‑CAM  [51]生成的类激活图。从这
些激活图中可以进行类似的观察(如本文第  4.6  节), 即对于“实
A.7.类激活图可视化 时”样本,
面部区域周围的网络激活很高。 对于“打印攻击”, 网络激
与主要论文中的  4.6  节类似,
这里我们展示了一些额外的类激活 活在后面很高
图,用于来自四个人脸抗的“实时”、 “打印攻击”和“重放攻击”

11
Machine Translated by Google

居住 打印攻击 视频重放攻击

CASIA‑MFSD

密歇根州立大学‑MFSD

Idiap  重放攻击

奥卢‑NPU

地面区域(Oulu‑NPU  除外),
即网络学习
通过检测纸张材料表面出现的十个小伪影来对打印攻击进行分类(在其上

面部图像已打印)。  Oulu‑NPU  的高分辨率打印可能会迫使网络同时查看
两者
面部区域以及背景。
对于“视频回放
攻击”,
网络试图从
面部区域和背景。
重要线索
对重放攻击进行分类可能包括  CRT  显示器中出现的波纹图案、
显示器的独特
纹理
屏幕框架等

参考

12
Machine Translated by Google

13
Machine Translated by Google

14
Machine Translated by Google

[56]  凯伦西蒙扬和安德鲁齐瑟曼。
用于大规模图像识别的非常深的卷积网络。  
arXiv  预印本  arXiv:1409.1556,  2014.  3

[57]  Lin  Sun,  Gang  Pan,  Zhaohui  Wu,  and  Shihong  Lao.  
使用条件随机场的基于闪烁的实时人脸检测。
在国际生物识别会议上,
第  
252‑260  页。  Springer,  2007.  2  [58]  Christian  Szegedy,  Wei  Liu,  
Yangqing  Jia,  Pierre  Sermanet,  Scott  Reed,  Dragomir  Anguelov,  
Dumitru  Erhan,  Vincent  Vanhoucke,  and  Andrew  Rabinovich。
使用卷积
更深入。
在  IEEE  计算机视觉和模式识别会议论文集上,
第  1‑9  页,
2015  
年。
3

[59]  Xiaoyang  Tan,  Yi  Li,  Jun  Liu,  and  Lin  Jiang.  Face  liveness  
detection  from  a  single  image  with  sparse  low  rank  bilinear  
discriminative  model.  In  European  Conference  on  Computer  
Vision,  pages  504–517.  Springer,  2010.  2,  3  [60]  Xiaoguang  Tu,  
Hengsheng  Zhang,  Mei  Xie,  Yao  Luo,  Yuefei  Zhang,  and  Zheng  Ma.  
Deep  transfer  across  domains  for  face  anti‑spoofing.  arXiv  
preprint  arXiv:1901.05633,  2019.  9,  10  [61]  Xiaoguang  Tu,  Jian  
Zhao,  Mei  Xie,  Guodong  Du,  Heng  sheng  Zhang,  Jianshu  Li,  Zheng  
Ma,  and  Jiashi  Feng.  Learn  ing  generalizable  and  identity‑
discriminative  representations  for  face  anti‑spoofing.  arXiv  
preprint  arXiv:1901.05602,  2019.  3,  9,  10  [62]  Eric  Tzeng,  Judy  
Hoffman,  Ning  Zhang,  Kate  Saenko,  and  Trevor  Darrell.  Deep  
domain  confusion:  Maximizing  for  domain  invariance.  arXiv  preprint  
arXiv:1412.3474,  2014.  3  [63]  Di  Wen,  Hu  Han,  and  Anil  K  Jain.  
Face  spoof  detection  with  image  distortion  analysis.  IEEE  
Transactions  on  Information  Forensics  and  Security,  10(4):746–761,  
2015.  1,  2,  6,  9  [64]  Zhenqi  Xu,  Shan  Li,  and  Weihong  Deng.  
Learning  temporal  features  using  lstm‑cnn  architecture  for  
face  anti‑spoofing.  

2015  年第三届  IAPR  亚洲模式识别会议  (ACPR),
第  141‑145  页。  IEEE,  
2015.  3  [65]  郑旭,
文立,
李牛,
徐东。
利用潜在域的低秩结构进行域泛化。
在欧洲计算机视觉会议上,
第  628‑643  页。  Springer,  2014.  3  [66]  杨建伟,  
雷振,  斯坦  Z  Li。
学习用于面部反欺骗的卷积神经网络。  arXiv  预印本  
arXiv:1408.5601,  2014.  2,  3,  6

[67]  杨建伟、
雷震、
廖胜才、
斯坦志立。
使用依赖于组件的描述符进行人脸活体检
测。  2013  年国际生物识别会议  (ICB),
第  1‑6  页。  IEEE,  2013.  2  [68]  
张志伟,  严俊杰,  刘思飞,  雷振,  董毅,  和斯坦  Z  Li。
具有多种攻击的人脸反
欺骗数据库。  2012  年第  5  届  IAPR  生物指标国际会议  (ICB),
第  26‑31  
页。  IEEE,  2012.  1,  3,  6,  9

15

You might also like