通过 Disentangled 进行人脸反欺骗

Machine Translated by Google
通过 Disentangled 进行人脸反欺骗
表征学习
1 2 * , 2 * 2 2
Ke‑Yue Zhang , Taiping Yao Jian Zhang , Ying Tai 2 † , Shouhong Ding
, ,
Jilin Li 2 , Feiyue Huang 2 1
, Haichuan Song , and Lizhuang Ma
1
1
华东师范大学，中国上海优图实验室，腾讯，中国上海
2
51184501178@stu.ecnu.edu.cn;
hcsong@cs.ecnu.edu.cn； lzma@sei.ecnu.edu.cn;
{taipingyao,timmmyzhang,yingtai,ericshding,jerolinli,garyhuang}@tencent.com
抽象的。人脸反欺骗对人脸识别系统的安全至关重要。以前的方法侧重于开发基于从
图像中提取的特征的判别模型，这可能仍然纠缠在恶搞模式和真人之间。在本文中，
受
解耦表示学习的启发，我们提出了一种新颖的人脸反欺骗视角，将图像中的活跃度特
征和内容特征分开，并将活跃度特征进一步用于分类。我们还提出了一种卷积神经网
络（CNN）
架构，它具有低级和高级监督相结合的过程，以提高泛化能力。
我们在公共
基准数据集上评估我们的方法，广泛的实验结果证明了我们的方法对最先进的竞争
对手的有效性。最后，我们进一步可视化了一些结果，以帮助理解解缠结的效果和优
势。
关键词：
人脸反欺骗，
生成模型，
解耦表示
1 简介
人脸识别技术具有优于人类的性能，
广泛应用于智能设备、
门禁和安全场景。
然而，相关的安全问题引
起了公众的关注，
因为人脸的访问成本很低，
精心设计的化妆品很容易欺骗这种生物识别机制。
这些面部欺骗，
也称为演示攻击 (PA)，
从简单的打印面部图像、
视频回放到更复杂的 3D 面具和面部化
妆。
从理论上讲，人脸识别系统在没有特定防御的情况下容易受到所有欺骗，这会招致黑客的恶意攻
击，
但也鼓励了鲁棒的人脸反欺骗算法的提升。
* 同等贡献。
通讯作者。
†
2 Ke‑Yue Zhang, Taiping Yao, et al.
图 1. 之前的纠缠框架与我们的解开纠缠框架之间的比较。
以前的作品学习了很容易过度拟合训练数
据集的纠缠特征。相比之下，
我们解开的框架提炼了活力
具有适当约束和监督的特征。
由于主要的面部恶搞图像或视频包含伪影，研究人员
提出了几种基于纹理分析的方法。一些手工制作的特征与反欺骗算法相结合，例如局部二进制模
式（LBP）
[6,14,15,27]，
定向网格直方图（HOG）
[21,41]，
Scale
不变特征变换（SIFT） [30]等。
这些基于线索的方法使用手工制作的特征来检测动作线索，例如
嘴唇运动或眨眼
用于身份验证。但是，这些方法无法应对重放攻击
具有高保真度。最近，基于卷积神经网络（CNN）的方法在人脸反欺骗方面取得了很大进展
[40,29,23]。
基本上，这些
方法将安全问题视为带有 softmax 的二元分类问题
失利。但是，它们缺乏过度拟合的泛化能力
训练数据集。尽管许多方法使用辅助信息（即面部
深度图、 rppg 信号等）来进一步指导网络区分真实和欺骗 [18,19,24]，
这些预定义的特征仍然
是
不足以描绘真实的抽象恶搞模式，因为用尽了
所有可能的约束都是不可能的。
因此，
人脸反欺骗的关键步骤并不在于如何精确地
预先定义欺骗模式，
但是如何从高维提取的表示中实现欺骗模式。
一种可能的解决方案是解开
表示成单独的部分。
在分离学习[38,17]中，
人们一致认为，
高维数据可以用显着更低维和语义上
有意义的潜在表示变量来解释。
面对时
反欺骗，
恶搞模式可以看作是人脸的一种属性，
不仅仅是某种不相关的噪音类型或组合。因此，
问题
转化为我们如何直接针对来自的活动信息
面部图像的所有变化。
如图 1 所示，
我们通过分离潜在表示提出了一种新颖的解开人脸反欺骗技术。受 [17] 的启
发，
我们假设
人脸图像的潜在空间可以分解为两个子空间： liveness
空间和内容空间。 Liveness features 对应于 liveness‑related
信息，而内容特征则集成了输入图像中剩余的与活性无关的信息，例如 ID 和光照。
然而，在解开
学习过程中，
存在两个挑战，
缺少 1）
相应的 gen‑
通过分离表示学习进行人脸反欺骗 3
uine 图像用于翻译过程中的恶搞图像，反之亦然，2) 清晰
人脸反欺骗文献中活体特征属性的研究。
为了应对上述挑战，我们引入了低级纹理和高级
深度特征，以进一步促进解开。对于第一个挑战，我们采用生成对抗网络（GAN）
类鉴别器来
保证翻译图像的合理性。
然后引入一个辅助深度估计器以确保活性信息也已被引入
在真实和恶搞图像之间交换。对于第二个挑战，检查
liveness features的属性相当于制作liveness和content
在解开的框架中独立的特征。为了溢出活力和
内容空间，我们对翻译后的图像进行编码，以再次获得重建的活性特征。随着图像和潜在代码的双向重
建损失，
以自我监督的方式彻底提取各种恶搞模式的活性特征。为了进一步规范活性空间，我们引入了一种新
的 LBP
地图监督。最后，恶搞分类可以在更小的范围内解决
和更具辨别力的活性特征空间。因此，
我们的架构更
可能获得良好的泛化能力。
综上所述，这项工作的贡献有三方面：
‧ 我们通过分离表示学习解决人脸反欺骗，
它将潜在表示分为活性特征和内容特征。
‧ 我们结合低级纹理和高级深度特征来调节
larize liveness space，
这有助于解开的表征学习。
‧ 提供了大量的实验和可视化来揭示活性特征的属性，这证明了我们方法的有效性
对抗最先进的竞争对手。
2 相关工作
我们的方法引入了分离的表示学习来解决人脸反欺骗。
之前的相关工作主要集中在两个方面：
人脸反
欺骗和
属性解耦。
面对反欺骗。早期的研究集中在手工制作的特征描述器上，如 LBP [6,14,15,27]、

HOG
[21,41]、
SIFT [30] 和 SURF [7]，
以投影
人脸进入低维特征空间，传统分类器如
因为 SVM 用于判断。
还有一些方法使用来自不同域的信息，
例如 HSV 和 YCrCb 颜色空间 [6,8]、
时间
域 [34,2,12,39] 和傅里叶谱 [22]。
然而，
这些手工
由于表示能力有限，基于特征的方法无法实现高精度。
随着深度学习的兴起，研究人员试图通过基于 CNN 的特征来解决人脸反欺骗问题。
最初，
[40,29,23] 将任务视为
具有 softmax 损失的二元分类问题。
与手工制作的特征相比，
此类模型在内部测试设置中
获得了更高的准确性。然而，
由于
对于训练数据的过度拟合，
它们的泛化能力相对较差。
为了提高泛化能力，许多方法试图利用
辅助监督引导网络。 [24] 试图用
面部深度信息和远程光电体积描记（r‑ppg）信号的辅助监督。 [18]利用欺骗图像来估计欺骗
相关的噪声模式。 [33] 采用域泛化策略
实现交叉测试的改进。
这些辅助监督确实提高了泛化能力。
然而这些方法都在整体上解决了这
个问题
特征空间，
受到无关因素的干扰。
解开的表示。关于解开的关键直觉是
解开的表示可以将数据分解为不同的信息
变化因素[25]。 [16,10] 旨在学习解开的表示
没有监督。 [38] 将人脸图像的潜在特征划分为不同的
部分，其中每个部分编码一个属性。 [17]假设潜在空间
图像可以分解为内容空间和样式空间。
这些作品启发我们将面部图像的特征分解为内容
特征和活性特征。在人脸反欺骗中，内容特征对应
图像中与活跃度无关的信息，如ID、
背景、
场景
照明等。相反，活体特征是区分真人和攻击的关键。显然，
我们可以解决人脸反欺骗问题
在活性特征空间中。
然而，
在解耦过程中存在许多挑战
学习过程，
例如没有重组图像的基本事实，
各种风格的恶搞等。
在本文中，我们将低级纹理和高级深度特征相结合，
以促进解开的表示学习。
3 解耦框架
我们的框架主要由两部分组成：解开过程和
辅助监督。作为我们框架的核心组件，
在
Sec.3.1，
解缠结过程将表示分离为两个独立的因素，
分别是活跃度特征和内容特征。
作为
在 3.2 节中说明，
深度、
纹理和判别约束被利用
作为辅助监督。通过引入这三个辅助网络，
我们整合了日期活性特征并进一步促进了解开过程。
图2
说明了我们的方法和整个学习过程的概述。
3.1 解开过程
解开过程旨在分离活性特征和内容
通过交换和重新组合这两个特征来实现特征。解缠结部分的输入是两个未配对的图像 A
和 B，
其中 A 是随机选择的
来自活人脸图像， B 是从恶搞图像中选择的。
在编码器部分，
我们首先使用卷积块从输入中提取潜在代码 Z。接着
两个独立的卷积子网络将潜在代码 Z 编码为活性
特征 L 和内容特征 C。
这种特定的结构将
图 2. 我们的解缠结框架概述。
图像的特征分为两部分，内容特征和活跃度特征。通过交换真人和攻击
者的活体特征，我们可以得到内容相同但活体属性发生变化的不同重建图像。
提出了纹理网络、深度网
络和鉴别器以促进解耦表示学习。
两个特征相互卷积。
根据上述过程，
我们可以分别对图像A、
B进行编码得到LA、 CA和LB、 CB 。
然后，
我们交换活性部分LA和LB ，
得到图像Ab和
Ba。
Ab = Dec(CA, LB), Ba = Dec(CB, LA)。 (1)
因为活性特征决定了图像的活性属性，我们假设Ab是图像 A 的恶搞版本，而Ba是图像 B 的真

实版本。为了更好地将潜在代码解码回图像，我们使用的架构解码器与编码器对称。此外，遵循
U‑Net [32] 结构，
将快捷方式从编码器的中间层添加到解码器的相应层，以将原始信息作为辅
助上下文来提高视觉质量。为了进一步保证活性信息和内容信息可以完全拆分，我们再次对图
像Ab、 Ba进行编码以获得 C 和 C，
并引入双向B、重建损失 [17] 以鼓励在两个连续过程中进
行重建（即，从图像到图像以及从潜在特征到潜在特征）。
0 0
一个，
L0 乙 L0 一个，
影像重建。
编码器和解码器的组合应该能够从数据集中重建任何图像xi ：
记录
大号
十一 = Exi p(xi) kD(E(xi)) － xik1 , (2)
其中 p(xi)是数据集中原始图像的分布，
E 是编码器，
D 是解码器。
潜在的重建。
给定翻译时的一对活性特征和内容特征，
我们应该能够在解码和编码后对其进
行重构。
记录
大号
天 = Ezi q (zi) kE (D (zi)) ‑ zik1 (3)
表 1. 我们方法的辅助网络的详细信息。
LBP网深度网络层鉴别器

chan./Stri. Out.Size Layer chan./Stri. Out.Size Layer chan./Stri.外尺寸
输入：
活跃度特征输入：图像 conv2‑0 输入：
图像
64/1 conv2‑1 128/1
conv2‑2
196/1 256
转换1‑0 384/1 32 conv2‑3 128/1 pool2‑1
‑c/2
128/1 onv2‑4 256 conv3‑1 64/1 pool3‑1 ‑/ 256
196/1 128/1 pool2‑2
‑/ 2
conv2‑7 256 2 128
128/1 196/1 conv2‑8
128/1
conv2‑9 ‑/2 256
128
pool2‑3 pool2‑1+pool2‑2+pool2‑3
conv2‑10
转换1‑1 128/1 32 1/1 128/1 64/1 128 conv3‑2 128/1 ‑/2 池 3‑2 128
转换2‑5 128 64
转换2‑6 128
64
转换1‑2 64/1 32 64 转换 3‑3 256/1 ‑/2 池 3‑3 64
64 32
64
32
转换1‑2 矢量化
32
转换2‑11 32
转换1‑3 1/1 32 转换2‑12 32 fc3‑1 1/1 2
其中zi是活性特征Li和内容特征Ci的组合 , 和
q(zi)是潜在代码的分布。
3.2 辅助监督
本节我们介绍三种辅助监督：
LBP图、
深度图
和歧视监督，
共同促进解开过程。
判别监督确保生成的视觉质量
图片。
深度和 LBP 监督被插入到不同的部分，
以保证生成的图像在其活跃度特征时属于正确的类别
被交换。 LBP 图和深度图一起对活跃度进行正则化
特征空间，
使其成为区分真人和真人的关键因素
恶搞模式。
三个辅助网络的详细结构如图所示
标签。 1. 每个卷积层后面跟着一个批归一化层和
具有 3 × 3 内核大小的整流线性单元 (ReLU) 激活函数。
纹理辅助监督。
活度特征是人脸图像的基本特征，
它决定了图像的活度类别。
因此，
当在真人和攻击之间交换活性特征时，
图像的类别和估计的深度图应该同时改变。
而估计的深度图通常被认为与诸如
作为面部光照和阴影，
包含在纹理信息中
的脸。
更重要的是，
之前的工作已经证明纹理是人脸反欺骗的重要线索。
因此，
采用 LBP map 进行正则化
解耦框架中的活性特征。
虽然 LBP 特征包含一些额外的信息，
但提出的解缠结框架利用
Latent Reconstruction Loss 将活性特征限制为只学习必要的
信息。
为了使特征与众不同，
对于真实的面孔，
我们使用
[1]中的算法提取的LBP图作为纹理监督。
而对于恶搞脸，
零图作为基本事实。
Llbp = Eli P (li), xi P (xi) kLBP (li) ‑ lbpxi k1

(4)
+ Eli N (li), xi N (xi) kLBP (li) ‑ 0k1
其中 LBP 是 LBP Estimator Net，
P(xi)是数据集中活人脸图像的分布， P(li)是活人脸图像的
活跃度空间分布， N(xi)是恶搞图像在数据集中的分布数据集， N(li)是恶搞图像的活跃空间分
布，
lbpxi表示活人脸图像xi的 lbp 图， 0 表示恶搞图像的零图。
深度监督。深度图通常用作人脸反欺骗任务中的辅助监督。在我们的解缠结框架中，我们结合

了 LBP 图和深度图监督来规范活性特征空间。与 LBP 分支类似，
我们使用伪深度作为真实人
脸图像的地面实况，使用零图作为恶搞图像。伪深度由[13]中的3D人脸对⻬算法估计。在训练
阶段，深度网络只提供监督，不更新参数。
由于重建图像A0和生成的Ba是实时图像，而重建图像
B0和生成的Ab是恶搞图像，因此上述图像对应的深度图应该是图像 A、 B 和两个零图中的人脸
深度。那么深度损失公式为：
Ldep = Exi N (xi) kDep (xi) ‑ 0k1 + Exi P (xi) kDep (xi) ‑ depxi k1 (5)
其中 Dep 是参数固定深度网络，P(xi)是活人脸图像的分布，
N(xi)是恶搞图像的分布，
depxi是
活人脸图像xi的深度图， 0 表示恶搞的零图相应的图像。
歧视性监督。为了确保生成图像的视觉合理性，我们对生成的图像应用判别式监督。判别监督

用于区分生成的图像（A0 ， B0 ， Ab， Ba）
和原始图像（A，
B）。
同时，解缠结框架旨在生
成合理的图像，这些图像将在有区别的监督下被归类为非合成图像。然而，单个鉴别器的感受
野对于大图像是有限的。
两个具有不同输入分辨率的相同鉴别器。
络生成更精细的细节。
我们使用多尺度鉴别器[36]来解决这个问题。
而另一个输入尺度较小的判别器记为D2，
输入尺度较大的判别器记为D1，
具体来说，
它引导解缠结网络保
它引导解缠结网
我们部署了
留更多的全局信息。
在训练过程中，
每次迭代有两个连续的步骤。
第一步，
我们修复解缠结网络并更新鉴别器，
迪斯
大号
D = － EI∈Rlog(D1(I)) － EI∈Glog(1 － D1(I))
(6)
－ EI∈Rlog(D2(I)) － EI∈Glog(1 － D2(I))
其中 R 和 G 分别是真实图像和生成图像的集合。
第二步，
我们修复判别器并更新解缠结网络，
创
大号
D = －EI∈Glog(D1(I)) － EI∈Glog(D2(I)) (7)
损失函数。
训练过程的最终损失函数是上述损失函数的加权求和，
L=L 创
D + λ1L
记录
+ λ2L
记录
(8)
十一天 + λ3Ldep + λ4Llbp
其中λ1、 λ2、 λ3、 λ4是权重。
按照常见的对抗训练流程，
我们交替优化鉴别器和解缠结网络。
根据经验选择权重以平衡每个损失项。
4 实验结果
4.1 实验设置
数据库。我们在四个人脸反欺骗数据库上测试我们的方法： Oulu NPU [9]、

SiW [24]、
CASIA‑
MFSD [43] 和 Replay‑Attack [11]。
我们在 Oulu‑NPU 和 SiW 数据集上评估我们的内部测
试性能，并通过在 Replay‑Attack 或 CASIA‑MFSD 上进行训练并在另一个上进行测试来进
行交叉测试。
指标。为了与以前的工作进行比较，我们通过以下指标报告性能：攻击表示分类错误率 (APCER)
[4]、
善意表示分类错误率 (BPCER) [4]、平均分类错误率 (ACER) = ( APCER+BPCER)/2 [4]
和一半总错误率 (HTER) = (错误接受率 + 错误拒绝率)/2 [4]。
实施细节。上述所有数据集都以视频格式存储。我们使用数据集中的人脸检测器或人脸位置文

件来裁剪人脸并将其调整为 256 × 256。对于每一帧，我们结合估计的 LBP 图和深度图的分
数来检测攻击，以充分利用低级纹理信息和高级全局信息，如 [18] 中的方法，即 score =
(kmaplbpk + kmapdepthk)/2。我们在 Pytorch [28] 中实现方法。模型以 4 的批大小进行
训练。在每个 epoch 中，我们选择比例为 1 : 1 的负图像和正图像。为了训练网络，我们使用
Adam 优化器 [20] 的学习率 1e‑5 并将λ1设置为λ4在等式。 8 为 10、 1、
1 和 2。
深度网络是
预训练的，并且在其他三个网络的训练期间保持固定，并且所有网络在每个协议中都使用相同
的数据进行训练。在推理阶段，重建和翻译过程都是分离的，因此我们的方法的速度是可以接受
的，在 GeForce GTX 1080 上达到了 77.97±0.18 FPS。
表 2 Oulu‑NPU 数据集四种协议的内测结果
协议方法 APCER(%) BPCER(%) ACER(%)
STASN[42] 1.2 2.5 辅助[24] 1.9
1.6 1.6 1.6
1 FaceDe‑S [18] 1.2 1.7 1.5
FAS‑TD[37] 2.5 0.0 1.3
我们的 1.7 0.8 1.3
辅助[24] 2.7 2.7 2.7

渐变 [5] 3.1 1.9 2.5
2 STASN[42] 4.2 0.3 2.2
FAS‑TD[37] 1.7 2.0 1.9
我们的 1.1 3.6 2.4
FaceDe‑S [18] 4.0±1.8 3.8±1.2 3.6±1.6

辅助[24] 2.7±1.3 3.1±1.7 2.9±1.5
3 STASN[42] 4.7±3.9 0.9±1.2 2.8±1.6
盆地[19] 1.8±1.1 3.6±3.5 2.7±1.6
我们的 2.8±2.2 1.7±2.6 2.2±2.2
FAS‑TD[37] 14.2±8.7 4.2±3.8 9.2±6.0
STASN[42] 6.7±10.6 8.3±8.4 7.5±4.7
4 FaceDe‑S [18] 5.1 ± 6.3 6.1 ± 5.1 5.6 ± 5.7
BASN[19] 6.4±8.6 3.2±5.3 4.8±6.4
我们的 5.4±2.9 3.3±6.0 4.4±3.0
4.2 实验对比
在本节中，
我们展示了解缠结的优越性，
并进一步说明了翻译结果。
为了验证我们方法的性能，
我们进行
在 Oulu‑NPU 和 SiW 上进行了内部测试结果的实验，
CASIA 和重放攻击的交叉测试结果
的实验。然后我们演示一些例子来展示
翻译细节，
验证活性特征的有效性。
内部测试。
在 Oulu‑NPU 和 SiW 数据集上评估内部测试。
我们
利用每个数据集中定义的协议。标签。 2显示了比较
我们的方法是 Oulu 数据集上最好的四种方法。
我们的方法实现
协议 1、3 和 4 中的结果更好，
而协议中的 ACER 稍差
2. 对于评估 Oulu 中所有变化的协议 4，
我们的方法是最好的
结果，验证了我们的方法具有更好的泛化性能。
在 [19] 之后，
我们报告了关于 SiW 的三个协议的 ACER。
标签。 3 场演出
我们的方法在基于框架的方法中取得了更好的结果。
交叉测试。我们通过进行跨数据集评估来评估泛化能力。
在相关工作之后，
CASIA‑MFSD 和重放攻击
被用于实验，结果在 HTER 中测量。
结果显示在表中。 4.为了公平比较，
我们比较方法
仅使用单帧信息。
我们的方法使 HTER 降低了 1.2 pp
表 3 SiW 数据集三种协议的内测结果
协议方法 APCER(%) BPCER(%) ACER(%)
辅助[24] 3.58 3.58 3.58
‑ ‑ 1.00
STASN[42]
1 FAS‑TD[37] 0.96 0.50 0.73
‑ ‑ 0.37
盆地[19]
我们的 0.07 0.50 0.28
辅助[24] 0.57±0.69 0.57±0.69 0.57±0.69
‑ ‑
STASN[42] 0.28±0.05
2 FAS‑TD[37] 0.08±0.17 0.21±0.16 0.15±0.14
‑ ‑
BASN[19] 0.12±0.03
我们的 0.08±0.17 0.13±0.09 0.10±0.04
‑ ‑ 12.10±1.50
STASN[42]
辅助[24] 8.31±3.81 8.31±3.80 8.31±3.81
3 ‑ ‑ 6.45±1.80
盆地[19]
FAS‑TD[37] 3.10±0.79 3.09±0.83 3.10±0.81
我们的 9.35±6.14 1.84±2.60 5.59±4.37
表 4. CASIA‑MFSD 和 Replay‑Attack 的交叉测试结果。
火车测试火车测试
方法 CASIA 重播重播 CASIA
MFSD 攻击攻击 MFSD
运动磁力 [3] 50.1% 47.0%
光谱立方体[31] 34.4% 50.0%
低功耗[35] 30.1% 35.6%
美国有线电视新闻网[40]
48.5% 45.5%
STASN[42] 31.5% 30.9%
FaceDe‑S [18] 28.5% 41.1%
辅助[24] 27.6% 28.4%
盆地[19] 23.6% 29.9%

我们的 22.4% 30.3%
比从 CASIA‑MFSD 到 Replay‑Attack 的最先进技术，
并从 Replay‑Attack 到 CASIA‑MFSD 获得可
比的 HTER。这一结果也证明
我们的解缠结方法具有更好的泛化能力。
翻译结果。我们展示了一些来自 Oulu 的翻译示例
协议 1 分为三组： live‑spoof、
live‑live、
spoof‑spoof，
如图 3 所示。
live‑spoof组中，深度图随着liveness的交换而变化
特征。在live‑live组和spoof‑spoof组中， liveness的特点
变化不会导致深度图的变化，这意味着活跃度
特征确实决定了图像是否是实时的。每个之间的区别
图 3. 对应深度图的翻译结果图解
LBP 地图。我们在每两列之间交换活性特征。
的交换
深度和 LBP 图验证了活体特征是活体人脸图像的关键部分。
图 4. 交换实时和恶搞细节的插图。第一行是
原图，第二行是翻译结果。红色矩形是指
作为实时图像的细节，而蓝色是指恶搞图像的细节。
两列活人脸和恶搞图分别是光、
ID、
背景。
正如翻译所示，
这些因素没有变化
类别发生变化，这意味着活性特征不包含这些
因素。
图 4 显示了两组实时和攻击图像及其局部区域细节。
如图，
局部细节差异较大
真实人物和攻击，
攻击图像往往有一些重复的条纹。
在结合攻击图像的活性特征后，
翻译结果的局部细节与对应的大头钉相似，
这表明活性特征不仅学到了差异
真人和攻击之间，
也学到了不同的攻击细节。
图 5. 来自不同方法的特征分布的可视化。
我们用
对活性特征或整体特征的不同约束并绘制相应的
t‑SNE [26] 括号中的特征。
表 5 不同监管组合对比
方法
BC‑Depth 0/1 Map‑Depth LBP‑LBP Depth‑Depth Depth‑LBP 我们的
宏碁
活性特征 3.64 3.02 1.87 1.69 1.65 1.56
融合 2.78 2.50 2.40 1.80 1.50 1.25
4.3 消融研究
研究解缠结、
不同监督和分数融合的效果
方法，
我们分别对 Oulu‑NPU 协议 1 进行消融实验。
活性特征分布。我们使用 t‑SNE [26] 来可视化特征
来自不同的方法，其中包括 500 个活人脸图像和 2,000 个恶搞
图像，
如图 5 所示。
比较 (a) 和 (b)，
我们得出结论，
解缠结确实找到了一个子空间，
在该子空
间中，
直播和恶搞的特征可以
更容易区分。
为了比较（b）和我们的方法（c），低
对活性特征的水平 LBP 监督提高了
生活和攻击。 (c) 和 (d) 之间的差异证明了 liveness 特征
确实可以区分真实和攻击，而内容特征则不能。
不同的监督。 a 在我们的方法中，
我们提出了结合低级 LBP 纹理和高级深度信息的监督。
我们比较
这种监督与其他五种消融方法的结合，
都是
基于所提出的解缠结框架：
（1）
二元分类（BC Depth）
方法，
在活性空间上使用二元分类。 (2) 0/1
Map‑Depth 方法意味着通过将特征回归到
0/1 地图，
其中 0 地图用于攻击，
1 地图用于实时。 (3) LBP‑LBP法
使用 LBP 图监督特征空间和翻译图像。 (4) 深度‑深度
方法是指对特征空间和图像空间进行两次深度监督。 (5)
Depth‑LBP 方法使用对特征空间的深度监督和对翻译图像的 LBP 监督，
这是我们方法的反向版本。
图 6 两种不同设置下的活跃度特征分布：
（a）
和（b）
显示不同攻击的活跃度特征并使用相同的设备进行直播； (c)、
(d) 和
(e) 关于具有相同攻击或直播的不同设备的功能。
表 6 分数融合结果
融合
方法 LBP Map Depth Map
最大平均值
APCER 1.25 2.50 2.92 1.67
BPCER 1.67 0.83 0.83 0.83
宏碁 1.56 1.67 1.88 1.25
标签。
图 5 显示了每种方法在活性特征上的性能以及与深度网络的融合结果。
与不同的liveness监督比较
特征，
LBP 作为低级纹理监督规范化特征空间
效率更高，
表现更好。
关于 LBP 和 4 种组合的结果
深度监督表明对特征空间和图像的相同监督
表现不如不同的监督。
以及两次监管的顺序
对结果影响不大，
但我们方法的结果略好一些。
分数融合。
使用 Oulu‑NPU 协议 1，
我们对
分数融合。
标签。
图 6 显示了每个输出的结果以及具有最大值和平均值的融合。
它显示使用 LBP 图或深度图，
性能相似。
并且LBP图和深度图的融合达到了最好的性能。
因此，
对于所有实验，
我们通过利用融合来评估性能
LBP图和深度图的得分，
score = (kmaplbpk + kmapdepthk)/2。
5 进一步探索
我们已经排除了某些因素对 Sec 中活性特征的影响。 4.2.为了
更好地理解 liveness 特征的本质，
我们做一些定性的
实验来探索与它相关的因素。
恶搞类型。
我们随机抽取 200 张图片，
由 1 人收集
某些设备。
然后我们提取图像的活性特征并将它们可视化
通过 t‑SNE [26]。
我们在三星和 HTC 手机下展示了结果
图 6(a) 和 (b)。
虽然没有对攻击使用额外的限制，
但有
图 7. 使用相同设备的不同攻击和使用相同攻击的不同设备的 delta 映射。
至少三个不同的集群：所有设备中的实时图像、纸质攻击和屏幕攻击，
这意味着活性特征可能与
恶搞类型有关。
采集设备。我们为每种类型的攻击随机选取 200 张图像，并使用六种不同的设备。
然后我们可视
化图 6(c)、
(d) 和 (e) 中的活性特征。
来自不同设备的活跃度特征对于攻击是聚集的，但对于活
着的人来说是分散的。
这表明真人的活体特征可能与采集设备无关。
但是，
攻击的活性特征可能
包括有关收集设备的信息。
我们进一步显示了生成图像和每种类型的原始图像之间的逐像素增量图，如图 7 所示。第
一行显示的原始图像将活性特征与同一张实时图像交换以生成结果在第三行。然后我们从原始
图像中减去平移图像以获得增量图，将其映射到颜色空间中，以便在第二行中更好地可视化。从
图 7 中，
我们可以得到以下结论： (1) 在真实人脸之间交换活跃度特征时，增量图几乎为零。然
而，当活人脸和恶搞图像之间时，增量图变得更大。 (2) 同一类型攻击（纸质或屏幕）的 Delta
图相似，但区分了两种攻击。（3）
同一种攻击，不同采集设备下的delta map不同。
6。
结论
本文介绍了一种新的人脸反欺骗视角，将图像中的活跃性和内容特征分开。
提出了一种将解缠
结过程与多个适当监督相结合的新颖架构。
我们结合低级纹理和高级深度特征来规范活性空间。我们可视化翻译过程并分析活性特征的
内容，
从而更深入地了解人脸反欺骗任务。我们的方法在广泛使用的人脸反欺骗数据库上进行
了评估，并取得了出色的效果。
参考
1. Ahonen, T., Hadid, A., Pietikainen, M.：
具有局部二进制模式的人脸描述：
在人脸识别中的应用。
IEEE 模式分析和机器智能交易 28(12), 2037–2041 (2006)
2. Bao, W., Li, H., Li, N., Jiang, W.：
一种基于光流场的人脸识别活体检测方法。
在：2009年图像分析与信
号处理国际会议。第 233‑236 页。 IEEE (2009)
3. Bharadwaj, S., Dhamecha, TI, Vatsa, M., Singh, R.：
使用运动放大进行计算高效的人脸欺骗检测。
见：IEEE 计算机视觉和模式识别研讨会论文集（2013 年）
4. Biometcs., IJS.: 信息技术生物特征呈现攻击检测第1部分：
框架。 (2016)
5. Boulkenafet, Z.、
Komulainen, J.、 Akhtar, Z.、 Benlamoudi, A.、 Samai, D.、Bekhouche, SE、 Ouafi,
A.、
Dornaika, F.、Taleb‑Ahmed, A.、 Qin, L., et al.: Acompetition on generalized software‑
based facepresentation attack detection in mobile scenario。在： 2017 IEEE 国际生物识别联
合会议（IJCB）。页。
688–696。 IEEE (2017)
Komulainen, J.、
Hadid, A.：
基于颜色纹理分析的人脸反欺骗。
在：2015 IEEE 图像
处理国际会议（ICIP）。第 2636‑2640 页。 IEEE (2015)
Komulainen, J.、
Hadid, A.：
使用加速鲁棒特征和 Fisher 矢量编码的人脸反欺骗。
IEEE 信号处理字母 24(2), 141–145 (2016)
Komulainen, J.、
Hadid, A.：
使用颜色纹理分析的面部欺骗检测。 IEEE 信息取证
和安全交易 11(8), 1818–1830 (2016)
9. Boulkenafet, Z., Komulainen, J., Li, L., Feng, X., Hadid, A.：
Oulu‑npu：
具有真实世界变化的移动
面部呈现攻击数据库。在：2017 第 12 届 IEEE 自动面部和手势识别国际会议（FG 2017）。页。
612–618。 IEEE (2017)
10. Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I., Abbeel, P.：
Info gan：
通过信息
最大化生成对抗网络的可解释表示学习。在：神经信息处理系统的进展（2016 年）
11. Chingovska, I., Anjos, A., Marcel, S.：
关于局部二元模式在人脸反欺骗中的有效性。见： 2012 年
BIOSIG‑国际生物识别特别兴趣小组 (BIOSIG) 会议论文集。第 1‑7 页。 IEEE (2012)
12. Feng, L., Po, LM, Li, Y., Xu, X., Yuan, F., Cheung, TCH, Cheung, KW：
面部反欺骗的图像质量和运
动线索的集成：神经网络网络方法。视觉传达和图像表示杂志 38 (2016)
13. Feng, Y., Wu, F., Shao, X., Wang, Y., Zhou, X.：
联合 3d 人脸重建和与位置图回归网络的密集对⻬。
在：欧洲计算机视觉会议 (ECCV) 会议记录。 pp. 534–551 (2018) 14. de Freitas Pereira, T.,
Anjos, A., De Martino, JM, Marcel, S.：基于 Lbp‑top 的对抗面部欺骗攻击的对策。在：亚洲计算机
视觉会议。第 121‑132 页。 Springer (2012) 15. de Freitas Pereira, T., Anjos, A., De Martino, JM,
Marcel, S.：面对反欺骗对策能否在现实世界中发挥作用？在：
2013 年国际生物识别会议 (ICB)。第 1‑8
页。 IEEE (2013)
16. Higgins, I.、
Matthey, L.、
Pal, A.、
Burgess, C.、
Glorot, X.、
Botvinick, M.、
Mohamed, S.、
Lerchner, A.：
beta‑vae：学习基本视觉概念具有约束的变分框架。 Iclr 2(5), 6 (2017)
17. Huang, X., Liu, MY, Belongie, S., Kautz, J.：
多模态无监督图像到图像转换。
在：欧洲计算机视觉会议
(ECCV) 会议记录。第 172–189 页（2018 年）
18. Jourabloo, A., Liu, Y., Liu, X.：人脸去欺骗：通过噪声建模进行反欺骗。

在：欧洲计算机视觉会议 (ECCV) 会议记录 (2018)
19. Kim, T., Kim, Y., Kim, I., Kim, D.: Basn: Enriching feature representation using bipartite
assistant supervisors for face anti‑spoofing。在： IEEE 计算机视觉研讨会国际会议论文集（2019
年）
20. Kingma, DP, Ba, J.：亚当：一种随机优化方法。 arXiv 预印本 arXiv:1412.6980 (2014)
21. Komulainen, J.、
Hadid, A.、
Pietikäinen, M.：
基于上下文的人脸反欺骗。在：
2013 年 IEEE 第六届生物识
别国际会议：理论、应用和系统（BTAS）。第 1‑8 页。 IEEE (2013)
22. Li, J., Wang, Y., Tan, T., Jain, AK：
基于傅立叶光谱分析的活人脸检测。
在：用于人体识别的生物识别技
术。卷。 5404，第 296‑303 页。国际光学与光子学会 (2004)
23. Li, L., Feng, X., Boulkenafet, Z., Xia, Z., Li, M., Hadid, A.：
使用部分卷积神经网络的原始人脸反欺骗
方法。在： 2016第六届图像处理理论、工具和应用国际会议（IPTA）。第 1‑6 页。 IEEE (2016)
24. Liu, Y., Jourabloo, A., Liu, X.：
学习面部反欺骗的深度模型：
二元或辅助监督。
在：IEEE 计算机视觉和模式
识别会议论文集。第 389–398 页（2018 年）
25. Locatello, F., Bauer, S., Lucic, M., Rätsch, G., Gelly, S., Schöolkopf, B., Bachem, O.：
挑战解开
无监督学习中的常见假设申述。 arXiv 预印本 arXiv:1811.12359 (2018)
26. Maaten, Lvd, Hinton, G.：使用 t‑sne 可视化数据。机器学习研究杂志 9（11 月），
2579–2605（2008
年）
27. Määttä, J., Hadid, A., Pietikäinen, M.：使用微纹理分析从单个图像中检测人脸欺骗。在：2011 年
国际生物识别联合会议 (IJCB)。第 1‑7 页。 IEEE (2011)
28. Paszke, A.、 Gross, S.、 Chintala, S.、

Chanan, G.、
Yang, E.、
DeVito, Z.、
Lin, Z.、
Desmaison, A.、
Antiga,
L.、
Lerer, A .: pytorch 中的自动微分 (2017)
29. Patel, K., Han, H., Jain, AK：
具有强大特征表示的跨数据库人脸反欺骗。在：中国生物特征识别会议。第
611‑619 页。
施普林格 (2016)
30. Patel, K., Han, H., Jain, AK：
安全面部解锁：智能手机上的欺骗检测。
IEEE 信息取证和安全交易 11(10), 2268–2283 (2016)
31. Pinto, A., Pedrini, H., Schwartz, WR, Rocha, A.：
通过光谱时间立方体的视觉码本进行面部欺骗检
测。 IEEE 图像处理交易 24(12), 4726–4740 (2015)
32. Ronneberger, O., Fischer, P., Brox, T.：
U‑net：
用于生物医学图像分割的卷积网络。
在：医学图像计算和
计算机辅助干预国际会议。第 234‑241 页。施普林格 (2015)
33. Shao, R., Lan, X., Li, J., Yuen, PC：
用于人脸呈现攻击检测的多对抗判别深度域泛化。
在：IEEE 计算机视
觉和模式识别会议论文集。第 10023–10031 页（2019 年）
34. Siddiqui, TA, Bharadwaj, S., Dhamecha, TI, Agarwal, A., Vatsa, M., Singh, R., Ratha, N.：
使用多特征
小视频聚合进行面部反欺骗。在： 2016年第23届模式识别国际会议（ICPR）。 IEEE (2016)
35. Vareto, RH, Diniz, MA, Schwartz, WR：
使用基于空间和频率的描述符的嵌入在低功率设备上进行人脸欺骗
检测。在：伊比利亚美洲模式识别大会。第 187‑197 页。
施普林格 (2019)
36. Wang, TC, Liu, MY, Zhu, JY, Tao, A., Kautz, J., Catanzaro, B.：
高分辨率图像合成和条件甘斯语义处理。
在：IEEE 计算机视觉和模式识别会议论文集。第 8798–8807 页（2018 年）
37. Wang, Z., Zhao, C., Qin, Y., Zhou, Q., Qi, G., Wan, J., Lei, Z.：
利用时间和深度信息进行多帧人脸抗欺
骗。 arXiv 预印本 arXiv:1811.05118 (2018)
38. Xiao, T., Hong, J., Ma, J.：
优雅：
与 gan 交换潜在编码以传输多个面部属性。
在：欧洲计算机视觉会议 (ECCV)
会议记录。第 168–184 页（2018 年）
39. Xu, Z., Li, S., Deng, W.: Learning temporal features using lstm‑cnn architecture for face anti‑
spoofing。在： 2015 年第三届 IAPR 亚洲模式识别会议（ACPR）。第 141‑145 页。 IEEE (2015)
40. Yang, J., Lei, Z., Li, SZ：
学习用于人脸反欺骗的卷积神经网络。 arXiv 预印本 arXiv:1408.5601 (2014)
41. Yang, J., Lei, Z., Liao, S., Li, SZ: Face liveness detection with component dependent descriptor。
在： 2013 年国际生物识别会议 (ICB)。第 1‑6 页。
IEEE (2013)
42. Yang, X., Luo, W., Bao, L., Gao, Y., Gong, D., Zheng, S., Li, Z., Liu, W.：
人脸反欺骗：
模特很重要，
数据也是
如此。在： IEEE 计算机视觉和模式识别会议论文集。第 3507–3516 页（2019 年）
43. Zhang, Z., Yan, J., Liu, S., Lei, Z., Yi, D., Li, SZ：
具有多种攻击的人脸反欺骗数据库。
在：2012年第五届IAPR
国际生物识别会议
(ICB)。
第 26‑31 页。 IEEE (2012)

通过 Disentangled 进行人脸反欺骗

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

通过 Disentangled 进行人脸反欺骗

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

面对反欺骗。早期的研究集中在手工制作的特征描述器上，如 LBP [6,14,15,27]、

因为活性特征决定了图像的活性属性，我们假设Ab是图像 A 的恶搞版本，而Ba是图像 B 的真

LBP网深度网络层鉴别器

Llbp = Eli P (li), xi P (xi) kLBP (li) ‑ lbpxi k1

深度监督。深度图通常用作人脸反欺骗任务中的辅助监督。在我们的解缠结框架中，我们结合

Ldep = Exi N (xi) kDep (xi) ‑ 0k1 + Exi P (xi) kDep (xi) ‑ depxi k1 (5)

歧视性监督。为了确保生成图像的视觉合理性，我们对生成的图像应用判别式监督。判别监督

数据库。我们在四个人脸反欺骗数据库上测试我们的方法： Oulu NPU [9]、

实施细节。上述所有数据集都以视频格式存储。我们使用数据集中的人脸检测器或人脸位置文

辅助[24] 2.7 2.7 2.7

FaceDe‑S [18] 4.0±1.8 3.8±1.2 3.6±1.6

运动磁力 [3] 50.1% 47.0%

光谱立方体[31] 34.4% 50.0%

低功耗[35] 30.1% 35.6%

STASN[42] 31.5% 30.9%

FaceDe‑S [18] 28.5% 41.1%

辅助[24] 27.6% 28.4%

盆地[19] 23.6% 29.9%

18. Jourabloo, A., Liu, Y., Liu, X.：人脸去欺骗：通过噪声建模进行反欺骗。

28. Paszke, A.、 Gross, S.、 Chintala, S.、

You might also like

通过 Disentangled 进行人脸反欺骗

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

通过 Disentangled 进行人脸反欺骗

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

面对反欺骗。 早期的研究集中在手工制作的特征描述器上， 如 LBP [6,14,15,27]、

因为活性特征决定了图像的活性属性， 我们假设Ab是图像 A 的恶搞版本， 而Ba是图像 B 的真

LBP网 深度网络层 鉴别器

Llbp = Eli P (li), xi P (xi) kLBP (li) ‑ lbpxi k1

深度监督。 深度图通常用作人脸反欺骗任务中的辅助监督。 在我们的解缠结框架中， 我们结合

Ldep = Exi N (xi) kDep (xi) ‑ 0k1 + Exi P (xi) kDep (xi) ‑ depxi k1 (5)

歧视性监督。为了确保生成图像的视觉合理性， 我们对生成的图像应用判别式监督。 判别监督

数据库。 我们在四个人脸反欺骗数据库上测试我们的方法： Oulu NPU [9]、

实施细节。 上述所有数据集都以视频格式存储。 我们使用数据集中的人脸检测器或人脸位置文

辅助[24] 2.7 2.7 2.7

FaceDe‑S [18] 4.0±1.8 3.8±1.2 3.6±1.6

运动磁力 [3] 50.1% 47.0%

光谱立方体[31] 34.4% 50.0%

低功耗[35] 30.1% 35.6%

STASN[42] 31.5% 30.9%

FaceDe‑S [18] 28.5% 41.1%

辅助[24] 27.6% 28.4%

盆地[19] 23.6% 29.9%

18. Jourabloo, A., Liu, Y., Liu, X.： 人脸去欺骗： 通过噪声建模进行反欺骗。

28. Paszke, A.、 Gross, S.、 Chintala, S.、

You might also like

面对反欺骗。早期的研究集中在手工制作的特征描述器上，如 LBP [6,14,15,27]、

因为活性特征决定了图像的活性属性，我们假设Ab是图像 A 的恶搞版本，而Ba是图像 B 的真

LBP网深度网络层鉴别器

深度监督。深度图通常用作人脸反欺骗任务中的辅助监督。在我们的解缠结框架中，我们结合

歧视性监督。为了确保生成图像的视觉合理性，我们对生成的图像应用判别式监督。判别监督

数据库。我们在四个人脸反欺骗数据库上测试我们的方法： Oulu NPU [9]、

实施细节。上述所有数据集都以视频格式存储。我们使用数据集中的人脸检测器或人脸位置文

18. Jourabloo, A., Liu, Y., Liu, X.：人脸去欺骗：通过噪声建模进行反欺骗。