You are on page 1of 10

Machine Translated by Google

零样本人脸反欺骗的深度树学习

Yaojie  Liu,  Joel  Stehouwer,  Amin  Jourabloo,  Xiaoming  Liu  密歇根州立
大学计算机科学与工程系,
密歇根州东兰辛  48824  {liuyaoj1,  stay.jb,  
jourablo,  liuxm}@msu.edu

面具  1
抽象的 部分论文

人脸反欺骗旨在防止人脸识别系统将假人脸识别为真实用户。 在
打印
开发了先进的人脸反欺骗方法的同时, 新型欺骗攻击也在产生, 并成为
部分论文
对所有现有系统的威胁。 我们将未知欺骗攻击的检测定义为零射击人
脸反欺骗(ZSFA)。以前的  ZSFA  工作只研究了1‑2种类型的欺骗攻
击,
例如打印/重放, 这限制了对这个问题的洞察力。 在这项工作中, 我 重播

们调查了13种类型的欺骗攻击中的  ZSFA  问题,包括打印、 重放、  3D   透明的


面具
掩码等。提出了一种新颖的深度树网络(DTN), 以无监督的方式将
欺骗样本划分为语义子组。
化妆品
居住

已知的恶搞
未知的恶搞

图  1:
为了检测未知的欺骗攻击, 我们提出了一个深度树网络  (DTN),
以在无监督的情况下学习已知欺骗攻击的分层嵌入。 未知攻击的样本
当数据样本到达时, 无论是已知的还是未知的, DTN  将其路由到最相
将通过  DTN  路由并在目标叶节点进行分类。
似的欺骗集群,并做出二元决策。 此外,
为了能够研究  ZSFA,
我们引入
了第一个包含多种类型的欺骗攻击的人脸反欺骗数据库。 实验表明,
我们提出的方法在  ZSFA  的多个测试协议上达到了最先进的水平。 [ 4,18,20,32 ]。
近来, 高质量的3D自定义蒙版也被用于攻击, 即3D蒙版
攻击。 在[29‑31]  中,
发现检测打印/重放攻击的方法对于这种新的欺
骗效果不太有效, 因此作者利用远程光电容积描记法  (r‑PPG)  来检测
心率脉冲作为欺骗线索。 此外,面部化妆也可能影响识别的结果, 即化
妆攻击[12]。 许多作品[11‑13]研究面部化妆,尽管不是反欺骗问题。

一、
简介

人脸是最流行的生物识别方式之一,因为它使用方便,例如访问控
制、
电话解锁。尽管识别精度很高,但人脸识别系统无法区分真人脸和
所有上述方法都为已知的欺骗攻击提供了算法解决方案, 其中模
假人脸,例如照片、
屏幕。因此,
他们很容易受到面部欺骗攻击, 从而欺
型在相同类型的欺骗攻击上进行训练和测试。然而,
在现实世界的应用
骗系统将其识别为另一个人。为了安全地使用人脸识别,需要人脸反欺
中,
攻击者也可以发起我们算法设计者不知道的欺骗攻击, 称为未知
骗技术在执行识别之前检测欺骗攻击。
欺骗攻击1研究人员越来越关注反欺骗模型的泛化,即他们的能力如
何检测训练期间从未见过的欺骗攻击?我们定义概率
.

攻击者可以利用多种媒介发动欺骗攻击。 最常见的是在数字屏幕
上重放视频/图像, 即重放攻击和打印照片, 即打印攻击。基于手工制作
的特征[7,  35,  38]或基于  CNN  的特征,
提出了不同的方法来处理重放 1之间有细微的区别  1)  看不见的攻击,算法设计者已知的攻击类型, 因
此可以为他们量身定制算法, 但它们的数据在训练期间是看不见的;  2)
和打印攻击。 未知攻击,设计者既不知道也不在训练期间看到的攻击类型。 我们不区分
这两种情况,并将这两种情况都称为未知攻击。

1
Machine Translated by Google

将未知的面部欺骗攻击检测为零射击 ‧对零镜头面部反抗进行广泛研究
人脸反欺骗  (ZSFA)。
尽管面子成功 欺骗13种不同类型的欺骗攻击;
另一方面,
对已知攻击的反欺骗,
ZSFA, ‧提出深度树网络  (DTN)  来学习特征
对社区来说是一个新的和未解决的挑战。 分层并检测未知的欺骗攻击;
ZSFA  的第一次尝试是[3,  45]。
他们解决 ‧为  ZSFA  收集新数据库并实现状态
打印和重放攻击之间的  ZSFA,
并将其视为 在多种测试协议上具有最先进的性能。
活人脸(又名真人脸)
的异常值检测问题。
具有手工制作的特征,
活的面孔是
2.  前期工作
通过标准生成模型建模,
例如  GMM、
自动编码器。
在测试期间,
如果检测到未知
人脸反欺骗基于图像的人脸反欺骗是指
攻击,

面对仅将  RGB  图像作为输入而没有诸如深度或深度等额外信息的反欺骗技
它位于估计的实时分布之外。
这些  ZSFA

作品有三个缺点:
热。
早些年,
研究人员利用活性线索,
缺乏恶搞类型多样性:
开发了先有模型 例如眨眼和头部运动,
以检测大头钉处的打印[24,  36,  37,  39]。
然而,
当遇到未
仅适用于打印和重放攻击。
各自的特点 知的攻击时,
例如眼睛部分被切割的照片,
设计可能不适用于不同的未知攻击。
没有恶搞知识:
先前的模型只使用活人脸, 和视频回放,
这些方法完全失败了。
没有利用可用的已知欺骗数据。
尽管 后来,
研究转向更一般的纹理分析和
未知的攻击不同,
已知的欺骗攻击 解决打印和重放攻击。
研究人员主要利用
仍然可以提供有价值的信息来学习模型。 手工制作的特征, 例如  LBP  [7,16,17,35],  HoG  [25,47],
特征选择的局限性:
他们使用手工制作 SIFT  [38]和  SURF  [8],
使用传统的分类器, 例如,
诸如  LBP  之类的特征来表示活人脸,
这些特征是 SVM  和  LDA,
做出二元决策。
那些方法
显示对已知的欺骗检测不太有效[27, 在来自同一数据库的测试数据上表现良好。
32、
37、
48 ] 。
最近的深度学习模型[20,  32]显示了 然而,
在改变测试条件的同时,
例如
CNN  模型在人脸反欺骗方面的优势。 照明和背景,
它们通常会有很大的性能下降,
这可以被视为过度拟合的问题。
这项工作旨在解决所有三个缺点。 自从一
ZSFA  模型在未知情况下的表现可能不同 此外,
它们在处理3D  蒙版方面也表现出局限性
欺骗攻击是不同的,
应该在广泛的范围内进行评估 攻击,
在[30]中提到。
未知攻击类型的范围。
在这项工作中,
我们将  ZSFA  的研究从2种类型的恶搞扩 为了克服过拟合问题,
研究人员进行了各种尝试。  Boulkenafet  等人。

展到13种类型。
除了打印和重放攻击外,
我们还包括5种3D  蒙版攻击、  3种类 取HSV+YCbCR  空间中的欺骗特征[7]。
适用于[2,  5,  6,  18,  46]
型的化妆攻击和3种局部攻击。
这些攻击包括假冒欺骗,
即试图被认证为其他
人,
以及混淆欺骗,
即试图掩盖攻击者自己的身份。
我们收集第一人脸反欺骗 考虑时域中的特征。
近期作品[2,
4]通过使用图像补丁来增强数据,
并融合
从补丁到单个决策的分数。
对于3D  mask  at  tack,
估计心率以区分3D

来自真实面孔的面具[28,  30]。 在深度学习时代,研究人员提出了几
包含这些不同欺骗攻击的数据库,
称为 项  CNN  工作[4,  18,  20,  27,  32,  37,
具有多种攻击类型的  Wild  数据库中的欺骗 48]优于传统方法。
(SiW‑M)。 零样本学习和未知欺骗攻击零样本对象识别,
或更一般地说,
零样本学习,
旨在
为了解决更广泛的  ZSFA,
我们提出了一个  Deep  Tree 识别来自未知类的对象[40],
网络  (DTN)。
假设两者都是同质的
不同恶搞类型之间的特征和不同的特征 即,
训练中看不到的对象类。总体思路是
在每种欺骗类型中,
树状模型非常适合 通过语义关联已知和未知类
处理这种情况:
学习同质特征 嵌入,
其嵌入空间可以是属性[26],
早期树节点和后期树节点中的不同特征。 词向量[19]、
文本描述[49]和人类注视[22]。
在没有任何欺骗类型的辅助标签的情况下,
DTN  学会了 未知欺骗攻击的零样本学习,
即ZSFA,
以无监督的方式对数据进行分区。
在每个树节点, 是一个相对较新的话题,
具有独特的属性。
首先,
分区是沿着最大的方向进行的 与零样本目标识别不同,
ZSFA  强调
数据变异。
最后,
它将数据聚类成几个 检测欺骗攻击,
而不是识别特定的
叶级别的子组,
并学习独立检测每个子组的欺骗,
如图1所示。 恶搞类型。
其次,
与具有丰富语义嵌入的通用对象不同,
对于欺骗模式[20] ,

有明确定义良好的语义嵌入。
如中所述
在测试期间,
数据样本被路由到最相似的叶节点,
以产生实时与欺骗的二元决
策。 秒。  1,
之前的  ZSFA  工作[3,45]仅通过以下方式对实时数据进行建模
总之,
我们在这项工作中的贡献包括: 手工制作的特征和标准生成模型,
具有
Machine Translated by Google

表  1:
将我们的  SiW‑M  与现有的人脸反欺骗数据集进行比较。
编号。
的 面部变化 恶搞攻击类型表情灯光回 总数的
数据集 年
主题/视频。 摆姿势 放打印3D面具化妆部分 恶搞类型
CASIA‑FASD  [50]  2012 50/600 正面 不 不 1 2 0 0 0 3

重播‑攻击[15]  2012  50/1,  200 正面 不 是的 1 1 0 0 0 2

HKBU‑MARs  [30]  2016  35/1,  008 正面 不 是的 0 0 2 0 0 2

Oulu‑NPU  [9]  2017  55/5,  940  2018  165/4,  620   正面 不 不 1 1 0 0 0 2

硅W  [32] [−90◦ ,  90◦ ] 是的 是的 1 1 0   0   0   2


SiW‑M  2019  493/1,  630  [ ‑90  °,  90° ] 是的 是的 1 1 5 3 3 13

几个缺点。
在这项工作中,
我们提出了一个深度树 路由功能将所有访问数据沿
网络无监督地学习语义嵌入 数据变化最大的方向。  SFL  模块将分类监督和像素级连接起来
已知的欺骗攻击。
数据的分区自然
将某些语义属性与子组相关联。 监督学习欺骗特征。
在测试期间,
未知攻击被投射到
3.1。
无监督树学习
嵌入以找到最接近的属性以进行欺骗检测。
3.1.1  节点路由功能
深度树网络树结构通常有助于处理与语言相关的任务,
例如解析和
对于  TRU  节点,
假设输入  x  =  f(I  |  θ)  ∈  R  m
翻译[14],
由于词和词的内在关系 是矢量化特征响应,  I是数据输入,  θ是先前  CRU  的参数,  S是访问这个  
句子。
例如,
树模型应用于联合视觉和 TRU  节点的数据样本集Ik,  k  =  1,  2, ...,  K。
在[44]中,
语言问题,
例如视觉问题推理[10]。
树结构还具有学习特征的性质 熊等人。
定义一个路由函数为:
分层的。
人脸对齐工作[23,  41]利用

回归树从粗略估计面部地标 φ(x)  =  x ·  v  +  t, (1)
罚款。
熊等人。
提出一个树  CNN  来处理
大姿势人脸识别[44]。
在[21]  中,  Kaneko  等人。
提出一个带有决策树的   其中  v  表示投影向量,  τ是偏差。
数据
GAN,
以在可解释的表示中分层学习。
在我们的工作中,
我们利用树网络来学 然后S可以拆分为Slef  t :  {Ik|φ(xk)  <  0,  Ik  ∈  S}和
习  ZSFA  的潜在语义嵌入。 Sright :  {Ik| (xk)  ≥  0,  Ik  ∈  S},指向左边
和右子节点,
分别。
要学习这个功能,
面对反欺骗数据库的意义 他们建议最大化平均值之间的距离
研究人员发布了一个高质量的数据库 Slef  t和Sright,
同时保持S的平均值为中心
几个人脸反欺骗数据库,
如  CASIA  FASD  [50]、  Replay‑Attack  [15]、   0.  这种无监督损失被表述为:
OULU‑NPU  [9]  和 1
SiW  [32]用于打印/重放攻击,
以及  HKBU‑MARs  [30] (ñ 磷 φ(xk))2
Ik∈S
用于3D  面具攻击。  CASIA  FASD  和  Replay‑Attack  [50]等早期数据库的主 大号  =
1 1 , (2)
( NL 磷 φ(xk)  ‑ 不。 磷 φ(xk))2
题种类有限, Ik∈Sleft  _ Ik∈Sright
姿势/表情/照明变化和视频分辨率。
最近的数据库[9,30,32]改进了这些方面,
并且 其中N,  Nl ,  Nr表示每个集合中的样本数。
建立多样化的评估协议。
然而,
到目前为止,
所有 然而,在实践中,
最小化  Equ。  2可能不会导致
数据库专注于打印/重放攻击或3D  掩码 一个令人满意的解决方案。 首先, 损失可以通过以下方式最小化
攻击。
为了提供人脸反欺骗的全面研究,
尤其是具有挑战性的  ZSFA,
我们首先 增加  v  或  x  的范数,
这是一个简单的解决方案。
其次,
即使  v,  x  的范数受到约
束,
time  收集具有多种类型的欺骗攻击的数据库, 等。  2受数据S的密度影响,
可能对异常值敏感。
换句话说,
零期望
如选项卡中。  1.  我们数据库的详细信息在  Sec。  4.

φ(x)不一定会导致
3.  ZSFA  的深度树网络 数据S.  当所有数据都得到时,
可以达到局部最小值
DTN  的主要目的有两个:  1)
发现 分裂到一侧。
在某些情况下,
树可能会遭受
已知欺骗的语义子组;  2)
学习特征 折叠到几个(甚至一个)
叶节点。
以分层的方式。  DTN的架构如图所示 为了更好地划分数据,
我们提出了一种新的路由
图2.  每个树节点由一个卷积残差组成 函数和无监督损失。
无论x  之间的τ积如何 ,点

单元(CRU)
和树路由单元(TRU),
而叶子 并且  v  可以被视为将  x  投影到
节点由一个  CRU  和一个监督特征学习组成 v  的方向。
我们设计  v  使得我们可以观察到
(SFL)  模块。  CRU  是一个带有卷积层的块 投影后的最大变化。
受概念启发
和短路连接。  TRU  定义了一个节点路由 PCA的最优解自然成为最大的
将数据样本路由到其中一个子节点的函数。 数据  S  的  PCA  基础。
为此,
我们首先将  v  约束为
Machine Translated by Google

256×256×6
(RGB+HSV)



转 率






TRU

40 40 40
/2
(C)
克鲁斯 克鲁斯

TRU TRU
(二)
1
蒙版贴图
32×32×1

克鲁斯 克鲁斯 克鲁斯 克鲁斯





TRU TRU TRU TRU

克鲁斯 克鲁斯 克鲁斯 克鲁斯 克鲁斯 克鲁斯 克鲁斯 克鲁斯


fc fc
叶节点  
0/1






SFL SFL SFL SFL



SFL SFL SFL SFL 32×32×40

40 40
(一个) (d) 500 2

图  2:
提议的深度树网络  (DTN)  架构。  (a)  DTN的整体结构。 树节点由卷积残差单元  (CRU)  和树路由单元  (TRU)  组成,
叶节点由  CRU  和监督特征学习  
(SFL)  模块组成。  (b)  Tree  Routing  Unit  (TRU)  的概念:
寻找变化最大的基;  (c)  每个卷积残差单元  (CRU)  的结构;  (d)  叶节点中监督特征学习  
(SFL)  的结构。

为范数1并重新制定方程式。  1为: 这种不平衡会导致下一阶段的监督学习出现偏差。

φ(x)  =  (x  ‑  µ) v,  kvk  =  1, (3)
因此, 当我们计算  Equ。  5学习路由功能,
我们只考虑欺骗样本来构造
XS 。
其中  µ  是数据S  的平均值。 然后, 找到  v  与找到协方差矩阵X¯的最大特征
为了使每个叶子都有一个平衡的子组, 我们将实时数据的响应抑
向量相同
吨 N×K是数据 制为零, 以便所有实时数据可以均匀地划分到子节点。 同时,
我们还抑制了
小号
X ,  _ 其中X¯ =  XS  ‑  µ,  和XS  ∈  R
小号

吨 不访问该节点的欺骗数据的响应, 以便每个节点都对唯一欺骗子集的分
矩阵。
基于特征分析X¯  λv  的定义,
我们的优化旨在最大化: X S  v  =
小号
布进行建模。

电 吨
arg  最大v,th λ  =  arg  最大v,θ 视_ X 小号
X¯  S诉 (4)
形式上,
对于每个节点,我们最大化访问该节点的欺骗数据的路由函
数响应(表示为S),同时最小化其他数据的响应(表示为S‑ ), 包括所
学习路由函数的损失公式为: 有实时数据和不访问的欺骗数据。  t  访问该节点,
即访问相邻节点。为了
吨 吨 吨 实现这一目标,我们定义了以下损失:
Lroute  =  exp(−αv X X S  v)  +  βTr(X¯ X ) , 小号 小号
(5)

其中α,  β是标量,
在我们的实验中设置为1e‑3,  1e‑2 。
我们在第一项上应
用指数函数来使最大化问题有界。 第二项作为正则化项被引入, 通过约束 1 2 1 2
X¯的协方差矩阵的迹来防止平凡的解决方案 Luniq  =  ‑ X
T¯x  
k  v  _ + T¯x  
k  v  _ .  (6)
ñ N  ‑  X
Ik∈S Ik∈S−

年代。

3.1.2  已知欺骗树通过路由功能,
我们 3.2.监督特征学习
可以构建整个二叉树。 图2显示了一个深度为4的二叉树,有8个叶节点。
正 给定路由功能,
数据样本Ik将被签名到叶节点之一。 我们首先将叶节
如在第  2  节中提到的那样。  3、
树被设计成从所有已知的欺骗中找到语义 点的特征输出定义为F(Ik  |  θ),
为了简单起见,
缩写为Fk 。
在每个叶节点,
子组,
被称为欺骗树。 类似地,我们也可以只训练活人脸的活树, 以及同时 我们定义了两个节点级的监督任务来学习判别特征:  1)
二元分类驱动学
具有活数据和恶搞数据的通用数据树。 与欺骗树相比,实时数据树和通用 习对真人脸和恶搞人脸的高级理解,  2)
像素级掩码回归引起  CNN  的注
数据树有一些缺点。 活树对欺骗没有传达语义, 在每个节点学习到的属性 意到低层次的局部特征学习。
无助于路由和更好地检测欺骗; 一般数据树可能会导致不平衡的子组,其
中一个类别的样本数量超过另一个类别。

分类监督为了学习二元分类器,
如图  2(d)  所示,
我们在Fk上应用两个额
外的卷积层和两个全连接层来生成特征向量ck  ∈  R  500。
我们通过
Machine Translated by Google

1×1转化 连接三个具有40  个通道和1  个最大池化层的3  ×  3卷积层, 并将它们


& (),  16,16,20) 分组为一个卷积残差单元  (CRU)。 由于网络中的动态批量大小, 每个卷
(),  +, ,,  ‑) 积层都配备了  ReLU  和组归一化层[43] 。 我们还为每个卷积层应用了
调整大小
(),  +, ,,  20)
一个快捷连接。 对于每个树节点, 我们在  TRU  之前部署一个  CRU。 在叶
节点,DTN  将输入I的特征表示为F(I  |  θ)  ∈  R  32×32×40,
然后使用
(),  16×16×20) 重塑
一个1×1卷积层生成二进制掩码图M。
批量规范
无刻度

( $(&)
(),  1)
(),  16×16×20)

TRU # 树路由单元  (TRU)  TRU  是将数据样本路由到其中一个子  CRU  的模
块。
如图3  所示, 它首先使用1×1卷积层压缩特征, 并在空间上调整响应
图  3:
树形路由单元  (TRU)  的结构。 大小。 对于根节点, 我们将  CRU  特征压缩为x  ∈  R, 对于后面的树节点,
我们将  CRU  特征压缩为x  ∈  R  16×16×20。 将输入特征压缩到更小
softmax  交叉熵损失: 的尺寸有助于减轻计算和保存方程中协方差矩阵的负担。  32×32×10 第,
5.  例如,
1 一个  CRU  的矢量化特征是  x  ∈  R  655,360,  x  的协方差矩阵可以占
L类= X 用   400GB的内存。 然而, 压缩后的向量化特征是  x  ∈  R  10,240,  x  
ñ n  (1  ‑  yk)log(1  ‑  pk)  ‑  yklogpk  o  (7)
Ik∈S 的协方差矩阵只需要   0.1GB的内存。

exp(w1 ck)
PK  = , (8)
exp(w0 ck)  +  exp(w1 吨 ck)

其中S表示到达这个叶子节点的所有数据样本,  N表示S中的样本个
数,  {w0,  w1}是最后一个全连接层的参数,  yk是数据样本k的标签
(1表示spoof ,  和0活)。 之后, 我们将输出向量化并应用路由函数φ(x)。 在  Equ  中计算  µ。

图  3  所示,我们没有将其优化为网络的变量, 而是简单地应用批量标准
逐像素监督我们还将另一个卷积层连接到Fk以生成地图响应Mk  ∈   化层而不进行缩放来保存每个小批量的移动平均值。 最后, 我们将压缩
R  32×32。
受先前工作[32]的启发, 我们利用面部形状和欺骗攻击位置 后的  CRU  响应投影到最大基  v  上,
得到投影系数。然后我们将具有负
的语义先验知识来提供像素级监督。 使用密集人脸对齐模型[33],
我们 系数的样本分配给左子  CRU, 将具有正系数的样本分配给右子  CRU。
提供了一个二进制掩码Dk  ∈  R  32×32,
如图  4所示,
以指示欺骗媒体
的像素。 因此, 对于叶节点,逐像素监督的损失函数为:

实现细节与  Equ  中的整体损失。
如图  10  所示,我们提出的网络以端到
端的方式进行训练。
所有损失都是基于每个小批量计算的。  DTN模块和TRU模块交替优
1 化。
在优化  DTN  的同时,我们保持  TRU  的参数固定,反之亦然。
掩码= X  kMk  ‑  Dkk1 。 (9)
ñ
Ik∈S

总体损失最后,我们在p个叶节点上应用监督损失,
在q个  TRU  节点上
应用无监督损失,并将我们的训练损失表示为: 4.  野外数据库中的多个恶搞
攻击类型
为了专门针对未知攻击对人脸反欺骗方法进行基准测试, 我们收集
一世
j j 了具有多种攻击类型  (SiW‑M)  的野外欺骗数据库。 与以前的数据库相
L  =  Xp (a1L 类+α2L 我掩码)
+Xq (α3L 路线+α4L 统一),
我=1
比,
Tab.如图  1  所示,
SiW‑M  在欺骗攻击、
主体身份、
环境和其他因素方
j=1
(10)   面表现出极大的多样性。
其中,  α1,α2,α3,α4为每一项的正则化系数, 分别设置为0.001,  1.0,  
2.0,  0.001 。
对于4  层  DTN,  p  =  8和q  =  7。 对于欺骗数据收集, 我们考虑两种欺骗场景: 冒充,这需要使用欺骗
来识别为其他人, 以及混淆,这需要使用删除攻击者自己的身份。 我们总
3.3.网络架构
共收集了13种欺骗攻击的968个视频, 在图4  中分层列出。对于所有5  个
深度树网络  (DTN)  DTN  是主要框架, 如 掩码攻击、  3  个部分攻击、ob‑
256×256×6
的建议模型。 它需要I  ∈  R  put,
其中6个通道是  
RGB+HSV  颜色空间。 我们
Machine Translated by Google

半面罩  (12 /   硅胶  (12 /   透明  (88 /  88) 纸艺  (6 /  17) 人体模型  (12 /   混淆  (23 /  23) 冒名顶替。   化妆品   滑稽之眼   纸眼镜  (122 /   部分论文  (86 /  
直播   重播   打印  
72) 27) 40) (61 /  61) (37 /  50) (160 /  160) 127) 86)
(493 /  660) (21 /  99) (60 /  118)
3D  面具攻击 化妆攻击 部分攻击

图  4:
真人脸和  13  种欺骗攻击的示例。
第二行显示了像素级监督Dk  的地面实况掩码。
对于第三行中的(m,  n),  m/n表示每种数据类型的主题/
视频的数量。

融合化妆和化妆,
我们录制1080P高清视频。 对于模仿化妆,由于缺乏专 (APCER)  [1]、
善意表示分类错误率  (BPCER)  [1]、
APCER  和  BPCER  
门的化妆师,
我们从  Youtube收集720P视频。对于打印和重放攻击,我 的平均值、 平均分类错误率  (ACER)  [1]、
等错误率  (EER)  和曲线下面积
们打算从现有系统出现故障的更难案例中收集视频。 (AUC)。
请注意, 在评估未知攻击时, 我们假设在计算指标时没有验证集
来调整模型和阈值。 因此,
我们根据训练集确定阈值, 并为所有测试协议
修复它。 一个测试样本是一个视频帧, 而不是一个视频。
因此,
我们部署了一个现成的人脸反欺骗算法[32] ,
并在算法预测实时
时记录欺骗视频。

对于实时数据,
我们包括来自493  个主题的660  个视频。
相比之下, SiW‑M  中的受试者数量是Oulu‑NPU  [9]和  CASIA‑FASD   参数设置所提出的方法在  Tensorflow  中实现,并以0.001的恒定学习
[50]的9倍,
是  SiW  [32]的3倍。
此外,受试者的种族和年龄也各不相同。 率和32的批大小进行训练。 需要15  个epoch  才能收敛。 我们使用0均值
现场视频在3  个会话中收集:  1)一个房间环境, 在该环境中记录受试 和0.02标准差的正态分布随机初始化所有权重。
者的姿势、 照明和表情  (PIE)  等变化很少。  2)一个不同且更大的房间,
其中还记录了带有  PIE  变化的受试者。  3)手机模式, 在手机摄像头录
制的同时, 拍摄对象正在移动。 引入了极端的姿势角度和光照条件。 与打
5.2.实验比较5.2.1  消融研究所有消融研究
印和重播视频类似, 我们部署人脸反欺骗算法[32]来找出算法预测欺骗
的视频。 都使用“滑稽之眼” 协议。

不同的融合方法在所提出的模型中, 掩模图的范数和二进制欺骗分数都
可以用于最终分类。 为了找到最佳融合方法, 我们使用  map  norm、
softmax  score、
map  norm  和  softmax  score  的最大值以及两个值
的平均值来计算  ACER,分别得到31.7%、  20.5%、  21.0%和19.3% 。
因此,
这第三次会议是一个更难的情况。 由于掩码规范和二进制欺骗分数的平均分数表现最好, 我们将其用于剩
我们总共收集了1、 630  个视频, 每个视频持续5‑7秒。  1080P视频 余的实验。 此外,
我们将0.2作为计算所有实验的  APCER、 BPCER  和  
由罗技C920  we  bcam  和佳能  EOS  T6  录制。
为了使用  SiW‑M  研究   ACER  的最终阈值。
ZSFA,
我们定义了留一法测试协议。 每次我们用12种欺骗攻击类型加上
80%的直播视频训练一个模型, 并在左侧测试1种攻击类型加上20%的
直播视频。 实况视频的训练集和测试集之间没有重叠的主题。

不同的路由方法路由是找到最佳子组以检测测试样本的欺骗性的关键
步骤。
为了显示正确路由的效果, 我们评估了2种替代的本地路由策略: 随机
5.  实验结果5.1.实验设置数据库我 路由和选择一个叶子。
们在多个数据库上评估我们提出的 随机路由表示为测试样本随机选择一个叶子节点进行预测;  Pick‑
one‑leaf  de  notes  不断选择一个特定的叶节点来产生结果, 我们报告
方法。 我们在  SiW‑M  上部署了留一法测试协议, 并报告了13  个实验的
了8个选择的平均分数和标准偏差。 显示在选项卡中。  3, 两种策略的性
结果。 此外, 我们测试了以前的人脸反欺骗数据库, 包括  CASIA  [50]、  
能都比建议的路由功能差。 此外,
pick‑one‑leaf  策略的大标准差显示
Replay‑Attack  [15]和  MSU‑MFSD  [42]),
并与现有技术进行比较。 了8个子组在相同类型的未知攻击上的巨大性能差异, 并证明了适当路
由的必要性。

评估指标我们使用以下指标进行评估:  攻击表示分类错误率
Machine Translated by Google

表  2:  CASIA、
Replay  和  MSU‑MFSD  模型测试的AUC  (%) 。
决明子[50] 重放攻击[15] 密歇根州立大学[42]
方法 全面的
视频剪辑照片  变形照片  视频  数码照片  打印照片  打印照片  HR  视频  移动视频
OC‑SVMRBF  +BSIF  [3] 70.7 60.7 95.9 84.3 88.1 73.7 64.8 87.4 74.7 78.7  ±  11.7
SVMRBF  +LBP  [9] 91.5   91.7   84.5   99.1   98.2   87.3   47.7   99.5   97.6   88.6  ±  16.3
神经网络+腰痛[45] 94.2 88.4 79.9 99.8 95.2 78.9 50.6 99.9 93.5 86.7  ±  15.6
我们的 90.0 97.3 97.5 99.9 99.9 99.6 81.6 99.9 97.5 95.9  ±  6.2

s
表  3:
比较具有不同路由策略的模型。
N1
策略 亚普赛尔 BPCER 宏碁 荣誉

随机路由 37.1 16.1 26.6 24.7


摘一片叶子 51.2  ±  20.0  18.1  ±  4.9  34.7  ±  8.8  24.1  ±  3.1
N2
建议的路由功能 17.0 21.5 19.3 19.8

N3
表  4:
比较具有不同树损失的模型和
策略。 第2‑5行的前两个术语是指使用  live
或树学习中的欺骗数据。
最后一行是我们的方法。 N4

方法 APCER  BPCER  宏基  EER

MPT  [44] 31.4 24.2 27.8 27.3


N5
Live  data  √ ,  Spoof  data  √ ,  Unique  Loss  ×  Live   1.4 73.3 37.3 31.2
data  ×,  Spoof  data  √ ,  Unique  Loss  ×  70.0  Live  data  √ ,   12.7 41.3   44.8
Spoof  data  √ ,  Unique  Loss  √  54.2  Live  data  ×,  Spoof  data   12.5 33.4   36.2
N6
√ ,  Unique  Loss  √  17.0 21.5 19.3  19.8

每个损失函数的优势我们有三个重要的 N7

我们的无监督树学习中的设计:
路由损失Lroute,
用于计算路由损失的数据,
以及唯一损失 ‑ 0 +
卢尼克。 为了显示每个损失的影响和训练策略, 我们训练和比较排除了 图  5:
树形路由的可视化。
每个损失的网络
和替代策略。 首先,我们训练一个网络 阈值0.2来计算  APCER、 BPCER  和  ACER。
[44]中提出的路由功能,然后是4个模型 如表中所示。 如图  5  所示,我们的方法实现了更好的  APCER、
ACER  
打开和关闭不同的模块, 如选项卡所示。  4.  型号 和  EER,
基线分别提高了55%、  29%和5%。
具体来说,
我们减少
使用  MPT  [44]仅将数据路由到8个叶节点中的2  个(即
树崩溃问题), 这限制了性能。楷模 透明面具、 滑稽眼睛和纸眼镜的宏基
没有独特的损失表现出不平衡路由问题 31%、  61  %和51%,其中基线模型可以
无法正确训练子组。 模型使用 被认为是完全失败, 因为他们认识到大部分
学习树的所有数据都显示出比仅使用欺骗数据更差的性能。 最后,所提 攻击活。 请注意, ACER  在
出的方法执行 ZSFA  的上下文: 没有设置阈值的评估数据
所有选项中最好的。 获得  EER  的门槛差异很大
表现。 例如, 纸眼镜模型的  EER
5.2.2  现有数据库测试 基线和我们的方法相似, 但具有
按照[3]  中提出的协议, 我们使用  CASIA  [50], 预设阈值,
我们的方法提供了更好的  ACER。
Replay‑Attack  [15]和  MSU‑MFSD  [42]执行  ZSFA 此外, 所提出的方法更紧凑
重放和打印攻击之间的测试。 标签。  2比较 模型比[32]。 给定输入大小为256  ×  256  ×  6,
建议的方法, 其中前三种方法选自 基线需要87  GFlops  来计算结果,而
[3,  9,  45]中有超过20种方法。 我们提出的方法以令人信服的幅度优于 我们的方法只需要6  个GFlops  (×15小)。 更多分析显示在第  2  节
现有技术 中。  5.2.4。
7.3%, 我们较小的标准差进一步表明
在未知攻击中始终保持良好的性能。 5.2.4  可视化与分析

为了更好地理解树学习和
5.2.3  SiW‑M  测试
ZSFA,
我们以多种方式可视化结果。
首先,
我们
我们在  SiW  M  上执行了13  个留一法测试协议。 我们与两种最新的人脸 说明树路由结果。在图5  中,我们对
反欺骗方法[9,32]  进行比较, 并将[32]设置为基线, 基于路由函数值φ(x)  的欺骗数据,以及
提供8个例子,
从最小到最
已经在各种基准测试中展示了其  SOTA  性能。
为了与基线进行公平比 最大的。这让我们直观地了解了什么
较,
我们提供 在每个树节点处学习。
我们观察到一个明显的恶搞
相同的逐像素标记(如图4  所示),
并设置相同的 风格迁移:
对于前两层节点N1、  N2和N3,
Machine Translated by Google

表  5:
SiW‑M  测试的评估和比较。
面具攻击 化妆攻击半硅胶反式。 部分攻击
方法 指标  (%)  重播打印 平均
纸曼。
混淆。
冒名顶替。
化妆品  滑稽  眼睛  纸  眼镜  部分  纸
亚普赛尔 19.1 15.4  40.8 20.3   70.3  0.0  20.7   4.6 96.9   35.3 11.3 53.3   58.5 0.6 32.8  ±  29.8
BPCER 22.1 21.5  21.9  18.4   21.4 45.5  37.2 23.1   22.9   21.7   12.5   22.2 18.4   20.0   22.9   21.0  ±  2.9
SVMRBF  +LBP  [9]
宏碁 20.6   31.3  18.6  36.3 21.4   11.6   13.8   59.3   23.9   16.7   35.9   39.2   11.7   26.9  ±  14.5
荣誉 20.8 21.4 7.5 14.1 51.2 19.8 16.1 34.4 33.0 7.9 24.5  ±  12.9

亚普赛尔 23.7   7.3  27.7  18.2  6.5  10.9  11.6   97.8   8.3   16.2   100.0   18.0   16.3   91.8   72.2   0.4   38.3  ±  37.4
BPCER 10.1   6.9  19.3  14.9  4.3  11.6  12.4 6.2   7.8   9.3   11.6   9.3   7.1   6.2   8.8   10.3   8.9  ±  2.0
辅助[32]
宏碁 16.8   52.1   8.0   12.8   55.8   13.7   11.7   49.0   40.5   5.3   23.6  ±  18.5
荣誉 14.0 24.6 7.8 10.0 72.3 10.1 9.4 21.4 18.6 4.0 17.0  ±  17.7

亚普赛尔 1.0   0.0  0.7  11.9   24.5   58.6   0.5   3.8   73.2   13.2   12.4   17.0   17.0   0.2   17.1  ±  23.3
BPCER 18.6 29.3 12.8 13.4 8.5 23.0 11.5 9.6 16.0 21.5 22.6 16.8 16.6  ±  6.2
我们的
宏碁 9.8   6.0  15.0  2.1  14.4 18.7   36.0  4.5  26.5  5.7 7.7   48.1   11.4   14.2   19.3   19.8   8.5   16.8  ±  11.1
荣誉 10.0 18.6 9.6 50.2 10.1 13.2 19.8 20.5 8.8 16.1  ±  12.2

居住 9 9 1 11 16 28 13 13 居住 35 32 9 4 7 7 2 4
90 公司化妆品
重播 0 0 45 33 0 20 1 0 重播 0 2 15 0 35 47 0 1 我是。
化妆品
打印 0 3 11 78 0 6 2 0 打印 0 3 6 0 61 28 2 0 80 ob化妆品
半面罩
半面罩 3 6 24 4 0 21 42 0
半面罩 46 0 0 19 0 20 12 2
男人
70
硅胶面膜 0 3 20 17 0 54 5
硅胶面膜0 44 0 0 3 0 24 29 1
纸面具
反式。
面具 0 0 0 0 0 43 57
反式。  0(测试) 56 40 0 2 0 0 2 1 60 硅胶面膜
反式面具
纸面具 0 0 51 0 0 49 0
0 纸面具 1 0 0 46 0 38 15 0
50
男士 11 16 18 5 0 47 4 0 男士 1 1 0 56 0 15 27 1
重播 居住
鄂毕。
化妆品 0 4 14 0 0 79 3鄂毕。0
化妆品 96 0 0 0 0 4 0 0
40 有趣的眼睛 公司化妆品

我是。
化妆品 0 73 6 0 0 14 6 我是。
0化妆品 1 0 0 52 2 5 41 0 纸眼镜 我是。
化妆品
30 部分论文 ob化妆品
公司化妆 8 0 8 10 4 59 10公司化妆
1 17 1 0 56 0 12 15 0
半面罩
有趣的眼睛 2 0 0 1 34 0 27 有趣的眼睛
36 23 40 31 1 1 1 1 3 男人
20
纸眼镜 3 1 0 1 45 0 9
纸眼镜 41 11 74 7 0 2 1 2 3 纸面具
硅胶面膜
部分论文 91 0 0 0 8 0 0 0
部分论文 1 0 7 0 1 2 25 63 10
反式面具
直播(测试) 8 7 3 13 9 34 7
19 直播(测试) 44 29 3 1 8 8 2 6
0
打印
重播
叶  1叶  2叶  3叶  4叶  5叶  6叶  7叶  8 叶  1叶  2叶  3叶  4叶  5叶  6叶  7叶  8 有趣的眼睛
(一个) (二) 纸眼镜
部分论文

图  6:实时/欺骗数据的树形路由分布。  X  轴表示  8  个叶节点,
y  轴表
图  7:  DTN  叶特征的  t‑SNE  可视化。
示  15  种数据。
每个单元格中的数字代表落入数据的百分比  (%)
不同欺骗攻击之间的差异,
如表中所示。  5.
那个叶子节点。
每行总和为  1。  (a)  打印协议。  (b)  透明掩码协议。
黄色框
其中,
反式的表现。
面具,
有趣的眼睛,
纸眼镜和  ob。
化妆比其他协议差。
表示未知攻击。

转移捕获一般恶搞属性的变化 特征空间表明,
活样本存在很多
例如图像质量和色温;
对于第三层树节点N4、  N5、  N6和N7,
转 比其他攻击更接近这些攻击(“→”
位置),
因此
移涉及 很难将它们与实时样本区分开来。
这个

更多恶搞类型的具体变化。
例如,  N7从 展示了不同未知事物的多样性特性以及进行如此广泛评估的必要性。

眼睛部分恶搞到全脸3D  面具恶搞。
此外,
图6定量分析了树路由
6。
结论
各类数据的分布。
我们使用两种模型,
打印和翻译。
掩码,
生成分布。
它可以 本文解决了13种欺骗攻击中的零样本人脸反欺骗问题。
建议的方法
可以观察到,
活样本相对更分散
到8个叶节点,
而欺骗攻击被路由到更少 利用深度树网络路由未知攻击
特定的叶节点。
图6  (a)&(b)  中的两个分布共享 到最合适的叶节点进行欺骗检测。
树是
相似的语义子组,
这证明了所提出的方法在学习树方面的成功。
例如,
在 以无监督方式训练以找到特征库
以最大的变化来拆分欺骗数据。
我们收集
两种型号, 大约是反式的一半。
掩码样本共享 包含更多主题和恶搞类型的  SiW‑M
与  ob  相同的叶节点。化妆品。
通过比较两个分布,
两个模型中 任何以前的数据库。
最后,
我们通过实验证明
的大多数测试未知欺骗都是 所提出方法的优越性能。
成功路由到最相似的子组。 致谢本研究基于国家情报总监办公室  (ODNI)、
情报高级研究项目支持的工
此外,
我们使用  t‑SNE  [34]来可视化特征 作
打印模型的空间。  t‑SNE  能够投影叶节点F(I  |  θ)  ∈  R的输出
32×32×40
通过保留到2D 活动  (IARPA),
通过  IARPA  研发合同号2017‑
KL散度距离。
图7显示了特征 17020200004.此处包含的观点和结论
不同类型的欺骗攻击很好地聚集成8 是作者的,
不应被解释为必然代表官方政策或认可,
即使我们不提供任何辅助标签,
语义子组也是如此。
基于这些子组,
未知打印
攻击的特征很好地位于重放子组中 ODNI、
IARPA  或
美国政府。 美国政府被授权为政府目的重新制作和分发重印本
和硅胶面具,
因此被认为是恶搞。
此外,
通过可视化,
我们可以解释性能
尽管其上有任何版权注释。
Machine Translated by Google

参考
人脸反欺骗:
一种神经网络方法。
杂志
视觉传达与图像表示,
2016.  1,
[1]  ISO/IEC  JTC  1/SC  37  生物识别。
信息技术生物特征呈现攻击检测第  1  部 2
分:
框架。
国际标准化组织,
2016  年。
[19]  A.  Frome、
GS  Corrado、
J.  Shlens、
S.  Bengio、
J.  Dean、
T.
米科洛夫等人。 设计: 深度视觉语义嵌入
https://www.iso.org/obp/ui/iso。  6
模型。
在  NIPS,
2013  年。
2
[2]  A.  Agarwal、
R.  Singh  和  M.  Vatsa。
面对反欺骗我们 [20]  A.  Jourabloo、
Y.  Liu  和  X.  Liu。
人脸反欺骗:

Haralick  功能。
在  BTAS,
2016  年。
2 通过噪声建模进行欺骗。
在  ECCV,  2018.  1,  2
[3]  SR  Arashloo、
J.  Kittler  和  W.  Christmas。
人脸欺骗检测的异常检测方法: [21]  T.  Kaneko、
K.  Hiramatsu  和  K.  Kashino。
带有决策树潜在控制器的生成对
一种新的公式化和评估协议。  IEEE  访问,
5:13868–13882, 抗图像合成。
在  CVPR,
2018年。
3
2017.  2,  7 [22]  N.  Karessli、
Z.  Akata、
B.  Schiele、
A.  Bulling  等。  Gaze  embeddings  用
[4]  Y.  Atoum、
Y.  Liu、
A.  Jourabloo  和  X.  Liu。
使用基于补丁和深度的  CNN  进 于零镜头图像分类。
在  CVPR,
2017  年。
行面部反欺骗。
在  IJCB,
2017  年。 2
1,  2 [23]  V.  Kazemi  和  J.  Sullivan。
一毫秒人脸对齐
[5]  W.  Bao、
H.  Li、
N.  Li  和  W.  Jiang。
活体检测 与回归树的集合。
在  CVPR,
2014  年。
3
基于光流场的人脸识别方法在 [24]  K.  Kollreider、
H.  Fronthaler、
MI  Faraj  和  J.  Bigun。
实时人脸检测和运动
IEEE  图像分析和信号处理国际会议  (IASP),  2009.  2 分析与应用
活度评估。
在  TIFS,
2007  年。
2
[6]  S.  Bharadwaj、
T.  I  Dhamecha、
M.  Vatsa  和  R.  Singh。 [25]  J.  Komulainen、
A.  Hadid  和  M.  Pietikainen。
基于上下文
通过运动放大和多特征小视频聚合进行人脸反欺骗。
技术报告,
2014.  2 面对反欺骗。
在  BTAS,
2013  年。
2
[26]  CH  Lampert、
H.  Nickisch  和  S.  Harmeling。
学习
[7]  Z.  Boulkenafet、
J.  Komulainen  和  A.  Hadid。
基于颜色纹理分析的人脸反 通过类间属性传递检测看不见的对象类。
在  CVPR,  2009.  2
欺骗。
在  ICIP,  2015.  1,
2 [27]  L.  Li、
X.  Feng、
Z.  Boulkenafet、
Z.  Xia、
M.  Li  和  A.  Hadid。
[8]  Z.  Boulkenafet、
J.  Komulainen  和  A.  Hadid。
使用加速鲁棒特征和  Fisher   一种使用部分卷积神经网络的原始人脸反欺骗方法。
在  IEEE  国际会议上
向量进行人脸反欺骗
编码。  IEEE  信号处理快报,
2017  年。
2 关于图像处理理论工具和应用(IPTA),
2016.  2
[9]  Z.  Boulkenafet、
J.  Komulainen、 L.  Li、 X.  Feng  和  A.  Hadid。
OULU‑NPU: 移动人脸呈现攻击数据库 [28]  X.  Li、
J.  Komulainen、
G.  Zhao、
PC  Yuen  和  M.
¨
与现实世界的变化。 在  FG,  2017.  3,  6,  7,  8 皮特凯宁。 通过检测人脸视频中的脉冲进行广义人脸反欺骗。 在  ICPR,
2016  
年。
2
[10]  Q.  Cao、
X.  Liang、
B.  Li、
G.  Li  和  L.  Lin。
视觉问题
[29]  S.  Liu、
X.  Lan  和  PC  Yuen。
用于  3D  面罩面部呈现的远程光电容积脉搏波对
一般依赖树的推理。
在  CVPR,
2018年。
3
应特征
[11]  H.  Chang、
J.  Lu、
F.  Yu  和  A.  Finkelstein。  PairedCycle  GAN:
用于应用和
攻击检测。
在  ECCV,
2018  年。
1
移除的非对称样式迁移
[30]  S.  Liu,  B.  Yang,  P.  C.  Yuen,  and  Guoying  Zhao.  A  3D  mask  
化妆品。
在  CVPR,
2018年。
1
面对具有现实世界变化的反欺骗数据库。 在
[12]  C.  Chen、
A.  Dantcheva  和  A.  罗斯。
自动面部
CVPRW,  2016.  1,  2,  3
妆检测与人脸识别的应用。

[31]  S.  Liu、
PC  Yuen、
S.  Zhang  和  G.  Zhao。  3D面具脸
国际商业银行,
2013.  1
通过远程光电体积描记法进行反欺骗。
在  ECCV  中,
[13]  C.  Chen、
A.  Dantcheva  和  A.  罗斯。
面部化妆品对自动性别和年龄估计算法 2016.  1
的影响。
[32]  Y.  Liu、
A.  Jourabloo  和  X.  Liu。
学习深度模型
在  IEEE  计算机视觉理论与应用国际会议  (VISAPP),  2014.  1
用于人脸反欺骗: 二进制或辅助监督。 在
CVPR,  2018.  1,  2,  3,  5,  6,  7,  8  
[14]  X.  Chen、
C.  Liu  和  D.  Song。
树到树神经网络
[33]  Y.  Liu、
A.  Jourabloo、
W.  Ren  和  X.  Liu。
密集面对齐。
在  ICCVW,
2017.  5
用于程序翻译。  arXiv  预印本  arXiv:1802.03691,
2018.  3
[34]  L.  Maaten  和  G.  Hinton。
使用  t‑SNE  可视化数据。
[15]  I.  Chingovska、
A.  Anjos  和  S.  Marcel。
关于有效性 机器学习研究杂志, 9(11  ⽉): 2579–2605,
人脸反欺骗中的局部二进制模式。 在  BIOSIG  中, 2008.  8
2012.  3,  6,  7 ¨ ¨
[35]  J.  Ma¨att  ¨  a、
A.  Hadid  和  M.  Pietik  ainen。
使用微纹理分析从单个图像中
[16]  T.  de  Freitas  Pereira、
A.  Anjos、
JM  De  Martino  和  S.  Marcel。
基于  LBP‑ 进行人脸欺骗检测。 在
TOP  的人脸欺骗对策 IJCB,  2011.  1,  2
攻击。 在  ACCV,
2012.  2 [36]  G.  Pan、
L.  Sun、
Z.  Wu  和  S.  Lao。
来自通用网络摄像头的人脸识别中基于  
[17]  T.  de  Freitas  Pereira、
A.  Anjos、
JM  De  Martino  和  S. Eyeblink  的反欺骗。 在
马塞尔。
可以面对反欺骗的对策工作在一个 ICCV,  2007.  2  
现实世界的场景?
在  ICB,
2013.  2 [37]  K.  Patel、
H.  Han  和  AK  Jain。
具有强大特征表示的跨数据库人脸反欺骗。
在  
[18]  L.  Feng,  L.  Po,  Y.  Li,  X.  Xu,  F.  Yuan,  TC  Cheung,  and  K. CCBR,
2016  年。
祥。
图像质量和运动线索的整合 2
Machine Translated by Google

You might also like