You are on page 1of 13

Machine Translated by Google

新加坡管理大学

新加坡管理大学的机构知识

研究收集信息学院
信息系统学院
系统

10‑2015

看到你的脸是不够的:
基于惯性传感器
人脸认证的活体检测

Yan  Li  
新加坡管理大学 ,  yan.li.2009@phdis.smu.edu.sg

Yingjiu  LI  
新加坡管理大学 ,  yjli@smu.edu.sg

Qiang  YAN  
新加坡管理大学 ,  qiang.yan.2008@phdis.smu.edu.sg

Hancong  KONG  
新加坡管理大学 ,  hckong.2014@smu.edu.sg

罗伯特·H·邓
新加坡管理大学 ,  robertdeng@smu.edu.sg

关注此和其他作品:  https ://ink.library.smu.edu.sg/sis_research

信息安全共享的一部分

引文

李彦;
李英九;
闫强;
孔汉聪;
和  DENG,  Robert  H.。
看到你的脸是不够的:
基于惯性传感器的人脸验证活体检测。  (2015  年)。
CCS  15:诉讼程序
22日 ACM SIGSAC  会议 电脑和 通讯 安全, 丹佛, 10  月  12  日至  16  日 .

1558‑1569。
信息系统研究收集学校。
可在:
https://ink.library.smu.edu.sg/sis_research/2884

本会议论文集由新加坡管理大学机构知识信息系统学院免费开放获取。 它已被新加坡管理大学的机构知识授权管理员纳入信息系统
研究收藏学院。
欲了解更多信息,请发送电子邮件至  library@smu.edu.sg。
Machine Translated by Google

发表于  CCS   15: 第  22  届  ACM  SIGSAC  计算机和通信安全会议论文集,


科罗拉多州丹佛市,
10  月  12  日至  16  日,
第  1558‑1569  页  https://doi.org/
10.1145/2810103.2813612

看到你的脸还不够:
基于惯性传感器
人脸认证的活体检测

Yan  Li,  Yingjiu  Li,  Qiang  Yan,  Hancong  Kong,  Robert  H.  Deng  
新加坡管理大学信息系统学院
{yan.li.2009,  yjli,  qiang.yan.2008,  hckong.2014,  robertdeng}@smu.edu.sg  

抽象的 Pro  [11]  和  Visidon  [48]  对
对手伪造的基于媒体的面部伪造(MFF)
利用智能手机和平板电脑上的内置摄像头,
面部认证提供了一种有吸引力的旧密码替代
或重播包含受害者面部的照片/视频。
先前的研究
方案
显示,
在线社交网络中  53%  的面部照片,
例如
由于其无记忆的身份验证过程。
然而,
它有一个
像Facebook和Google+一样,
可以简单的用来恶搞这样的脸
针对基于媒体的面部伪造(MFF)
的内在脆弱性
认证系统[28]。
基于  MFF  的攻击造成了严重的
对手使用包含受害者面部的照片/视频
对现有人脸认证系统的威胁。
绕过人脸认证系统。
在本文中,
我们提出
为了防御基于  MFF  的攻击,
需要活体检测来区分活用户的合法面部生物特征和伪造
FaceLive,
一种实用且强大的活体检测机制
的面部生物特征  [3,24,26,36]。
在战斗中加强移动设备上的人脸认证
基于  MFF  的攻击。  FaceLive  检测基于  MFF  的攻击
已经提出了简单的活体检测技术来检测对手重放面部的基于照片的攻击
通过测量设备运动数据之间的一致性
惯性传感器和面部视频中的头部姿势变化
照片。
例如,
基于眨眼的方法和基于头部旋转的方法要求用户眨眼或旋转他们的眼睛
由内置摄像头拍摄。
从某种意义上说,
FaceLive  是实用的
它不需要任何额外的硬件,
只需要一个通用的前置摄像头、
一个加速度计和一个陀螺仪,
头  [24,  36]。
这种活体检测方法仍然是主题
这些在当今的移动设备上随处可见。  FaceLive  很强大
到更强大的对手重放的基于视频的攻击
预先录制的面部视频或多个修改后的图像,
包含
复杂的照明条件,
这可能会引入照明
所需的议案[38]。
并导致检测重要面部标志的准确性低;

提出了更先进的活体检测技术
在检测头部姿势时对一系列累积误差也具有鲁棒性
针对基于照片的攻击和基于视频的攻击。
例如,
基于面部热像图的方法分析来自红外相
人脸认证过程中的变化。
机的额外输入的热像图数据  [15]。

类别和主题描述符 基于光流分析的方法检查活体线索
D.4.6  [操作系统]:
安全和保护 身份验证;  K.6.5  [计算管理和 在理想的室内环境下拍摄的高质量图像/视频输入
光照条件[24]。
最近的一项研究工作通过准确检测鼻子的清晰边缘来阻止基于  MFF  的
信息系统]:
安全和保护 身份验证 攻击
需要受控的照明和清晰的鼻子外观  [8]。
然而,
由于现实世界的挑战,
例如

关键词
由于有限的硬件能力和不同的使用环境。
设备制造商不愿添加额外的硬件功能,
例如
活体检测;
人脸认证;
基于媒体的面部伪造
红外热像仪如果不是受到强劲业务需求的推动。
一、
简介 同时,
不同使用情况下的真实非理想照明条件
人脸认证已广泛应用于商业 环境可能导致输入图像/视频质量低下,
因为
移动设备的产品,
例如智能手机和平板电脑。
脸 到嘈杂的像素,
像素的损失,
照明等。
真实的照明
认证系统。
它提供了传统的潜在替代方案 也可能会减少重要面部标志的几何特征,
例如鼻子和眼睛,
并使其难以检测到
密码,
因为它不需要用户记忆,
同时提供更高的
面部认证中的面部标志。
用于识别用户的熵[34]。
不幸的是,
大多数现有
人脸认证系统,
包括人脸解锁  [16]、
人脸锁 为了应对这些挑战,
我们提出了  FaceLive,
一种惯性
基于传感器的人脸认证活体检测机制
在移动设备上。  FaceLive  可以检测到基于  MFF  的攻击
允许为个人或个人制作全部或部分本作品的数字或硬拷贝
只要不制作或分发副本,
就可以免费使用教室 包括基于照片的攻击和基于视频的攻击。
它确实
出于利润或商业利益,
并且副本带有本通知和第一页上的完整引用。
本作品组件的版权归他人所有 不需要任何额外的硬件,
但需要一个通用的前置摄像头、
一个加速度计和一个陀螺仪,

些都是移动设备上常见的。
为了阻止基于  MFF  的攻击,
FaceLive
ACM  必须得到尊重。
允许以信用摘录。
以其他方式复制或重新发布、
在服务器上发布或重新分发到列
表,
需要事先获得特定许可
通过测量实时用户面部的  3D  特征来检测
和/或费用。
从  Permissions@acm.org  请求权限。
CCS 15,
2015  年  10  月  12‑16  日,
美国科罗拉多州丹佛市。
从捕获的面部视频估计的头部姿势变化与从惯性估计的运动之间的一致性
c  2015  年  ACM。  ISBN  978‑1‑4503‑3832‑5/15/10 ...15.00  美元。
DOI:
http://dx.doi.org/10.1145/2810103.2813612。

1558
Machine Translated by Google

传感器。
为了验证输入确实来自现场用户,
FaceLive  要求用户只需将移动设备放在他/她 在理想照明条件下输入视频,
这在实践中可能难以实现。
与这些作品相比,
FaceLive  从通
的脸前一小段距离,
同时设备上的前置摄像头会捕获有关用户的面部和惯性传感器同时 用相机中拍摄视频,
这在实践中很容易实现。
记录有关设备的运动数据

另一方面,
可以在人脸的相对运动中检测关于真实人脸的  3D  特征。
芬德林等人。
建议
同理。
如果面部视频中头部姿势的变化与设备运动一致,
则检测到现场用户。 在人脸认证中使用多个人脸视图。
然而,
如果对手获得足够的具有特定面部视图的合格面
部图像  [12],
所提出的解决方案仍然容易受到基于  MFF  的攻击,
而  FaceLive  在这种情
我们进行了用户研究以验证所提出的活性检测机制。 我们从合法的身份验证请求和 况下是安全的,
除非对手能够获得合格的视频和生成一致的设备运动数据。
陈等人。
检查
基于  MFF  的攻击中收集真实的视频数据和惯性传感器数据。
我们在各种场景中测量   了  3D  特征
FaceLive  的等错误率  (EER),
包括在现实世界光照条件下未能成功检测部分面部标志,
以及在活体检测中对头部姿势变化的不准确估计。
实验结果表明,
FaceLive  可以在代表
不同环境的所有测试场景中以较低的  EER  率有效检测基于  MFF  的攻击,
这表明了  
FaceLive  的实用性和鲁棒性。 假设一张真实的脸有一个  3D  鼻子  [8],
活体检测中的鼻子抽动。
为了确定用户的活跃度,
活跃度检测机制将加速度计测量的手机方向变化与摄像头视频中观察到的清晰鼻缘变化
之间的相似度进行比较。
然而,
为了产生清晰的鼻边缘,
需要控制照明来投射鼻子的阴影而
没有任何遮挡。
在无法控制照明的情况下,
这在实践中可能难以实现。
对于扁平鼻子的人来
说,
活体检测机制的有效性也有限。
与这项工作相比,
FaceLive  可用于复杂的照明条件,

且由于在活体检测中使用了多个面部标志,
因此对于部分面部标志(包括鼻子、
眼睛和嘴
巴)
的不成功检测具有鲁棒性。
2.  相关工作
文献中已经提出了各种用于面部认证的活体检测技术。
我们根据活跃度指标的类型对
它们进行了总结,
包括多模态、
纹理模式、
3D人脸和实时响应。

基于多模式的活体检测方法在用户身份验证中考虑了面部生物特征和其他生物特征。

基于实时响应的方法需要与用户实时交互。
潘等人。
要求用户眨眼以检测活性[36]。  
罗等人。
提出了一种基于多模式的技术,
该技术需要相机和指纹扫描仪将面部认证和指纹
VeriFace  是一种流行的人脸认证软件,
它要求用户旋转头部以验证其活跃度  [27]。
不幸
认证融合在一起[40]。
怀尔德等人。
在身份验证过程中,
从推断的相机中获取面部热图,

的是,
这些方法受到基于视频的攻击,
对手可能伪造或重播包含所需交互的面部视频
从通用相机中获取面部生物特征[15,49]。
与上述依赖于很少部署在移动设备上的硬件传
[38]。  FaceLive  可以有效地检测到此类基于视频的攻击。
感器的方法不同,
我们的方法需要一个前置摄像头、
一个加速度计和一个陀螺仪,
这些在当
今的移动设备上无处不在。

基于纹理图案的活体检测技术假设打印的假人脸包含可检测的纹理图案,
这是由于打
3.  预赛
印过程和打印的材料所致。
马塔等人。
基于从单个图像中提取的本地二进制模式确定用户
的活跃度  [29]。  IDIAP  团队将面部视频作为输入,
并从视频中每个提取的帧中提取局部
3.1  人脸认证
二进制模式,
以便为视频构建全局直方图。
人脸的活跃度是基于全局直方图[7]确定的。 作为最有前途的基于生物特征的用户身份验证之一,
面部身份验证基于从用户面部的
图像/视频中提取的面部特征来验证用户声称的身份。
典型的人脸认证系统通常由人脸验
证子系统和活体检测子系统两个子系统组成,
如图1所示。

基于纹理图案的技术通常需要在理想照明条件下拍摄的高质量照片/视频,
这在实践中可
能难以实现。
相比之下,
FaceLive  采用中等质量的输入视频,
可以在不同的照明条件下捕 面部验证子系统通过摄像头将用户的面部图像/视频作为输入,
并使用已注册的面部
获。 生物特征来验证其声称的身份。
如果输入的面部图像/视频与声明的身份匹配,
则该子系
统接受用户,
否则拒绝用户。
在验证过程中,
涉及到两个关键模块,
包括人脸检测模块和人
脸匹配模块。
人脸检测模块识别人脸区域并去除图像的不相关部分,
然后将处理后的图像
3D  人脸活跃度指标是基于真实的 传递给人脸匹配模块。
人脸匹配模块通过将图像与注册的人脸模板进行比较来计算输入
人脸是具有深度特征的  3D  对象。  3D人脸特征的检测通常与光流分析和人脸视图的变 图像的相似度分数,
并确定它们是否属于同一个人。
由于人脸验证子系统旨在从输入的面
化有关。  3D人脸具有光流特性,
即人脸中心部分的运动速度高于外表面区域[24]。
沿着 部图像/视频中识别用户,
并且无法检测伪造的生物特征,
因此它本质上容易受到基于媒体
这条线,
鲍等人。
提出了一种活体检测,
它分析从整体  3D  人脸生成的光流的特性  [3]。 的面部伪造  (MFF)  的攻击,
其中对手伪造或重放受害者的面部图像/视频。

除了整体面部外,
在活体检测的光流分析中还研究了局部面部标志。
吉等人。
提出了一种基
于眨眼形状变化的活体检测算法,
用于光流计算[23]。  Kollreider  等人。
提出了一种活体
检测算法,
该算法分析检测耳朵、
鼻子和嘴巴的光流[26]。
然而,
基于光流分析的方法通常
需要高质量
活体检测子系统旨在防止基于  MFF  的攻击。
活体检测区分现场用户的面部和从面部
图像/视频中伪造的面部。

1559
Machine Translated by Google

实时, 而假脸很难做到这一点。特别是,
眨眼和头部旋转是两个典型的基于实
时响应的活跃度指标, 已用于流行的面部认证系统,如谷歌的  FaceUnlock  
[16]。
这些活体检测机制不需要额外的硬件;
它们以中等的图像质量工作, 并产
生相对较低的可用性成本。

它们可以有效地检测基于照片的攻击;
但是,
它们仍然容易受到基于视频的攻
击。
由于大量的个人照片和视频在网上发布,针对人脸认证系统的基于视频的
攻击带来了重大的安全风险。
这些照片和视频很可能包含面部运动, 例如眨眼
和头部旋转,
这是人类的自然生理行为。更糟糕的是, 面部动作可以通过一张
静态面部照片进行动画和合成,从中估计出动态  3D  面部模型  [1,50]。

图1:
典型人脸认证系统的工作流程 因此,
活体检测防御基于视频的攻击非常重要。

我们提出的活体检测机制  FaceLive  旨在防止基于照片的攻击和基于视频
活体检测子系统通常使用摄像头或/和其他附加传感器在面部认证期间捕获 的攻击。  Face  Live  通过测量移动设备的运动和相应的头部姿势变化之间的
有关活体用户的数据。
捕获的数据由该子系统中的两个关键模块进行分析,包 一致性来检测攻击。 当用户在他/她的脸前移动移动设备时, 移动设备移动的
括活性指标特征提取和伪造检测。活体指标特征提取模块将捕获的原始数据 惯性传感器数据和头部姿势变化的面部视频会同时被记录下来。
作为输入,
提取特征信息用于活体检测。根据信息的特征,伪造检测模块计算
活跃度分数并确定它是否来自实时用户。

在本文中,假设攻击者在基于视频的攻击期间可以获取并重放包含连续
头部姿势变化的用户面部视频。为了进行攻击,
攻击者需要手持并移动移动设
备,
以生成惯性传感器数据与面部视频进行比较。 根据对手的动作,
基于视频
最后,基于来自两个子系统的决策,
人脸认证系统做出最终决定是接受还 的攻击分为随机移动攻击和模仿移动攻击。对于随机移动攻击,攻击者随机移
是拒绝认证声明。 动移动设备以生成惯性传感器数据。对于模仿移动攻击,更强大的对手观看面
部视频并尝试相应地移动手机以模仿与视频相关联的移动设备的移动。  5.1  
节给出了关于这些攻击的更多细节。
3.2  基于媒体的面部伪造和威胁模型

基于媒体的面部伪造(MFF) 意味着用户的面部生物特征可以通过包含用
户面部的照片或视频来伪造。  MFF  对面部认证系统构成严重威胁,
因为对手
可能会伪造或重放面部照片/视频以欺骗面部认证。

人脸认证系统在其人脸验证过程中存在针对基于  MFF  的攻击的内在漏洞。
4.  设计概述
如图  1  所示,面部验证子系统从输入的面部照片/视频中识别用户。但是,它无 FaceLive  是一种活体检测机制, 基于测量用户面部视频与用户移动设备运
法区分输入的面部照片/视频是来自现场用户还是来自同一用户的预先录制的 动数据之间的一致性, 防止基于  MFF  的移动设备人脸认证系统攻击。
照片/视频。 因此,活体检测被引入到人脸认证系统中,以阻止基于MFF的攻击,
包括基于照片的攻击和基于视频的攻击。
视频和运动数据分别由前置摄像头和设备上的惯性传感器同时且独立地捕
获。
如果现场用户提出认证请求,则从面部视频估计的头部姿势的变化应该与
从运动数据估计的设备运动一致。

活体检测的目的是区分从现场用户新鲜获取的面部生物特征和从用户面部
照片/视频中伪造的面部生物特征。 活体检测通常是基于可以从人类生理活动
中获得的活体指标来进行的。 活跃度指标有四种主要类型, 包括多模态、纹理 FaceLive  基于  3D  人脸检测验证输入面部生物特征的活跃度,
这是一个
模式、3D  人脸和实时响应  [24]。
多模式通常要求用户提供面部生物特征和任 活跃度指标  com
何对手难以同时获得的额外生物特征。 假设打印的假脸包含某些在真实脸中 如第  3  节所述,
被许多活体检测机制广泛使用。
为了执行活体验证,用户需要在
不存在的纹理图案, 则纹理图案可以用作活跃度指标。  3D  人脸指示符是基 他/她的脸前握住并移动移动设备一小段距离。 在这个过程中,设备上的前置
于以下事实定义的: 真实人脸是具有深度特征的  3D  对象,
而照片/视频中的 摄像头从不同的摄像头角度捕捉用户面部的视频。 同时,
设备上的惯性传感器,
假人脸是平面  (2D)。 包括加速度计和陀螺仪,
同时记录设备运动的运动数据。如果真实的  3D  面部
在设备前面,
则可以在面部视频中观察到与设备移动相关的用户头部姿势的变
化。

最后,
在合法用户可以与系统交互的假设下,
实时响应可以用作活跃度指标 FaceLive  由三个模块组成, 包括  Device  Motion  Estimator  (DME)、
Head  
Pose  Estimator  (HPE)  和  Consistency

1560
Machine Translated by Google

分析仪  (CA),
如图  2  所示。DME  模块将加速度计的加速度值和陀螺仪的角速 加速度计测得的加速度值可能会受到重力效应和人体生理性手颤的影响。
度作为输入, 并将输入数据转换为表示设备随时间移动的运动矢量。  HPE   为了减少这些因素的影响,
我们对原始加速度数据进行了预处理,如下所述。
模块从面部视频中提取多个帧, 并估计这些帧中的头部姿势。 随着时间的推
移,
这些头部姿势的估计角度将被转换为头部姿势向量。  CA  模块比较运动
向量和头部姿态向量, 并提取两个向量之间的相关特征。 基于提取的特征,CA   一方面, 由于重力效应, 即使设备处于静止状态, 移动设备上的加速度计也
模块使用分类算法来区分实时用户和基于  MFF  的攻击。 这些模块的详细信息 会以指向地球中心的方向读取  9.8m/s2  的加速度。 为了隔离和消除重力的影
在本节的其余部分中给出。 响, 我们应用了低通滤波器和高通滤波器  [6]。 更具体地说, 设RAti  =  (rax,ti ,  
ray,ti ,  raz,ti )  是时间ti的原始加速度值,  Gti  =  (gx,ti ,  gy,ti ,  gz,ti )  是估计
的重力贡献时间ti。 应用低通滤波器, 我们得到了孤立重力的估计:

Gti  =  α  ·  Gti−1  +  (1  ‑  α)  ·  RAti (1)

其中  α  是平滑因子。
根据我们的实验结果,
滤波器在  α  =  0.8  时表现最佳。

后,
通过应用高通滤波器从原始加速度值中去除估计的重力:

F  Ati  =  RAti  ‑  Gti (2)

其中  F  Ati  =  (f  ax,  ti ,  fay,  ti ,  f  az,  ti )  是滤波后的加速度值。

另一方面,当用户手持移动设备时, 设备的轻微不自主运动总是由于用户的
生理性手颤而发生。生理性手颤通常是由肌肉收缩和松弛、 呼吸、 动脉搏动或
其他身体部位的运动引起的[46]。
因此, 某些噪声被引入加速度数据中。 为了消
除不自主运动的影响,我们将阈值  h  应用于滤波后的加速度值  F  Ati 。
图  2:
FaceLive  主要由设备运动估计器、
头部姿态估计器和一致性分析器组

4.1  设备运动估计器
如果一个加速度值  f  as,  ti  <h  (f  as,  ti  ∈  F  Ati ,  {x,  y,  z})  成立,s  ∈
设备运动估计器  (DME)  利用加速度计和陀螺仪生成的运动数据, 这两种惯 则认为它是非自愿运动的结果并设置为  0。 因此我们有预处理的加速度Ati  =  
性传感器广泛用于移动计算设备。 基于运动数据,
DME  估计设备的运动并输 (ax,  ti ,  ay,  ti ,  az,  ti )
出设备随时间运动的运动矢量。

(3)
0
运动数据包括加速度值和角速度以及轴  Z) as,  ti  =  (f  as,  ti  f  as,  tf为,
i  ≥  hti  <h
Y  轴分别由加速度计和陀,
在三个正交轴上(即  X  轴、
螺仪记录的惯性传感器坐标系。 移动设备上的典型惯性传感器坐标系是相对 其中  s  ∈  {x,  y,  z}。
在我们的实验中,
当  h  =  0.23m/s2  时可以实现最佳估计。
于设备的屏幕定义的, 如图  3  所示。在系统中,
X轴和Y轴在屏幕表面的同一平
面内,
Z轴垂直于屏幕表面, X轴水平且指向右侧。 基于预处理的加速度和角速度, 我们使用航位推算算法估计设备运动[25]。
给定加速度读数as,ti‑1和as,ti其中  s  ∈  {x,  y,  z},
在时间ti‑1和ti期间每个轴上
的运动是基于加速度数据通过双积分计算的。 梯形规则用于近似计算两个阶
段的双积分[44]。
在第一阶段, 在时间ti时轴  s  上的速度vs,ti由下式获得
Y  轴是垂直的并指向上方。  Z  轴指向前表面的外侧。

vs,  ti  =  vs,  ti  ‑  1  cos  φs,  ti  +  (as,  ti  ‑  1  +  as,  ti )  (ti  ‑  ti  ‑  1) /  2  (4)
其中vs,ti−1是时间ti−1的速度, 而 s,ti是区间(ti−2,  ti−1)中坐标系  L  的
轴  s  之间的角度(ti−1 ,  ti)。
和坐标系  L  的轴  s  注意  cos   s,ti可以根据陀螺
0
度速度vs,t0假定为0, 因为在时间t0设备移动尚未开始。 仪记录的角速度计算。
在第二阶段, 时间ti在
初始速
轴  s  上的移动距离ds,ti−1可以计算为

ds,  ti  =  (vs,  ti  ‑  1  cos  φs,  ti  +  vs,  ti )  (ti  ‑  ti  ‑  1) /  2 (5)
图  3:
手机上典型惯性传感器的坐标系 令Rti  =  (rx,ti ,  ry,ti ,  rz,ti )  为陀螺仪产生的角速度。
可以计算沿每个轴的
旋转角度

1561
Machine Translated by Google

由梯形规则积分逼近如下 其中  f  in  A  是以像素为单位的相机焦距,
而(cx,  cy)是以像素为单位的  2D  图像的中心
点。  3D  点坐标是从预先获取的  3D  人脸模型中获得的。
θs,  ti  =  (rs,  ti  ‑  1  +  rs,  ti )  ·  (ti  ‑  ti  ‑  1) /  2其中  s  ∈   (6)

{x,  y,  z}。
注意(θx,  ti ,  θy,  ti ,  θz,  ti )  也称为  Car  dan  角,
这是  3D  坐标系旋转的典型特
征  [47]。
那么,
我们有

cos  φx,  ti  =  cos  θy,  ti  ·  cos  θz,  ti  
cos  φy ,  ti  =  cos  θx,  ti  ·  cos  θz,   (7)
ti  cos  φz,  ti  =  cos  θx,  ti  ·  cos  θy,  ti

我们可以通过结合方程(5)
和方程(7)
来估计移动距离ds,ti‑1 。
在本文中,
我们排除了
沿  Z  轴的移动,
因为这样的移动不会改变  3D  面部的视图,
而只会放大/缩小照片中单个
面部视图的大小。
最后,
DME在t0和tm之间为  X  轴和  Y  轴输出一个设备运动矢量(Dx,  
Dy) ,
其中Ds  =  (ds,t1 ,  ds,t2 , ...,  ds,tm)和  s  =  {x,  y }。

图  4:
头部姿态估计算法使用的面部标志

4.2  头部姿势估计器
当移动设备在用户面前移动时,
设备上的摄像头会以不同的摄像头角度捕捉用户面部
因此,
给定一组  2D  人脸视频帧中的人脸界标位置和  3D  人脸模型中对应的  3D  坐标,
的多个视频帧。
由于人脸的  3D  特性,
可以在视频帧中观察到人脸的不同视图(即头部姿 头部姿态估计算法可以估计旋转矩阵  R  和平移向量  T。
基于  R  的估计和  T,
可以计算帧中
势)。
头部姿势估计器  (HPE)  分析面部视频中的帧并估计这些帧中的头部姿势。
这些头 头部姿势的  3  个自由度(3DoF) [35]。 头部姿势的  3DoF  表示头部相对于前头部姿势从三
部姿势的变化应该与设备运动相关。  HPE  计算表示头部姿势随时间变化的头部姿势向 个旋转角度的旋转, 包括  Y  aw、
Pitch  和  Roll,
如图  5  所示。
我们使用  Y  aw  和  Pitch  是由
量。 移动设备的水平移动(沿  X  轴)
和垂直移动(沿  Y  轴)。
我们不使用  Roll,
因为它对  3D  人
脸检测没有贡献。
头部姿势变化向量来自输入面部视频的  n  +  1  帧,
标记在  0  和  n  之间,

示为(Hyaw,  Hpitch),
其中Hw  =  (βw,1,  βw,2, ...,  βw,n)  βw,i是第  i‑1  帧和第  i  帧中  w  
=  {yaw,  pitch}  的头部姿势之间的差异。

为了估计面部视频帧中的头部姿势,
HPE  采取两个步骤:
面部地标定位和头部姿势估
计。
第一步,
在每一帧中定位一组面部标志,
包括左/右眼的内/外角、
鼻子、
左/右唇角和下
面部轮廓,
如图4所示。
我们使用FaceTracker ,
一个开源库,
可以实时自动提取这些面部
标志的位置。

FaceTracker  是约束局部模型  (CLM)  的一种实现,
它利用子空间约束均值偏移算法来优
化  CLM  拟合并最小化所有面部标志的错位误差  [41]。
这些面部标志的位置将被输入到
下一步的头部姿势估计算法中。
在第二步中,
我们使用  2D  头部姿态估计算法  [35,  39]  估
计帧中的头部姿态。
该头部姿态估计算法具有2.9实时自动估计过程的理论平均误差低、
身份独立特征等优点。
头部姿势估计算法使用透视变换分析从  3D  坐标系(即相机)
到  
2D  坐标系(即图像)
的点的投影  [35,  39]。
给定  3D  坐标系中人脸的一组点以及这些点
在  2D  坐标系中的投影,
两个系统之间的变换可以用以下等式估计:


,

图  5:
3DoF  中的头部旋转  [33]

m~  =  A[R|T]M~  其 (8) 4.3  一致性分析器基于来自  DME  的设备运动向量


(Dx,  Dy)和来自  HPE  的头部姿态变化向量(Hyaw,  Hpitch) ,
一致性分析器  (CA)  检查
中  m~  =  (uv  1)T是齐次坐标中的二维点  (u,  v)           
两个向量之间的相关性,
并使用分类器做出最终决定基于
f  0  cx  0  f  cy  
用餐,
A  = 0  0  1 是内部校准矩阵,

相关性。
r11  r12  r13

R  = r21  r22  r23 是一个旋转矩阵,
T  =  (t1  t2  t3) 4.3.1  相关分析
r31  r32  r33 当用户手持移动设备并在真实人脸前移动一段距离时,
可以在人脸视频中观察到人脸
是平移向量,
M~  =  (xyz  1)T是齐次坐标中的  3D  点  (x,  y,  z)。  A  可以从相机中获得 视图的变化。
特别是水平运动

1562
Machine Translated by Google

设备的垂直运动(沿设备的  X  轴)会导致偏航角的变化, 而设备的垂直运动(沿 rmin  =  min{rt1 ,  rt2 , ...,  rtN }  和标准差rsd  =


设备的  Y  轴)
会导致俯仰的变化。设备运动的距离  d  可以与头部姿势的角度差  γ  
相关,
其几何关系如下: q  1/N  ·  PN  i=1( rti  ‑  rmean)  2。

4.3.2  分类
在相关性分析中,生成一组特征参数,
用于测量设备运动向量和头部姿态变化
d  =  γ·  DFD (9) 向量之间的相关性。
特征参数

*
其中DFD是设备上的摄像头与用户面部之间的距离。
由于人脸的大小不同,  DFD 如表  1  所示。
特别是,
DTW  翘曲距离  c p
的值很难从人脸视频中准确估计。 测量设备运动向量和头部姿势变化向量之间的相似性, 其幅度或时间可能会发生
变化[32]。
因此,
我们引入了一种基于合成相机的技术,
将头部姿势变化矢量转换为合成相机 平均比率rmean、 最大比率rmax 、
最小比率rmin和比率rsd的标准变化是基本描
运动矢量,
并将其与设备运动矢量进行比较。因此,
相关分析需要三个步骤,
包括合 述性统计数据,用于总结相关分析中两个输入向量之间的比率值  [30]。
设备dx  (或
成相机运动矢量转换、
数据对齐和相关特征提取。 dy)
的累积偏移和合成相机d(或d )
的累积偏移

0 0
X y)  描述设备和合
成相机的总移动距离。
第一步, 我们通过合成相机将头部姿态变化向量转换为运动向量。 合成相机是 所有这些特征参数都被输入到分类算法中,
以确定输入的运动数据是否与输入的
一种假想的相机, 它始终与移动设备同步移动和捕捉面部视频。 合成相机和人脸之 面部视频匹配,
以进行活体验证。
间的距离假定为  D, 这可能与真实距离DFD  不同。
更具体地说,
在每个时间间隔
(ti−1,  ti)  中,
合成相机运动总是导致与真实设备运动相同的头部姿势变化。 设备
0

运动的轨迹可以近似为圆心位于  3D  面部中心的圆弧。 由于合成相机与真实设备 FD 表  1:


特征参数
同步移动, 因此可以根据头部姿态变化向量Hw  =  ( βw  ,1,  βw,2, .. .,  βw,n)和等 范围 符号
式  (9)。
给定一个固定的  D DTW翘曲距离 c  p
*  

平均比率 平均

最大比率 最大

最小比率 rmin

比率的标准变化 rsd  
0

设备在  X(或  Y)
轴上的累积位移 dx  (或dy) )
0 0
合成相机在  X(或  Y)
轴  d  上的累积偏移 X (或y

FD, 合成相机运动矢量是 在  FaceLive  中,分类算法可以从  Bayesian  Network、 Binomial  Logistic  


0 0 0 0
D Regression  和  Multilayer  Perceptron  中选择。
特别是,
贝叶斯网络  (BN)  是联
s =  (βw,1  ·  DFD,  βw,2  ·  D  FD, ...,  βw,n  ·  D  w  =  yaw  和  s  =  y  如果  w   FD),
其中  s  =  x  如果
合多元概率分布的概率图形模型  [13]。
=  pitch。

第二步是数据对齐。 由于移动设备上的惯性传感器和前置摄像头通常以不同
的采样率工作, 因此根据传感器数据估计的设备运动矢量Ds  =  (ds,t1 ,  ds,t2 , ...,   BN  能够处理不完整的数据集并轻松识别直接依赖关系。 二项式逻辑回归  (BLR)  
ds,tm)应该是d0  s,tm)其中  d  与  D  =  βw,i  ·对齐 是一种经典的概率统计分类模型, 它根据多个预测变量预测因变量的结果  [21]。  
BLR  可用作参数分析工具来评估单个预测变量的重要性并提供概率结果。 多层感
0 0 0 知器  (MLP)  是一种前馈神经网络模型,
它将一组输入数据映射到一组输出  [14]。
s =  (d d0  s,t1 ,  
s,t2 , ..., 与你
0 最后, MLP  可用于在自适应学习中处理复杂和不精确的数据。
D FD,s  =  {x,  y}。
动态时间规整  (DTW)  算法用于对齐。  DTW  算法是一种众所周
知的技术, 可以找到最佳对齐方式, 以最小化两个时间相关序列之间的翘曲距离,
这两个时间相关序列可能随时间或幅度变化  [32]。 给定Ds和  D, DTW  算法的目标
函数使翘曲距离最小化:
0
年代,

5.  数据收集和评估
DTW(Ds,  D0  s)  =  min{cp(Ds,  D0  s)  =  XL c(ds,tl ,
d0  
s,tl )}  (10) TION
l=1
进行  IRB  批准的用户研究以评估性能
其中  p  是  (m,  n)  弯曲路径。     p(Ds,  D0  s)的最佳变形路径是  DTW  算法返回 FaceLive  在实用性和鲁棒性方面的优势。
形距离  c。 的对齐和最小变 5.1  数据收集
第三步是相关特征提取。 给定两者,两者之间的比率rti 我们的用户研究涉及  73  名参与者, 其中包括  42  名男性和  31  名女性,
年龄在  
每个时间间隔(ti‑1,  ti)中对齐的运动矢量
0
年代,
19  至  36  岁之间。
参与者裤子是通过招聘电子邮件招募的。 每位参与者在书房安静
Ds和  D  矢量是 的房间里呆大约  60  分钟, 并获得  10  美元作为补偿。 研究分为四个部分。 每个部分
完成后, 参与者有1‑3分钟的短暂休息, 然后进入下一个部分。 用户研究的详细信息
0 0
rti  =  d 的 /dti  =  D FD/DFD (11) 如下。

0 0 0
对于所有  d  ti ∈  D s 和dti  ∈  Ds。
因为  D FD 和DFD是两
个常数, 对于所有rti , 我们有rti  =  rtj ,  rtj  ∈  {rt1 ,  rt2 , ...,  rtN }。
从比率向量
(rt1 ,  rt2 , ...,  rtN ),
我们可以计算平均值rmean  =  1/N  ·  PN  imum  value  rmax   在第一部分,我们使用佳能  PowerShot  A2600(16.0  兆像素相机) 捕捉参与
=  max{rt1 ,  rt2 , ...,  rtN },  最小值 我  =  1  rti ,
最大限度 者的面部照片,
其中包含  35  个受控头部姿势。 生成的照片为  4608  ×  3456  像素

1563
Machine Translated by Google

在尺寸上,受试者的内瞳距通常超过  400  像素。  35  个头部姿势由偏航 前置摄像头。
为了控制移动距离,
我们在墙上标出沿水平轴所需的距离以及参与者头部与
(水平)
和俯仰(垂直)旋转指定,并表示为(βyaw,  βpitch)。 地板上的智能手机之间所需的距离。
当参与者以类似于  [18]  的方式移动智能手机时,
我们
确保不涉及明显的头部旋转。
鉴于DMD和DFD,
参与者需要执行  3  次  FaceLive  试验。

βyaw的取值范围包括  0  10°到左/右、
◦, 到左/右,
20°  到左/右、
30°   而  βpitch的取值范围包 每次试验期间同时记录面部视频和惯性传感器数据。
我们总共从  2628  次合法身份验证
括0  10°到上/下、20  °到上/下。这些旋转边界值是根据人脸认证系统  [1]  的共同限制选择 试验中收集数据。
的, ◦,
如果βyaw超过   30°或βpitch超过  20° ,
参与者不应通过人脸认证。

在第三部分,
我们记录了参与者执行的基于  MFF  的攻击的惯性传感器数据。
特别是,

连续照明系统用于消除每个参与者脸上的阴影。
为了控制参与者的头部旋转,
我们使用 与者被要求首先执行随机移动攻击,
然后是模仿移动攻击。
在随机移动攻击中,
每个参与
配备陀螺仪的头盔。
与其他头部旋转控制方法相比,
陀螺仪的使用具有显着优势,
包括小 者以随机速度和方向(左/右)
水平移动智能手机  3  次作为猜测。
在模仿移动攻击中,
参与
于  1  的精度和对金属干扰的鲁棒性  [33]。
对于每个头部姿势,
参与者被要求面对佳能相机 者在智能手机上观看另一名参与者的面部视频,
并尝试根据视频中头部姿势的变化以观
并以类似于  [18]  的方式将头部调整到正面位置。
接下来,
参与者在头盔上的陀螺仪的帮 察到的方向和速度移动智能手机,
以模仿与该参与者相关的动作。
视频。
参与者需要为每个
助下将头部旋转到所需的角度。 ◦
陀螺仪生成实时旋转角度并通过  WiFi  
广 角度被接收并显
播角度值。
旋转 给定的视频进行  3  次试验。
在参与者的试验期间,
惯性传感器数据会自动记录在智能手机
示在  iPad  屏幕上,
并显示给参与者。
然后,
参与者被要求保持头部姿势,
而我们则帮助他 中。
我们总共收集了  5256  次试验的数据,
包括  2628  次随机移动攻击试验和  2628  次模
们轻轻快速地取下头盔,
以避免在取下头盔过程中头部有任何明显的移动。
最后,
立即捕 仿移动攻击试验。
获每个头部姿势的面部照片。
为了在捕获头部姿势图像时避免头部运动,
我们在移除头盔
之前捕获图像,
然后再捕获其他图像。
如果通过比较图像观察到任何头部运动,
我们会重
新捕获图像,
直到没有观察到头部运动。
面部照片将用作评估  FaceLive  的  HPE  中头部姿
势估计算法准确性的基础事实。

在最后一部分,
每个参与者被要求填写一份带有  5  点李克特量表的问卷。
这部分的用
户研究是收集用户对FaceLive使用的感知。

5.2  实验结果
基于从  FaceLive  试验和基于  MFF  的攻击中收集的数据,
我们评估了  Face  Live  的
实用性和鲁棒性,
其中贝叶斯网络  (BN)、
二项式逻辑回归  (BLR)  和多层感知器  (MLP)  被
用作分类器区分合法身份验证试验和基于  MFF  的攻击。
每个攻击试验都分配给正面类
别,
而每个合法试验都分配给负面类别。
在第二部分,
我们从参与者的  FaceLive  试验中收集面部视频和惯性传感器数据。

求每位参与者使用配备  1.3  兆像素前置摄像头(视频分辨率为  720p)、
4.7英寸屏幕,
1.5  GHz  四核  CPU,
Android  4.4.2  操作系统。
对于  FaceLive  的每次试验,
参与者握住智
能手机并在给定的移动距离DMD上水平移动智能手机(沿智能手机的  X  轴),
同时将智
在实用性方面,
我们展示了  FaceLive  可以有效地检测基于  MFF  的攻击,
而无需任何
能手机和他/她的脸之间的距离设置为DFD。
我们不考虑垂直方向(沿着智能手机的  Y  
额外的硬件。
评估基于攻击数据集,
包括  5.1  节中描述的随机移动数据集和模仿移动数据
轴)
和对角线方向的运动,
因为根据我们的试点研究,
超过一半的参与者在执行这些运动方
集。
评估指标包括接收机操作特性(ROC) 曲线和等误码率(EER)。特别是,ROC  曲线说
面有困难。
明了不同阈值设置下的真阳性率  (TPR)  和误报率  (FAR)  之间的关系,
其中  TPR  衡量正确
识别的阳性的比例,
而  FAR  衡量被错误分配给正类[19]。  EER  是误报率和误报率相等的
比率  [5,  22]。

DMD的范围包括10cm、
20cm、
30cm和40cm,
而DFD的范围包括30cm、
40cm和 EER  的值可以从  ROC  曲线推导出来。  EER
50cm。
这些值是根据参与者的共同行为选择的。
根据我们的试点研究,
由于手臂长度的限
FaceLive  的占比低至  4.7%(当使用  BN  作为分类器时)。
制,
超过  70%  的参与者在DMD  >  40  厘米或DFD  >  50  厘米时移动智能手机有困难。
由于  
FaceLive  实现了  97.7%  的  TPR,
而其相应的  FAR  为  6.1%。
FaceLive  依赖于智能手机的动作,
因此DMD不能为  0。
每次试验前,
研究人员在参与者面
前演示所需的动作,
并要求参与者练习该动作。
发现如果DFD  <  30cm ,
60%的参与者面部
为了解释为什么  EER  不能达到  0%,
我们评估了设备运动估计和头部姿势估计的准确
无法被相机完全捕捉到。
性,
这是  FaceLive  的两个关键组成部分。
我们发现设备运动估计的平均误差最多为  
23%,头部姿态估计的平均误差为  7.1, 未来在移动设备上部署更精确的惯性传感器时为  
7.9。
同时,FaceLive  能够有效检测基于  MFF  的攻击的当前值是合理的。
◦用于水平旋转
◦用于垂直旋转。
这些值将得到改善

在运动过程中,
由前置摄像头拍摄的参与者面部视频实时显示在屏幕上并供参与者查
看,
以便参与者可以调整智能手机并确保他/她的面部始终被完全捕捉到

FaceLive  的实用性也体现在令人满意的可用性结果上。
花在设备移动上的平均时间

1564
Machine Translated by Google

是  3.3  秒。
受控设置的李克特评分 合法的审判。
相似度较低的试验更有可能
在首选设置中,
设备移动高达  4.8  和  4.3(满分为  5)。 被FaceLive归类为攻击并拒绝。

我们还评估了  FaceLive  在未成功检测部分面部标志和头部稳定性方面的鲁棒性。

些可能在现实世界的环境中经常发生,
并且 表  2:
特征参数的统计测试结果。
统计显着的结果用F标记

参数系数 P值
对  FaceLive  的准确性产生负面影响。
我们的结果 *
C 0.3242  <  0.0001F
表明  FaceLive  的  EER  保持在  [7.2%,7.5%]  的范围内 p

平均 0.0034 0.001F
当单个面部标志(嘴、 鼻子或眼睛) 丢失时
最大 0.000847 0.001F
活体检测。  FaceLive  的  EER  低于  10%  时
rmin ‑0.000848 0.001F
头部不稳定造成的累积误差在16°以下。
rsd 5.69E‑14 0.014F

5.2.1  检测基于  MFF  的攻击 dx ‑0.4895 0.1128


0
dX ‑0.8972 0.8075
FaceLive  使用加速度计、
陀螺仪和前置摄像头测量设备运动之间的一致性

我们进一步评估了随机移动攻击的检测
并更改头部姿势以验证实时用户的面部。
FaceLive  旨在区分合法身份验证和 和模仿移动攻击,
这是两种基于视频的攻击。
我们的结果表明,
FaceLive  比模仿移动攻
击更有效地检测随机移动攻击,
因为
基于  MFF  的攻击,
包括基于照片的攻击和基于视频的攻击
攻击。
在基于照片的攻击中,
对手重放单个
合法用户的照片。
因为  FaceLive  需要改变 如图  7  所示。
对于随机移动攻击,
Face  Live  的  EER  低至  1%。
对于模仿移动攻击,
最低
面部视频中的头部姿势用于活体验证,
FaceLive  可以直接防止基于照片的攻击,
因为单
FaceLive  的  EER  为  6.1%。
张照片不能产生多个头部姿势。
在下面的,

随机移动攻击
我们专注于检测基于视频的攻击,
其中更强大的对手重放预先录制的面部视频,
其中包 模仿移动攻击
10 9.5

所需的头部姿势变化。
8
6.8
1.0 6.1
0.8 8 6

0.6 国阵 6 3.9
4
0.4 BLR 4 8.6 2.8
0.2 MLP 6.1
2 4.7 2
0.0 1
0.0  0.2  0.4  0.6  0.8  1.0  假阳 0
性  (%) BN  BLR  MLP 0
国阵 BLR MLP
(一个) (二)

图  6:
使用不同的  FaceLive  的  ROC  曲线和  EER
图  7:
不同攻击下  FaceLive  的  EER
分类器

图  6(a)  显示了  FaceLive  使用贝叶斯的  ROC  曲线 用户行为,包括设备的距离DMD
网络(BN)、
BLR(二项式逻辑回归)
和  MLP(多层感知器)
分别作为分类器。
图  6(b)   运动和设备与设备之间的距离DFD
显示 用户的脸,
可能会影响基于  MFF  的攻击的检测,
BN  的  FaceLive  优于  BLR  和  MLP  的  FaceLive。 尤其是设备运动估计的准确性和
FaceLive  with  BN  的  EER  为  4.7%,
低于  BLR 头部姿势估计。
如图  8(a)  所示,
当DMD等于  20cm、
30cm、
40cm时,
Face  Live  的  EER  
(8.6%)  和  MLP  (6.1%)。
为了检验意义 相对较低
分类器使用的特征参数, 我们进一步运行  BLR 与DMD  =  10  厘米相比。  DMD的平均  EER  率=
关于  SAS  软件。
似然比检验结果和  wald 20cm、
30cm、
40cm分别为6.4%、
7.9%、
6.6%。
什么时候
带有  BLR  分类器的  FaceLive  的统计数据  [21]  都小于 DMD=10cm,
平均能效比提高到10.9%。
回顾
0.0001。 FaceLive  通过分析两者之间的相关性来检测攻击
我们的统计分析表明,
最有影响的参数是翘曲距离  c 设备运动和头部姿势发生变化。
如果距离
*
p (p  值  p  <  0.0001),
平均值 设备动作太短,
观察到头部姿势变化
比率值rmean  (p  =  0.001),
最大比率值rmax 视频中的不足, 导致EER相对较高。
(p  =  0.001)、
最小比率值rmin  (p  =  0.001)  和 设备与用户面部之间的距离DFD为
比率向量rsd的标准偏差(p  =  0.014)。
结果 另一个影响  FaceLive  的用户行为因素。
如图所示
参数显着性检验见表  2。 在图  8(b)  中,
FaceLive  在以下情况下实现了  4.2%  的最低  EER
*
翘曲距离c 磷, 平均比值rmean、
最大比值rmax和标准差rsd对将 DFD=40  厘米。
当  EER  值增加到  10.2%  和  12.9%  时
试验确定为攻击的概率具有积极影响 DFD分别等于  30cm  和  50cm。
距离DFD
可能会影响面部视频的质量,
从而影响头部的准确性
而最小比率值rmin对 HPE  中的姿态估计。
随着设备靠近用户的
相同的概率。
设备动作之间的相似性 人脸,
人脸区域在一个视频帧中占据更多的像素,
并且
并且头部姿势变化随着正值的减小而减小 即使旋转很小,
面部区域也更容易出框
参数增加并且随着负参数的值减小。
攻击试验的相似性通常低于 的设备。
视频帧中不完整的面部区域可能
降低头部姿势估计算法的准确性[33]。

1565
Machine Translated by Google

12   15
10.9 12.9 误差  4.8  厘米。
随着运动距离的增加,算法的平均误差也会增加,如图  10  所
比)
(能
%  

10
比)
(能
%  

10.2   示。
设备运动估计基于航位推算算法, 该算法根据先前确定的位置估计当前
10
位置。 航位推算算法会随着时间的推移而增加累积误差[25]。 随着设备在更
7.9
8 长的距离上移动, 累积误差也会增加。
6.4 6.6 5 4.2

6  10  20  30  40 30 40 50
DMD  (厘米) DFD  (厘米)

(一个) (二)

图  8:
FaceLive  在受控运动下的  EER
7
6.8

6 5.9
另一方面,如果用户将设备远离用户的面部,
则面部区域在一帧中占据的像素
更少。
这可能会导致检测头部姿势估计算法[33]使用的重要面部标志的准确 5
性降低。 (米)



平 厘

4.3
4
为了分析在不同距离DFD下捕获的面部视频的质量, 我们检查了视频的
3
不良帧率。
2.3
坏帧率是HPE中头部姿势估计算法无法估计头部姿势的面部帧的比例。 图   2
9  显示不良帧率在DFD  =40cm  时最低,为  3.7%。 相比之下,  DFD  =  30cm、
10  15  20  25  30  35  40
50cm  处的不良帧率更高, 分别为  6.6%  和  12.2%。
坏帧率越高, FaceLive  
的  EER  越高。 DMD  (厘米)

图  10:
设备运动估计的准确性

头部姿势变化是使用  HPE  中的头部姿势估计算法从给定的面部视频中
估计出来的。
为了评估头部姿势估计算法的准确性, 我们使用在我们的用户
12 12.2 研究中收集的具有受控头部姿势的面部照片。

10 我们的结果表明,头部姿势估计在俯仰(垂直旋转)
方面实现了  7.1  的平均
误差。 ◦在偏航(水平旋转)和  7.9 ◦
8
(%)



不   
设备运动估计和头部姿态估计的错误导致  FaceLive  在检测基于  MFF  
6.6
6 的攻击时出现错误。
我们的结果表明,这些误差相当低, 一旦高精度惯性传感
器在移动设备上可用,结果可能会进一步改善。
4
3.7

30 40 50

DFD  (厘米) 5.2.3  可用性
我们使用三个指标来衡量  FaceLive  的可用性,
包括设备移动的平均时
图  9:
不同DFD下的不良帧率 间验证所需的设备移动距离、设备移动距离的平均李克特分数以及设备和
人脸之间相对距离的平均李克特分数.

5.2.2  设备运动估计和头部姿态估计的准确性

FaceLive  无法  100%  准确检测基于  MFF  的攻击。
这主要是由于设备
5.0
运动估计和头部姿势估计中的错误。
4.5 4.6
设备运动是根据加速度计测量的加速度和移动设备上的陀螺仪测量的角 4.0 4.1
速度来估计的。 我们在后续实验中评估了  FaceLive  设备运动估计的准确 3.5
性。在本实验中, 智能手机以纵向放置, 其中智能手机的  X  轴沿水平方向设 3.1
(秒)


3.0
置,
而智能手机的  Y  轴沿重力方向设置。 智能手机水平移动  10  厘米、 20  厘
米、
30  厘米和  40  厘米,
分别标记在墙上并用于我们的研究。 在运动过程中, 2.5

智能手机的加速度值和角速度数据由惯性传感器记录。  X  轴上移动的累积 2.0
偏移由设备移动估计算法估计。 平均而言,设备运动估计算法达到平均 1.5 1.4
1.0
10  15  20  25  30  35  40

DMD  (厘米)

图  11:
不同DMD下的运动时间

1566
Machine Translated by Google

59 46 1  分2  
60 1  分2  
分  3  分   分  3  分  
51
50 47 4  分  5   40 4  分  5  


40 34 30 27 27

30 22 21

20
23 20
20 13
13 13 10 10 10
9
11 11 10
10 5 5 6 6
3 2 2
1 1 1 1 1
0 0
10 20 30 40 30 40 50
DMD  (厘米)   DFD  (厘米)

(一) (二)

图  13:
理想光照条件下和不同环境光照下的人脸照片  [18]
图  12:
受控运动的李克特  5  点量表

活体检测过程将大部分时间用于记录所需的设备动作和面部视频。
因此,
花费在设备 和嘴。
原因是在头部旋转期间,
可以观察到鼻子的显着运动。
鼻子是从脸部表面伸出最多
移动上的时间会影响用户的体验。
根据我们的结果,
FaceLive  的设备移动时间平均为  3.3   的部分,
通常最靠近捕捉脸部的相机。
当头部旋转时,
根据线性和角运动之间的几何关系,
秒。
随着移动距离的增加,所花费的时间也会增加, 如图  11  所示。
为了评估用户在研究中移 鼻子的速度高于面部其他部位[4]。
另一方面,
从相机的角度来看,
根据光流理论,
在头部旋
动距离的舒适度,
要求用户分配  5  点李克特在“您在研究中移动智能手机的距离上的舒 转期间,
鼻子可以比面部其他部位更快地被观察到,
该理论描述了物体更靠近观察者的视
适程度”
问题中的每个移动距离得分。
李克特分数是从  1  到  5  不等的数字。 觉现象(例如眼睛,
相机)
似乎比其他远处物体移动得更快[20]。

李克特分数越高,
用户的舒适度越高。 眼睛和嘴巴的不成功检测也会降低头部姿势估计的准确性。
在大多数头部姿势估计算
如图  12(a)  所示,
用户通常更喜欢较短的设备移动距离。 法中,
眼睛的准确定位对于对齐过程很重要  [1]。
另一方面,
嘴是用于头部姿势估计的可跟
踪面部标志,
因为它表现出对比区域并且通常与头部的方向相关[33]。
另一个因素是设备和面部之间的相对距离。
我们使用一个问题来评估用户对这个相对距离的舒适度,
这个问题是“在研究中使用智
能手机和你的脸之间的相对距离,
你移动智能手机有多舒服”。
我们的结果表明,
用户更喜
由于缺少更多面部标志的定位信息,
头部姿势估计的准确性降低,
这对  FaceLive  产生
欢设备和他们的脸之间的距离为  40  厘米,
如图  12(b)  所示。  30cm的距离是最不优选
的。
在这个距离上,
用户可能需要小心地移动和调整他们的设备,
因为面部区域可以很容易 负面影响。
如图  14  所示,
当任何两种类型的面部标志检测不成功时,
FaceLive  的  EER  至
地移出视频帧,
而设备的轻微旋转。 少增加到  18.1%。
如果缺少所有面部特征点的定位信息,
则任何头部姿态估计算法都无法
正确估计头部姿态,
从而导致  FaceLive  失败。

5.2.4  鲁棒性
对于移动设备上的活体检测来说,
在复杂的光照条件和不同环境中的头部不稳定性
方面具有鲁棒性非常重要。
复杂的照明条件可能会引入如图  13  所示的照明,
并进一步导 鼻子+嘴巴 18.1
致检测重要面部标志(例如眼睛、
鼻子和嘴巴)
的准确性低。
这将影响面部识别和头部姿势
估计的准确性  [33,  50]。
另一方面,
头部不稳定性可能会给头部姿势估计带来误差。
在本 眼睛+嘴巴 18.4
节中,
我们评估  FaceLive  在两种情况下的鲁棒性,
包括对重要面部标志的不成功检测和 19
眼睛+鼻子
移动设备时的头部旋转。
面部标志包括眼睛、
鼻子和嘴巴,
这是许多头部姿势估计算法[33]
使用的重要特征。
为了模拟第一种情况,
我们有意从收集的数据集中删除关于眼睛、
鼻子、 嘴 7.2
嘴巴以及每两种面部标志组合的定位信息。
为了模拟第二种情况,
我们有意为  FaceLive   鼻子 7.5
中测量的每个头部姿势添加一个统一的扰动误差。
眼睛 7.4
0 4 8  1216  20

能效比  (%)

图  14:
面部标志缺失定位下  FaceLive  的  EER

另一方面,
FaceLive  对头部运动的不稳定性具有鲁棒性。
为了模拟头部运动的不稳定
图  14  显示,
当单一类型的面部地标检测不成功且面部标志的坐标信息缺失时, 性,
我们在  HPE  计算的头部姿态变化向量中为每个头部姿态添加了均匀扰动误差。
图  15  
FaceLive  实现了  [7.2%,7.5%]  范围内的  EER  率。 显示  FaceLive  在头部总误差时的  EER  不超过  9.6%  FaceLive  的  EER  增加到

特别是,
鼻子的定位缺失对  FaceLive  的影响比眼睛的定位缺失略显着。 不稳定性不超过   .
当总误差达到  20°  时,
12°  12.5% 。

1567
Machine Translated by Google

13
惯性传感器。这会显着影响设备运动估计的准确性, 尤其是重力方向的运动估计。
12 12.5 幸运的是,随着越来越多的应用, 如电子游戏,需要相对高精度的惯性传感器支持,
移动设备上惯性传感器的精度正在提高; 与此同时,这些传感器的成本不断下降。
11
这一趋势将导致  FaceLive  中设备运动估计算法的准确性提高。 另一方面, 众所周
10 知的头部姿势估计限制因素是光照、 面部遮挡和面部表情[33]。
一旦这些限制在未
10
9 9.6 来的研究中得到解决, 头部姿势估计算法的准确性就会提高, FaceLive  的性能也
会提高。还可以通过细化关键特征参数和分类模型来进一步改进  Face  Live。
8
8
7 7.3
4 8 12 16 20
总误差(度)

图  15:
FaceLive  在头部不稳定下的  EER

考虑到  FaceLive  的潜力,
它可能会迫使对手开发更复杂的攻击。 例如, 攻击者
6.  关于限制的讨论 可以获得合适的面部视频, 并根据视频中的头部姿势对移动目标移动设备的机械
臂进行编程。 就像之前的研究  [8,  12]  依赖于相同的活跃度指标,
FaceLive  会很
生态有效性对任何用户研究都是一个挑战, 就像大多数先前的研究一样
脆弱。
然而, 我们的技术显着提高了对手进行此类攻击的门槛。
[2,17,45],
我们的研究主要招募大学学生。
这些参与者通常更积极地使用移动设
备。 因此, 绩效评估可能会因其他人群而异。

在我们的用户研究中,
具有受控头部姿势的面部照片被用作评估头部姿势估计
算法准确性的基本事实。 精确控制头部姿势的面部照片的收集仍然具有挑战性
7.  结论
[33]。
与之前的头部姿势数据集  [18,  43]  一样,
我们数据集中头部姿势的准确性可
能会受到人类无意识运动和参与者准确引导头部的能力不完善的影响。 由于人类 在本文中,我们提出了一种实用且强大的活体检测机制, 名为  FaceLive,
以保
的手部不自主颤抖和用户对手部动作的控制能力不完善[8,37], 对于设备运动的距 护人脸身份验证免受基于  MFF  的攻击。  FaceLive  可以有效地检测基于  MFF  
离精确控制和之间的距离精确控制的面部视频和设备运动数据也不容易收集。 设 的攻击,
而无需移动设备上的任何额外硬件。  FaceLive  对于部分面部标志的不
备和用户的脸。 成功检测以及头部姿势变化的不准确测量具有鲁棒性, 这可能在不同环境中的面
部认证过程中发生。

8.  致谢
FaceLive  需要运动数据和面部视频来分析用户的  3D  面部指标。  FaceLive   本材料基于新加坡国家研究基金会支持的  NCR  奖编号  NRF2014NCR‑
性能的主要因素是执行移动和处理面部视频的时间, 这类似于大多数基于  3D  面
NCR001‑012  的研究工作。
部指示器的面部活体检测方法  [3,  8,  23,  24]。在我们的实验中, 每个试验的运动
平均需要  3.3  秒,而在录制面部视频时, 可以并行执行面部检测和头部姿势估计。
可以通过处理采样视频帧而不是处理所有视频帧来减少认证时间。  FaceLive   9.  参考文献[1]  AF  Abate、
M.  
可以与人脸认证中的任何人脸验证子系统配合使用。 请注意,与在  FaceLive  中执 Nappi、
D.  Riccio  和  G.  Sabatino。  2d  和  3d  人脸识别:
一项调查。
模式识别
行移动所需的时间相比, 人脸验证子系统识别多张人脸图像所花费的时间可以忽 快报, 28(14):1885–1906,  2007。
略不计。 例如, 基于  PCA  的人脸识别处理  100  张输入人脸图像的计算时间为  
0.7ms  [9]。
随着人脸验证的性能和可用性进一步提高, 很容易将其与  FaceLive  
[2]  A.  Acquisti、
R.  Gross  和  F.  Stutzman。脸书的面孔:
结合起来, 以获得更好的人脸验证性能  [10,  31]。
增强现实时代的隐私。 美国黑帽公司, 2011  年。
[3]  W.  Bao、
H.  Li、
N.  Li  和  W.  Jiang。
活体检测
基于光流场的人脸识别方法在  IASP  2009  中, 第  233‑236  页。  IEEE,
2009。
[4]  房车本森。欧几里得几何和凸性。
麦格劳‑希尔纽约,
1966  年。
[5]  B.  Biggio、
Z.  Akhtar、
G.  Fumera、
G.  Marcialis  和  F.  Roli。
真实欺骗攻击下生物特征认证系统的安全性评估。 生物识别, IET,
1:
关于活体检测误差,
希望控制来自设备运动估计和头部姿势估计的噪声。 11‑24, 2012。
[6]  B.卡特。
三十秒内完成过滤器设计。申请报告
设备运动估计的准确性主要受基于航位推算的估计算法中的累积误差和惯性传 来自德州仪器,2001  年。
感器[25]的准确性的影响。
所有基于航位推算的算法都会受到累积误差的影响,因 [7]  MM  Chakka、 A.  Anjos、S.  Marcel、 R.  Tronci、
D.  Muntoni、 G.  Fadda、
M.  
为它们根据预定位置估计当前位置[25]。
随着时间的流逝,错误会迅速增加。
现有 Pili、
N.  Sirena、 G.  Murgia、M.  Ristori  等。
移动设备上使用的惯性传感器的准确性仍然有限[42]。
这些没有很好地处理重力 二维面部欺骗攻击对策的竞争。  IJCB  2011, 第  1‑6  页。  IEEE,
的影响 2011。
[8]  S.  Chen、
A.  Pande  和  P.  Mohapatra。传感器辅助面部识别: 智能手机的
增强型生物特征认证系统。 在  MobiSys  2014,
第  109‑122  页,2014  年。

1568
Machine Translated by Google

[9]  H.  Cho、
R.  Roberts、
B.  Jung、
O.  Choi  和  S.  Moon。
一种使用  pca  和   现成手机上的识别。 在  IWSSI/SPMU  2012  中。
gabor  小波的高效混合人脸识别算法。  IJARS  2014,  11(59):1‑8,   引用,  2012.
2014。 [32]  M.穆勒。
动态时间扭曲。
音乐和动作的信息检索,
第  69‑84  页,
2007  年。
[10]  A.  De  Luca、
A.  Hang、
E.  von  Zezschwitz  和  H.  Hussmann。
我觉得我整天都在自拍!: 了解智能手机上的生物特征认证。  CHI  2015, [33]  E.  Murphy‑Chutorian  和  MM  Trivedi。
计算机视觉中的头部姿势
第  1411‑1414  页。  ACM, 2015  年。 估计: 一项调查。  TPAMI,  31(4):607–626,  2009。

[11]  Facelock.mobi。  http://www.facelock.mobi/facelock‑for‑apps。 [34]  L.奥戈尔曼。 比较密码、 令牌和生物特征以进行用户身份验证。  IEEE  会议记


[12]  RD  Findling  和  R.  Mayrhofer。
面向面部解锁: 开启 录,91(12):2021–2040,  2003。
在手机上可靠地检测人脸的难度。 在  MoMM  2012  中,
第  275‑280  页。  
ACM, 2012  年。 [35]  S.  Ohayon  和  E.  Rivlin。使用相机姿态估计进行稳健的  3d  头部跟
[13]  N.  Friedman、
D.  Geiger  和  M.  Goldszmidt。
贝叶斯 踪。  ICPR  2006, 第  1  卷,
第  1063‑1066  页。  IEEE,
2006  年。
网络分类器。 机器学习, 29(2‑3): 131‑163,
1997。
[36]  G.  Pan、
L.  Sun、
Z.  Wu  和  S.  Lao。
基于眨眼
[14]  M.  Gardner  和  S.  Dorling。
人工神经网络(多层感知器) a a  回顾在 来自通用网络摄像头的人脸识别中的反欺骗。
大气科学中的应用。 大气环境, 32(14):2627–2636,  1998。 在  ICCV  2007,第  1‑8  页, 2007  年。
[37]  M.  Rahman、U.  Topkara  和  B.  Carbunar。
眼见为非
相信: 通过使用移动设备的活性分析进行视觉验证。  ACSAC  2013, 第  
[15]  R.  Ghiass、
O.  Arandjelovic、
H.  Bendada  和  X.  Maldague。 239‑248  页。  ACM, 2013  年。
红外人脸识别: 文献综述。 在  IJCNN  2013,
第  1‑10  页, 2013  年。
[38]  J.赖斯。  http://www.androidpolice.com/2012/08/03/android  
[16]  谷歌。   jelly‑beans‑face‑unlock‑liveness‑check‑circumvented‑with  
http://www.android.com/about/ice‑cream‑sandwich/。 simple‑photo‑editing/。
[17]  R.  Gross  和  A.  Acquisti。
在线社交网络中的信息披露和隐私。
在  WPES   [39]  F.  Rocca、
M.  Mancas  和  B.  Gosselin。
基于二维无标记人脸跟踪的透视n点
2005, 第  71‑80  页, 2005  年。 解决方案的头部姿态估计。 互动娱乐智能技术, 第  67‑76  页。
斯普林格,
2014。
[18]  R.  Gross、
I.  Matthews、
J.  Cohn、
T.  Kanade  和  S.  Baker。
多馅饼。
图像和视觉计算,
28(5):
807–813,
2010。
[40]  RK  Rowe、U.  Uludag、
M.  Demirkus、
S.  Parthasaradhi  和  AK  Jain。一种
[19]  JA  汉利和  BJ  麦克尼尔。
受试者工作特征  (roc)  曲线下面积的含义和用途。 多光谱全手生物特征认证系统。 在生物识别研讨会, 2007  年, 第  1‑6  页。  
IEEE,2007  年。
放射学,
143(1):
29‑36,
1982。
[20]  BK  喇叭和  BG  Schunck。确定光流。  1981  年东部技术研讨会,
第  319‑331   [41]  杰姆·萨拉吉。
通过局部可变形人脸对齐
页。 测量和全局约束。
在变形模型中,第  187‑207  页。
斯普林格,
2013。
国际光学与光子学会, 1981  年。
[21]  DW  Hosmer  Jr  和  S.  Lemeshow。
应用逻辑回归。
约翰威利父子 [42]  P.  Siirtola  和  J.  Röning。
认识人类活动
公司, 2004  年。 基于加速度计数据的智能手机上的用户独立。 井麦  2012,  1(5),  2012.
[22]  AK  Jain、
AA  Ross  和  K.  Nandakumar。
生物识别学概论。
斯普林格,
2014。
[43]  T.  Sim、
S.  Baker  和  M.  Bsat。  cmu  姿势、
光照和表情数据库。  TPAMI,  
[23]  H.‑K.吉,
S.‑U。
荣格和  J.‑H。 哟。 嵌入式人脸识别系统的活体检测。
国际生物 25(12):1615–1618,  2003。
与医学杂志, 1(4):235–238,  2006。 [44]  F.斯坦格。 基于梯形公式的积分公式。  IMA  应用数学杂志,
12(1):103–
114,  1973。
[24]  O.  Kahm  和  N.  Damer。
二维人脸活体检测:
一个
概述。
在  BIOSIG  2012,
第  1‑12  页,
2012  年。 [45]  F.  Stutzman、
R.  Gross  和  A.  Acquisti。
沉默的听众: Facebook  上隐私和
[25]  I.卡迈勒。  WFR,
航位推算机器人 理解理论的实际应用。  IKA   披露的演变。 隐私和保密杂志, 4(2):2,
2013  年。
Logic:
电子解决方案在线文档,2008  年。
[46]  J.  Timmer、
C.  Gantert、
G.  Deuschl  和  J.  Honerkamp。
[26]  K.  Kollreider、
H.  Fronthaler  和  J.  Bigun。
基于人脸图像的非侵入式 手颤时间序列的特征。 生物控制论, 70(1): 75‑80,
1993。
活体检测。 图像和视觉计算, 27(3):233–244,  2009。
[47]  S.  Tupling  和  M.  Pierrynowski。
万向角的使用
[27]  联想。  http://veriface.software.informer.com/。 在三维空间中定位刚体。 医学和生物工程与计算, 25(5):
527–532,
1987。

[28]  Y.  Li、
K.  Xu、
Q.  Yan、
Y.  Li  和  RH  Deng。了解基于  osn  的人脸披露针对人脸
认证系统。 在  AsiaCCS  2014, 第  413–424  页,
2014  年。
[48]  维西顿。  http://www.visidon.fi/en/Home。
[29]  J.  Maatta、
A.  Hadid  和  M.  Pietikainen。
人脸欺骗 [49]  J.  Wilder、
PJ  Phillips、
C.  Jiang  和  S.  Wiener。
用于人脸识别的可见光和红
使用微纹理分析从单个图像中检测。  IJCB  2011, 第  1‑7  页。  IEEE,
2011。 外图像的比较。 在  FG  1996  中, 第  182‑187  页。  IEEE,
1996  年。

[30]  PS  曼。
介绍性统计。
约翰威利父子公司,
2007  年。 [50]  W.  Zhao、
R.  Chellappa、
PJ  菲利普斯和  A.  Rosenfeld。
人脸识别:
文献调
查。  CSUR,  35(4):399–458,  2003。
[31]  R.  Mayrhofer  和  T.  Kaiser。
迈向手机上的可用身份验证:
对扬声器和面部
的评估

1569

You might also like