开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文阅读：Face-Mic: Inferring Live Speech and Speaker Identity via Subtle Facial Dynamics Captured by -> 正文阅读

[人工智能]论文阅读：Face-Mic: Inferring Live Speech and Speaker Identity via Subtle Facial Dynamics Captured by

Face-Mic:通过AR/VR运动传感器捕捉的细微面部动态来推断实时语音和说话人身份

i. 文章目录

Abstract

摘要： 增强现实/虚拟现实(AR/VR)已经从3D沉浸式游戏扩展到更广泛的应用，如购物、旅游、教育。最近出现了从手持控制器主导的交互到通过语音界面主导的耳机交互的巨大转变。在这项工作中，我们发现当用户戴着面部安装的AR/VR设备时，使用语音界面存在严重的隐私风险。具体来说，我们设计了一种窃听攻击 Face-Mic，它利用 AR/VR 耳机中的零许可运动传感器捕获的与语音相关的细微面部动态，从实时人类语音中推断出高度敏感的信息，包括说话者的性别、身份和语音内容。Face-Mic 基于 AR/VR 头戴式设备紧密安装在用户面部这一关键见解，允许头戴式设备上的潜在恶意应用程序在佩戴者说话时捕捉潜在的面部动态，包括面部肌肉的运动和骨骼振动，它编码私人生物特征和语音特征。为了减轻肢体动作的影响，我们开发了一种信号源分离技术来识别和分离与语音相关的面部动态和其他类型的肢体动作。我们进一步提取了关于这两种面部动态的代表性特征。我们通过开发基于深度学习的框架，获取用户的性别和身份，提取语音信息，成功地展示了通过AR/VR头盔的隐私泄露。使用四种主流VR头戴设备进行了大量的实验，验证了Face-Mic的广泛性、有效性和高精度。
CCS CONCEPTS
安全与隐私→硬件攻击与对策。
KEYWORDS
面部动力学；增强现实/虚拟现实耳机；演讲和演讲者隐私

1 INTRODUCTION

增强现实/虚拟现实(AR/VR)设备具有创建3D虚拟世界的能力，用户可以沉浸其中并与之互动，吸引了数百万用户。市场规模正在急剧扩大，预计到2023年将达到123亿美元。面部安装设备(如VR头戴式设备)的快速发展促进了AR/VR应用的广泛应用，包括沉浸式多人游戏、虚拟购物和银行。随着AR/VR领域从3D沉浸式游戏扩展到更广泛的应用，AR/VR设备的控制逻辑在很大程度上已经从控制器主导的交互(主要为游戏设计)转向通过语音用户界面的耳机主导的交互。例如，Oculus Quest支持语音输入网址，控制耳机，以及探索商业产品。然而，语音接口在AR/VR场景中的频繁使用，如果恶意行为者能够监听到这种通信媒介，可能会导致严重的隐私泄露。例如，攻击者可以在 AR/VR 语音通信期间窥探敏感信息，例如信用卡号码和私人医疗保健/银行交易信息。此外，头戴式耳机佩戴者的个人身份信息，例如性别和身份，可能会泄露给对手，这可能会被用于有针对性的广告和欺诈。
由于这些与语音相关的隐私问题，AR/VR 耳机供应商对语音访问有严格的政策，并且需要明确许可才能使用麦克风。考虑到基于智能手机的操作系统(如Android和iOS)的隐私政策，低成本的纸板耳机自然需要最高级别的许可才能访问麦克风。类似的政策也适用于高端独立耳机的操作系统。因此，对于运行在这些耳机上的行为不端的应用程序来说，获取麦克风并收听语音通信并不容易。相比之下，访问 VR 耳机中内置的运动传感器通常不需要用户许可，因为几乎所有的 AR/VR 应用程序都需要利用运动传感器来跟踪用户的头部运动并模拟虚拟环境中的相应运动。这些零许可运动传感器能被攻击者用来推断耳机用户的实时语音和说话人隐私吗?
在本文中，我们探讨了这个问题，并展示了一种针对 AR/VR 设备的新窃听攻击 Face-Mic。我们的关键观点是，耳机紧密地安装在用户的头部，并按在面部的不同部位，如图1所示。
在这里插入图片描述
这种独特和基本的特征存在于低成本的纸板耳机(如谷歌cardboard)和高端的独立耳机(如Oculus Quest, HTC Vive)，它使耳机容易受到潜在面部肌肉的动态影响，它可以反映说话内容以及佩戴者独特的私人生物特征(如说话行为和组织特性)。此外，在语音发音过程中，声带产生的传导振动(即骨传导振动)可以通过颅骨传播，从而振动AR/VR耳机。通过分析捕获的面部动态，我们表明，对于纸板耳机和独立耳机，攻击者可以轻松推断出敏感的语音和说话者信息，这引发了极端的隐私问题。
Fundamental Differences from Existing Attacks.
与之前的攻击相比，Face-Mic表现出几个关键的不同之处。首先，这是第一个针对 AR/VR 耳机的基于运动传感器的语音窃听攻击，这代表了对在现实世界中迅速发展的新兴用户交互范式的威胁。其次，Face-Mic 旨在捕获设备佩戴者的实时人类语音，而之前的攻击只能通过智能手机运动传感器捕获语音，这些语音已通过以下方式重放：(1)外部扬声器，其相关的振动通过共享的表面传播到达智能手机，或(2)智能手机的内置扬声器，通过智能手机本体产生混响。智能手机运动传感器通常不会受到设备用户实时语音的影响，这可以防止这些先前的攻击窃听佩戴者的空中语音。第三，Face-Mic通过耳机佩戴者说话时产生的细微面部动态来提取语音和说话者的信息，这是一个非常具有挑战性的工作，因为在沉浸式AR/VR场景中，用户的身体动作会带来显著的干扰(我们能够克服这个挑战)。
Challenges Addressed in Eliciting Speech via Facial Dynamics. 要依靠内置的运动传感器实现这种窃听攻击，我们在实践中面临着以下几个挑战:1)身体运动伪影的显著影响:在AR/VR场景中，耳机佩戴者通常通过大规模的身体运动与虚拟世界进行交互。因此，Face-Mic需要消除这些运动伪影，以实现可靠的面部动态提取。2）对语音和说话人特征的反应不明确：面部动力学与说话人/语音特征之间的关系尚不清楚，因此我们需要探索面部运动/骨传振动与语音之间的关系。3)运动传感器采样率低:AR/VR耳机内置的运动传感器采样频率有限，检测85Hz~ 20kHz的实时语音振动及其谐波具有很高的挑战性。
Proposed Face-Mic via Facial Dynamics Captured by AR/VR Motion Sensors. FaceMic基于采集到的运动传感器数据，首先利用信号源分离技术去除人体运动的伪像，该技术利用时频分析从其他类型的身体运动中分离出与语音相关的面部运动。然后，我们的攻击系统根据面部肌肉运动和骨传导振动的独特频段将它们分开。通过研究面部肌肉运动和骨传导振动的特征，我们从耳机中提取了两组特征，分别是3D加速度、速度和位移，捕捉了受害者独特的私人生物特征和敏感的语音内容。根据提取的特征，Face-Mic通过开发基于深度学习的框架进行性别检测、用户识别和语音识别。我们的主要贡献总结如下:

据我们所知，Face-Mic 是第一个在使用面部 AR/VR 设备时利用与实时人类语音相关的面部动态来推断私人和敏感信息的攻击。通过使用零权限内置运动传感器，Face-Mic 可以揭示耳机佩戴者的性别/身份并提取语音信息。
我们深入研究了说话者与语音特征之间的关系，以及AR/VR耳机运动传感器捕捉到的三种振动类型，包括语音相关的面部运动、骨传导振动和空气振动。我们发现，在运动传感器读数中显示的语音效果是由面部运动和骨传导振动主导的。
我们设计了一系列技术来推断耳机佩戴者的性别、身份和简单语音，如身体运动伪像去除算法、基于面部动力学的特征提取、基于深度学习的敏感信息推导等。
我们通过对 4 个主流 VR 耳机和 45 名志愿者进行广泛的实验来验证概念验证攻击。结果表明，Face-Mic 可以获得耳机佩戴者的性别、身份和简单的语音信息。

2 PRELIMINARIES

2.1 Speech-related Facial Dynamics

AR/VR运动传感器可以捕捉到三种与语音相关的面部动力学:语音相关的面部运动、骨传导振动和空气传导振动。
Speech-associated Facial Movements. 在语言产生过程中，人类的面部肌肉会有规律地收缩和放松，这些肌肉会对语音信息(如音素、节奏、响度)和生物特征(如说话行为、面部形状、肌肉和组织属性)进行编码。具体来说，如图2(a)所示，涉及人类语言的肌肉有12对，可以分为两组:面部上肌和口周肌。
在这里插入图片描述
上面部肌肉是指眼眶周围的肌肉，包括皱肌、上皱肌等。在佩戴AR/VR耳机时，这些肌肉与设备直接接触，因此用户说话时肌肉的收缩/放松可以直接在3D空间中移动和旋转耳机，内置的运动传感器可以捕捉到这一点。另一方面，口周肌是环绕嘴巴的一组肌肉，包括降角、颧大肌等，通常与AR/VR耳机不直接接触。然而，在语音生成过程中，嘴巴周围肌肉的强烈收缩/放松可能会传播到与耳机接触的面部组织，从而间接影响AR/VR运动传感器的读数。
Bone-borne Vibrations. 骨传导振动是由人类声带产生的声波振动，然后通过颅骨传播。作为发声的关键器官，当人类说话时，声带调节从肺部排出的空气流动。然后，这些振动被声道过滤和调节，形成人类可识别的语言。其中一部分振动信号通过颅骨传播，因此可以通过安装在用户头部的AR/VR耳机内置的运动传感器来测量振动，如图2(b)所示。由于振动信号是由人的声音产生系统直接产生的，所以它们与人类可识别的语音信号具有高度的相关性。此外，骨传导的振动还可以捕捉用户声音产生系统中独特的生物特征。
Airborne Vibrations. 空气中的振动是在空气中传播的声波振动。现有研究(如[34,41])表明，智能手机和智能手表中的加速度计可以对近距离(如智能手表30厘米)空中的人类声音做出反应。因此，由于用户的嘴和AR/VR耳机之间的物理距离很短，AR/VR运动传感器很可能也可以捕捉到这种微小的空中振动。

2.2 Capturing Facial Dynamics via Motion Sensors in AR/VR Headsets

大多数AR/VR设备都配备了运动传感器，通常包括一个三轴加速度计和一个三轴陀螺仪。除了测量设备的加速度/角速度，这些运动传感器还能接收传导和空中振动，使AR/VR耳机能够捕捉上述三种面部动态。为了证明使用内置运动传感器窃听人类实时语音的可行性，我们在两款具有代表性的AR/VR头盔上进行了初步实验，测试了语音效果:一个硬纸板耳机(Google cardboard with Nexus 6)和一个独立的耳机(Oculus Quest)，它们的运动传感器的采样率分别为227Hz和1000Hz。
Capturing Live Human Speech via AR/VR Headsets. 为了检查现场人类讲话的效果，我们要求一名志愿者戴上这两个耳机，如图 3 (a) 所示，然后说几个词（即“one”、“oh”）。
在这里插入图片描述
Oculus Quest和Google Cardboard的原始加速度计和陀螺仪读数分别如图4 (a)和(b)所示。

我们可以发现，将耳机戴在用户的脸上，内置的加速度计和陀螺仪可以对被试者的语音做出反应，呈现出明显的信号波动。这样的信号波动可以在两个传感器的所有三个轴上观察到，表明它们对语音相关的面部动态高度敏感。然后对运动传感器的读数进行短时傅里叶变换，在时频域对语音进行分析，得到如图5(a)所示的频谱图。
在这里插入图片描述
对于 Oculus Quest，我们发现除了低频范围（例如，<100Hz）有较强的响应外，频谱图在高频(例如，100~500Hz)也表现出较高的能量。同时，由于采样率较低，Google Cardboard只能捕获114Hz以下的响应。
Response Verification for Facial Dynamics. 为了进一步确定在运动传感器的读数中捕捉到什么类型的面部动态，我们进行了一个实验，要求受试者在不发音的情况下执行“one”和“oh”的面部动作，因此只涉及面部动作。我们在图 5 (b) 中展示了 Oculus Quest 和 Google Cardboard 的相应频谱图。一个有趣的发现是，与图 5 (a) 中的频谱图相比，图 5 (b) 中只保留了低频响应，而高频响应 (＞100Hz) 消失了。因此，我们可以安全地将运动传感器的低频响应归因于面部运动。此外，为了研究空气振动的影响，我们在如图3 (b)所示的情况下，向安装在人体头部的耳机重播语音(即“one”、“oh”)，而播放设备(即智能手机扬声器)和耳机之间没有任何物理接触。如图5 ?所示，在100~500Hz的高频波段只能观测到微弱的能量。与图 5 (a) 中所有三种面部动力学的频谱图相比，以及仅涉及面部运动的图 5 (b)，我们可以发现骨传播和空气传播的振动具有重叠的响应，而骨传播的振动比相应的空气传播的振动要强得多。
通过以上所有观察，我们得出结论，与语音相关的面部运动主要影响低频（<100Hz）运动传感器读数，而骨传振动强烈影响高频（例如，>100Hz）的传感器读数）。请注意，尽管男性扬声器的声带可以产生低至85Hz的声音，但人类的头骨只能对更高频率的声音振动做出反应，通常超过250Hz。因此，骨传导振动在100Hz以下没有很强的能量。由于空气振动与骨传导振动具有相似的物理特性和时频模式，但其响应要弱得多，因此我们将这两种振动同时视为骨传导振动。因此，在本文的其余部分中，我们利用面部运动和骨传导振动(包括空气振动)来实现Face-Mic。

3 ATTACK OVERVIEW AND THREAT MODEL

Privacy Leakage. Face-Mic可以显示用户喜欢的AR/VR游戏、AR/VR旅行记录、观看/购物喜好等与用户身份相关的私人信息，这对广告公司来说是一笔可观的收入。为了获取身份信息，攻击者可以窃听各种 AR/VR 场景中的语音，例如多人游戏和 AR/VR 会议期间的对话。与此同时，攻击者还可以检测出受害者的性别，可以在未经用户许可的情况下，用于宣传针对性别的产品或分析购买AR/VR产品、上网、使用AR/VR社交媒体时的针对性别的行为。更重要的是，Face-Mic可以获得简单的语音内容，即数字和文字。这两种类型的语音内容可用于推断大量敏感信息，如社会安全号码、电话号码、密码、交易和医疗保健信息。暴露这些信息可能会导致身份盗窃、信用卡诈骗、机密信息和医疗保健信息泄露，从而使用户的安全和隐私处于高风险。为了获取此类敏感的语音信息，攻击者可以在受害者在虚拟通信过程中使用语音听写或与其他人聊天时发起攻击。
Adversary’s Capability. 我们假设攻击者在受害者的AR/VR设备上安装了一个恶意应用程序，通过欺骗受害者安装该应用程序或将该应用程序发布到应用商店。恶意应用程序在后台收集运动传感器数据，并将数据发送到远程攻击者进行性别/说话人检测和语音识别。由于访问运动传感器不需要任何许可，应用程序可以伪装成任何AR/VR应用程序(如AR/VR游戏，网页浏览器)。这种基于恶意应用的威胁模型在智能手机上已经显示出了其有效性，它可以直接应用到以智能手机为中央处理单元的纸板耳机上。我们在两大主流AR/VR编程平台(Oculus、OpenVR)上的研究也证实了这种威胁模型对于独立的头戴式设备是可行的。我们构建了一个基于Oculus SDK (v23)的AR/VR应用，并成功使用了𝑜𝑣𝑟_𝐺𝑒𝑡𝑇𝑟𝑎𝑐𝑘𝑖𝑛𝑔𝑆𝑡𝑎𝑡𝑒 ()函数在没有用户许可的情况下在后台记录了Oculus Quest的加速度/陀螺仪数据。我们还确认，这样的应用程序可以使用 OpenVR 轻松编程，它支持更广泛的耳机（例如，由 HTC、Valve 和大多数 Windows Mixed Reality 耳机制造商制造）。在 OpenVR 中，应用程序使用 𝐺𝑒𝑡𝑅𝑎𝑤𝑇𝑟𝑎𝑐𝑘𝑒𝑑𝐷𝑒𝑣𝑖𝑐𝑒𝑃𝑜𝑠𝑒𝑠() 来收集运动传感器数据，同样无需用户许可。
Attack Scenarios. 我们研究了在实际环境中可能发生的三个典型场景:
Scenario-1: Attack with prior victim data. 攻击者有机会提前访问受害者的运动传感器数据（例如，通过恶意应用程序）和标签。对于性别识别和说话者识别，标签分别是受害者的性别和身份。对于语音识别，标签是受害者的音频数据。在实践中，可以通过几种方式获得这些标签。例如，攻击者是受害者的朋友，他/她知道受害者的性别和身份。如果攻击者有机会在受害者使用AR/VR耳机时出现在同一个房间，攻击者可以通过恶意应用程序收集受害者的运动传感器数据，同时使用麦克风记录受害者的音频数据。在某些AR/VR场景中，攻击者也可能远程记录受害者的语音，在这些场景中，攻击者与受害者通过共享音频通道进行通信，例如多人AR/VR游戏或虚拟会议。在这种情况下，攻击者可以使用麦克风从共享的音频通道收集音频数据。然后，攻击者将运动传感器数据与标签联系起来，训练Face-Mic的深度学习模型，进行性别检测、说话人识别、语音识别等。我们注意到，这一研究领域中的大多数安全研究（基于运动传感器的隐私泄露）都是在这种攻击场景下报告的。我们还注意到，说话人识别只能在这种情况下启动，因为对手需要先验地知道受害者的身份。
Scenario-2: Adaptive training during attack phase. 攻击者将利用在攻击阶段收集的受害者运动传感器数据进行自适应训练。特别是，攻击者有一个基于其他人数据的预训练深度学习模型。在攻击阶段，收集到的运动传感器数据将被用来更新预先训练的模型的参数，使模型更适合受害者的面部特征。然后，利用自适应模型进行性别检测和语音识别。
Scenario-3: Real-time attack without prior victim data. 这是最具挑战性的攻击场景。一旦收集到受害者的运动传感器数据，攻击者将直接使用基于他人数据建立的预先训练的模型，进行性别检测和语音识别。该场景不像场景2那样使用收集到的运动传感器数据来执行自适应训练，因此可以实时推断出敏感信息。
我们想指出的是，在大多数此类攻击中，攻击者不需要实时推断敏感信息。因此，场景 2 下的攻击是在实际约束下更容易接受的攻击（例如，没有直接访问受害者的标记数据）。我们在表1中总结了三种攻击场景。
在这里插入图片描述

4 ATTACK DESIGN

4.1 Challenges

Significant Impact Caused by Body Motion Artifacts. 在AR/VR场景中，耳机佩戴者通常通过大规模的身体运动与虚拟世界进行交互，如在游戏区域内移动、旋转头部、移动控制器等。这种不可预测的运动在运动传感器的读数中产生了大量的伪影。因此，我们需要消除这些运动伪影，以实现可靠的面部动态提取。
Deriving Speech and Speaker Characteristics from Facial Dynamics. 面部动力学与说话人/言语特征之间的关系尚不清楚。我们需要探索面部运动/骨传导振动与语音之间的关系，并提取具有独特私人生物特征和语音特征的代表性特征。
Low-sampling Rate of Motion Sensors. AR/VR 耳机中的内置运动传感器对于 Google Cardboard 来说只有 200Hz 左右，对于 Oculus Quest 来说只有 1000Hz 左右，而人声及其谐波跨度在 85Hz~20kHz 之间。如此低的采样频率意味着运动传感器仅捕获低保真语音特征。为了实现有效的攻击，Face-Mic需要获得可靠的测量数据，以最佳地捕捉嵌入的与语音相关的面部动态。

4.2 System Overview

Face-Mic的基本思想是捕捉与面部动态相关的语音，以揭示编码后的性别、身份和语音信息。如图 6 所示，恶意应用程序在后台监控运动传感器，并根据仅在语音发音过程中出现的高频骨传播振动检测人类语音。
在这里插入图片描述
在检测到人类语音后，该应用程序会分割与语音相关的运动传感器数据，并将分割后的数据发送给远程攻击者进行数据处理。为了处理影响传感器读数的运动伪像(例如头部旋转)，我们开发了一种基于时频分析的信号源分离技术，从受污染的加速度计/陀螺仪数据中分离出与面部运动相关的测量数据。
接下来，Face-Mic将面部肌肉运动和骨振动从预处理数据中分离出来，并分别从中提取有效特征。由于面部肌肉运动和骨传导振动驻留在不同的频段，如第2节所讨论的，我们使用一个过滤器来分离这两种类型的面部动力学。然后对于面部肌肉运动，我们首先通过对三轴加速度计/陀螺仪读数应用数值积分来计算 3D 速度和位移/旋转，这些读数表征耳机在说话时所涉及的空间运动。在此基础上，提取了11个时域特征和2个频域特征。对于骨传播振动，我们探索时频表示（即频谱图）作为特征图来捕获高频模式。
基于人脸动态特征，我们开发了一个基于深度学习的框架来提取说话人及语音相关的敏感信息。两个卷积神经网络(CNN)模型用于提取面部运动和骨传导振动的特征表示，然后将提取的特征表示连接并反馈到SoftMax层，用于三个推理任务。如果能提前获得受害者的运动传感器数据和标签，Face-Mic将运动传感器数据和标签进行关联，训练CNN模型进行性别检测、说话人识别、语音识别(即Scenario-1)。另外，Face-Mic可以利用受害者在攻击阶段收集的运动传感器数据，使在其他人身上建立的预先训练的CNN模型适应受害者的特征空间，以提高推理的准确性(即Scenario-2)。为了实现这种攻击，我们设计了一种基于域自适应的自适应训练方案来更新预训练的CNN模型的参数，使从预训练模型中学习到的知识转移到针对受害者的推理任务中。攻击者也可以直接应用预训练的 CNN 模型而无需自适应训练（即Scenario-3），使攻击者能够实时推断敏感信息。

5 DATA PREPROCESSING

5.1 Speech Detection and Segmentation

为了进行实际的窃听攻击，我们首先需要根据运动传感器的读数来检测人类语音的存在。在AR/VR场景中，耳机内置的运动传感器可以捕捉其他身体动作，使得语音检测变得非常困难。为了解决这个问题，我们利用了这样一个事实，即大多数人体运动都处于低频频段，并通过检测高频骨传导振动的存在来检测人类语言，而高频骨传导振动仅在语音发音过程中存在，如第2节所示。我们的经验发现，加速度计对语音相关的振动比陀螺仪更敏感，这也得到了现有研究的支持，所以我们使用它来进行语音检测和分割。特别地，我们采用短时快速傅里叶变换(STFT)计算加速度计x、y、z轴的谱图，并对它们的幅度进行逐元求和。基于求和谱图，我们累积超过100Hz频率的能量来检测语音。
我们通过让受试者佩戴 Oculus Quest 并说出三个单词（即“one”、“two”、“three”）进行实验，三个单词的频谱图相加和累积频谱图能量如图所示图 7 (a) 和 (b)。我们观察到积累的能量在语音区域内表现出很高的值。
在这里插入图片描述
因此，我们受到启发，利用一种基于阈值的方法来检测语音的起始点和结束点。从图7 (b)可以看出，我们的方法可以正确定位到语音的起始点和结束点，这证明了该方法的有效性。

5.2 Body Motion Artifact Removal

为了实现可靠的人脸动态提取，需要去除运动传感器数据中的运动伪影。为了实现可靠的人脸动态提取，需要去除运动传感器数据中的运动伪影。然而，找到一个最佳的截止频率是一项挑战，因为与语音相关的面部运动也可以在低于60Hz的读数中捕捉到。因此，我们开发了一种基于信号源分离技术的身体运动伪影去除(BMAR)方法，该方法用于分离音频记录中多个说话人的混合语音，提取传感器读取的面部运动。
我们将信号源分离问题建模为回归问题（即，根据人类运动扭曲的噪声读数估计“干净”的运动传感器数据），并开发深度回归模型。回归模型以加速度计/陀螺仪读数的谱图为输入。特别是，我们使用所有可用频率的频谱图（例如，Oculus Quest 的 0 ～ 500Hz），以便更强大的骨传播振动可以帮助将面部运动信号与嘈杂的运动传感器读数区分开来。根据运动传感器读数的频谱图，𝑋 (𝑡, 𝑓 ),深度回归模型的目标是估计一个重建语音频谱图的掩码 ?𝑀𝑠 (𝑡, 𝑓 )
在这里插入图片描述
?表示两个操作数在元素上的乘积。然后可以应用逆短时傅里叶变换来重建“干净”的运动传感器数据。为了实现这样的回归模型，我们构建了一个深度神经网络，该网络由两个用于表示推导的全连接层和一个用于频谱图映射的回归层组成。每个全连接层都附加了一个 dropout 层，以防止过度拟合。
为了训练深度回归模型，我们分别收集语音的运动传感器数据（即不涉及身体运动）和一组没有语音的代表性的身体运动（例如头部旋转、身体运动），然后将它们混合生成训练数据。将语音传感器数据作为目标回归变量。通过使用这种方法，我们的攻击可以以非常低的成本产生大量的训练数据。生成的训练数据和目标回归变量都被输入到深度回归模型进行训练。我们使用均方误差作为优化的损失。图8 (a)和(b)显示了头部运动和身体运动的噪音去除效果。我们可以观察到，通过我们的回归模型后，这两个运动的能量显着降低，尽管仍有少量能量。结果证实了所提出的基于深度回归的 BMAR 方法的有效性。
在这里插入图片描述

6 FEATURE EXTRACTION FOR FACIAL MOVEMENT AND BONE-BORNE VIBRATION

给定去噪的运动传感器数据，我们使用一个低通滤波器和一个高通滤波器，具有相同的 100Hz 截止频率，分别提取面部运动和骨骼振动。
Feature Set for Facial Movements. 基于加速度计读数，我们通过一阶和二阶数值积分计算 VR/AR 耳机的 3D 速度和位移，描绘了特定用户说出特定内容时面部肌肉运动的几何运动学模型。由于原始运动传感器读数涉及大量硬件噪声，这些噪声会随着时间的推移带来线性增加的积分误差，我们将数据段的起点和终点作为参考，然后计算并减去该段中每个数据点的平均积分误差。我们分别在图9和图10中显示了两个数字(即“one”、“two”)的校准速度和位移。
在这里插入图片描述

我们观察到相同的数字，速度和位移在两个用户之间都表现出不同的 3D 轨迹，表明这种测量可能嵌入了个人特征。此外，对于同一个用户，两个数字之间明显的速度和位移轨迹是不同的，这也证实了内容相关模式的存在。
Face-Mic从3D加速度、速度、位移和角速度的短帧中提取11个时域特征和2个频域特征。使用长度为128ms、步长为16ms的滑动时间窗口对短帧进行采样。时域特征包括方差、最大值、最小值、极差、均值、均方根、中值、四分位差、平均交叉率、偏度和峰度。这些统计特征编码了面部肌肉运动的幅度和速度和特性(例如，面部肌肉的大小和强度)。此外，我们通过对每帧加速度计/陀螺仪读数应用FFT提取频域特征。FFT系数被用来获得频域特征，包括能量的均值和熵，这捕获了语音/说话行为的周期性质。总的来说，我们从每帧中提取234个时域和频域特征。
Feature Set for Bone-borne Vibrations. 由于骨源振动只存在于高频范围，我们计算了加速度计和陀螺仪读数的频谱图，并将它们作为特征。我们没有从骨源振动中提取时域特征，因为用于提取振动的高通滤波器会显著扭曲低频传感器读数中的时域特征(如平均值)，使时域特征不稳定。根据加速度计和陀螺仪的传感器读数，Face Mic根据传感器的x、y、z轴的读数计算谱图，去除低于100Hz的频率成分。为了提供细粒度的频率表示，我们通过在每个 128 毫秒Hanning 窗口中应用 1000 点 FFT 来计算频谱图，每次移动 16 毫秒。

7 DEEP LEARNING-BASED SENSITIVE INFORMATION DERIVATION FRAMEWORK

根据提取的特征，我们开发了一个基于深度学习的框架来进行敏感信息的推导。如果可以提前获得受害者的运动传感器数据和标签（性别、身份或音频数据），Face-Mic 将运动传感器数据和标签关联起来，训练一个基于 CNN 的深度学习模型（即 Scenario -1)。否则，Face-Mic 将仅利用在攻击阶段收集的运动传感器数据，将基于他人数据构建的预训练深度学习模型适应受害者的特征空间以提高准确性。我们构建了一个基于域适应的自适应训练方案（第 7.2 节），它将从预训练模型中学到的知识转移到针对受害者的推理任务（即Scenario -2）。攻击者也可以直接利用预训练模型来执行敏感信息推导，而无需利用受害者的运动传感器数据进行自适应训练（即Scenario -3）。

7.1 CNN-based Sensitive Information Derivation

Representation Extractor. 由于面部运动和骨传振动的特征具有非常不同的属性和维度，我们使用两个 CNN 模型来处理这两种面部动力学的特征，如图 11 所示。
在这里插入图片描述
对于这两种 CNNs，将批量归一化层应用于输入特征以去除均值并将特征缩放为单位方差，旨在减轻数据样本之间的小规模变化。为了处理面部动作的特征，我们使用由 3 个带有 2D 内核的卷积层组成的 CNN 来计算特征图。加速度计/陀螺仪的x、y、z轴被认为是CNN的3个独立通道。对于骨传振动，由于频谱图的尺寸很大，我们在每个卷积层上附加一个最大池化层以进行降维。然后将两个 CNNs 的 2D 特征图展平并用两个全连接层压缩。两个 CNNs的连接输出用作特征表示来执行攻击。所有层的激活都是ReLU。
Sensitive Information Classifier. 为了获取敏感信息，我们将特征表示提供给分类器，该分类器由两个全连接层和一个 SoftMax 层组成，用于将特征表示映射到不同类别（例如，不同说话者）的概率。在训练过程中，我们使用分类交叉熵作为损失函数，以检验模型预测和标签之间的差异。根据攻击者的目标，可以轻松修改敏感信息分类器以执行三个推理任务（即性别检测、说话者识别和语音识别）。

7.2 Unsupervised Domain Adaptation

面部动态通常包含耳机佩戴者特有的大量信息，包括独特的生物特征(如面部形状、组织特性)和说话行为。攻击者可能无法获得足够大的数据集来构建通用模型来抑制这种个体差异。为了在规避训练要求的同时实现有效攻击，我们应用了一种域适应技术，该技术可以有效地将从预训练模型中学到的知识转移到针对受害者的特定推理任务中。具体来说，我们通过利用攻击阶段收集的受害者的运动传感器数据，采用域对抗训练来消除嵌入在面部特征中的说话者相关特征。
我们方案的关键组件是一组域鉴别器，它们自适应地更新表示提取器的参数，如图 11 所示。我们将佩戴者（非受害者）定义为参与预训练模型训练的个体，并为每个佩戴者-受害者对构建域鉴别器（即，具有 2 个全连接层和一个 SoftMax 层），它自适应地将每个佩戴者的共享特征转移到受害者的特征空间。通过从表征提取器中提取表征作为输入，每个域识别器预测域标签(即受害者或相应的佩戴者)。然后，通过应用生成对抗损失，我们可以使用域鉴别器来指导表示提取器学习与说话人无关的表示。其思想是在优化过程中对域损失应用一个负因子-λ，以便表示提取器被训练来“混淆”每个域鉴别器。给定 K 个佩戴者-受害者对（即，在 K 个佩戴者和受害者之间），优化表示提取器的损失函数定义为
在这里插入图片描述
式中，L^s_k表示使用𝑘^𝑡?佩戴者的数据计算出的分类器的丢失，L^d_k表示𝑘^𝑡?域鉴别器的丢失。log-sum-exp算法自适应地将所有k对穿戴者-受害者的损失进行组合，并使最终损失平滑，以加速收敛。λ因子用于平衡表征性、可移动性和特殊性之间的权衡。

8 ATTACK EVALUATION

我们在两个独立耳机（即 Oculus Quest 和 HTC Vive Pro）和两个低成本的纸板耳机（即带有 Nexus 6 和三星 Galaxy 6 智能手机的纸板耳机）上验证 Face-Mic。

8.1 Experimental Setup

Face-mounted AR/VR headsets.

Operating Systems:VR/AR耳机通常运行在智能手机和计算机操作系统上。特别是，HTC Vive Pro 连接到具有 i7-8700 CPU 和 GeForce RTX 2080 显卡 (8G) 的台式机，在 Windows 10 上运行。同样，Oculus Quest的主机运行在安装了Oculus平台的windows 10上。对于硬纸板耳机，我们使用的是运行在Android上的Nexus 6和三星Galaxy 6。
Motion Sensors:HTC Vive Pro and Samsung Galaxy 6配有相同的运动传感器模块，即Invensense MPU-6500，加速度计和陀螺仪的灵敏度范围分别为2048/4096/8192/16384 𝐿𝑆𝐵/𝑔和16.4/32.8/65.5/131 𝐿𝑆𝐵/^?/𝑠𝑒c。Nexus 6配备了Bosch Sensortec BMI160运动传感器，具有相同的加速度计/陀螺仪灵敏度。Oculus Quest使用的是由Facebook设计的原创运动传感器板330-00193- 03 1PASF8K，但规格并未公布。虽然运动传感器芯片支持高采样频率(例如，约8KHz)，但供应商限制采样频率以确保低功耗，例如，Nexus 6为227Hz，三星Galaxy 6为203Hz, Oculus Quest和HTC Vive Pro均为1000Hz。请注意，我们选择两款低端智能手机的目的是为了展示 FaceMic 的通用性，因为当前大多数智能手机中的运动传感器具有相似甚至更高的采样率。
Speech Datasets.
Digit Dataset:数字可以与广泛的高度敏感信息（例如，SSN、信用卡号）相关联。为了评估 Face-Mic，我们收集了由 TIDigits 语料库中借用的 11 个数字组成的数字数据集。除数字0~9外，数字0的同义词“oh”的发音也被收录。
PGP Word Dataset:为了评估我们的攻击在推断更通用的单词方面的性能，例如群组语音聊天中的私人和敏感信息，我们应用了 PGP 单词列表的一个子集。具体来说，我们从PGP词表中选择20个不同长度和音节的常用词来评估Face-Mic对不同词的泛化能力。
Participants & Data Collection. 我们收集了上述4个AR/VR耳机的数字/文字数据集，共涉及45名参与者，年龄从24岁到36岁。具体来说，实验涉及 Oculus Quest 的 15 名参与者（11 名男性和 4 名女性），HTC Vive Pro 的 10 名参与者（8 名男性和 2 名女性），10 名 Nexus 6 的纸板耳机参与者（7 名男性和 3 名女性），以及 20 名参与者使用 Samsung Galaxy 6 的纸板耳机（13 名男性和 7 名女性）。请注意，参与 Cardboard (Nexus) 数据集的 10 名参与者也参与了 Oculus Quest 数据集。要求每位参与者佩戴耳机，重复上述数字和单词10次。在实验过程中，我们使用声级计测量参与者说话时的声压级（SPLs），该声级计放置在距离参与者嘴部约 30cm 处，测得的 SPLs 约为 67dB~73dB。实验在6个不同的环境中进行，包括3个大学的办公室，2个住宅公寓，以及一个包含不同声音噪音(如对话、空调噪音)的户外环境。我们发现这些声学噪声对运动传感器读数的影响有限，这与先前工作的发现一致。在我们所有的实验中，我们都让参与者以一种舒适的方式自己戴耳机，并且我们没有限制参与者的动作。我们总共为 Oculus Quest 收集了 4, 650 个数据段，为 HTC Vive Pro 收集了 3, 100 个数据段，为 Nexus 6 的纸板耳机收集了 3, 100 个数据段，为三星 Galaxy 6 的纸板耳机收集了 6, 200 个数据段。数据收集程序经过我校IRB的批准。
Evaluation Methodology. 我们通过测量攻击成功率来检查性别检测和说话者识别。对于性别识别，成功率定义为正确识别出的片段属于男性或女性的百分比;对于说话者识别，攻击成功率定义为正确识别出的片段属于相应受害者的百分比。对于更具有挑战性的语音识别任务，我们通过使用top-N准确度来定义攻击成功率。top-N精度定义为实际数字/单词在深度学习模型预测的top N类中的概率。我们使用top-1, top-2和top-3准确度来量化攻击的有效性。
为了评估场景1下的Face-Mic，我们将所有用户的数字/文字数据集(即，包括运动传感器数据和标签)随机分成10个大小相等的子集，其中9个子集用于训练，其余1个子集用于测试。为了检查我们的攻击在不需要受害者标签进行训练的场景 2 下的有效性，我们轮流将每个参与者视为受害者，并利用所有剩余参与者的标记数据来预训练深度学习模型。然后，我们利用受害者的运动传感器数据，以适应基于所提出的无监督域自适应方法的预训练模型。对于场景 3，我们直接将预训练模型应用于受害者的数据，而不应用域适应。

8.2 Gender Detection

Attacks via High-end Standalone Headsets. 三种攻击场景下两款高端独立耳机的性别检测性能如图 12(a) 所示。
在这里插入图片描述
我们发现我们的攻击在两种耳机上都有显著的性能，在场景 1 下成功率超过 99%。此外，我们发现即使在更具挑战性的场景下，不利用受害者的标签（即性别）进行训练（即场景 2 和场景 3），Face Mic 仍然可以实现超过 85% 的性别检测成功率，这显示了所提出的攻击的有效性。
Attacks via Low-cost Cardboard Headsets. 接下来，我们使用 Nexus 6 和 Galaxy S6 智能手机检查 Face-Mic 在两款纸板耳机上的性别检测性能，三种攻击场景的性能如图 12(b) 所示。我们发现，即使在更低的采样率(200Hz左右)下，Face-Mic仍然可以实现显著的性别检测准确率，在场景1下的攻击成功率超过99%。一个令人鼓舞的发现是，设计的无监督域适应方案可以在场景 2 下实现高攻击成功率，成功率超过 98%，与场景 1 的结果相当。此外，我们观察到即使不应用域适应（即场景 3），Face-Mic 仍然可以实现超过 75% 的性别检测性能。结果证明了 Face-Mic 在检测纸板耳机佩戴者性别方面的有效性。

8.3 Speaker Identification

Attacks via High-end Standalone Headsets. 然后，我们使用 Oculus Quest 和 HTC Vive Pro 评估 Face-Mic 在识别说话人方面的效果，结果如图 13(a) 所示。
在这里插入图片描述
我们发现，当使用两种面部肌肉运动(即组合运动)时，FaceMic在Oculus Quest和HTC Vive Pro上分别可以达到97%和93%以上的攻击成功率。对于这两种耳机，对单词数据集的攻击成功率通常高于对数字数据集的攻击成功率。我们认为，这是因为单词的长度更长，音节更丰富，这意味着更多的生物特征。
Attacks via Low-cost Cardboard Headsets. Face-Mic 在 Nexus 6 和 Galaxy S6 智能手机的两款纸板耳机上的说话人识别性能如图 13(b) 所示。虽然运动传感器的采样率在纸板耳机(约200Hz)要低得多，但Face-Mic在使用面部肌肉运动和骨传导振动(即组合振动)时，两种耳机的成功率仍然超过94%，这证明了Face-Mic与低成本纸板耳机的有效性。此外，与高端独立耳机相比，我们发现纸板耳机在骨传导振动上有更高的成功率。这样的结果可以归因于纸板耳机的振动阻尼比较低，因为独立的耳机通常配备厚面罩垫以提供舒适感，这极大地减弱了骨传播的振动。

8.4 Speech Recognition

Performance under Scenario-1. 然后，我们在获得简单语音内容（包括数字和 PGP 词）方面评估 Face-Mic。Oculus Quest和HTC Vive Pro在Scenario-1下的攻击成功率如图14(a)所示。
在这里插入图片描述
令人鼓舞的是，无论是Oculus Quest还是HTC Vive Pro, Face-Mic在使用面部肌肉运动和骨传导振动(即组合振动)时，都达到了99%以上的top-1准确率。我们还分别检查了特征集（即面部肌肉运动和骨传导振动）对攻击的影响，平均 top-1 准确度分别为 89% 和 96%。骨传导的振动是由声带直接产生的，因此它们被编码成丰富的音素特征，从而提高了语音识别性能。我们还利用两种低成本的纸板耳机评估了Scenario-1下的语音识别性能，结果如图14(b)所示。我们发现，即使在更低的采样率下，Face-Mic 在使用这两种特征集时，语音识别的 top-1 准确率也可以达到 93% 以上。结果证明了Face-Mic在Scenario-1下的有效性。
Performance under Scenario-2. Scenario-2 下独立耳机的攻击性能如图 15(a) 所示。
在这里插入图片描述
我们发现，即使受害者的标签（即音频数据）不可用，Face-Mic在Oculus Quest分别在数字识别和文字识别方面的准确率实现了(54%, 48%) top-1, (70%, 60%) top-2 和 (81) %, 68%)top-3。作为比较，识别这些数字和单词的随机猜测概率分别只有 9.1% 和 5%。对于 HTC Vive Pro，攻击性能分别为 (44%, 39%) top-1, (58%, 50%) top-2 和 (69%, 62%) top-3 准确率。这些结果表明，在自适应再训练下，使用独立耳机的攻击性能相当。如图15(b)所示，在相同的攻击场景下，两种纸板耳机在数字识别和文字识别方面的准确率分别达到(32%、30%)top-1、(43%、42%)top-2和(53%、49%)top-3左右。两款耳机的 top-3 成功率都达到了 50%，这可以让攻击者提取一些语音内容。尽管纸板耳机的准确度较低，但数字和单词识别准确度仍然是 top-1 中相应随机猜测准确度的 2 倍和 3 倍，以及 top-3 中随机猜测的 5 倍和 9 倍。
Performance under Scenario-3. 在最具挑战性的场景中，如图16(a)所示，Face-Mic在Oculus Quest的数字和文字识别中仍然可以获得(44%，40%)top-1、(62%，55%)top-2和(72%，62%)top-3准确度。
在这里插入图片描述
结果超过随机猜测(即，数字识别9.1%，文字识别5%)4倍(top-1)到8倍(top-3)和7倍(top-1)到12倍(top-3)。这些结果表明，即使没有受害者的任何数据，Face-Mic也有能力提取语音信息。我们发现 HTC Vive Pro 的数字和文字识别性能略低，(33%,30%) top-1, (49%,43%) top-2 和 (60%,51%) top-3。在相同的场景下，如图16(a)所示，两个纸板耳机的数字和文字识别准确率较低，分别为(24%，21%)top-1、(36%，31%)top-2和(46%，39%)top-3。

8.5 Impacts of Body Movements

为了评估Face-Mic在运动干扰下的鲁棒性，我们进行了一个案例研究，让5名参与者(3男2女)戴着Oculus Quest 和 Google Cardboard，手持Nexus 6智能手机，在说数字(即“Oh”，0~9)的同时进行大规模的肢体动作。特别地，我们收集了现实AR/VR场景中两个具有代表性的动作的数字数据集:1)头部动作:参与者在说每一个数字时头部向上或向下移动;2)身体动作:参与者在说每一个数字时向前或向后移动一步。在实验过程中，我们不限制参与者的姿势。检测性别、识别用户、识别数字的攻击成功率如表2所示。
在这里插入图片描述
我们发现，当使用提出的身体运动伪影去除 (BMAR) 方法（在第 5.2 节中介绍）时，Face-Mic 在窃听敏感信息方面更加有效。具体来说，考虑到大规模的肢体动作，BMAR将用户识别和数字识别的成功率分别提高了8.3%和13.3%。可以观察到纸板耳机的改进甚至更高，识别用户和识别数字的成功率分别提高了 25.4% 和 34.9%。性别检测模型不太容易受到身体运动的影响。总的来说，BMAR方法可以大大提高Face-Mic的窃听性能。这些改进是由精心设计的 BMAR 模型带来的，该模型减轻了运动伪影的影响。

8.6 Impact of Training Data Size

我们考虑训练规模对推导耳机佩戴者的性别、身份和简单语音信息的影响，在场景 1 下采用最少知识方法来评估攻击成功（使用 110 个样本进行训练/测试）。图 17 显示了一个折线图，比较了四种可用设备在训练规模不同时的攻击成功率。
在这里插入图片描述
x轴表示用于训练的样本数量。对于这两款低成本耳机，只需两个训练样本，性别和说话人识别准确率就可以达到 92%。对于三星 Galaxy S6，Face-Mic 实现了几乎 100% 的性别检测准确率。对于 Oculus Quest 和 HTC Vive Pro，使用五个训练样本，性别检测和说话人识别准确率超过 96%。对于数字和文字识别，6个样本的训练成功率达到83%。总体而言，我们的结果表明 Face-Mic 的训练要求较低。

9 RELATED WORK

AR/VR Headset Security: AR/VR耳机及其潜在的安全漏洞越来越受到学术界的关注。Roesner等人指出了当前AR/VR技术在安全和隐私方面面临的不同挑战，并将他们的知识系统化，横跨两个因素:系统范围和功能。作者描述了AR/VR设备的隐私风险比传统系统大得多，因为AR/VR设备的特定行为，如连续的传感器监测(即加速度计、GPS等)和不受限制的传感器访问。AR/VR隐私的初步研究主要集中在用户输入安全方面。具体来说，他们研究了不受限制的传感器访问（例如麦克风、视频、MEMS）可能带来的挑战，以及如何破坏它来推断用户击键。另一项研究探索了不受监管的AR/VR视觉输出的潜在风险。Chen 等人的案例研究。揭示了面部安装 VR 设备的潜在安全漏洞，这是我们自己工作的一个关键兴趣。
Motion Sensor Based Speech Eavesdropping: 学术研究一直致力于MEMS运动传感器对用户语音的窃听攻击。在 AccelEve 和 Gyrophone 中，作者展示了使用智能手机加速度计和陀螺仪数据来破坏语音隐私的攻击。同样，Accelword 是一个良性应用程序，旨在识别用户的空中语音。在一项更广泛的研究中，Anand等人分析了来自MEMS运动传感器的语音隐私威胁，发现可能需要相同的表面传播介质(在[22]中观测到)和高音量语音(在[41]中观测到)等参数来成功地破坏语音。在我们的工作中，我们捕获了说话者的面部动态（骨传播振动和面部肌肉运动的组合），引入了一种尚未在学术界探索的用于语音分类的新特征源。
Bone-Borne Vibrations and Defensive Applications: 最近出现了一项研究，探索用于语音识别的骨传导振动。一项初步研究使用安装在眼镜鼻托上的高保真压电圆盘来捕捉振动并重建语音。在Zhang等人的一项研究中，作者探索了骨传导振动用于认证/防御目的，并提出了一个称为VibLive的连续活体检测系统。在我们的工作中，我们探索了当有人使用AR/VR耳机时的独特场景，耳机本身允许用户的面部和内置的智能手机运动传感器之间的直接振动传播，捕捉骨传导振动和面部肌肉运动。

10 DISCUSSION

10.1 Potential Defenses

抵御 Face-Mic 的一种直观方法是禁用运动传感器的后台使用。然而，几乎所有的AR/VR应用都需要使用运动传感器来感知头部运动。即使应用程序在安装过程中请求运动传感器的后台许可，大多数用户也会同意。此外，还可能干扰运动传感器数据和与语音相关的面部动态之间的相关性，以防范这种类型的攻击。这可以通过在不干扰AR/VR运动跟踪的情况下，通过编程方式向运动传感器读数注入噪音来实现。沿着这个方向，Face-Mic 引入的隐私风险可以通过设计感官噪声来混淆面部运动和骨传振动的重建来减轻。另外，VR耳机制造商可能会在泡沫替代罩和头带中加入延展性材料，这可能会减弱内置的加速度计/陀螺仪捕捉到的面部振动。与带有薄面罩的 Oculus Quest 相比，HTC Vive 配备了厚面罩，窃听数字和 PGP 单词的成功率要低得多。受此观察启发，我们建议 AR/VR 耳机供应商在耳机和用户面部之间添加一些延展性材料，以减弱面部振动。另一个有效的防御方法是限制AR/VR操作系统(例如HTC Vive的Windows)中加速度计和陀螺仪的采样率。但是，限制采样率也可能会影响一些良性应用程序的功能和可用性。此外，除了高频的骨传导振动，Face-Mic还利用面部肌肉在低频范围内的运动(例如，低于100Hz)，使其仍然能够获得一些敏感信息。

10.2 Potential Attack Improvement

作为该领域的第一项研究，我们在当前最流行的商业VR耳机Oculus Quest上，验证了FaceMic能够对语音内容进行分类，在Scenario-1、Scenario-2和Scenario-3场景下，分别有11位数字和20个PGP单词，识别准确率分别为99%、54%和44%。这种能力已经允许攻击者获得大量敏感信息，如电话号码、社会安全号码和密码。我们认为，如果数据集能够得到足够的扩展(例如，涉及更多的人的数据)，我们的攻击性能将会得到进一步的提高。另一个挑战是，在某些AR/VR场景(如AR/VR虚拟会议)中，受害者的言语可能涉及更大的词汇集，这使得基于有限词汇的预先训练模型难以重建所有的言语内容。一种可能的解决方案是利用庞大的数据集和丰富的词汇量来训练一个通用的深度学习模型，但这种方法需要大量的人力，在实践中是不可行的。由于骨传导振动和人类语言都是由声带产生的，因此可以开发一种语音重建方案，该方案可以将运动传感器读取的骨传导振动映射为音频信号，类似于麦克风录制的人类语言。这种映射可以通过一个深度自动编码器网络来实现，该网络包括一个编码器，将骨传导振动转换为隐藏的特征，以及一个解码器，将特征转换为音频信号。此外，我们可以使用更复杂的网络架构(如WaveNet、Transformer)来提高语音重构性能。这样，我们可以直接应用现有的基于音频的语音识别模型(如谷歌speech -to- text)来推断受害者的语音内容。我们将此作为我们未来的工作。

11 CONCLUSION

在本文中，我们提出了Face-Mic，这是一种针对AR/VR设备的毁灭性攻击，它利用零许可运动传感器捕获的面部动态来推断私人语音和说话者信息。我们确定了捕捉语言效应的两种面部振动，即与语言相关的面部运动和骨传导的振动。为了实现实际攻击，我们开发了一种基于深度回归的信号源分离技术来消除人体运动的影响。基于面部运动和骨传导振动的独特特征，我们提取了两组特征，捕捉独特的私人生物特征和语音特征。利用提取的特征，开发了一个基于深度学习的框架，以获取耳机所有者的性别/身份，并可能恢复语音内容。我们通过大量的实验验证了Face-Mic，并证明了它的通用性和有效性。我们认为，Face-Mic对AR/VR设备的用户构成了真正的威胁，这需要更多的研究来开发未来的防御解决方案。