开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 人脸表情识别解干扰论文解读2：D3Net：Dual-Branch Disturbance Disentangling Networkfor Facial Exp -> 正文阅读

[人工智能]人脸表情识别解干扰论文解读2：D3Net：Dual-Branch Disturbance Disentangling Networkfor Facial Exp

D3Net：厦门大学?发表于ACM MM 2021

原论文链接：有道云笔记

????????本文的第一作者是信息学院计算机科学与技术系2019级硕士生莫榕云，通讯作者是信息学院计算机科学与技术系严副教授。论文提出了一种基于多任务框架的双分支干扰分离的人脸表情识别方法（D3Net），包括表情分支和干扰分支，可以同时分离常见干扰特征和潜在干扰特征，提取更有效的表情特征。其中，干扰分支包含两个子分支。一个子分支利用其它人脸数据集的干扰标签和迁移学习的方式来训练，可以提取常见干扰特征。另一个子分支结合非参数贝叶斯先验——印度自助餐过程（IBP）先验，以无监督的方式学习潜在干扰特征。同时，该方法通过对抗训练来区分干扰特征和表情特征。最后，优化联合损失，促使表情分支更专注于提取高判别力的表情特征。实验结果表明，该方法在3个室内数据集和2个室外数据集上都达到了优越的识别性能。

????????ICCV作为计算机视觉领域国际顶级会议之一，由IEEE举办，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。本次ICCV共计6236篇有效提交论文，其中有1617篇论文被接收，接收率为25.9%。 ACM MM是计算机学科公认的多媒体领域的国际顶级会议，被中国计算机学会列为A类会议，本次全球1942篇投稿中，542篇论文被录用，接收率为27.9%。

1. Motivation

????????面部表情识别(FER)的主要问题之一是解决各种干扰因素，包括身份、姿势、光照、性别、种族、年龄等常见的干扰因素和潜在的干扰因素(如发型、配饰、遮挡等)。

2 PROPOSED METHOD

?2.1.Expression Branch

????????继主干网之后，表达式分支由三个FC层组成。我们通过最小化交叉熵损失来训练表达式分支，交叉熵损失定义为:

2.2.Disturbance Branch

2.2.1 Label-A ware Disturbance Sub-Branch (LAS).

????????LAS是为了捕捉常见干扰因素的干扰信息而开发的。然而，在大多数FER数据库中，只有身份和姿势的标签可用。幸运的是，一些大规模的人脸数据库提供了常见干扰因素的标签。例如，Multi-PIE [13]和RAF-DB [25]分别提供了身份、姿势、照明和性别、种族、年龄的标签。因此，我们能够利用迁移学习来利用这些可用的标签，实现fer数据库中常见干扰因素的明确解纠缠。

我们对人脸数据库中常见干扰因素的干扰信息进行预处理，为训练LAS提供参考干扰特征。

LAS通过在预先训练的模型上进行迁移学习，实现了对常见干扰因素的明确分解。

先使用DDL(下图)训练个模型，用来学习干扰因素D维特征分布。

该模型参考原文：https://note.youdao.com/s/S58rncuR

或者看我上一篇博客，就是介绍该模型的，当然只有PPT~

?具体过程：

?用下面公式监督LAS(两个FC层)拟合出DDL可以提取的D维特征。

?2.2.2Label-Free Disturbance Sub-Branch (LFS)

说不清楚，介建议看原文~

2.2.3Adversarial Training

????????大多数方法[15，18，20]同时执行图像重建和解纠缠。虽然图像重建有利于捕捉详细信息，但不利于执行解纠缠。与这些方法不同，我们利用对抗性训练来最大化无标签干扰特征和表情特征之间的差异(而不是使用解码器进行图像重建)，从而提高分类性能。

????????我们不会强制实施从LFS和LAS提取的特征之间的差异，因为这些特征不是相互不相关的(例如，一些常见的干扰因素(如性别)和一些潜在的干扰因素(如发型)之间的相关性可能很高)。

对抗训练包含两个步骤。

首先，给定扰动特征作为输入，训练一个额外的分类器来预测表达式。注意，在对抗训练之前，ful包含一些表达信息。因此，它仍然可以用来预测表达式。因此，Cu建议通过最小化分类损失来更新。

第二，特征提取通过最大化来自LFS的预测的不确定性，将该特征训练为随机预测。我们定义了一个混淆损失，它最小化预测之间的交叉熵和表达式标签上的均匀分布，公式如下所示：
?因此，对抗性损失表示为：

?类似地，我们还执行对抗性训练，以从表情特征中去除标签感知干扰特征。

?????????点评：Adversarial Training这个设计和上一篇差不多，都是使用对抗的方式，让fiu和fia里面都不包含和表情相关的特征。

设计一个分类器，让它能够从fiu的特征里面准确的做表情分类任务，这里fiu不动，分类器的参数在优化
设计一个 confusion loss ，让fiu通过上面的分类器时的分类不确定性加大，也就是通过重新提取fiu，让分类器的分类准确度降低。最后达到提取的fiu提取到的干扰信息更加准确，不包括表情特征。

但这样的设计都只能让上面的两个分支提取到的干扰信息更加准确。和最下面的表情分支，让其更专注于提取高判别力的表情特征好像关系不大。