IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> SynFace Face: Recognition with Synthetic Data 阅读笔记 -> 正文阅读

[人工智能]SynFace Face: Recognition with Synthetic Data 阅读笔记

SynFace: Face Recognition with Synthetic Data

该文主要目的是将合成的人脸数据用于人脸识别模型的训练,指出了用生成图像来训练无法达到真实图片效果的原因,并给出了解决方法。文中同时还讨论了数据集的深度和广度对模型性能的影响,并研究了数据中一些属性如光照、表情、姿势等对训练结果的影响。
在这里插入图片描述

背景

近年来,人脸识别在一系列具有挑战性的问题上取得了非凡的进展,比如不同年龄匹配、多模态模态,遮挡人脸等问题。在这些发展中,不单单是对网络模型的改进或是对损失的改进,数据集的规模和质量的提升,对人脸识别模型性能提升也同样有很大的帮助。然而随着互联网的发展,数据集的规模不断扩张的同时,由于噪声标签和人脸隐私等问题,使得人脸识别模型的性能很难进一步提升,同时,许多人脸训练数据集也存在长尾问题,即头类样本数多,尾类样本数少等问题。因此,为了解决人脸数据质量低和涉及隐私等问题,使用合成的人脸数据是一个不错的选择和探索。

在本文中,作者的主要工作有如下三个部分:

  1. 通过一个可控的人脸合成模型(DiscoFaceGAN,并非该文 工作),生成了非真实存在的大规模人脸数据,解决了隐私问题的风险;
  2. 探讨不同人脸数据集属性的影响,如深度(每个身份的样本数量)和宽度(身份数量);
  3. 分析不同面部属性(如表情、姿势、光照)的对模型性能的影响

探索分析

作者将DiscoFaceGAN作为基本的生成模型,先与真实数据训练得到的模型进行对比分析,下图是分别在真实人脸数据与混合人脸数据上的结果对比,可以看到混合人脸数据训练的模型无法很好地适应真实的人脸数据集。

在这里插入图片描述

进一步作者使用MDS可视化了真实样本和合成样本的特征分布结果,明显合成人脸的类内间距比真实人脸的要小,图中浅蓝色三角、蓝色三角、红色圆圈分别表示了不同精度下的合成人脸特征的类内分布情况,可以看出随着类内间隔的增大,模型训练的精度也得到了提升
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a9peKRmk-1634565647569)(./images/img2.png)]

身份混合

为增大类内间距,受到mixup的启发,作者提出通过插值两个不同的身份作为一个新的中间身份,并相应地改变标签,来扩大阶层内的变化。具体来说,生成人脸模型的身份系数空间引入mixup,即Identity Mixup (IM),得到Mixup Face Generator。数学表达如下公式(1):
α = φ ? α 1 + ( 1 ? φ ) ? α 2 η = φ ? η 1 + ( 1 ? φ ) ? η 2 ( 1 ) \begin{aligned} &\alpha=\varphi \cdot \alpha_{1}+(1-\varphi) \cdot \alpha_{2} \\ &\eta=\varphi \cdot \eta_{1}+(1-\varphi) \cdot \eta_{2} \end{aligned} \qquad(1) ?α=φ?α1?+(1?φ)?α2?η=φ?η1?+(1?φ)?η2??1

其中α1、α2为λ空间的两个随机恒等系数(详细需要去了解下 DiscoFaceGAN的输入),η1、η2为对应的类标。注意,加权比?是从线性空间随机采样的,线性空间从0.0到1.0,间隔为0.05(即,np.linspace(0.0, 1.0, 21))。
下图是权重系数? 从 0 到 1 图像生成变化的过程,可以看到,即便是中间的混合人脸,生成的图像也是蛮逼真的。
在这里插入图片描述

领域混合

进一步,为了缩小模型早生成数据与真实数据表现上的差异,作者提出了Domain Mixup(DM)领域混合。具体来说,作者利用一小部分带有标注的真实数据加上大规模的生成数据,通过DM的方式来训练模型,DM具体数学表达如公式2,X_s与X_R分别代表生成和真实的人脸图片,相应的其标签也随之线性改变。
X = ψ ? X S + ( 1 ? ψ ) ? X R Y = ψ ? Y S + ( 1 ? ψ ) ? Y R ( 2 ) \begin{aligned} &X=\psi \cdot X_{S}+(1-\psi) \cdot X_{R} \\ &Y=\psi \cdot Y_{S}+(1-\psi) \cdot Y_{R} \end{aligned} \qquad (2) ?X=ψ?XS?+(1?ψ)?XR?Y=ψ?YS?+(1?ψ)?YR??2

同时为探索数据集的深度(每个身份的样本数量)和宽度(身份数量,作者也对比了不同身份数量与每个身份下图片数量的数据集训练效果。其中。“Mix N S”表示N个真实身份的混合,每个身份S个样本,Syn合成数据为10K个身份,每个身份50张人脸图片。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QB21OzVv-1634565647575)(./images/img6.png)]

深度与广度探索

进一步为了探索生成数据集的宽度(即类别数量)和深度(即类内样本数量) 对识别准确率的影响,作者在LFW数据集上做了一些消融实验,如下图所示。 可以看到随着深度和宽度的增加,准确率都是逐步上升的。但是深度在达到20之后,准确率就开始逐渐饱和。通过观察(a)(e)可以看到,它们具有相同数量的总样本(50K),但是(a)极大地超过了(e),差距为4.37,说明了宽度相比深度承担了更重要的角色。另外通过引入Identity Mixup (IM),所有结果都得到了很大地提升,再次说明了IM的有效性。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-efF86gDM-1634565647576)(./images/img8.png)]

属性分析

作者后续还研究了不同人脸属性变化对训练的影响,通过保持其他特性不变,只改变当前探索的特性来研究单一属性变化的作用。
在这里插入图片描述

可以看到不变(Non)和只变表情取得了最差的结果,这是因为这里生成的表情种类十分有限,基本上是微笑,故而可以等价成什么都不变。改变姿态和光照取得了巨大提升,这可能是因为测试数据集中的姿态和光照变化非常大的缘故。同样地,引入IM带来了稳定的提升,并且都达到了相似的准确率。潜在的原因是IM可以被视作为一种很强的数据增强,减少了各个特性对最终准确率的影响

总结

  1. 研究分析造成合成人脸数据训练表现不佳的具体原因。
  2. 提出了Identity Mixup (IM)与Domain Mixup(DM)来增大类内间隔和缩小领域间隔,通过实验证明了其有效性。
  3. 探索了不同深度和广度的数据集对结果的影响,当深度达到一定程度后,逐渐达到饱和,而提升数据宽度可以使得模型表现进一步提升。
  4. 研究了不同属性的影响,其中光照和姿态有较大的影响,通过IM方法同能消除这些影响。

利用合成人脸数据可以解决人脸隐私和噪声的问题,通过作者提出的方法混合方法,让合成人脸数据达到甚至超越了原始真实人脸训练的效果。最后还揭示了训练数据集的深度与宽度对于最终识别率的影响,并对比了几种属性的影响。

思考

1、实验精度是否非常依赖于生成模型,作者的工作更像是DiscoFaceGAN的应用,算是锦上添花的工作。
2、GAN网络一搬都比较难训练,使用的数据集是否对最后用来训练的模型影响比较大?
3、跨领域的融合是在像素级别上进行的(总感觉非常怪),是否要考虑人脸对齐的问题,定点融合是否需要?
后续笔者研究下DiscoFaceGAN的相关工作和实验效果。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-19 11:52:51  更:2021-10-19 11:52:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 8:34:44-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码