IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 游戏开发 -> 【Cascade FPD】《Deep Convolutional Network Cascade for Facial Point Detection》 -> 正文阅读

[游戏开发]【Cascade FPD】《Deep Convolutional Network Cascade for Facial Point Detection》

在这里插入图片描述
在这里插入图片描述

CVPR-2013



1 Background and Motivation

face keypoint detection 有利于 face recognition and analysis

face keypoint detection 难点在于 extreme poses, lightings, expressions, and occlusions 的场景

现有方法:

  • classifying(component detector) search windows,要 scanning,利用的是局部特征
  • directly predicting keypoint positions (or shape parameters)

作者设计了一种级联的 CNN 结构——a cascaded regression approach for facial point detection with three levels of convolutional networks,significantly improves the prediction accuracy of SOTA and latest commercial software

2 Related Work

  • Many used Adaboost, SVM, or random forest classifiers as component detectors and detection was based on local image features.
  • regression-based approaches
  • Convolutional networks

3 Advantages / Contributions

  • 提出级联的 CNN 结构用于人脸关键点的精确定位,在一些数据上的效果优于 SOTA 和商业软件
  • 采用 locally sharing weights 对人脸不同关键点进行更有针对性的训练

4 Method

级联网络结构如下
在这里插入图片描述
cascade three levels of convolutional networks to make coarse-to-fine prediction

五个关键点:

  • left eye center (LE)
  • right eye center (RE)
  • nose tip (N)
  • left mouth corner (LM)
  • right mouth corner (RM)

1)level 1

输入是整张脸,三个网络分别预测

  • whole face (F)——指的是脸上的五个关键点
  • eyes and nose (EN)
  • nose and mouth (NM)

三个网络的结果会平均一下作为后续 level 的输入的一部分

2)level2 和 level3

输入是以前一个 level 预测人脸关键点的坐标为基准的一个 patch

level2 和 level3 有 10 个网络,分别预测 5 个关键点的横纵坐标

Predictions at the last two levels are strictly restricted because local appearance is sometimes ambiguous and unreliable.

3)最终预测

在这里插入图片描述
也即在 level1 预测的结果的基础上 refine( Δ \Delta Δ

4)具体网络结构

level1 三个网络,level2 和 level3 各有 10 个网络,长啥样呢?

先看看 level1 的 F1

在这里插入图片描述
再看看其他的结构
在这里插入图片描述
level1 用到了 S0 和 S1,level2 和 level3 都用的是 S2

5)locally sharing weights

globally sharing weights does not work well on images with fixed spatial layout, such as faces

For example, while eyes and mouth may share low-level features (e.g. edges), they are very different at high-level.

先看看卷积的公式
在这里插入图片描述

简写成 C ( s , n , p , q ) C(s, n, p, q) C(s,n,p,q)

C R ( s , n , p , q ) CR(s, n, p, q) CR(s,n,p,q) 则表示在 tanh 后加了个绝对值

除了 w w w b b b 上多出来的 u u u v v v 外和正常的卷积(没有 locally shared weight)一摸一样

输入特征图 ( h , w , m ) (h, w, m) (h,w,m)

  • m m m 输入通道数
  • n n n 输出通道数, t t t 输出的某个通道数, t = 0 , . . . , n ? 1 t = 0,...,n-1 t=0,...,n?1
  • s s s 是卷积的 kernel size
  • i , j i, j i,j 是空间位置索引(不是像素空间,是作者划分的局部共享空间,具体划分规则如下面公式所示)
    i = Δ h ? u + 0 , . . . , Δ h ? u + Δ h ? 1 i = \Delta h \cdot u + 0, ... , \Delta h \cdot u + \Delta h -1 i=Δh?u+0,...,Δh?u+Δh?1,其中 Δ h = h ? s + 1 p \Delta h = \frac{h-s+1}{p} Δh=ph?s+1? u = 0 , . . . , p ? 1 u = 0, ... , p-1 u=0,...,p?1
    j = Δ w ? v + 0 , . . . , Δ w ? v + Δ w ? 1 j = \Delta w \cdot v + 0, ... , \Delta w \cdot v + \Delta w -1 j=Δw?v+0,...,Δw?v+Δw?1,其中 Δ w = w ? s + 1 q \Delta w = \frac{w-s+1}{q} Δw=qw?s+1? v = 0 , . . . , q ? 1 v = 0, ... , q-1 v=0,...,q?1

把整图 ( h , w ) (h, w) (h,w) 大致分成了 p p p x q q q 块区域(用 u u u v v v 来索引),每块区域大小大致为 Δ h \Delta h Δh x Δ w \Delta w Δw,每块区域内权重共享,而不是全图了(正常卷积全图内权重共享——kernel size 范围内当然不共享)

再看看池化层的公式
在这里插入图片描述
gain coefficient g g g and shifted by a bias b b b s s s is the side length of square pooling regions

FC 层
在这里插入图片描述

  • n n n 输出向量维度, m m m 输入向量的维度
  • j = 0 , . . . , n ? 1 j = 0, . . . , n ? 1 j=0,...,n?1

tanh 函数
在这里插入图片描述

6)具体输入大小
在这里插入图片描述

可以看到 F1 的网络还在人脸的基础上外扩了一些

level2 和 level3 在 level1 输出的 point position 上外扩

5 Experiments

5.1 Datasets

  • 13, 466 face images,5, 590 images are from LFW + 7, 876 from the web
    在这里插入图片描述

  • BioID has 1, 521 images of 23 subjects
    在这里插入图片描述

  • LFPW contains 1, 432 face images from the web
    在这里插入图片描述

评价指标
在这里插入图片描述

  • ( x , y ) (x,y) (x,y) 是预测的关键点
  • ( x ′ , y ′ ) ({x}',{y}') (x,y) 是 GT
  • l l l is the width of the bounding box returned by our face detector

误差大于 %5 则认为 failure

l l l 为 bi-ocular distance(双目距离)更常见,but it has problem on faces with large pose variations, since bi-ocular distance of near-profile faces is much shorter than that of frontal faces,也即会放大侧脸时候的误差,上述的相对会好一些

5.2 Investigate network and cascade structures

1)Network structure
在这里插入图片描述
F1 探索了不同网络的效果,S0较好

the performance can be significantly improved by including more layers

S6 和 S7 的结构同 S0,但 S6 卷积用的 C 不是 CR,S7 用的是 globally shares weights 而不是 locally sharing weights

We also find that locally sharing weights in higher layers is more important

2)Multi-level prediction
在这里插入图片描述
cascade 下来,error 在减少

5.3 Comparison with other methods

在这里插入图片描述
在这里插入图片描述

6 Conclusion(own) / Future work

代码:https://github.com/luoyetx/deep-landmark

推荐博客:

cascade

locally sharing weights

  游戏开发 最新文章
6、英飞凌-AURIX-TC3XX: PWM实验之使用 GT
泛型自动装箱
CubeMax添加Rtthread操作系统 组件STM32F10
python多线程编程:如何优雅地关闭线程
数据类型隐式转换导致的阻塞
WebAPi实现多文件上传,并附带参数
from origin ‘null‘ has been blocked by
UE4 蓝图调用C++函数(附带项目工程)
Unity学习笔记(一)结构体的简单理解与应用
【Memory As a Programming Concept in C a
上一篇文章      下一篇文章      查看所有文章
加:2022-04-22 19:10:32  更:2022-04-22 19:11:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 13:36:09-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码