| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> [论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition -> 正文阅读 |
|
[人工智能][论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition |
Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition论文链接:https://ieeexplore.ieee.org/document/7410698 Abstract论文创新点:提出的深度网络(DTAGN)包括两个不同的子网络,第一个子网络(DTAN)从图像序列中提取时间外观特征,另一个深度网络(DTGN)从时间面部标志点中提取时间几何特征。为了提高面部表情识别的性能,使用新的集成方法将这两个模型结合起来。 DTAN(深层时间外观网络):Deep Temporal Appearance Network 使用数据集:CK+、Oulu-CASIA Introduction在论文中,作者对使用有限数量(通常是几百个)的带有深度网络的图像序列来识别面部表情感兴趣。为了克服数据量小的问题,作者构建了两个互为补充的小型深层网络。一个深度网络使用图像序列进行训练,更关注面部表情随时间的外观变化,而另一个深度网络学习面部标志点的时间轨迹,与面部部位的运动直接相关。此外,作者提出了一种新的积分方法,称为联合微调,其性能优于简单的加权求和方法。 论文的主要贡献:
Approach作者利用深度学习技术来识别面部表情。基本上,两个深层网络是结合在一起的:深层时间外观网络(DTAN)和深层时间几何网络(DTGN)。DTAN基于CNN,用于提取面部表情识别所需的时间外观特征。DTGN基于完全连接的DNN,捕捉关于面部地标点运动的几何信息。最后,为了提高表情识别性能,将这两个模型进行了集成。这种网络称为深层时间外观几何网络(DTAGN)。 图1 总体结构:
DTAN: 在本文中,CNN用于捕捉外观的时间变化。传统的CNN使用静态图像作为输入,而3D CNN最近被提出用于处理图像序列,沿时间轴共享3D滤波器。但是,我们使用n图像序列,不沿时间轴共享权重。这意味着每个过滤器根据时间扮演不同的角色。第一层的激活值定义如下: 其他层与传统CNN的区别如下:卷积层的输出在池化层中被重新缩放到一半大小,以实现高效计算。使用这些激活值,将再次执行卷积和池化操作。最后,这些输出值通过两个全连接层传递,然后使用 s o f t m a x softmax softmax进行分类。为了训练我们的网络,使用随机梯度下降法进行优化,并使用 D r o p o u t Dropout Dropout和权重衰减法进行正则化。 作者设计的网络具有中等深度和中等数量的参数,以避免过度拟合,因为面部表情识别数据库的大小太小——MMI数据库中只有205个序列。此外,如论文第4节中所讨论的,第一层被证明检测输入图像序列中外观的时间差异。 DTGN: DTGN接收面部标志点的轨迹作为输入。这些轨迹可视为一维信号,定义如下: 这些 x y xy xy坐标不适合直接用作深度网络的输入,因为它们没有标准化。对于 x y xy xy坐标的标准化,首先从每个点的 x y xy xy坐标中减去鼻子位置的 x y xy xy坐标(图1中带虚线的红色框中面部标志点之间的红点位置)。然后,将每个坐标除以每个帧中 x y xy xy坐标的每个标准偏差,如下所示:
图1中带有虚线的红色框中的图说明了 D T G N DTGN DTGN模型的体系结构。我们的网络接收连接的地标点 X X X作为输入。基本上,我们使用两个隐藏层,顶层是 s o f t m a x softmax softmax层。与 D T A N DTAN DTAN类似,该网络也使用随机梯度下降法进行训练。每个隐藏层的激活功能为 R e L U ReLU ReLU。此外,对于网络的正则化,使用了衰减和权重衰减。 数据增强: 首先,将整个图像序列水平翻转。然后,将每个图像按每个角度旋转{-15°,-10°,-5°,5°,10°,15°}。使得模型对输入图像的轻微变化具有鲁棒性。最后获得了14倍以上的数据:原始图像(1)、翻转图像(1)、具有六个角度的旋转图像及其翻转版本(12)。 与图像序列的增强类似,标准化的面部标志点也水平翻转。然后,将高斯噪声添加到原始地标点。
作者对方程(5)中的第一个数据扩充方法进行了三次,对方程(6)中的第二个数据扩充也进行了三次。因此,获得了六倍多的面部标志点。最终将训练数据增加了十四次:原始坐标(1)、翻转坐标(1)、六个增强坐标及其翻转版本(12)。 模型集成:
图3 DTAN特征图: DTGN结构:输入1176维输入向量→100个节点的全连接层→600个节点的全连接层→七个输出的SoftMax层; 融合网络将DTGN和DTAN的softmax层输出结果求均值(Weighted Sum)或:将DTAN和DTGN交叉熵之和作为融合网络的损失函数,使得该损失函数最大的标签即为输入图片的表情。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 19:41:39- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |