| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> HRNet网络简介 -> 正文阅读 |
|
[人工智能]HRNet网络简介 |
论文名称: Deep High-Resolution Representation Learning for Human Pose Estimation 0 前言这篇文章是由中国科学技术大学和亚洲微软研究院在2019年共同发表的。这篇文章中的HRNet(High-Resolution Net)是针对2D人体姿态估计(Human Pose Estimation或Keypoint Detection)任务提出的,并且该网络主要是针对单一个体的姿态评估(即输入网络的图像中应该只有一个人体目标)。人体姿态估计在现今的应用场景也比较多,比如说人体行为动作识别,人机交互(比如人作出某种动作可以触发系统执行某些任务),动画制作(比如根据人体的关键点信息生成对应卡通人物的动作)等等。
当前检测效果最好的一些方法基本都是基于 1 HRNet网络结构下图是我根据阅读项目源码绘制的关于
接着通过一系列
接着再来聊聊图中的
2 预测结果(heatmap)的可视化关于预测得到的heatmap(热力图)听起来挺抽象的,为了方便大家理解,我画了下面这幅图。首先,左边是输入网络的预测图片,大小为
光看文字其实还是不太明白,下面是源码中对应的实现,其中coords是每个关键点对应预测score最大的位置:
如果看不懂的话可以再看下我下面画的这副图。假设对于某一关键点的预测heatmap如下所示,根据寻找最大score可以找到坐标(3, 3)点,接着分别对比该点左右两侧(x方向),上下两侧(y方向)的score。比如说先看左右两侧,明显右侧的score比左侧的大(蓝色越深代表score越大),所以最终预测的x坐标向右侧偏移0.25故最终x=3.25,同理上侧的score比下侧大,所以y坐标向上偏移0.25故最终y=2.75。 关于COCO数据集中标注的17个关键点的顺序如下:
最后把每个关键点绘制在原图上,就得到如下图所示的结果。 3 损失的计算在论文第3章
通过前面讲的内容我们知道网络预测的最终结果是针对每个关键点的heatmap,那训练时对应的GT又是什么呢。根据标注信息我们是可以得知每个关键点的坐标的(原图尺度),接着将坐标都除以4(缩放到heatmap尺度)在进行四舍五入。针对每个关键点,我们先生成一张值全为0的heatmap,然后将对应关键点坐标处填充1就得到下面左侧的图片。如果直接拿左侧的heatmap作为GT去训练网络的话,你会发现网络很难收敛(可以理解为针对每个关键点只有一个点为正样本,其他
我们知道如何计算每个关键点对应的损失后还需要留意一个小细节。代码中在计算总损失时,并不是直接把每个关键点的损失进行相加,而是在相加前对于每个点的损失分别乘上不同的权重。下面给出了每个关键点的名称以及所对应的权重。
4 评价准则在目标检测(Object Detection)任务中可以通过
O
K
S
=
∑
i
[
e
?
d
i
2
/
2
s
2
k
i
2
?
δ
(
v
i
>
0
)
]
∑
i
[
δ
(
v
i
>
0
)
]
OKS = \frac{{\textstyle \sum_{i}^{}} [e^{{-d_i^2}/{2s^2}{k_i^2}} \cdot \delta(v_i>0)]}{ {\textstyle \sum_{i}^{}} [\delta(v_i>0)]}
OKS=∑i?[δ(vi?>0)]∑i?[e?di2?/2s2ki2??δ(vi?>0)]?
5 其他如果想要学习HRNet代码的话,不太建议直接去读官方源码。因为环境配置有些小问题,而且看起来令人头大。建议看我提供的HRNet仓库代码,我对原仓库代码做了一些修改,并加了很多注释,学习起来会更方便点。先给出链接,这周周末会上传代码:https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_keypoint/HRNet 5.1 数据增强在论文中作者采用的数据增强有:随机旋转(在
?
4
5
°
-45^{\circ}
?45°到
4
5
°
45^{\circ}
45°之间),随机缩放(在0.65到1.35之间),随机水平翻转以及 5.2 注意输入图片比例假设对于输入网络图片固定尺寸是 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 5:22:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |