IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 3D Human Pose Estimation with Spatial and Temporal Transformers论文笔记 -> 正文阅读

[人工智能]3D Human Pose Estimation with Spatial and Temporal Transformers论文笔记

一.概述

3D人体姿态估计的方法主要分为两类:直接估计(Direct estimation)和 2D 到 3D (2D to 3D lifting) 。

其中 2D 到 3D 的方法先利用 SOTA 2D 人体姿态估计算法得到 2D 关键点,再通过神经网络估计 3D 人体姿态。基于其优异的表现,2D 到 3D 已成为主流方法。


与从单张图片中估计 3D 人体姿态相比,从视频中估计 3D 人体姿态能利用时序信息进行更准确的预测。然而主流方法大多利用时序卷积(Temporal convolutional network)来学习视频的时序信息,其表现往往受制于感受野的大小。


得益于 self-attention 机制,Transformer 能捕捉长时序输入的内在关联,且不受制于其距离。受此启发,我们设计了一种不含卷积的时空 Transformer 的网络结构。


针对多帧输入,其中 spatial transformer 能提取每帧 2D 骨架中的人体关节联系,temporal transformer 能捕捉多帧信息的时间相关性,最后输出中间帧的准确3D人体姿态。

二.模型

如何将transformer运用在视频流中的3D人体姿态估计中是本文的一大创新

?上图是文中提到的两种设想的baseline,也是最容易想到的使用transformer进行人体姿态估计的方法,(a)是将每一帧图像中的17个关节坐标作为一个token,然后将给定帧数的图像送入transformer中,这样的方法将注意力集中在了不同帧之间,也就是时间维度,对于空间维度(关节点与关节点之间的联系)并没有考虑到注意力机制。

于是自然地想到可以将每一帧的每个关节坐标作为一个token,这样就既考虑到了空间上的注意力也考虑到了事件维度上的注意力的关系,如(b)所示,但是带来的问题就是token过多,这会需求极大的内存,显然是不合理的,于是本文将空间和时间的注意力提取分开,设计了一种新的结构:

?与VIT中的结构类似,理解起来也较为容易,其中先进行Spatial transformer,token为一帧中的每个关节点坐标,经过encoder后可以得到一个feature,然后将给定的帧数的每一帧经过Spatial transformer分别得到一个feature,然后将feature送入temporal transformer中,在经过类似的操作最终得到3D的姿态。

三.细节部分

Spatial transformer和temporal transformer都使用了位置向量进行嵌入

不同于VIT额外学习一个用于分类的token,本文中是将得到的feature通过求均值将其变为一维向量,然后通过MLP层进行回归得到3D pose

?使用了多头注意力机制

损失函数使用MPJPE损失

?四.结果

红色数据表示最好,蓝色数据表示次好,MPJPE指标越小表示与groundtrue的差距越小

消融实验:

?

注意力的可视化结果:

?

?五.总结

本文将transformer分别用在事件维度和空间维度上,在从2D视频中估计3D姿势的工作上得到了sota的效果,一方面依赖于2D姿态检测的技术较为成熟,另一方面依赖于引入的注意力机制,但是对于有遮挡的姿态估计还是会出现预测的错误,这往往是由于2D姿态估计是产生错误导致的,也就导致后续的3D姿态估计工作出现错误。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-11 12:42:26  更:2021-11-11 12:44:20 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:39:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码