IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【2021-CVPR-3D人体姿态估计】PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective Crop Laye -> 正文阅读

[人工智能]【2021-CVPR-3D人体姿态估计】PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective Crop Laye

PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective Crop Layers

题目:《PCLs:基于透视裁剪层的三维姿态的几何感知神经重构》

作者

来源:CVPR 2021

研究内容:

????????针对人体姿态估计网络中一层的优化,主要针对单人-有监督-单目的情况。

创新点:

?????????展示了透视效果对3D姿态估计的影响,增加了不以图像为中心的姿态;

?????????推导出方程以位置相关的方式补偿图像中的影响因素

?????????将透视剪裁层封装到通用的NN层中,称为pcl,它可以集成到现有的深度学习框架。

现有技术

????????对于传统CNN:对图像通常采用局部处理的方法,而传统相机投影的透视效果会因不同图像的全局位置不同而不同(一般图像之间以图像中心点为中心)

????????本文提出PCLS:透视裁剪层,基于相机的几何形状,对感兴趣区域(ROI)进行透视裁剪,是神经网络中的一层,将其插入CNN和MLPS(多层感知机)中,可以去除位置依赖的视角效果,保持端到端训练和底层神经网络参数数量不变

? ? ? 但是现有问题:①摄像机固定情况下,同一人的姿态,使用固定的卷积网络,通过不同的角度,将会产生不同特征;②对于多层感知机:其依赖根关节的平移不变性。对于这两种情况会失去透视失真的线索

???????因此,提出通过PCLs解释CNN和MPLS的透视失真,通过PCL替代了STN的矩形裁剪。

???????单应性[1]?:将输入图像映射入虚拟摄像机中(相机内参为预定义的感兴趣区域ROI),由此产生合成视图(关于3D姿态投影至原始图像),其中单应性参数包括ROI位置信息和缩减比例。

本文思想:

? ? ? ?针对透视失真和图像投影至非垂直墙面会变形,而需要解决的问题就是对变形参数矩阵的推导。

? ? ? ?本文注意力机制:处理ROI,提出使用STN(空间变形网络),通过仿射变形对特征映射进行空间变换,从而学习到对平移、缩放、旋转变形中的不变性。

? ? ? ?STN分为两步

? ? ? ? ? ? ??第一步:在原始图像中定义一个样本点网格预测变换的参数(本文是仿射变换3*3矩阵);

? ? ? ? ? ? ? 第二步:通过相邻图像像素的双线性插值[2]?将每个网格点像素映射至目标

????????从而生成采样网格消除ROI的透视效果并用STN保持ROI位置和比例差异

一、PCLs透视裁剪层

??? 1、矩形裁剪,经过缩放后图像

???本文提出的非线性投影:

????????虚拟相机,其光心与真实摄像机光心相同,光轴指向ROI的中心点p = [px, py],焦距s = [sx, sy],由旋转矩阵Rvirt→real和虚拟相机内参Kvirt得到虚拟相机外参,因此原始图像映射至裁剪部分为

二、对网络构建

????????分为两步:对虚拟摄像机的投影和对原摄相机重建投影[3]?(处理后被转换回原始相机坐标系)

数据集:

??? ??Human3.6M数据集是在三维人体姿态估计任务中使用最广泛的数据集。它利用运动捕捉获取被测对象的三维姿态信息,并通过4个不同方向的摄像机记录相应的视频图像信息。根据所提供的摄像机参数,我得到每一帧图像中对应的2D联合坐标的ground truth。该数据集通过记录11名专业演员表演的15种不同动作,如吃饭、走路等,提供了360万张图像。

?????MPI-INF-3DHP测试集提供了三种不同场景的图像:有绿屏的工作室(GS)、没有绿屏的工作室(noGS)和户外场景(outdoor)。


?[1]

?[2]

??[3]

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-16 11:19:46  更:2022-05-16 11:20:45 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:23:24-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码