[人工智能] 【2021-CVPR-3D人体姿态估计】PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective Crop Laye

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【2021-CVPR-3D人体姿态估计】PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective Crop Laye -> 正文阅读

[人工智能]【2021-CVPR-3D人体姿态估计】PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective Crop Laye

PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective Crop Layers

题目：《PCLs:基于透视裁剪层的三维姿态的几何感知神经重构》

作者：

来源：CVPR 2021

研究内容:

????????针对人体姿态估计网络中一层的优化，主要针对单人-有监督-单目的情况。

创新点：

?????????展示了透视效果对3D姿态估计的影响，增加了不以图像为中心的姿态；

?????????推导出方程以位置相关的方式补偿图像中的影响因素

?????????将透视剪裁层封装到通用的NN层中，称为pcl，它可以集成到现有的深度学习框架。

现有技术：

????????对于传统CNN：对图像通常采用局部处理的方法，而传统相机投影的透视效果会因不同图像的全局位置不同而不同（一般图像之间以图像中心点为中心）

????????本文提出PCLS:透视裁剪层，基于相机的几何形状，对感兴趣区域（ROI）进行透视裁剪，是神经网络中的一层，将其插入CNN和MLPS（多层感知机）中，可以去除位置依赖的视角效果，保持端到端训练和底层神经网络参数数量不变

? ? ? 但是现有问题:①摄像机固定情况下，同一人的姿态，使用固定的卷积网络，通过不同的角度，将会产生不同特征；②对于多层感知机：其依赖根关节的平移不变性。对于这两种情况会失去透视失真的线索

???????因此，提出通过PCLs解释CNN和MPLS的透视失真，通过PCL替代了STN的矩形裁剪。

???????单应性[1]?：将输入图像映射入虚拟摄像机中（相机内参为预定义的感兴趣区域ROI），由此产生合成视图（关于3D姿态投影至原始图像），其中单应性参数包括ROI位置信息和缩减比例。

本文思想：

? ? ? ?针对透视失真和图像投影至非垂直墙面会变形，而需要解决的问题就是对变形参数矩阵的推导。

? ? ? ?本文注意力机制：处理ROI,提出使用STN（空间变形网络），通过仿射变形对特征映射进行空间变换，从而学习到对平移、缩放、旋转变形中的不变性。

? ? ? ?STN分为两步

? ? ? ? ? ? ??第一步：在原始图像中定义一个样本点网格预测变换的参数（本文是仿射变换3*3矩阵）；

? ? ? ? ? ? ? 第二步：通过相邻图像像素的双线性插值[2]?将每个网格点像素映射至目标

????????从而生成采样网格消除ROI的透视效果并用STN保持ROI位置和比例差异

一、PCLs透视裁剪层

??? 1、矩形裁剪，经过缩放后图像

???本文提出的非线性投影：

????????虚拟相机，其光心与真实摄像机光心相同，光轴指向ROI的中心点p = [px, py]，焦距s = [sx, sy]，由旋转矩阵Rvirt→real和虚拟相机内参Kvirt得到虚拟相机外参，因此原始图像映射至裁剪部分为

二、对网络构建

????????分为两步：对虚拟摄像机的投影和对原摄相机重建投影[3]?（处理后被转换回原始相机坐标系）

数据集：

??? ??Human3.6M数据集是在三维人体姿态估计任务中使用最广泛的数据集。它利用运动捕捉获取被测对象的三维姿态信息，并通过4个不同方向的摄像机记录相应的视频图像信息。根据所提供的摄像机参数，我得到每一帧图像中对应的2D联合坐标的ground truth。该数据集通过记录11名专业演员表演的15种不同动作，如吃饭、走路等，提供了360万张图像。

?????MPI-INF-3DHP测试集提供了三种不同场景的图像:有绿屏的工作室(GS)、没有绿屏的工作室(noGS)和户外场景(outdoor)。

?[1]