| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimati -> 正文阅读 |
|
[人工智能]GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimati |
转载请注明作者和出处: http://blog.csdn.net/john_bh/ paper 地址:GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation 文章目录
1. 主要贡献在基于RGB 图像的 物体6DoF 姿态估计任务中,目前表现好的算法模型的是基于间接的方法,首先建立图像平面与物体坐标系的 2D-3D 坐标对应关系,然后使用 PnP/ RANSAC算法 。
针对以上问题,作者提出一下解决方法:
主要参考文章和技术:
2. Method
2.1 Parameterization of 3D Rotation存在不同的旋转向量 表示方法来表示 3D rotation。但是为许多表示表现出歧义,例如
R
i
≠
R
j
R_i \neq R_j
Ri??=Rj?, 但是却表示同样的旋转,所以一般选择 单位四元数(unit quaternion),对数四元数 ( log quaternion),基于李代数的向量 ( Lie algebra-based vectors )。然而,众所周知, 为了克服这个限制,[65]在
S
O
(
3
)
SO(3)
SO(3)中提出了一种新的连续6维
R
R
R 表示,并且已经被证明它的有效性 (CosyPose ECCV2020)。具体来说,就是6维的表示
R
6
d
R_{6d}
R6d?定义为R的前两列: 鉴于这种表示的优点,作者使用
R
6
d
R_{6d}
R6d?参数化
3
D
3D
3D旋转。进一步提出让网络预测旋转
R
6
d
R_{6d}
R6d?的异中心表示,这种表示方式很受欢迎,因为 2.2 Parameterization of 3D Translation直接回归三维空间的平移变量
t
=
[
t
x
,
t
y
,
t
z
]
t=[t_x,t_y,t_z]
t=[tx?,ty?,tz?] 的实际效果不好,之前的工作通常将 translation 解耦到 3D质心投影到 2D位置
(
o
x
,
o
y
)
(o_x,o_y)
(ox?,oy?)和物体朝向相机的距离
t
z
t_z
tz? 。给定相机内参
K
K
K,translation 可以通过反向投影计算的出: 2.3 Disentangled 6D Pose Loss除了旋转和平移的参数化,损失函数的选择也是6D位姿优化的关键。而不是直接利用基于旋转和平移的距离(例如,角距离,
L
1
L_1
L1?或
L
2
L_2
L2?距离),大多数作品采用基于ADD(-S)度量的 Point-Matching loss 。作者采用解耦6D 姿态损失: 2.4 Network ArchitectureGDR-net 网络参考CDPN 的结构设计,保留了regressing M X Y Z M_{XYZ} MXYZ?和 M v i s M_{vis} Mvis?的层,同时去掉了分离的 translation head。此外,将 M S R A M_{SRA} MSRA?所需的通道添加到输出层。由于这些中间几何特征图都是的2D-3D对应图像,采用了一种简单而有效的2D卷积Patch-PnP模块直接从 M 2 D ? 3 D M_{2D-3D} M2D?3D?和 M S R A M_{SRA} MSRA?回归6D目标位姿。 Patch-PnP模块由三个卷积层组成,内核大小为
3
×
3
3\times 3
3×3,stride为2,每个卷积层后面是Group Normalization 和ReLU激活。两个 2.5 Dense Correspondences Maps ( M 2 D ? 3 D M_{2D-3D} M2D?3D?)为了计算密集对应映射 M 2 D ? 3 D M_{2D-3D} M2D?3D?,首先估计密集坐标映射( M X Y Z M_{XYZ} MXYZ?)。 M 2 D ? 3 D M_{2D-3D} M2D?3D?可以通过将 M X Y Z M_{XYZ} MXYZ? stacking onto 相应的2 d像素坐标 得到。特别是,给定物体的CAD模型, M X Y Z M_{XYZ} MXYZ?可以通过绘制模型的三维物体坐标得到相关的姿态。与[28,56]类似,让网络预测 M X Y Z M_{XYZ} MXYZ?的规范化表示。具体来说, M X Y Z M_{XYZ} MXYZ?的每个通道 通过 ( l x , l y , l z ) (l_x,l_y,l_z) (lx?,ly?,lz?) 正则化到 [ 0 , 1 ] [0,1] [0,1]之间,它是对应三维 CAD模型的 bounding box 的大小。
2.6 Surface Region Attention Maps (MSRA)受[15]的启发,作者让网络预测表面区域,作为额外的模糊感知监督。但是,没有将它们与RANSAC耦合,而是在Patch-PnP框架中使用它们。 ground-truth 区域 M S R A M_{SRA} MSRA?可以从 M X Y Z M_{XYZ} MXYZ?采用 farthest points sampling 得到。 对于每个像素,对相应的区域进行分类,从而隐式地得到预测
M
S
R
A
M_{SRA}
MSRA?中物体的对称性的概率。例如,如果一个像素由于对称面被分配给两个可能的碎片,对于每个片段,最小化这个赋值将返回0.5的概率。此外, 2.7 Geometry-guided 6D Object Pose Regression利用基于图像的几何特征patch
M
S
R
A
M_{SRA}
MSRA? 和
M
2
D
?
3
D
M_{2D-3D}
M2D?3D? 指导Path-PnP直接回归物体6DoF 姿态: 2.8 Decoupling Detection and 6D Object Pose EstimationGDR-net 主要关注物体姿态估计工作,允许直接在运行时中使用其他目标检测器的二维目标检测结果,无需改变或重新训练姿态网络。因此,作者采用简化的dynamic zoom-in (DZI)来解耦GDR-Net和目标探测器的训练。在训练期间,首先以25%的比例均匀地移动ground-truth包围盒的中心和比例。然后zoom-in 输入基于 r = 1 : 5 r = 1:5 r=1:5原始高宽比 的RoI(这确保了包含对象的区域大约是RoI的一半)。DZI还可以避免处理不同对象大小的需要。 3. 实验3.1 实验结果实验就不在赘述了,可以去看原文的实验结果。这里放上几张实验结果: 3.2 运行时间在 配置为 Intel 3.4 GHz CPU 和 NVIDIA2080Ti GPU 的 desktop 上,输入 640 × 480 640\times 480 640×480 图像,使用YOLOv3作为检测器,单个物体的推理时间大概22ms,8个物体大概35ms,其中包括15ms的目标检测。 4.结论总的来讲,作者重新讨论了直接6D位姿回归的方法,并提出了一个新的GDR-Net来统一直接方法和基于几何的间接方法。其核心思想是利用中间几何特征 M 2 D ? 3 D M_{2D-3D} M2D?3D? 和 M S R A M_{SRA} MSRA? 使用简单而有效的2D卷积Patch-PnP直接从几何制导回归6D位姿。这种end-to-end 的方法效果可达到two-stage 的效果,工作确实很优秀,另外作者团队一直都在做这样的的研究,从DeepIM ,CDPN, self-6D, GDR-Net,还有SO-Pose,论文质量都挺高的。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 5:53:17- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |