IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文速读:Homography Loss for Monocular 3D Object Detection -> 正文阅读

[人工智能]论文速读:Homography Loss for Monocular 3D Object Detection

写在前面

是在Monopair的启发下完成的工作。论文提到是提出的结构可以作为一个独立的插件提升3D模型检测效果,因此有兴趣读一下

主要工作一览

如图1所示,核心思想是建立所有目标对象之间的联系,并全局优化它们的3D位置。此外,还通过逆投影映射将BEV与图像视图相关联,并将2D检测结果用于指导BEV中的3D定位。为了达到这一目标,提出了单应损失,将2D和3D信息结合起来,并全局平衡相互之间的关系,以获得更准确的3D方框。通过这样做,提出的损失函数能够有效地编码2D和3D空间中必要的几何信息,并且网络将被强制显式地捕捉对象之间的全局几何关系,这被证明是有助于3D检测的。由于可区分和可解释,损失函数可以插入任何成熟的单目3D探测器。实践中,以IMV oxelNet和MonoFlex为例,结合训练阶段的新的单应性损失,在Kitti 3D检测基准(2021年11月)上实验表明方法的性能远远超过最新技术。主要贡献可概括如下:

1.提出了一种新的损失函数,称为单应损失(homography loss,为方便写作下文皆称Hloss),利用图像视图和鸟眼视图之间的单应关系,利用场景中所有对象的几何关系,全局地约束它们的相互位置。同时,2D和3D空间的几何一致性将得到很好的保持。这是第一个在单目3D目标检测中充分利用全局几何约束的工作。

2.基于单应损失的单目3D探测器达到了Kitti 3D检测基准的最新性能,并超过了所有其他单目3D探测器的结果,表明了提出的损失函数的优越性。

3.将该损失函数应用于几种流行的单目3D探测器。在不增加任何额外推理代价的情况下,训练更加稳定,更容易收敛,实现了更高的精度和性能。证明其是一个即插即用的模块,可以适用于任何单目3D探测器。

方法论

Hloss提出的意义与依据论述

基于这样的两个事实:
1.任一2D/3D检测任务,两者都可通过应用L1损失来缩小预测的2D/3Dbox和对应的真值之间的差异。这意味着预测的2D/3Dboix将受到相应GT的自我约束。
2.一般地,3D数据可以通过投影损失(Projection loss)转换为2D空间的数据。

因此可以类推出结论:可以建立一个2D到3D空间的损失,以2D的目标检测知道3D定位的监督训练。

从数学模型角度推理引出Hloss的提出设计意义和依据(图2)。

论文也给出了从拓扑学角度的推论

?

论文提出,之前的工作只考虑了相邻的连接关系,这不足以编码多个目标对象之间的空间关系。本文考虑了提到的这种全局关系,并指出这类似于注意力机制中的远程依赖。例如,2号车的位置不仅会受到1号车的影响,还会受到5号车和9号车的约束,因为它们与蓝色虚线相连。

Hloss

首先是二维点到三维点的转换关系:

其中,q为像素点,Q为三维位置点,K是内参矩阵,Rt为外参矩阵?。

并通过H矩阵换算:

其中,H表示单应矩阵,H通过两个视图之间的映射来存储所有目标对象的相互关系。本文使用奇异值分解(SVD)来计算单应矩阵H。

最后转化为loss函数形式:

可以看到,主要是借助SmoothL1来实现计算的可微分的形式构建。

真正使用的时候自然是以多损失组合的形式出现。

整个过程倒不是很难理解,重点是这个点子的形成过程,也就是逻辑的推导过程,很值得学习。

试验

这里只粘贴了表1,其他试验数据可看论文

可以的看到全面实现了单目3D检测的SOTA

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-20 18:51:12  更:2022-07-20 18:53:13 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:41:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码