IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 单目3D目标检测之入门 -> 正文阅读

[人工智能]单目3D目标检测之入门

单目3D目标检测入门

一、单目3D目标检测的意义:

1. 3D目标检测领域有哪些任务和方法?

为了更直观,我画了一个思维导图

在3D目标检测领域,根据输入信息的不同,大致可分为三类方法。

  1. Point Cloud-based Methods (基于点云来做)
  2. Multimodal Fusion-based Methods(点云和图像的融合)
  3. Monocular/Stereo Image-based Methods(单目/立体图像的方法)

首先,基于点云的经典方法,比如VoxelNet(2018年)、PointPillars(2019年)、PointRCNN(2019年)等,这类方法都是直接在点云数据上进行特征的提取和RPN操作,将2D目标检测中的网络结构和思想迁移到3D点云中。

点云和图像的融合方法是当前3D目标检测的主流。比较经典的算法有,2018年的MV3D、Frustum PointNets、2019年的Pseudo-LiDAR、2020年的PointPainting等算法。这里的Pseudo-LiDAR(也叫为激光雷达)这篇文章对后来的单目3D目标检测领域的发展起到了促进的作用。这里使用了双目图像来生成深度图,根据深度图得到点云数据,再进行目标检测任务。

Stereo Image-based方法中,主要是基于双目图像的3D目标检测,这一领域我不太了解,以后再做补充。单目3D目标检测我是2021年刚接触的,比较出色的单目3D检测方法主要有:Mono3D PLiDAR、AutoShape、MonoRCNN、CaDDN等。而在单目3D目标检测领域,又可细分为三类方法。下边的这一部分分类来自知乎一篇关于CaDDN的介绍,后续我再进行整理和修正

  • Direct Methods(直接检测):通过关键点和几何特征来进行3D框的检测,这类方法简单直接,没有学习图像中的深度信息。我的理解是只是在图像中画出3D框,也就无法再映射点云中,因为深度信息是缺失的。
  • Depth-Based Methods(基于深度):通常会将图像送入一个网络模型中,然后得到一个深度图,这个深度图甚至能转换成点云信息( 就可以用上边的Fusion-based Methods),进而辅助后边的3D目标检测。
  • Grid-Based Methods(基于网格):不直接对深度进行预测,通过预测一个鸟瞰图的网格(BEV grid)来作为3D目标检测的输入信息。

2.发展情况

Kitti的3D目标检测排行中,Car类第一的为SFD,Moderate中达到了84.76%,但是Setting中没有激光点云的符号。排第7的BtcDet使用了该符号,所示直接处理点云的方法至少达到了82%多的AP。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hb2LXjeJ-1637334693388)(imgs/image-20211119212954826.png)]

点云和图像融合的方法,在Car类的Easy和Moderate类中的AP,其实跟直接处理点云方法的AP差别不是很明显。

双目或者说是立体视觉3D目标检测的方法的AP大概在53%左右。

单目3D目标检测的AP在16%多吧。
(img-FiTCvnhr-1637334693391)(imgs/image-20211119224733098.png)]
(更新时间,2021年11月12日)
如果要查找更加详细的论文和模型精度、建议直接看KITTI关于3D目标检测的榜单:The KITTI Vision Benchmark Suite (cvlibs.net)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Zeh0Bgoh-1637334693393)(imgs/image-20211117171645590.png)]

3. 为什么要做单目的3D目标检测?

从传感这个角度来说,
主动获取深度信息:如激光雷达、RGB-D相机

  • 价格昂贵,有效的距离小,并且线数再多的激光雷达获取的点云也是稀疏的,缺乏纹理信息的。况且激光雷达贵,一辆自动驾驶汽车装几个激光雷达、后期怎么维护保养,工业界最看重的是成本问题!!

再说说双目相机:

  • 误差较大,要求时间同步,体积较大(基线安装有要求,如果坏了一个,那就等于报废)

再说说单目相机:

  • 价格亲民
  • 体积小,功耗低;
  • 贴近实际应用需求。

并且,单目3D目标检测也不一定只能用于自动驾驶呀!只要设备上有摄像头,有3D检测的任务。这里推荐大家一个单目深度估计的小应用场景:https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/; 单目3D检测最重要的一环就是单目深度估计,而单目深度估计在AR领域是广泛应用滴。比如AR虚拟试衣间,或者京东淘宝上的一些AR试鞋,你拿手机摄像头对着自己脚,鞋自动覆盖到你脚上,这一块用到的应该是目标检测或者语义分割吧。

二、应用场景:

推荐点击在线试鞋,体验一下AR技术吧。
单目3D目标检测的具体应用。我随后会单独整理在一篇博客中。
在这里插入图片描述

三、相关论文:

3D目标检测综述

  • Deep Learning for 3D Point Clouds: A Survey----2020年
  • 3D Object Detection for Autonomous Driving: A Survey—2021年

更多的文献可查看知乎上的这篇文章:单目3D视觉目标检测论文总结 - 知乎 (zhihu.com),总结了100多篇单目3D目标检测领域的文章。

本专栏下,我将会持续不断的更新我读的一些论文和代码运行工作。

四、相关数据集:

这里只列出比较常用的几个数据集的名字。而更加详细(比如说数据集的格式说明)、更加丰富的数据集介绍,将会整理在另外一篇博客中。

  • KITTI Dataset
  • Waymo Open
  • NuScenes Dataset
  • Cityscapes
  • Lyft L5
  • H3D
  • Applloscape
  • Argoverse

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TzNDRcwc-1637334693396)(imgs/image-20211117180844849.png)]image source: 3D Object Detection for Autonomous Driving: A Survey

五、自动驾驶领域的相关企业:

国外: Waymo、Cruise、Nuro、Argo;

国内:百度、华为、AutoX、图森未来、Pony(小马智行)、Weride(文远知行)、Didi(滴滴)、Momenta、纵目科技、智加科技、小鹏、蔚来、理想、嬴彻科技、魔视智能。

每个公司详细介绍:

国内:百度、华为、AutoX、图森未来、Pony(小马智行)、Weride(文远知行)、Didi(滴滴)、Momenta、纵目科技、智加科技、小鹏、蔚来、理想、嬴彻科技、魔视智能。

每个公司详细介绍,我将单独整理在一篇博客中,包括公司的背景、薪资情况、主要发展方向。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-20 18:23:44  更:2021-11-20 18:24:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 4:40:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码