IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Deep Learning for Image and Point Cloud Fusionin Autonomous Driving: A Review -> 正文阅读

[人工智能]Deep Learning for Image and Point Cloud Fusionin Autonomous Driving: A Review

摘要

在过去几年中,自动驾驶汽车经历了快速发展。然而,由于驾驶环境的复杂性和动态性,实现完全自主并非易事。因此,自动驾驶车辆配备了一套不同的传感器,以确保可靠、准确的环境感知。特别是,相机激光雷达融合正在成为一个新兴的研究主题。然而,到目前为止,还没有关于基于深度学习的相机激光雷达融合方法的评论。为了弥合这一差距并激励未来的研究,本文致力于回顾最近利用图像和点云的基于深度学习的数据融合方法。本文简要概述了图像和点云数据处理的深度学习。随后,深入回顾了摄像机LiDAR融合方法在深度完成、目标检测、语义分割、跟踪和在线跨传感器校准方面的应用,这些方法都是根据各自的融合级别进行组织的。此外,我们在公开可用的数据集上比较了这些方法。最后,我们发现了当前学术研究和实际应用之间的差距和挑战。基于这些观察,我们提供了我们的见解,并指出了有前景的研究方向。

索引术语-相机-激光雷达融合、传感器融合、深度完成、目标检测、语义分割、跟踪、深度学习。

一、 简介

在深度学习和传感器技术方面的突破推动了自动驾驶技术的快速发展提高道路安全、交通效率和个人机动性[1]–[3]。然而,技术挑战和外感测器的成本限制了当前自动驾驶系统在受限和受控环境中的少量应用。一个关键的挑战是实时获得对车辆3D周围环境的足够准确的理解。为此,传感器融合已成为一个新兴的研究主题,它利用具有互补特性的多种传感器来增强感知并降低成本。

特别是,最近的深度学习进展显著提高了相机LiDAR融合算法的性能。相机和激光雷达具有互补的特性,这使得相机-激光雷达融合模型比其他传感器融合配置(雷达相机、激光雷达等)更有效、更受欢迎。更具体地说,基于视觉的感知系统在低成本下实现了令人满意的性能,通常优于人类专家[4]、[5]。然而,单摄像机感知系统无法提供可靠的3D几何结构,这对于自主驾驶至关重要[6],[7]。另一方面,立体相机可以提供3D几何体,但这样做的计算成本很高,并且在高遮挡和无纹理环境中很难实现[8]-[10]。此外,基于摄像头的感知系统在复杂或恶劣的光照条件下难以工作,这限制了其全天候能力[11]。相反,LiDAR可以提供高精度的3D几何体,并且不受环境光的影响。然而,移动LiDAR受到低分辨率(16至128通道)、低刷新率(10Hz)、恶劣天气条件(大雨、雾和雪)和高成本的限制。为了缓解这些挑战,许多工作将这两个互补的传感器结合起来,并证明了与a-modal方法相比具有显著的性能优势。因此,本文重点回顾了当前用于相机激光雷达融合的深度学习融合策略。

相机激光雷达融合不是一件小事。首先,相机通过将真实世界投影到图像平面来记录,而点云保留了三维几何体。此外,在数据结构方面,点云是不规则的、无序的和连续的,而图像是规则的、有序的和离散的。点云和图像之间的这些特征差异导致了不同的特征提取方法。在图1中,比较图像和点之间的特征被显示出来。

以往对多模数据融合深度学习方法的评论[12]、[13]涵盖了广泛的传感器,包括雷达、摄像机、激光雷达、超声波、IMU、里程表、全球导航卫星系统和高清地图。本文只关注相机激光雷达融合,因此能够对各个方法进行更详细的回顾。此外,我们还涵盖了更广泛的与感知相关的主题(深度完成、动态和静态对象检测、语义分割、跟踪和在线跨传感器校准),这些主题是相互关联的,未完全包含在之前的审查中[13]。

本文的贡献总结如下:

?据我们所知,本文是第一篇针对自主驾驶中基于深度学习的图像和点云融合方法的综述,包括深度完成、动态和静态目标检测、语义分割、跟踪和在线跨传感器校准。

?本文根据融合方法对方法进行了组织和回顾。此外,本文还介绍了最新(2014-2020年)的最新相机LiDAR融合方法概述和性能比较

.本文提出了一些被忽视的开放性问题,如开放集检测和传感器无关框架,这些问题对于自主驾驶技术的实际部署至关重要。此外,还总结了开放挑战的趋势和可能的研究方向。

本文首先在第二节中简要概述了图像和点云数据的深度学习方法。第三节至第八节分别介绍了基于激光雷达的相机深度补全、动态目标检测、静态目标检测、语义分割、目标跟踪和在线传感器校准。第七节讨论了趋势、开放的挑战和有希望的方向。最后,第八节给出了总结。图2显示了本次调查的总体结构和相应主题

二、深度学习简介

A.图像卷积

神经网络(CNN)的深度学习是图像处理和理解中最有效、最强大的深度学习模型之一。与多层感知器(Multi-LayerPerceptron,MLP)相比,CNN具有平移不变性,包含的权重较少,并且利用了层次模式,因此它对于图像语义提取非常有效。CNN的隐藏层由卷积层、批处理规范化层、激活层和池层组成,这些层是端到端训练的。这种层次结构通过增加抽象层次和接受域来提取图像特征,从而能够学习高级语义。

B、 点云的深度学习

点云是一组数据点,是激光雷达对检测到的物体表面的测量。从数据结构上看,点云是稀疏的、不规则的、无序的、连续的。点云以3D结构和逐点特征(反射强度、颜色、法线等)对信息进行编码,这对比例、刚性变换和置换是不变的。这些特征使得在点云上提取特征对现有的深度学习模型具有挑战性,需要修改现有模型或开发新模型。因此,本节重点介绍点云处理的常见方法。

1) 基于V olumetric Representation Based:体积表示将点云划分为固定分辨率的3D栅格,其中每个栅格的特征都是手工制作或学习的。该表示法与标准3D卷积[14]–[16]兼容。[17]中提出了几种技术,以减少过度拟合、定向灵敏度和捕捉物体的内部结构。但是,体积表示在体素化过程中会丢失空间分辨率和细粒度3D几何体,从而限制其性能。此外,试图提高其空间分辨率(更密集的体素)会导致计算和内存占用空间立体增长,使其无法缩放。

2) 基于索引树表示:为了缓解高空间分辨率和计算成本之间的限制,提出了利用树状数据结构的自适应分辨率分区方法,如kd树[18]、[19]、八叉树[20]–[22]。通过将点云划分为一系列不平衡的树,可以根据其点密度划分区域。这使得点密度较低的区域具有较低的分辨率,从而减少不必要的计算和内存占用。点特征与预先构建的树结构一起提取。

3) 基于表达的二维视图:通过将点云投影到多个二维视图平面来生成二维视图。这些渲染的多视图图像可以通过标准2D卷积进行处理,这些视图的特征通过视图池层进行聚合[23]。因此,通过将点云转换为图像来解决置换不变性问题,并通过聚合不同视图的特征来实现平移不变性。Qi等人[17]将体积表示与通过球体渲染生成的多视图相结合。遗憾的是,二维视图方法在视图期间会丢失三维几何图形信息

4) 基于图形表示:点云可以表示为图形,类似卷积的操作可以在空间域或光谱域的图形上实现[24]–[26]。对于空间域中的图形卷积,操作由MLP在空间相邻点上执行。谱域图卷积将卷积扩展为通过拉普拉斯谱[27]–[29]对图的谱滤波。

5) 基于点表示:基于点表示的方法使用点云,而不将其转换为中间数据表示。这方面的早期工作使用共享多层感知器(MLP)来处理点云[30]、[31],而最近的工作集中于定义点的特殊卷积运算[32]–[38]。

点云直接学习的先驱作品之一是PointNet[30],[31],它使用独立的T-Net模块来对齐点云和共享的MLP,以处理每个点的特征提取的各个点。PointNet的计算复杂性随着输入数量的增加而线性增加,与基于体积的方法相比,它的可扩展性更强。为了实现置换不变性,点态特征由共享的MLP提取,这些MLP对所有点都是相同的。这些特征通过对称操作(即最大池)聚合,这些操作也是置换不变量。PointNet的特征提取过程定义为:

?其中x代表输入点,h代表逐点特征提取函数(即共享MLP),fsym代表对称函数(即最大轮询),g是我们想要近似的一般函数。

但是,PointNet无法在不同级别提取局部点间几何图形。为了缓解这一挑战,Qi等人[30]通过将点分组为多个集合并在本地应用PointNets,扩展了PointNet以从不同级别提取特征。为了降低PointNet++[30]的计算和内存成本,RandLA Net[39]将随机点采样模块和基于注意力的局部特征聚合模块分层堆叠,以逐步增加感受野,同时保持高效率。

与基于PointNet的方法不同,点之间的空间关系在逐点卷积中明确建模。逐点卷积旨在将标准2D离散卷积推广到连续3D空间。主要挑战是用连续加权函数代替标准卷积中的离散加权滤波器。使用PointConv[40]中的MLP和KPConv[38]和PCNN[33]中的相关函数来近似这个连续权重函数。更具体地说,PCNN[33]将卷积核定义为具有权重的3D点。高斯相关函数采用核点和输入点的坐标,用于计算任意给定3D坐标下的权重矩阵。KPConv[38]遵循这一思想,但使用了线性相关函数。此外,KPConv[38]被分层应用于局部点补丁,类似于标准CNN的概念。输入点x处的一般逐点卷积F∈ 3D连续空间中的R3定义为:

?其中h是每点核函数,它计算给定输入点和核点坐标的加权矩阵。xi和fi是x的第i个相邻点及其相应的特征(强度、颜色等)。Nx是输入点x的所有相邻点,使用KNN或半径邻域确定

三、 DEPTH COMPLETION

DEPTH COMPLETION旨在将稀疏的不规则深度向上采样到稠密的规则深度,这有助于下游感知模块。深度完成可以减少激光雷达扫描中点的严重不均匀分布。例如,用满满一手的点表示的远处的对象会进行上采样,以匹配其更接近的对象。为此,通常使用高分辨率图像来引导3D深度向上采样。深度完成任务可以表示为:

?

其中,网络f(.)由w参数化,在给定输入x的情况下预测地面真值G。损失函数表示为L(·,·)。

图3给出了深度完成模型的时间表及其相应的融合级别。表一列出了KITTI深度完井基准[41]上深度完井模型的比较结果。

A、 单摄像机和激光雷达融合

图像引导深度补全的原理是,密集的RGB颜色信息包含相关的3D几何图形因此,可以将图像用作深度提升采样的参考。

1) 信号级融合:2018年,Ma和Karaman[42]提出了基于ResNet[52]的自动编码器网络,该网络利用RGB-D图像(即与稀疏深度图连接的图像)预测密集深度图。然而,这种方法需要像素级的深度地面真相,这是很难获得的。为了解决这个问题,Ma等人[43]提出了一个基于模型的自我监督框架,它只需要一系列图像和稀疏深度图像进行训练。这种自我监督是通过使用稀疏深度约束、光度损失和平滑度损失来实现的。然而,这种方法假定对象是静止的。此外,生成的深度输出模糊,输入深度可能无法保留。为了实时生成清晰致密的深度图,Cheng等人[44]将RGB-D图像输入到卷积空间传播网络(CSPN)。该CSPN旨在直接提取与图像相关的亲和矩阵,以较少的运行时间在关键测量中产生显著更好的结果。在CSPN++中,Cheng等人[45]提出动态选择卷积核大小和迭代以减少计算。此外,CSPN++采用加权组装来提高其性能。

2) 特征级融合:Jaritz等人[46]提出了一种自动编码器网络,它可以从稀疏深度图和图像执行深度补全或语义分割,而无需应用有效性掩码。图像和稀疏深度图首先由两个基于NASNet的并行编码器进行处理[53],然后将其融合到共享解码器中。这种方法可以在非常稀疏的深度输入(8通道LiDAR)下获得良好的性能。Wang等人[54]设计了一个可积模块(PnP),该模块利用稀疏深度图来提高现有基于图像的深度预测网络的性能。此PnP模块利用从稀疏深度计算的梯度来更新现有深度预测网络生成的中间特征图。Eldesokey等人[47]提出了一个非引导深度补全框架,该框架并行处理图像和非常稀疏的深度图,并将它们组合在一个共享解码器中。此外,归一化卷积用于处理高度稀疏的深度和传播置信度。Valada等人[55]将一阶段特征级融合扩展到网络深度不同的多阶段。类似地,GuideNet[48]在编码器的不同阶段将图像特征与稀疏深度特征融合,以指导稀疏深度的上采样,这在KITTI深度完成基准中实现了最佳性能。这些方法的局限性在于缺乏具有密集深度地面真相的大规模数据集。

3) 多级融合:V an Gansbeke等人[49]进一步将信号级融合和特征级融合结合在图像引导深度完成网络中。该网络由一个全局分支和一个本地分支组成,用于并行处理RGB-D数据和深度数据,然后根据置信度图进行融合。

B、 立体相机和激光雷达融合

与RGB图像相比,立体相机的密集深度差包含更丰富的地面真实3D几何体。另一方面,激光雷达的深度很小,但精度较高。这些互补特性使基于立体激光雷达融合的深度完成模型能够产生更精确的密集深度。然而,值得注意的是,立体摄像头的范围有限,在高遮挡、无纹理的环境中难以使用,因此不太适合自动驾驶。

1) 特征级融合:Park等人的开创性工作之一[9],其中使用两阶段CNN从稠密立体视差和点云计算高精度稠密视差图。CNN的第一阶段采用激光雷达和立体视差来产生融合视差。在第二阶段,这个融合的视差和左在特征空间融合RGB图像,预测最终的高精度视差。最后,根据该高精度视差重建三维场景。这种方法的瓶颈是缺乏大规模注释的立体激光雷达数据集。LidarStereoNet[50]通过一种无监督的学习方案避免了这一困难,该方案采用图像扭曲/光度损失、稀疏深度损失、平滑度损失和平面拟合损失进行端到端训练。此外,“反馈回路”的引入使LidarStereoNet对噪声点云和传感器失调具有鲁棒性。同样,Zhang等人[51]提出了一种深度完井的自我监督方案。损失函数由稀疏深度、光度和平滑度损失组成。

IV .动态对象检测

目标检测(3D)旨在定位、分类和估计3D空间中的定向边界框。本节专门介绍动态对象检测,包括常见的动态道路对象(汽车、行人、自行车等)。目标检测有两种主要方法:顺序法和单步法。基于序列的模型按时间顺序由建议阶段和3D边界框(bbox)回归阶段组成。在建议阶段,建议可能包含感兴趣对象的区域。在bbox回归阶段,根据从3D几何提取的区域特征对这些建议进行分类。然而,序列融合的性能受到每个阶段的限制。另一方面,一步模型由一个阶段组成,其中2D和3D数据以并行方式处理。

三维物体探测网络和典型模型结构的时间线如图4和图5所示。表II给出了三维物体探测模型的比较结果在KITTI 3D目标检测基准上[56]。表三总结并比较了动态对象检测模型。

A、 基于2D提案的序列模型

基于2D提议的序列模型试图在提案阶段利用2D图像语义,这利用了现成的图像处理模型。具体来说,这些方法利用图像对象检测器生成2D区域建议,这些建议被投影到3D空间作为检测种子。有两种投影方法可以将二维方案转换为三维方案。第一种方法是将图像平面中的边界框投影到点云,从而形成一个截锥形状的三维搜索空间。第二种方法将点云投影到图像平面,从而生成具有逐点2D语义的点云。

1) 结果级融合:结果级融合背后的直觉是使用现成的2D对象检测器来限制3D对象检测的3D搜索空间,从而显著减少计算量并提高运行时间。然而,由于整个管道取决于2D物体探测器的结果,因此它受到基于图像的探测器的限制。

结果级融合的早期工作之一是F-PointNets[57],其中2D边界框首先从图像生成并投影到3D空间。生成的投影平截头体提案被送入基于PointNet[31]的检测器中,用于3D对象检测。Du等人[58]将2D到3D方案生成阶段扩展为额外的方案细化阶段,这进一步减少了背景点上的不必要计算。在此细化阶段,使用基于模型拟合的方法过滤出种子区域内的背景点。最后,将过滤后的点输入bbox回归网络。RoarNet[59]遵循了类似的想法,但在提案细化阶段使用了神经网络。首先使用几何一致性搜索[60]基于每个2D bbox生成多个3D圆柱体方案,这会产生比F-pointNet更小但更精确的平截头体方案[57]。然后,这些初始气缸提案由基于PointNet[30]的标头网络进行处理,以进行最终优化。总之,这些方法假设每个种子区域只包含一个感兴趣的对象,但对于拥挤的场景和行人等小对象来说,这是不正确的。

针对上述问题的一个可能的解决方案是用2D语义分割代替2D对象检测器,用点式种子方案代替区域式种子方案。Yang等人的基于密集点的目标探测器(IPOD)[61]是这方面的工作。在第一步中,使用二维语义分割来过滤背景点。这是通过将点投影到图像平面以及带有2D语义标签的关联点来实现的。生成的前景点云保留上下文信息和细粒度位置,这对于区域建议和bbox回归至关重要。在接下来的逐点建议生成和bbox回归阶段,使用两个基于PointNet++[30]的网络进行建议特征提取和bboxs预测。此外,为了加快训练和推理速度,提出了一种称为PointsIoU的新准则。与其他最先进的方法相比,该方法在具有高遮挡或多个对象的场景中具有显著的性能优势。

2) 多级融合:另一个可能的改进方向是将结果级融合与特征级融合相结合,其中一项工作是PointFusion[62]。PointFusion首先利用现有的2D对象检测器生成2D bboxe。这些bbox用于通过将点投影到图像平面来选择相应的点,并定位通过bbox的点。最后,基于ResNet[52]和PointNet[31]的网络结合了图像和点云特征来估计3D对象。在这种方法中,图像特征和点云特征按照3D中最终目标检测的建议进行融合,这有助于3D bbox回归。

然而,它的提案阶段仍不成熟。在SIFRNet[63]中,截锥体方案首先从图像生成。然后将这些平截头体方案中的点云特征与其对应的图像特征相结合,以进行最终的3D bbox回归。为了实现比例不变性,将PointSIFT[64]合并到网络中。此外,SENet模块用于抑制信息量较小的功能。

3) 特征级融合:早期尝试的[75]、[76]多模式融合是以像素方式进行的,其中3D几何体被转换为图像格式或附加为图像的附加通道。直觉是将3D几何投影到图像平面上,并利用成熟的图像处理方法进行特征提取。生成的输出也位于图像平面上,这对于在三维空间中定位对象并不理想。2014年,Gupta等人提出了DepthRCNN[75],一种基于R-CNN[77]的2D对象检测、实例和语义分割架构。它在图像的RGB通道中对来自Microsoft Kinect相机的3D几何体进行编码,这些通道包括水平视差、离地高度和重力角度(HHA)。Gupta等人于2015年通过对齐3D CAD模型扩展了深度RCNN[78],用于3D对象检测,从而显著提高了性能。2016年,Gupta等人开发了一种新的技术,用于在接受图像数据训练的网络和未发现的成对图像形式(深度图像)之间进行监督知识传输[76]。2016年,Schlosser等人[79]进一步利用2D CNN上的学习RGB-HHA表示进行行人检测。然而,HHA数据是根据激光雷达的深度而不是深度相机生成的。作者还注意到,如果RGB和HHA在网络的深层进行融合,可以获得更好的结果。

稠密RGB和稀疏深度之间的分辨率不匹配意味着只有一小部分像素具有对应的点。因此,直接将RGB信息附加到点会导致大多数纹理信息丢失,从而导致融合无意义。为了缓解这一挑战,PointPainting[66]在逐点融合之前提取高级图像语义。更具体地说,PointPainting[66]遵循了[61]中将点投影到2D语义图的思想。但不是使用2D语义来过滤非对象点,2D语义只是作为附加通道附加到点云。作者认为,这项技术使PointPainting变得灵活,因为它可以将任何点云网络应用于该融合数据。为了证明这种灵活性,融合的点云被送入多个现有的点云检测器中,这些检测器基于PointRCNN[80]、VoxelNet[14]和PointPillar[81]。然而,这将导致图像和激光雷达模型之间的耦合。这需要在图像模型发生变化时重新训练LiDAR模型,这会降低整体可靠性并增加开发成本

B、 基于3D提案的序列模型

在基于3D提案序列模型中,3D提案直接从2D或3D数据生成。消除2D到3D建议转换大大限制了3D对象检测的3D搜索空间。生成三维方案的常用方法包括多视图方法和点云体素化方法。

基于多视图的方法利用点云的鸟瞰图(BEV)表示来生成3D建议。BEV是首选视点,因为它可以避免遮挡,并保留对象方向和x,y坐标的原始信息。当直接在BEV和其他视图之间进行坐标转换时,这些方向和x,y坐标信息对于3D对象检测至关重要。

点云体素化将连续的不规则数据结构转换为离散的规则数据结构。这使得应用标准3D离散卷积和利用现有网络结构处理点云成为可能。缺点是会丢失一些空间分辨率,其中可能包含细粒度的3D结构信息。

1) 特征级融合:MV3D[67]是从BEV表示生成3D建议的先驱和最重要的工作之一。MV3D在像素化自上而下的LiDAR功能图(高度、密度和强度)上生成3D建议。然后将这些3D候选图像投影到LiDAR前视图和图像平面,以提取和融合区域特征,用于bbox回归。融合通过ROI池在感兴趣区域(ROI)级别进行。RO视图定义为:

?其中T3D→视图表示将点云p3D从3D空间投影到鸟瞰图(BEV)、前视图(FV)和图像平面(RGB)的变换函数。用于获取特征向量视图的ROI池R定义为:

?MV3D有一些缺点。首先,在BEV上生成3D建议时,假设所有感兴趣的对象都是从这个视点捕获的,没有遮挡。该假设不适用于小对象实例,例如行人和骑自行车的人,它们可能被点云中的其他大型对象完全遮挡。其次,在连续卷积操作导致的特征图下采样过程中,小对象实例的空间信息丢失。第三,以对象为中心的融合通过ROI池将图像和点云的特征映射结合起来,在融合过程中破坏了细粒度的几何信息。还值得注意的是,冗余建议会导致bbox回归阶段的重复计算。为了缓解这些挑战,提出了多种方法来改进MV3D。

为了改进对小对象的检测,聚合视图对象检测网络(AVOD)[68]首先利用BEV点云和图像的特征地图改进了MV3D[67]中的提案阶段。此外,还采用了自动编码器架构,将最终特征映射的样本增加到其原始大小。这缓解了小对象可能通过连续卷积操作降低采样到一个“像素”的问题。提出的特征融合区域建议网络(RPN)首先提取等长信息具有裁剪和调整大小操作的多个模式(BEV点云和图像)的特征向量。然后进行1×1卷积运算,进行特征空间降维,可以降低计算成本,提高速度。Lu等人[69]还使用了基于编码器-解码器的提案网络,该网络具有空间通道关注(SCA)模块和扩展空间上采样(ESU)模块。SCA可以捕获多尺度上下文信息,而ESU可以恢复空间信息。

以对象为中心的融合方法的问题之一[67],[68]是在ROI池中丢失细粒度的几何信息。Liang等人的ContFuse[70]解决了逐点融合中丢失的信息。这种逐点融合是通过连续卷积[83]融合层实现的,这些融合层在网络的多个阶段桥接不同尺度的图像和点云特征。这是通过首先为点云的BEV表示中的每个像素提取K个最近邻点来实现的。然后将这些点投影到图像平面,以检索相关的图像特征。最后,融合的特征向量在送入MLP之前根据其到目标“像素”的几何偏移进行加权。然而,当激光雷达点稀疏时,逐点融合可能无法充分利用高分辨率图像。在[73]Liang等人中,通过结合多种融合方法进一步扩展了逐点融合,如信号级融合(RGB-D)、特征级融合、多视图和深度完成。特别是,深度补全使用图像信息对稀疏深度图进行上采样,以生成稠密的伪点云。这种上采样过程缓解了稀疏点融合问题,这有助于跨模态表示的学习。此外,作者认为,多个互补任务(地面估计、深度完成和2D/3D目标检测)可以帮助网络实现更好的整体性能。然而,逐点像素融合会导致“特征模糊”问题。当点云中的一个点与图像中的多个像素相关联时,就会发生这种“特征模糊”,否则会混淆数据融合。类似地,Wang等人[72]将MV3D[67]中的ROI池替换为稀疏的非同质池,从而实现了多种模式的特征图之间的有效融合。

Sindagi等人提出的MVX Net[71]介绍了两种将图像和点云数据逐点或逐像素融合的方法。这两种方法都使用预先训练的2D CNN进行图像特征提取,并使用基于V oxelNet[14]的网络从融合点云估计对象。在逐点融合方法中,首先将点云投影到图像特征空间,在体素化之前提取图像特征,然后通过VoxelNet进行处理。体素融合方法首先对点云进行体素化,然后将非空体素投影到图像特征空间进行体素区域特征提取。这些体素特征仅在VoxelNet的后期阶段附加到其相应的体素。MVX Net在KITTI基准上取得了最先进的结果,并优于其他基于激光雷达的方法,同时与[14]相比降低了误报率和漏报率。

组合体素化点云和图像的最简单方法是附加RGB信息作为体素的附加通道。Song和Xiao[82]在2014年的一篇论文中,3D物体检测是通过在体素化点云上滑动3D检测窗口实现的。分类由示例SVM集合执行。在这项工作中,颜色信息通过投影附加到体素。Song等人利用3D离散卷积神经网络进一步扩展了这一想法[84]。在第一阶段,体素化点云(由RGB-D数据生成)首先由多尺度3D RPN处理,以生成3D提案。然后通过联合对象识别网络(ORN)对这些候选对象进行分类,ORN将图像和体素化点云作为输入。然而,体积表示引入了边界伪影,破坏了细粒度的局部几何体。其次,图像和体素化点云之间的分辨率不匹配导致融合效率低下。

C、 一步模型

一步模型在单个阶段中执行提案生成和bbox回归。通过将建议和bbox回归阶段融合为一步,这些模型通常更具计算效率。这使得它们更适合于移动计算平台上的实时应用程序。Meyer等人[74]将LaserNet[85]扩展到多任务和多模式网络,对融合图像和LiDAR数据执行3D对象检测和3D语义分割。两个CNN并行处理深度图像(由点云生成)和前视图图像,并通过将点投影到图像平面将其融合,以关联相应的图像特征。此功能图被输入LaserNet,以预测边界框的逐点分布,并将其合并为最终3D方案。这种方法效率很高,同时达到了最先进的性能。

五、 STA TIONARY ROAD OBJECT DETECTION

本节重点回顾基于摄像机-激光雷达融合的静止道路目标检测方法的最新进展。固定道路物体可分为道路物体(如路面和道路标记)和越野物体(如交通标志)。道路和越野物体为自动驾驶车辆提供法规、警告禁令和指导。

图6和图7比较了车道检测和交通标志识别(TSR)中的典型模型结构。表IV给出了KITTI道路基准不同模型的比较结果[56],并对这些模型进行了总结和比较。

A、 车道/道路检测

现有调查[93]-[95]对传统的多模式道路检测方法进行了详细审查。这些方法[96]-[99]主要依靠视觉进行道路/车道检测,同时利用激光雷达进行路缘装配和障碍物掩蔽。因此,本节重点介绍基于深度学习的道路提取融合策略的最新进展。

基于深度倾斜的道路检测方法可以分为基于BEV的或基于前摄像头视图的。基于BEV的方法[86]–[89]将LiDAR深度和图像投影到BEV以进行道路检测,它保留了对象的原始x、y坐标和方向。在[86]中,使用CNN从点云预测密集BEV高度估计,然后将其与BEV图像融合,以进行准确的车道检测。但是,此方法无法区分不同的车道类型。同样,Lv等人[88]也使用了BEV LiDAR栅格图和BEV图像,但以并行方式处理它们。Yu等人[89]提出了一种多级融合策略(MSRF),该策略结合了中的图像深度特征。不同的网络级别,大大提高了其性能。然而,这种策略也相对增加了计算成本。Wulff等人[87]使用信号级融合生成融合的BEV占用网格,该网格由基于U网络的道路分割网络处理。然而,由于网格分辨率较低,密集RGB和稀疏深度之间的信号级融合会导致密集纹理信息的丢失。

基于前摄像头视图的方法[90]–[92]将LiDAR深度投影到图像平面以提取路面,在将2D边界转换为3D边界时,会导致精度损失。LCNet[90]比较了用于道路检测的信号级融合(早期融合)和特征级融合(晚期融合和交叉融合),发现交叉融合是性能最好的融合策略。与[88]类似,PLARD[91]在多个阶段逐步融合图像和点云特征。Lee和Park[92]专注于通过减少输入大小的球坐标变换方案来提高速度。这种转换后的摄像机和激光雷达数据通过基于SegNet的语义分割网络进一步处理。

B、 交通标志识别

在激光雷达扫描中,交通标志由于其反光特性而具有很高的可分辨性,但由于缺乏致密纹理,因此很难进行分类。相反,交通标志图像补丁很容易分类。然而,基于视觉的TSR系统很难在三维空间中定位这些交通标志。因此,各种研究建议将相机和激光雷达用于TSR。现有的评论[93]、[100]全面涵盖了传统的交通标志识别方法和部分深度学习方法。因此,本节简要概述了传统的交通标志识别方法,并重点介绍了最近的进展。在典型的TSR融合管道[101]–[105]中,基于反光特性,交通标志首先位于激光雷达扫描中。然后,将检测到的交通标志的这些三维位置投影到图像平面,以生成交通标志块,这些块被送入图像分类器进行分类。该TSR融合管道如图7所示。

对于采用典型TSR融合管线的方法,主要区别在于分类器。这些分类器包括基于deep Boltzmann机器(DBM)的分层分类器[102]、SVM[101]和DNN[104]。总之,这些方法都采用了结果级融合和分层目标检测模型。他们假设在激光雷达扫描中可以看到交通标志,但由于遮挡,有时情况并非如此。此外,该管道受到移动激光雷达探测范围的限制。

为了缓解这些挑战,Deng和Zhou[106]将图像和点云结合起来,生成了用于交通标志检测和分类的彩色点云。此外,利用检测到的交通标志的三维几何特性来减少误报。在[107]中,基于先验知识检测交通标志,其中包括道路几何信息和交通标志几何信息。检测到的交通标志斑块通过高斯-贝努利DBM模型进行分类。遵循这一理想,Guan等人[105]使用卷积胶囊网络进一步改进了交通标志识别部分。总之,这些方法利用多模态数据和先验知识改进了交通标志检测阶段。然而,先验知识往往因地区而异,因此很难推广到世界其他地区。

六、 语义分段

本节回顾了现有的用于2D语义分段、3D语义分段和实例分段的相机LiDAR融合方法。2D\/3D语义分割旨在预测每像素和每点类标签,而实例分割也关注单个实例。图8和图9显示了3D语义分割网络和典型模型架构的时间轴。图9.语义分割的一些典型模型架构和融合方法。

A、 2D语义分割1)特征级融合:稀疏与密集[46]提出了一种基于NASNet[53]的自动编码器网络,可用于利用图像和稀疏深度进行2D语义分段或深度完成。图像和相应的稀疏深度图在融合到共享解码器之前由两个并行编码器进行处理。V alada等人[55]采用了不同深度的多阶段特征级融合,以促进语义分割。Caltagirone等人[90]利用深度图像和图像的上采样进行二维语义分割。使用稀疏深度图像(来自点云)和图像对该稠密深度图像进行上采样[108]。性能最好的交叉融合模型在两个并行的CNN分支中处理稠密的深度图像和图像数据,中间跳过连接,并在最后的卷积层中融合两个特征图。

B、 3D语义分割1)特征级融合:Dai和Nie?ner[109]提出了3DMV,这是一种用于3D语义分割的多视图网络,融合了体素化点云中的图像语义和点特征。图像特征由2D CNN从多个对齐图像中提取,并投影回3D空间。这些多视图图像特征在输入3D CNN进行每体素语义预测之前,将最大限度地合并体素,并与3D几何体融合。3DMV在ScanNet[110]基准上优于其他基于体素的方法。然而,基于体素的方法的性能取决于体素分辨率,并受到体素边界伪影的阻碍。

为了缓解点云体素化带来的问题,Chiang等人[111]提出了一种基于点的语义分割框架(UPF),该框架还可以有效地学习图像特征、几何结构和全局上下文先验知识的表示。使用语义分割网络提取渲染多视图图像的特征,并将其投影到三维空间进行逐点特征融合。该融合点云由两个基于PointNet++[30]的编码器处理,以提取本地和全局特征,然后输入解码器进行逐点语义标签预测。类似地,多视图PointNet(MVPNet)[112]融合了多视图图像语义和3D几何,以预测每个点的语义标签。永久自面体格表示是多模式数据融合和处理的一种替代方法。Su等人[113]的Sparse Lattice Networks(SPLA TNet)采用稀疏双边卷积实现空间感知表示学习和多模式(图像和点云)推理。在这种方法中,点云特征被插值到dl维置换自面体晶格上,其中应用了双边卷积。结果将插值回点云。使用CNN从多视图图像中提取图像特征,并投影到3D晶格空间,与3D特征相结合。该融合特征图由CNN进一步处理,以预测每个点的标签。

C、 实例分割实质上,实例分割的目的是联合进行语义分割和对象检测。它通过区分类中的单个实例来扩展语义分割任务,这使得它更具挑战性。

1) 基于提案:Hou等人提出了3D-SIS[114],这是一个两阶段3D CNN,对多视图图像和RGB-D扫描数据执行体素式3D实例分割。在3D检测阶段,使用基于ENet[115]的网络提取多视图图像特征并进行下采样。此下采样过程解决了高分辨率图像特征地图和低分辨率体素化点云特征地图之间的不匹配问题。这些向下采样的图像特征映射投射回3D体素空间,并附加到相应的3D几何特征,然后将这些特征反馈到3D CNN中,以预测对象类和3D bbox姿势。在3D遮罩阶段,3D CNN将获取图像、点云特征和3D对象检测结果,以预测每个体素实例标签。

成田等[116]扩展了二维全景分割,在RGB图像和深度图像上联合执行场景重建、三维语义分割和三维实例分割。该方法以RGB和深度帧为输入,例如2D语义分割网络。为了跟踪帧之间的标签,这些帧预测的全景注释和相应的深度通过关联和集成到体积图来引用。在最后一步中,使用一个完全连接的条件随机场(CRF)来微调输出。然而,这种方法不支持动态场景,并且容易受到长期后期漂移的影响。

2) 基于无建议:Elich等人[117]提出了3D-BEVIS框架,该框架使用聚类方法对与2D语义聚合的点联合执行3D语义和实例分割任务。3D-BEVIS首先从二维BEV表示(RGB和地上高度)中提取全局语义得分图和实例特征图。这两个语义图通过图形神经网络传播到各个点。最后,meanshift算法[118]使用这些语义特征将点聚类为实例。这种方法主要受其对图10的依赖性的限制。基于检测的跟踪(DBT)和无检测跟踪(DFT)方法的比较。BEV的语义特征,可能会因传感器位移而导致闭塞。

七、对象跟踪

多对象跟踪(MOT)旨在维护对象身份并跨数据帧(随时间)跟踪其位置,这对于自主车辆的决策是必不可少的。为此,本节回顾了基于相机激光雷达融合的目标跟踪方法。基于对象初始化方法,MOT算法可以分为基于检测的跟踪(DBT)和无检测跟踪(DFT)框架。DBT或Tracking by Detection框架利用一系列对象假设和对象检测器生成的高级提示来跟踪对象。在DBT中,通过数据(检测序列)关联或多假设跟踪跟踪目标。相反,DFT框架基于有限集统计(FISST)进行状态估计。常用的方法包括多目标多贝努利(MeMBer)滤波器和概率假设密度(PHD)滤波器。表V显示了不同模型在KITTI多目标跟踪基准(car)上的性能[56]。图10比较了DBT和DFT方法。

A、 基于检测的跟踪(DBT)

检测跟踪框架由两个阶段组成。在第一阶段,检测感兴趣的对象。第二阶段随着时间的推移将这些对象关联起来,并将它们公式化为轨迹,即线性规划。Frossard和Urtasun[119]提出了一种端到端可训练的检测跟踪框架,该框架由多个独立网络组成,这些网络同时利用图像和点云。该框架连续执行对象检测、提案匹配和评分、线性优化。为了实现端到端的学习,检测和匹配是通过一个深层结构模型(DSM)制定的。Zhang等人[120]提出了一个传感器无关框架,该框架采用损失耦合方案进行图像和点云融合。与[119]类似,该框架由三个阶段组成,即目标检测、邻接估计和线性优化。在目标检测阶段,图像和点云特征通过VGG-16[123]和PointNet[30]并行提取,并通过鲁棒融合模块进行融合。鲁棒融合模块设计用于处理a-modal和multi-modal输入。邻接估计阶段通过邻接矩阵学习将最小成本流扩展到多模态。最后,根据最小费用流图计算出最优路径。

跟踪和三维重建任务可以联合执行。Luiten等人[121]扩展了这一想法,利用3D重建来改进跟踪,使跟踪对完全遮挡具有鲁棒性。拟议的MOTSFusion包括两个阶段。在第一阶段,检测到的对象与时空轨迹相关联。使用匈牙利算法将这些轨迹匹配并合并到轨迹中。此外,MOTSFusion可以与LiDAR单声道和立体声深度配合使用。

B、 无检测跟踪(DFT)在DFT中,通过基于过滤的方法手动初始化和跟踪对象。复合器YOLO[122]是一个实时框架,用于对图像和点云数据进行解耦三维目标检测和跟踪。在三维目标检测阶段,提取二维语义并逐点融合到点云。这个语义点云被体素化,并被送入一个3D复杂的YOLO中,用于3D对象检测。为了加快训练过程,IoU被一种称为“缩放旋转平移分数”(SRT)的新度量取代,该度量评估了边界框位置的3个自由度。多目标跟踪与检测解耦,并通过标记多贝努利随机有限集滤波器(LMB-RFS)实现推理。

八、在线跨传感器校准

摄像机-激光雷达融合管道的前提条件之一是传感器之间的无瑕疵配准校准,这可能很难满足。由于机械振动和热波动,传感器之间的校准参数不断变化。由于大多数融合方法对校准误差极为敏感,这可能严重影响其性能和可靠性。此外,离线校准是一个麻烦且耗时的过程。因此,研究在线自动交叉传感器校准具有重要的实际意义。

A、 经典在线校准在线校准方法在没有校准目标的情况下估计自然环境中的非本征值。许多研究[124]-[127]通过最大化不同模式之间的互信息(MI)(原始强度值或边缘强度),发现了外在因素。然而,基于MI的方法对纹理丰富的环境、传感器位移引起的大范围去校准和遮挡不具有鲁棒性。或者,基于LiDAR的视觉里程表方法[128]使用相机的自我运动来估计和评估相机LiDAR外部参数。尽管如此,[128]仍面临大量去校准问题,无法实时运行。

B、 基于DL的在线校准为了缓解上述挑战,Schneider等人[129]设计了一种实时功能的CNN(RegNet)来估计非本征值,该值是根据随机脱钙数据训练的。提出的RegNet以两个并行分支提取图像和深度特征,并将它们连接起来生成融合特征地图。融合后的特征地图被送入网络中网络(NiN)模块的堆栈和两个完全连接的层中,用于特征匹配和全局回归。然而,RegNet不知道传感器的固有参数,一旦这些固有参数发生变化,就需要重新培训。为了解决这个问题,CalibNet[130]学会以自我监督的方式最小化错误校准深度和目标深度之间的几何和光度不一致。由于intrinsic仅在3D空间变换器期间使用,因此CalibNet可以应用于任何固有校准相机。然而,基于深度学习的跨传感器校准方法计算成本高昂。

九、 趋势、开放挑战和承诺方向

无人驾驶汽车中的感知模块负责获取和理解周围的场景。其下游模块,如规划、决策和自我定位,取决于其输出。因此,其性能和可靠性是整个无人驾驶系统能力的先决条件。为此,采用激光雷达和摄像机融合技术来提高感知系统的性能和可靠性,使无人驾驶车辆能够更好地理解复杂场景(如城市交通、极端天气条件等)。因此,在本节中,我们总结了总体趋势,并讨论了这方面存在的挑战和潜在影响因素。如表六所示,我们专注于改进融合方法的性能和融合管道的鲁棒性。

从上述方法中,我们观察到图像和点云融合方法的一些一般趋势,总结如下:

?2D到3D:随着3D特征提取方法的进步,在3D空间中定位、跟踪和分割对象已成为一个研究热点

单任务到多任务:最近的一些工作[73]、[122]将多个互补任务组合在一起,例如对象检测、语义分割和深度完成,以实现更好的总体性能并降低

计算成本信号级到多级融合:早期的工作通常利用信号级融合,其中3D几何体被转换为图像平面,以利用现成的图像处理模型,而最近的模型尝试在多级(如早期融合、晚期融合)和时间上下文编码中融合图像和激光雷达。

?A性能相关开放研究问题

1)融合数据的数据表示应该是什么?:选择融合数据的数据表示形式是设计任何数据融合算法的基础。图像和点云融合的当前数据表示包括:

?图像表示:附加3D几何体作为图像的附加通道。基于图像的表示支持现成的图像处理模型。然而,2D图像平面的结果也有限,这对于自动驾驶来说不太理想

点表示:附加RGB信号\/特征作为点云的附加通道。然而,高分辨率图像和低分辨率点云之间的分辨率不匹配导致效率低下

中间数据表示:将图像和点云特征转换为中间数据表示,例如体素化点云[82]。然而,基于体素的方法的可伸缩性较差。

最近许多点云处理工作都集中于定义显式点卷积运算[32]、[33]、[35]–[38]、[62],这些运算显示了巨大的潜力。这些点卷积更适合于提取细粒度的逐点和局部几何体。因此,我们认为融合数据的点表示与点卷积耦合在相机激光雷达融合研究中具有很大的潜力。

2) 如何编码时间上下文?:目前大多数基于深度学习的感知系统往往忽略了时间背景。这导致了许多问题,例如刷新率低导致的点云变形以及传感器之间的时间同步不正确。这些问题会导致图像、点云和实际环境之间的不匹配。因此,将时间背景融入感知系统至关重要。

在自动驾驶的背景下,可以使用RNN或LSTM模型合并时间背景。在[131]中,使用LSTM自动编码器来估计周围车辆的未来状态,并相应地调整计划的轨迹,这有助于自动车辆运行更平稳。在[121]中,时间上下文被用来估计自我运动,这有利于以后与任务相关的头部网络。此外,时间背景可以通过基于视觉里程计的方法进行在线自校准[128]。根据这一趋势,可以通过编码时间上下文和生成模型来解决LiDAR低刷新率导致的不匹配问题。

3) 学习计划应该是什么当前大多数相机LiDAR融合方法依赖于监督学习,这需要大量注释数据集。然而,对图像和点云进行注释既昂贵又耗时。这限制了当前多模态数据集的大小和监督学习方法的性能。

这个问题的答案是无监督和弱监督的学习框架。最近的一些研究显示了这方面的巨大潜力[24]、[43]、[50]、[101]、[132]。根据这一趋势,未来对无监督和弱监督学习融合框架的研究可以使网络在大型未标记粗糙标记数据集上进行训练,从而获得更好的性能。

4) 何时使用深度学习方法?:深度学习技术的最新进展加速了自主驾驶技术的发展。然而,在许多方面,传统方法在当前的自动驾驶系统中仍然不可或缺。与深度学习方法相比,传统方法具有更好的可解释性,并消耗更少的计算资源。跟踪决策的能力对于自主车辆的决策和规划系统至关重要。然而,当前的深度学习算法是不可追溯的,因此不适合这些应用。除了这种黑箱困境,传统算法也因其实时性而受到青睐。

总而言之,我们认为深度学习方法应该应用于具有明确目标且可以客观验证的应用程序。

B、 可靠性相关开放性研究问题

1)如何缓解相机-激光雷达耦合?:从工程的角度来看,自主车辆的冗余设计对其安全性至关重要。虽然激光雷达和相机融合可以提高感知性能,但也存在信号耦合问题。如果其中一条信号路径突然出现故障,整个管道可能会崩溃并损坏下游模块。这对于需要强大感知管道的自动驾驶系统来说是不可接受的。为了解决这个问题,我们应该开发一个与传感器无关的框架。例如,我们可以采用具有不同传感器输入的多个融合模块。此外,我们可以使用一个多路径融合模块来获取异步多模态数据。然而,最佳解决方案仍有待研究。

2) 如何改善全天候照明条件自动驾驶车辆需要在所有天气和照明条件下工作。然而,当前的数据集和方法主要集中在具有良好照明和天气条件的场景。这会导致在照明和天气条件更加复杂的真实世界中表现不佳。解决这个问题的第一步是开发更多的数据集,这些数据集包含广泛的照明和天气条件。此外,使用多模态数据处理复杂照明和天气条件的方法需要进一步研究。

3) 如何处理对手攻击和角落案例针对基于摄像头的感知系统的对抗性攻击已被证明是有效的。这对自动驾驶汽车构成了严重威胁,因为它在安全关键环境中运行。可能很难识别明确针对特定感官模式设计的攻击。然而,感知结果可以通过不同的方式进行验证。在这种情况下,可以进一步研究如何利用3D几何体和图像联合识别这些攻击。

由于自动驾驶汽车在无限可能的不可预测的开放环境中运行,因此在设计感知管道时考虑拐角和边缘情况至关重要。感知系统应预测看不见和不寻常的障碍、奇怪的行为和极端天气。例如,一辆大型车辆上印有骑自行车的人和穿着服装的人的图像。仅使用相机或LiDAR管道,这些拐角情况通常很难处理。然而,利用多种模式的数据来识别这些角落案例可能比使用a-model传感器更有效、更可靠。这方面的进一步研究将极大地促进自动驾驶技术的安全性和商业化。

4) 如何解决开放集对象检测?:开放集对象检测是一种场景,其中对象检测器在未知类的实例上进行测试。开集问题对于自动驾驶汽车来说至关重要,因为它在具有无限种类物体的无约束环境中运行。当前数据集通常对任何不感兴趣的对象使用背景类。但是,没有数据集可以在后台类中包含所有不需要的对象类别。因此,目标探测器在开放设置下的行为具有高度不确定性,这对于自动驾驶来说不太理想。

由于缺乏开放集对象检测意识、测试协议和度量,导致当前对象检测研究中很少明确评估开放集性能。Dhamija等人[133]在最近的一项研究中讨论和研究了这些挑战,提出了一种新的开放集协议和度量。作者提出了一个额外的混合未知类别,它包含已知的“背景”对象和未知的/不可见的对象。基于该协议,当前方法在一个测试集上进行测试,该测试集包含由现有数据集组合生成的混合未知类别。在最近对点云的另一项研究中,Wong等人[134]提出了一种技术,可以将不同类别的不需要的对象映射到一个类别无关的嵌入空间中进行聚类。

开放设置挑战对于在现实世界中部署基于深度学习的感知系统至关重要。它需要整个研究社区的更多努力和关注(数据集和方法,重点是未知对象、测试协议和度量等)。

5) 如何平衡速度精度权衡?:多幅高分辨率图像和大规模点云的处理给现有的移动计算平台带来了巨大的压力。这有时会导致帧下降,这可能会严重降低感知系统的性能。更普遍的是,它会导致高功率消耗和低可靠性。因此,在实际部署中平衡模型的速度和准确性非常重要。有研究试图检测帧丢失。

在[135]中,Imre等人提出了一种利用摄像机对上的多段(虚线)拟合的多摄像机帧丢失检测算法。然而,帧丢失检测只能解决一半的问题。最困难的部分是防止因帧丢失而导致的性能下降。生成模型的最新进展显示出预测视频序列中缺失帧的巨大潜力[136],可用于自动驾驶,以填充图像和点云管道中的缺失帧。然而,我们认为解决帧丢失问题的最有效方法是通过减少硬件工作量来防止帧丢失。这可以通过仔细平衡模型的速度和精度来实现[137]。

为了实现这一点,深度学习模型应该能够缩小其计算成本,同时保持可接受的性能。这种可伸缩性通常通过减少输入的数量(点、像素、体素)或网络的深度来实现。从以往的研究来看[30]、[38]、[138],基于点和多视图的融合方法比基于体素的方法更具扩展性。

十、 结论

本文深入回顾了自主驾驶背景下点云和图像融合深度学习模型的最新进展。具体而言,本综述基于融合方法对方法进行了组织,涵盖了深度完成、动态和静止目标检测、语义分割、跟踪和在线跨传感器校准。此外,表中还列出了公开可用数据集的性能比较、模型的优点和缺点。典型的模型架构如图所示。最后,我们总结了总体趋势,并讨论了开放的挑战和可能的未来方向。这项调查还提高了人们的认识,并就研究界忽视但困扰自动驾驶技术实际部署的问题提供了见解。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-30 00:52:59  更:2022-09-30 00:57:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 20:51:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码