开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 自动驾驶行业开源数据集调研 -> 正文阅读

[人工智能]自动驾驶行业开源数据集调研

自动驾驶行业开源数据集调研

2022除夕前整理，主要内容翻译自以下两个链接

资料1.链接：自动驾驶行业最受欢迎的10个开源数据集 1-10为按照字母排序的
资料2.链接：15 个最佳开源自动驾驶数据集

1.Astyx Dataset HiRes2019

Astyx Dataset HiRes2019 来自Cruise公司，是一种汽车毫米波雷达数据集，用于基于深度学习的 3D 对象检测。开源该数据集的动机是为研究界提供高分辨率的毫米波雷达数据，促进和激发对使用毫米波雷达传感器数据的算法的研究。该数据集是一个以毫米波雷达为主的汽车数据集，用于基于毫米波雷达、激光雷达和摄像头数据进行 3D 对象检测。数据集的大小超过 350 MB，由 546 帧组成。
很可惜该数据集已经被从公开的下载网站删除：他们实际上是故意删除了数据集，提到的原因是它不再是最先进的。

M. Meyer and G. Kuschk, “Automotive Radar Dataset for Deep Learning Based 3D Object Detection,” 2019 16th European Radar Conference (EuRAD), 2019, pp. 129-132.

2.Berkeley DeepDrive

加州大学伯克利分校的伯克利 DeepDrive 数据集由超过 100K（10万）视频序列组成，以评估图像识别算法在自动驾驶方面的令人兴奋的进展，具有各种注释，包括图像级标记、对象边界框、可驾驶区域、车道检测和全帧实例分割。该数据集具有地理（应该是指在伯克利新加坡等多地采集）、环境（城市、乡村和高速公路）和天气的多样性，这对于训练模型很有用，这样它们就不太可能对新条件感到惊讶（泛化能力更好）。
在这里插入图片描述

标注格式

2018年发布的JSON格式的道路物体检测注解，视频属性中标记了weather、scene、timeofday，一并存储在json文件中。在 2020 年修改了检测注释，重新发布。
MOT 2020 Labels: 2020 年发布的多对象边界框跟踪训练和验证标签。这些视频是 100K 视频的子集，但它们从 30Hz 重新采样到 5Hz。标签采用Scalabel 格式。每个视频中的相同对象具有相同的标签 ID，但跨视频的对象始终是不同的，即使它们具有相同的 ID。
MOTS 2020 Labels: 2020 年发布的多目标跟踪和分割训练和验证标签位掩码格式。
Scalabel 格式标签示例

- name: string (must be unique over the whole dataset!)
- url: string (relative path or URL to data file)
- videoName: string (optional)
- attributes: a dictionary of frame attributes
- intrinsics
    - focal: [x, y]
    - center: [x, y]
    - nearClip:
- extrinsics
    - location
    - rotation
- timestamp: int64 (epoch time ms)
- frameIndex: int (optional, frame index in this video)
- size:
    - width: int
    - height: int
- labels [ ]:
    - id: string
    - index: int
    - category: string (classification)
    - manualShape: boolean
    - manualAttributes: boolean
    - score: float
    - attributes: a dictionary of label attributes
    - box2d:
        - x1: float
        - y1: float
        - x2: float
        - y2: float
    - box3d:
        - alpha:
        - orientation:
        - location: ()
        - dimension: (3D point, height, width, length)
    - poly2d:
        - vertices: [][]float (list of 2-tuples [x, y])
        - types: string
        - closed: boolean
    - rle:
        - counts: str
        - size: (height, width)
    - graph: (optional)
        - nodes [ ]:
            - location: [x, y] or [x, y, z]
            - category: string
            - visibility: string (optional)
            - type: string (optional)
            - score: float (optional)
            - id: string
        - edges [ ]:
            - source: string
            - target: string
            - type: string (optional)
        - type: string (optional)

可以用于的任务：

目标检测 Object Detection
实例分割 Instance Segmentation
多目标框跟踪 Box Tracking
多目标跟踪和分割 Segmentation Tracking
语义分割 Semantic Segmentation
全景分割 Panoptic Segmentation
共41个类别，0: unlabeled 1: dynamic 2: ego vehicle 3: ground 4: static 5: parking 6: rail track 7: road 8: sidewalk 9: bridge 10: building 11: fence 12: garage 13: guard rail 14: tunnel 15: wall 16: banner 17: billboard 18: lane divider 19: parking sign 20: pole 21: polegroup 22: street light 23: traffic cone 24: traffic device 25: traffic light 26: traffic sign 27: traffic sign frame 28: terrain 29: vegetation 30: sky 31: person 32: rider 33: bicycle 34: bus 35: car 36: caravan 37: motorcycle 38: trailer 39: train 40: truck
可驾驶区域检测 Drivable Area

在这里插入图片描述

车道检测 Lane Marking

对于车道标记任务，有 3 个子任务：车道类别、车道方向和车道样式。分别有 9、3 和 3 个类。

在这里插入图片描述

（人体）姿势估计 Pose Estimation

评估了 18 个类（关节）
0: head 1: neck 2: right_shoulder 3: right_elbow 4: right_wrist 5: left_shoulder 6: left_elbow 7: left_wrist 8: right_hip 9: right_knee 10: right_ankle 11: left_hip 12: left_knee 13: left_ankle 14: right_hand 15: left_hand 16: right_foot 17: left_foot

更细致内容请查看官网文档或论文
BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning

3.Landmarks

谷歌开源了这个数据集，用于识别人造和自然地标。它包含超过 200 万张图像，描绘了来自世界各地的 3 万个独特地标（它们的地理分布如下所示），许多类比常用数据集中可用的类大约 30 倍。个人感觉好像对自动驾驶用处不大。
在这里插入图片描述

4.Landmarks-v2

只是规模更大了一点，同样不认为对自动驾驶行业有用

5.Level 5

拼车公司 Lyft 开源了 Level 5 数据集。Level 5 是一个全面的大规模数据集，包含原始传感器摄像头和 LiDAR 输入，可在受限地理区域内由多辆高端自动驾驶车辆感知。该数据集还包括高质量、人工标记的交通代理 3D 边界框，这是一个底层的高清空间语义图。

在这里插入图片描述

个人理解它是使用激光雷达、相机等数据集合训练运动预测模型，可能并不适合我们组的工作。

6.nuScenes Dataset

nuScenes 是一个用于自动驾驶的大规模公共数据集。该数据集使研究人员能够使用真正的自动驾驶汽车的完整传感器套件来研究城市驾驶情况。该数据集包含 1,400,000 张相机图像、390,000 次激光雷达扫描、详细的地图信息、完整的传感器套件，例如 1x LIDAR、5x RADAR、6x 相机、IMU、GPS、23 个对象类的手动注释等。数据集详细介绍请查看论文 nuScenes: A multimodal dataset for autonomous driving

nuScenes

2019 年 3 月，我们发布了包含全部 1000 个场景的完整 nuScenes 数据集。完整的数据集包括大约 140 万个相机图像、39 万个激光雷达扫描、140 万个雷达扫描和 4 万个关键帧中的 140 万个对象边界框
2020 年 7 月，我们发布了 nuScenes-lidarseg。在 nuScenes-lidarseg 中，我们使用 32 种可能的语义标签之一（即激光雷达语义分割）对 nuScenes 中关键帧中的每个激光雷达点进行注释。因此，nuScenes-lidarseg 在 40,000 个点云和 1000 个场景（850 个用于训练和验证的场景，以及 150 个用于测试的场景）中包含 14 亿个注释点。
传感器同步：为了在 LIDAR 和摄像头之间实现良好的跨模态数据对齐，当顶部 LIDAR 扫过摄像头 FOV 的中心时，会触发摄像头的曝光。图像的时间戳为曝光触发时间；而激光雷达扫描的时间戳是当前激光雷达帧实现全旋转的时间。鉴于相机的曝光时间几乎是瞬时的，这种方法通常会产生良好的数据对齐。请注意，相机以 12Hz 运行，而 LIDAR 以 20Hz 运行。12 次相机曝光尽可能均匀地分布在 20 次激光雷达扫描中，因此并非所有激光雷达扫描都有相应的相机帧。将摄像头的帧速率降低到 12Hz 有助于降低感知系统的计算、带宽和存储需求。
更多 nuScenes 信息请看官网

nuImages

nuImages 是一个独立的大规模图像数据集，带有 2d 框和掩码注释。nuImages 由 93k 图像组成，分为 67k 训练图像、16k 验证图像和 10k 测试图像

数据标注：

官方提供的标注数据一共有15个json文件，并且官方在github上提供了数据集的devkit。以2D边界框的标注为例，分类标签信息可以查看目标检测github链接，该链接中也提供了不同类别的区分和每个类别的详细解释。

在这里插入图片描述

可用于的任务

在这里插入图片描述

7.Open Images V5

对自动驾驶行业用处不大，略。

8.Oxford Radar RobotCar Dataset

Oxford RobotCar 数据集由 100 多次重复的通过英国牛津的一致路线组成，该路线已被记录超过一年。该数据集结合了许多不同的天气、交通和行人组合，以及建筑和道路工程等长期变化。该数据集应该不适合我们组，跟slam的工作比较相似。更多内容请查看官网

传感器

Cameras:

1 x Point Grey Bumblebee XB3 (BBX3-13S2C-38) trinocular stereo camera, 1280×960×3, 16Hz, 1/3” Sony ICX445 CCD, global shutter, 3.8mm lens, 66° HFoV, 12/24cm baseline

3 x Point Grey Grasshopper2 (GS2-FW-14S5C-C) monocular camera, 1024×1024, 11.1Hz, 2/3” Sony ICX285 CCD, global shutter, 2.67mm fisheye lens (Sunex DSL315B-650-F2.3), 180° HFoV
LIDAR:

2 x SICK LMS-151 2D LIDAR, 270° FoV, 50Hz, 50m range, 0.5° resolution

1 x SICK LD-MRS 3D LIDAR, 85° HFoV, 3.2° VFoV, 4 planes, 12.5Hz, 50m range, 0.125° resolution
GPS/INS:

1 x NovAtel SPAN-CPT ALIGN inertial and GPS navigation system, 6 axis, 50Hz, GPS/GLONASS, dual antenna

此外，官网还提供了MATLAB和Python代码，用于轻松访问和操作数据集。提供的 MATLAB 和 Python 函数包括加载和显示图像和激光雷达扫描的简单函数，以及涉及从推扫式 2D 扫描生成 3D 点云以及将 3D 点云投影到相机图像中的更高级函数。

在这里插入图片描述

9.Pandaset

国内激光雷达制造商禾赛科技与人工智能数据标注平台公司Scale AI联合发布了面向L5级自动驾驶的开源商用数据集——PandaSet数据集。Pandaset 是用于自动驾驶的流行的大规模数据集之一。该数据集使研究人员能够研究自动驾驶，旨在促进自动驾驶和机器学习的先进研究和开发。

数据集包括48，000多个摄像头图像和16，000个激光雷达扫描点云图像(超过100个8秒场景)。它还包括每个场景的28个注释和大多数场景的37个语义分割标签。传感器套件主要包括1个机械LiDAR，1个固态LiDAR，5个广角摄像头，1个长焦摄像头，板载GPS / IMU。

下载链接

pandaset提供了加载数据集的工具包pandaset-devkit，github中给出了如何调用标定数据，另外安装好工具包后可以直接调用API得到我们想要的数据。

10.Waymo Open Dataset

Waymo Open Dataset是用于自动驾驶的开源高质量多模态传感器数据集。该数据集是从 Waymo 自动驾驶车辆中提取的，涵盖了从密集的城市中心到郊区景观的各种环境。该系列由不同的时间组成，包括阳光、雨天、白天、夜晚、黎明和黄昏。它包含 1000 种不同的段，每个段捕获 20 秒的连续驾驶，对应于每个传感器 10 Hz 时的 200,000 帧。

论文链接

传感器布置

在这里插入图片描述

标注

数据集中对汽车、行人、交通标志、自行车人员进行了详细标注。对于激光雷达数据，将每一个物体标注为7自由度3D bbox:(cx, cy, cz, l, w, h, θ)。其中 cx , cy , cz 表示为bbox中心坐标。l, w, h 表示为物体长宽高。θ 表示为物体偏航角，此外对于每一个物体还标注了一个唯一的追踪ID编号。

图像标注中将每一个物体标注为4自由度2D bbox：(cx, cy, l, w)。其中cx, cy 表示为bbox中心图像坐标，l 表示为物体长度，w 表示为物体宽度。

数据集下载链接

11.小总结（1-10数据集）

相机采集帧率一般在10Hz左右
一般都提供了使用数据集的dev代码，关注标注格式的同时也要关注标注了那些信息。只要标注的内容符合要求，即使标注格式不是我们想要的也可以通过dev进行转换。
为了适应不同的场景，大多数数据集都采集了多个场景，比如高速、城市、乡村，但是一般都没有以此划分。

12.Bosch Small Traffic Lights Dataset

该数据集是一个用于基于视觉的交通信号灯检测的数据集，基于视觉的交通信号灯检测和跟踪是在城市环境中实现全自动驾驶的重要一步。该数据集包含 13427 个摄像机图像，分辨率为 1280x720 像素，并包含大约 24000 个带标注的交通信号灯。其中，训练集有 5093 张图片，大约每隔 2 秒标注一次，10756 带标注的红绿灯，中位红绿灯宽度 8.6 像素，15 种不同的标签，170灯被部分遮挡。测试集有 8334 个连续图像，以大约 15 fps 的速度进行注释，13486个带注释的红绿灯，中位红绿灯宽度 8.5 像素， 4 个标签（红色、黄色、绿色、关闭），2088灯被部分遮挡。标注包括交通灯的边界框以及每个交通灯的当前状态。这些场景涵盖了各种各样的道路场景和典型的困难：

繁忙的街景内城
具有不同交通密度的郊区多车道道路
密集的走走停停车流
道路工程
照明/曝光的强烈变化
阴天有小雨
闪烁/波动的红绿灯
多个可见交通灯
可能与交通信号灯混淆的图像部分（例如大圆形尾灯）

相机图像以使用红色-清晰-清晰-蓝色滤镜(red-clear-clear-blue filter)拍摄的原始 12 位 HDR 图像和重建的 8 位 RGB 彩色图像形式提供。RGB 图像用于调试，也可用于训练。然而，RGB 转换过程有一些缺点。一些转换后的图像可能包含伪影，并且颜色分布可能看起来不寻常。

数据集示例图像:

在这里插入图片描述

数据集的下载和读取以及标注格式转换的示例脚本可以参考官方的github链接，数据集详细说明可参考论文

13.ApolloScape

ApolloScape是 Apollo 自动驾驶项目的一部分。ApolloScape数据集一共包含有八个大类，如下图所示，分别是场景解析，车辆实例分割，车道标记分割，自定位，轨迹，3D 激光雷达目标检测和跟踪，双目相机，画面修复。
在这里插入图片描述

1.Car Instance

Car Instance此存储库包含 ApolloScapes 数据集的 3D 汽车实例理解挑战的评估脚本。这个大规模的数据集包含一组不同的立体视频序列，这些序列记录在来自不同城市的街景中，具有 5000 多帧的高质量注释。

在这里插入图片描述

上图出自论文ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving.，这部分数据集通过2D彩色图像输入来检测3D的车辆实例。

2.Trajectory

在这里插入图片描述

根据上图及论文TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents.可以推测，这部分数据集是用于轨迹预测的，对我们组用处不大。

3.Inpainting

简述：基于深度/点云引导的视频自动补画算法，能够从视频中去除交通agent，合成缺失区域，在自动驾驶中获得清晰的街景和真实感模拟。这部分可能和建图组比较相关，对我们组用处不大

4.Lane Segmentation

带有车道标记的准确高清 (HD) 地图通常用作所有商用自动驾驶车辆导航的后端。目前，大多数高清地图都是由人工标注人员手动构建的。在这个挑战中，我们要求参与者开发算法以从 RGB 图像帧中提取所有基本道路元素。分割结果可直接用于高精地图构建或更新过程。此存储库包含用于ApolloScapes数据集的地标检测挑战的评估脚本。这个大规模数据集包含了一组不同的立体视频序列，记录在不同城市的街景中，具有11万+帧的高质量像素级注释。

在这里插入图片描述

从图中可以看出，不仅标注了不同的车道线，还标出了车道中的指示箭头等。

3D Lidar Object Detection and Tracking

我们的 3D 激光雷达目标检测和跟踪数据集由激光雷达扫描点云和高质量标注组成。它是在中国北京的各种照明条件和交通密度下收集的。更具体地说，它包含高度复杂的交通流，混合了车辆、骑自行车的人和行人。

Stereo

该数据集由 5165 个图像对和对应的视差图组成，其中 4156 个图像对用于训练，1009 个图像对用于测试。这些图像是从 Apollo 数据集中提取的。通过累积来自激光雷达的 3D 点云并将 3D CAD 模型拟合到单独移动的汽车（从 3D Car Instance数据集提取），获得了地面实况。该数据集包含具有严重遮挡的不同交通状况，这非常具有挑战性。

在这里插入图片描述

Apollo官方提供了github数据集处理工具以及多篇论文，可从官网首页找到。

14.CityScapes Dataset

Cityscapes 数据集专注于对城市街景的语义理解。 Cityscapes 拥有 5000 张在城市环境中驾驶场景的图像（2975 train,500 val,1525 test）。它为分为 8 个类别（平面、人类、车辆、建筑、物体、自然、天空和虚空）的 30 个类别提供语义、实例和密集像素注释。该数据集由大约 5000 个精细标注(Fine annotations)的图像和 20000 个粗糙标注(Coarse annotations)的图像组成(精细标注和粗糙标注的标签不同，可以使用官方自带的工具进行label转换)。在几个月、白天和良好的天气条件下，在 50 个城市捕获了数据。它最初是作为视频录制的，因此手动选择帧以具有以下特征：大量动态对象、变化的场景布局和变化的背景。

在这里插入图片描述

该数据集的github仓库链接，可以用于检查、准备和评估 Cityscapes 数据集的脚本。

15.KITTI Vision Benchmark Suite

KITTI是目前自动驾驶领域最重要的测试集之一，KITTI主要是针对自动驾驶领域的图像处理技术，主要应用在自动驾驶感知和预测方面，其中也涉及定位和SLAM技术。KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图，39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成，以10Hz的频率采样及同步。总体上看，原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。对于3D物体检测，label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。

传感器布置（详细内容可以参考论文第二节 Sensor setup）

在这里插入图片描述

数据采集场景（详细内容可以参考论文三节 Dataset）

下图展示了KITTI数据集的典型样本，分为 ’Road’, ’City’, ’Residential’, ’Campus’ 和’Person’五类。原始数据采集于2011年的5天，共有180GB数据。
在这里插入图片描述

数据标注（详细内容可以参考论文3.2 Annotations）

数据的标注格式可以从每类数据集的development kit文件夹的readme.txt中找到。
在这里插入图片描述

Values	Name	Description
1	type	Describes the type of object: ‘Car’, ‘Van’, ‘Truck’,‘Pedestrian’, ‘Person_sitting’, ‘Cyclist’, ‘Tram’,‘Misc’ or ‘DontCare’
1	truncated	Float from 0 (non-truncated) to 1 (truncated), where truncated refers to the object leaving image boundaries
1	occluded	Integer (0,1,2,3) indicating occlusion state:0 = fully visible, 1 = partly occluded 2 = largely occluded, 3 = unknown
1	alpha	Observation angle of object, ranging [-pi…pi]
4	bbox	2D bounding box of object in the image (0-based index): contains left, top, right, bottom pixel coordinates
3	dimensions	3D object dimensions: height, width, length (in meters)
3	location	3D object location x,y,z in camera coordinates (in meters)
1	rotation_y	Rotation ry around Y-axis in camera coordinates [-pi…pi]
1	score	Only for results: Float, indicating confidence in detection, needed for p/r curves, higher is better.