IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【3D 目标检测】M3DETR -> 正文阅读

[人工智能]【3D 目标检测】M3DETR

本文可以借鉴的另一篇博客:

【3D 目标检测】PVRCNN详解(个人阅读心得并总结其他人的结论得出的文章)_JY.Wang_China的博客-CSDN博客

M3DETR:Multi representation, Multi scale, Mutual relation 3D Object Detection with Transformers?

一 核心思路

本文的主要思想在于将point-feature、voxel-feature、bird-eye?view通过一系列的transformer得到RoI-Align需要用到的refine特征。是anchor-based的方法。

transformer利用multi-head?attention来减少不同语义信息之间的的语义差距。本文中作者将自己的transformer方法称为M3?transformer,也就是有三个transformer,multi-representation、multi-scale、multi-relation?transformer。结构草图如下所示:

二 核心步骤

整体框架如下图所示:

我们的目标是在一个joint?embedding?space上与transformer进行multi-representation、multi-scale、multi-relation的融合。主要包含如下三大步骤:

1、使用VoxelNet、PointNet和2D ConvNet为生成相同点云的不同embedding特征。

2、?使用M3transformer融合这些embedding?features,利用multi-representation、multi-scale?feature?embedding和models?mutual?relationships之间的相互关系。

3、使用detection?heads?network进行3D?detection,包括RPN和R-CNN stage。

2.1?Multi-Representation?Feature?Embeddings

原始输入点云,首先将它们编码成三个不同的embedding space,即voxel,point和bird’s-eye-view features。

?

1、Points

通常,在整个点云场景中有超过10K个original?points。为了在不消耗大量内存的情况下,有效地覆盖整个点集,采用了最远点采样(FPS)算法采样n个keypoints,记为。采用PointNet++和PV-RCNN的Set?Abstraction和Voxel?Set?Abstraction模块,在原始点云P中获取的point?features,在VoxelNet中得到的特征获取的voxel特征

2、voxel

这里是使用简单的VoxelNet实现的,如上图中间的VoxelNet流程,最终通过下采样得到voxel?features

3、Bird’s-eye-view

原文中说是采用VoxelNet的最后一层特征作为输入,得到BEV的features,,然后使用bi-binary?interpolation方法,得到的BEV特征(这个地方在上图的下部分看着像是用每一层的voxel?feature分别进行BEV得到point的BEV特征,具体做法还要参考代码。)

?2.2?Multi-representation,?Multi-scale and Mutual-relation Transformer

?

这个步骤的大体思路如上图所示,就是将?作为输入,输入到Transformer中得到输出特征其目的是为了在第二阶段的RoI?pooling时,将这一步得到的点的特征作为精细化处理的特征。具体做法如下图所示:

?

?M3?transformer主要由两大部分组成,Multi-scale?and?Multi-representation Transformer和Multi-relation?Transformer。

?1、Multi-scale?and?Multi-representation Transformer

?

?2、Multi-relation?Transformer

?

?2.3?Detection?Heads?Network

?这里也就是RPN与R-CNN操作,RPN操作很常规,先选择出一些合适的proposal,之后将这些proposal输入到R-CNN网络中进行更精细化的处理。

?

?在R-CNN阶段,借鉴了PVRCNN的第二阶段的RoI?grid?pooling方法,如上图所示,使用M3?transformer得到的n个点的point?features作为精细化处理的特征。

??总结?

本文使用到transformer的方法,在PVRCNN的基础上进行改进,创新点是对transformer进行稍微的改进,效果还可以。

参考文献

[1] Guan T , ?Wang J , ?Lan S , et al. M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers. ?2021.

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-23 12:20:39  更:2021-11-23 12:23:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 4:22:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码