IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【论文阅读】【3d目标检测】Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds -> 正文阅读

[人工智能]【论文阅读】【3d目标检测】Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds

论文标题:Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds

cvpr2022
transformer用在点云上面逐渐成为一种新的趋势 本文就是用transformer做3d目标检测。
作者首先分析了现有的一些方法 直接在点云上逐个点用transformer是行不通的 因为实在是太大了 而现有的一些方法 例如将点云group后做trans 又难免遗漏一些点 将点云转化为voxel 进行3d卷积的话 相对于transformer来说 感受野是很小的。那么 有没有一种方法能够既享受trans带来的全局特征 又能减小一下计算量呢 这篇文章就是在这样的背景下写出来的:
老规矩 上图!
在这里插入图片描述

文章是在point level上做的 可以看到 作者提出来比较新的点就是文章中的vsa层,那我们便来仔细看看这个结构:
这个结构是对于所有的点云进行的 首先作者引入了set transformer 的概念,建议大家看这篇文章前可以稍微浏览一下之前nips上的一篇文章:《Set transformer: A framework for attention-based permutation-invariant neural networks》
主要思路类似于linformer 大概就是认为自注意力矩阵是一个低秩的模块 因此对于自注意力模块 我们可以采用两个cross attetion的操作来进行降秩处理,再将降秩后的attention matrix与我们的输入矩阵进行相乘。
在这里插入图片描述
而对于所有的点云 我们便从此出发,首先对于点云映射到key 和 value 我们进行一个线性映射的操作 随后计算key和一个降秩矩阵L(K*D)之间的cross attention 再与value相乘 经过softmax计算value的权重后与value进行相乘 得到hidden feature 这个hidden feature是对于每一个点而言的 我们将它们根据voxel的划分分配到每一个voxel中 组成每一个voxel的feature深度:
在这里插入图片描述
在这里插入图片描述
对组成的voxel图 我们进行深度卷积 提取不同voxel间的特征 这个卷积进行了两次 最后再进行broadcast 将得到的feature投影回原来的point 对于新得到的feature 我们将它们做为key 和 value 进行前面类似的与低秩矩阵的crossattention操作后 得到新的point feature
在这里插入图片描述
我们可以看到 前面的encoder实际上就是vfe的操作
在这里插入图片描述
上述模块 即为全文的重点 vsa
随后对该模块进行叠加 不断提取pointlevel的全局特征 最后利用 soft pool 将特征投影到 bev
在这里插入图片描述
X是该bev voxel内的点的特征
最后进行2d卷积 输出检测的head
在这里插入图片描述
作者认为该网络还可以扩展到二阶段 第二阶段 作者利用了cvpr2021的Lidar rcnn作为refinement net
在这里插入图片描述
在这里插入图片描述
ablation实验做了替换ffn和不同的latent codes 及在pointrcnn上替换Sa为transformer 来看看效果吧:
在这里插入图片描述
可以看到 很重要的一点是 进行voxel间的conv能很大的提升ap 相比原来的sa transformer也确实能更好地提取局部特征。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-23 10:50:39  更:2022-04-23 10:52:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/6 22:27:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码