[人工智能] 【论文阅读】【3d目标检测】Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【论文阅读】【3d目标检测】Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds -> 正文阅读

[人工智能]【论文阅读】【3d目标检测】Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds

论文标题：Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds

cvpr2022
transformer用在点云上面逐渐成为一种新的趋势本文就是用transformer做3d目标检测。
作者首先分析了现有的一些方法直接在点云上逐个点用transformer是行不通的因为实在是太大了而现有的一些方法例如将点云group后做trans 又难免遗漏一些点将点云转化为voxel 进行3d卷积的话相对于transformer来说感受野是很小的。那么有没有一种方法能够既享受trans带来的全局特征又能减小一下计算量呢这篇文章就是在这样的背景下写出来的：
老规矩上图！
在这里插入图片描述

文章是在point level上做的可以看到作者提出来比较新的点就是文章中的vsa层，那我们便来仔细看看这个结构：
这个结构是对于所有的点云进行的首先作者引入了set transformer 的概念，建议大家看这篇文章前可以稍微浏览一下之前nips上的一篇文章：《Set transformer: A framework for attention-based permutation-invariant neural networks》
主要思路类似于linformer 大概就是认为自注意力矩阵是一个低秩的模块因此对于自注意力模块我们可以采用两个cross attetion的操作来进行降秩处理，再将降秩后的attention matrix与我们的输入矩阵进行相乘。
在这里插入图片描述
而对于所有的点云我们便从此出发，首先对于点云映射到key 和 value 我们进行一个线性映射的操作随后计算key和一个降秩矩阵L（K*D）之间的cross attention 再与value相乘经过softmax计算value的权重后与value进行相乘得到hidden feature 这个hidden feature是对于每一个点而言的我们将它们根据voxel的划分分配到每一个voxel中组成每一个voxel的feature深度：
在这里插入图片描述

对组成的voxel图我们进行深度卷积提取不同voxel间的特征这个卷积进行了两次最后再进行broadcast 将得到的feature投影回原来的point 对于新得到的feature 我们将它们做为key 和 value 进行前面类似的与低秩矩阵的crossattention操作后得到新的point feature
在这里插入图片描述
我们可以看到前面的encoder实际上就是vfe的操作

上述模块即为全文的重点 vsa
随后对该模块进行叠加不断提取pointlevel的全局特征最后利用 soft pool 将特征投影到 bev

X是该bev voxel内的点的特征
最后进行2d卷积输出检测的head
在这里插入图片描述
作者认为该网络还可以扩展到二阶段第二阶段作者利用了cvpr2021的Lidar rcnn作为refinement net

ablation实验做了替换ffn和不同的latent codes 及在pointrcnn上替换Sa为transformer 来看看效果吧：

可以看到很重要的一点是进行voxel间的conv能很大的提升ap 相比原来的sa transformer也确实能更好地提取局部特征。