IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【论文阅读】【3d目标检测】Improving 3D Object Detection with Channel-wise Transformer -> 正文阅读

[人工智能]【论文阅读】【3d目标检测】Improving 3D Object Detection with Channel-wise Transformer

标题:Improving 3D Object Detection with Channel-wise Transformer

iccv2021
浙江大学 阿里达摩院 著名的CT3d
文章是在点上进行transformer,前面的文章曾说过在巨大的点云上进行tranformer计算量是巨大的 所以这篇文章玩了点小聪明 利用transformer设计refinement net
文章基于利用原始点的特征足够来进行box refinement的假设来进行行文
老规矩 上图
在这里插入图片描述
可以看到trans主要是用在了编码和解码的阶段
首先作者利用单阶段网络输出的proposals 对它们进行一个尺寸的扩大 具体操作就是将proposal扩展成一个大的圆柱体 圆柱体半径为proposal的对角线 而高度不限制尺寸 在这样的一个圆柱体里 我们随机选择256个point进行transformer
在这里插入图片描述
transformer的结构没啥创新 主要是作者将位置编码与feature进行了一个较为深度的融合 而不是之前工作的pe的简单的相加。
在这里插入图片描述
随后进行256个点的叠加 得到NXD的特征维度

下面是全文的重点 :

decode环节

与传统的解码器采用m个query embedding不同 我们这里只用一个 因为我们只需要还原一个proposal

标准编码:
在这里插入图片描述
向量qK 的每个值都可以看作是单个点的全局聚合(即每个密钥嵌入),后续的softmax函数根据归一化向量中的概率为每个点赋解码值。 因此,译码权向量的值是简单的全局聚合,缺乏局部的信道建模,这是了解点云三维表面结构所必需的,因为不同的信道在点云中通常表现出很强的几何关系。

channel 编码
在这里插入图片描述
而softmax计算的译码权值与每个通道相关联,忽略了每个点的全局聚合。 因此,我们可以得出结论,标准译码方案集中于全局聚合,而通道加权方案集中于信道局部聚合。 为了结合它们的特点,我们提出了一种扩展的通道加权方案,如下所示。
在这里插入图片描述
所以我们提出将两种方案进行一个结合 主要是对于 前一个模块输出的结果 进行repeatD次 然后与Kh相乘 结果softmax后进行线性映射
在这里插入图片描述
结果便得以与point进行相乘了
在这里插入图片描述
最后我们对各个维度进行reweight处理 输出1XN的feature 结果便于value进行加权 得到我们最终的输出
将最终的输出送入到两个不同的ffn中进行检测iou和 regression。
实验:
在这里插入图片描述
在这里插入图片描述
ablation做了不同前置单阶段检测器的影响:
在这里插入图片描述
pe模块的优越性
在这里插入图片描述
及不同解码 方式的好坏
在这里插入图片描述
其实也没有很大的提升。。。
主要原因我觉得是对于proposal来说 全局特征已经很足够了

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-24 09:26:48  更:2022-04-24 09:30:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 9:45:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码