IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> BEVSegFormer -> 正文阅读

[人工智能]BEVSegFormer

Introduction

现在很多BEV的工作都是怎么做的呢,有如下几种方式:

  • 传统方法。在iamge空间做分割,然后将它变换到BEV空间,通过IPM变换,这种方法依赖与精准的内参和外参。这种方法是基于当前情况做的视角变换,当出现遮挡或者远距离的时候就会不准
  • 深度学习的方法,lift-splat-shoot[1]通过诸逐像素点的深度估计完成image视角到BEV视角的变换,但使用深度估计增加了view变换过程的复杂性,故而一些方法[2]和[3]通过MLP和FC层本来学习这种image空间到BEV空间的固定映射变换,这样就不依赖于输入数据
  • 基于transformer的方法,DETR3D在2D的feature上面直接进行3D框的检测,其中3D空间和2D图像空间的变换是通过一个cross-attention模块的3D-to-2D queries实现的

Methods

网络结构图如下

?一共由三部分组成

1.a shared backbone

提取多个camera图像的特征,ResNet

2.transformer encoder

在C3,C4和C5的特征上通过1*1的卷积来得到multi-scale的features,然后和deformable detr一样,分别对各个相机的multi-scale feature施加multi-scale deformable attention,这样就会得到每一个相机的增强版的multi-scale feature

3.BEV Transformer Decoder

decoder的输入只有32倍下采样的feature map

包含两部分,一部分是计算BEV queries和multi-camera feature maps之间的cross-attention,一部分是通过一个semantic decoder来解析queries得到BEV的分割结果

对于BEV的query feature中的任意一个query q都对应三个分支,分别计算该q的相关采样点,相关采样点的偏移量offset和attention weight,最后将经过attention weight加权融合之后的特征经过一个linear后输出。将输出的特征reshape成一个2D的feature map,然后经过一个3*3,1*1和2倍上采样操作,将得到的结果和gt计算l分割oss。?

问题:

1.query pos代表position embedding吗

2.这个query是啥,是一组nn.Embedding(num_queries, hidden_dim)吗

References

1. Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d

2. Cross-view semantic segmentation for sensing surroundings

3. Predicting semantic map representations from images using pyramid occupancy networks

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-01 00:02:58  更:2022-04-01 00:06:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 12:34:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码