| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Transformer BEV perception -> 正文阅读 |
|
[人工智能]Transformer BEV perception |
4.1-4.10日,花了约15个小时,入门了transformer和基于Transformer的BEV perception,记录一下分享给志同道合的人,以下是学习路径。 一、 Transformer原理
二、 Transformer BEV Perception刘兰个川。可以先看看这个大佬写的BEV Perception博客,里面总结了4种方案,但作者认为第4种基于Transformer的方案才是未来的方向。 我也认为Transformer也是未来,因此以后将只关注此类的方法。 1 Camera onoy清华,DETR3Dhttps://arxiv.org/abs/2110.06922 主要思想:固定900个query个数,随机初始化query。每个query对应一个3D reference point,然后反投影到图片上sample对应像素的特征。 缺点:需要预训练模型,且因为是随机初始化,训练收敛较慢 BEV Formerhttps://arxiv.org/abs/2203.17270 主要思想:将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中sample到对应像素的特征,且利用了空间和时间的信息。并且最终得到的是BEV featrue,在此featrue上做Det和Seg。 **Spatial Cross-Attention:**将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中获取特征。 Temporal Self-Attention: 通过self-attention代替运动补偿,align上一帧的feature到当前帧的Q 旷视,PETR2 多模态清华,FUTR3Dhttps://arxiv.org/pdf/2203.10642.pdf 在DETR的基础上,将3D reference point投影到Lidar voxel特征和radar point 特征上。 香港科技大学,Transfusionhttps://arxiv.org/pdf/2203.11496.pdf 利用CenterPoint在heatmap上获取Top K个点作为Query(这K个点可以看做是通过lidar网络初始化了每个目标的位置,这比DETR用随机点作为Qurey收敛要快),先经过Lidar Transformer得到proposal,把这个proposal作为Query,再和image feature做cross attention。 Google,DeepFusionhttps://arxiv.org/abs/2203.08195 直接将Lidar feature和Camera feature做cross attention,这个思路牛逼,我不看到这篇论文是绝对想不到还能这么搞的。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 11:35:51- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |