| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> 《STTR:Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》 -> 正文阅读 |
|
|
[人工智能]《STTR:Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》 |
|
参考代码:stereo-transformer 1. 概述
将文章的方法(STTR)与correlation-based和3D convolution-based方法进行比较,可以归纳为:
文章的方法在下面几个数据集下的结果: 2. 方法设计2.1 pipline文章提出的方法pipeline见下图所示:
经过上面两个过程对特征进行抽取得到的是channel为 C e C_e Ce?,空间分辨率与原输入尺度 ( I h , I w ) (I_h,I_w) (Ih?,Iw?)一致的特征图。之后这些特征图便与位置编码组合经过 N N N层的attention操作预测得到粗预测结果,之后再改结果的基础上进行refine得到最后的结果。 2.2 Transformer操作文章提出的transformer结构可见下图: 2.2.1 attention操作这里采用的attention操作是multi-head attention,可以参考pytorch的实现
2.2.2 position encoding在上面的多层attention过程中描述了像素与像素之间的关系,但是对于那些弱纹理甚至是无纹理区域的处理就变得比较困难了。对此文章为这些点通过建立相邻点(特别是那些诸如边缘点的显著性特征)的联系,优化对于弱纹理区域的适应能力,因而这里就使用到了用于相对位置建模的position encoding,其实现可以参考:
则上一节中讲到的attention权重经过position encoding的重新编码可以得到下面的权值组合形式:
2.2.3 attention mask在经过多层attention操作之后,已经可以构架出左视图和右视图上每个像素的对应关系了,但为了排除一些无关干扰,文章通过建立下三角mask的形式去约束对应点的位置,这部分的计算描述为:
2.2.4 Optimal Transport在进行特征匹配的时候为了右视图中的像素能被对应到左视图中最匹配的像素,文章对匹配矩阵
T
\mathcal{T}
T添加了约束,也就是上文中提到的唯一性约束。其是在匹配矩阵的基础上添加熵正则化,可以描述为:
2.3 视差和遮挡mask预测2.3.1 第一阶段raw预测在上述内容中得到了左右视图之间的像素匹配矩阵
T
\mathcal{T}
T,那么去寻找视图间最佳匹配的方式可以是硬性直接argmax的,也可以是在一定窗口内软性操作的。文章中采取的就是第二种方式,在匹配到的最佳位置
k
k
k处采用一个大小为3的窗口
N
3
(
k
)
N_3(k)
N3?(k),之后使用这个窗口内的归一化加权值作为最后的预测结果: 2.3.2 第二阶段预测在上一个阶段中已经在一个极线(epipolar line)上预测得到初始视差和遮挡图,但是却缺少跨越多个极线的上下文信息(来自于多个实例),因而在第二阶段预测中使用CNN网络对于这些信息进行编码,来使得整体pipeline能够基于输入的图像和网络在多个极线的编码信息生成对应的预测结果,其中对于遮挡区域的预测网络为: 2.4 损失函数在得到匹配矩阵
T
\mathcal{T}
T之后,经过与GT进行比较就可以得到匹配的像素
M
\mathcal{M}
M和不匹配的像素
U
\mathcal{U}
U。则raw预测阶段匹配部分的损失函数为: 3. 实验结果
|
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/27 5:18:18- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |