核心

目的：解决有监督的单眼深度估计

基础：远距离联系对准确估计深度的重要性——必不可少

设计：

利用带有有效注意力机制的Transformer建模全局信息
利用卷积分支来保存局部信息（因为Transformer在建模时缺少空间感知偏差）
- 但是：独立的分支导致特征之间缺乏关联性
- 解决：设计一种层次化聚合和异构交互模块
- 实现：
  - 加强Transformer特征经过元素级交互
  - 在Transformer和CNN特征之间建立一种以set-to-set转换的affinity密切联系模型
问题：高分辨率特征图上进行全局关注（二次）所带来内存成本巨大。
解决：deformable方案来降低复杂度

结果：

数据集：KITTI、NYU、SUN RGB-D
有突出边缘的单眼深度估计：优（文章前rank 1）

介绍

单眼深度估计对三维重建/感知很重要。自2016年He的开创性工作以来，卷积神经网络(CNN)一直主导着深度估计的领域，其中设计了基于编码器-解码器的体系结构。虽然已经有许多工作集中在解码器的设计上，最近的研究表明，编码器对于精确的深度估计甚至更为关键。由于缺乏深度线索，充分利用远距离相关性（即物体之间的距离关系）和局部信息（即同一物体的一致性）是有效编码器的关键。因此，当前深度估计方法的潜在瓶颈可能在于编码器，卷积算子很难模拟有限的接受域的远距离相关性。

就CNN而言，目前已经做出了很大的努力来克服上述限制，大致分为两类：

操纵卷积操作：适用于先进的变体，包括多尺度融合，无效卷积和特征金字塔，以提高卷积算子的有效性。
整合注意机制：引入了注意模块，以建模特征图中所有像素的全局交互作用。
两种策略的组合。虽然性能得到了显著提高，但困境依然存在。

在CNN的一个替代方案中，视觉变压器(ViT)在图像识别上取得了巨大的成功，展示了作为深度估计的编码器的优势。得益于注意机制，变压器在建模与全球接受域的长期相关性方面更专业。然而，初步研究表明ViT编码器在建模局部信息时缺乏空间归纳偏差而不能产生令人满意的性能。

论文为了缓解这些问题，提出了一种新的单眼深度估计框架：DepthFormer。

?通过整合Transformer和CNN的优势来提高模型的性能。

Transformer：对远距离相关性进行建模
CNN：保留局部信息

作者认为，这两种类型的特征的集成可以帮助实现更准确的深度估计。然而，具有后期融合的独立分支导致解码器的特征聚合不足。为了弥补这一差距，设计了分层聚合和异构交互(HAHI)模块，以结合这两个分支的最佳部分。

具体来说，它包括一个自注意模块，通过元素级交互来增强Transformer分支的层次层之间的特征，以及一个交叉注意模块，以集对集转换的方式建模“异构”特征(即Transformer和CNN特征)之间的密切联系。由于对高分辨率特征图的全局关注导致了难以忍受的内存成本，建议利用可变形方案，以可学习的方式只关注有限的关键采样向量集来缓解这一问题。

这项工作的主要贡献有三个方面：

应用Transformer作为图像编码器来利用远距离相关性，并采用一个额外的卷积分支来保存局部信息。
设计了HAHI，通过元素级交互来增强特征，并以集到集的转换方式建模密切联系。
提出的方法在KITTI、NYU和SUNRGB-D数据集中显著优于现有技术。
在高度激烈的KITTI深度估计基准2上取得了最具竞争力的结果。

方法

深度估计的关键组成部分：

Transformer分支和CNN分支组成的编码器
层次聚合和异构交互(HAHI)模块。

动机： ViT和CNN都存在各自的局限性。

初步研究：

CNN：墙壁装饰和地毯的深度结果不正确。因为用于特征提取的是纯卷积编码器，它们很难建立全局上下文的建模，并通过有限的接受域捕获对象之间的长距离关系。这种大面积的反直觉故障严重损害了模型的性能。

?为了解决上述问题，ViT可以作为一种合适的替代方案，因为其在建模与全局接受域的远距离相关性方面效果更好。进一步设计对比基于ViT和基于ResNet50的编码器来捕获特征。数据表明，基于ViT的编码器对远处物体的深度估计效果更好。然而，在近距离的物体上效果较差。由于深度值呈现长尾分布，且场景中有更多的接近物体，因此应用ViT的模型的总体结果明显较差。

分析：

通常，直接估计远处物体的深度是具有难度的。但是，得益于基于ViT的能够对远距离相关性进行建模，其能够更可靠利用全局内容/像素完成估计。物体之间距离关系可以更好地提高距离物体深度估计的性能。
对于次级近距离目标深度估计结果，存在许多可能的解释。此处，强调2种主要问题：
- Transformer缺乏空间感知偏置，导致局部信息建模差。深度估计的局部信息反映在详细的上下文中，这对于一致和剧烈变化的估计结果至关重要。然而，这些详细的内容往往会在Transformer的补丁式交互过程中丢失。因为近距离的物体越大，纹理质量越高，Transformer将在这些位置失去更多的细节，严重恶化模型在近距离的性能，导致不满意的结果。
- 视觉元素在尺度上有很大的差异。一般来说，U-Net形状架构用于深度估计，其中多尺度跳跃连接是开发多级信息的关键。由于ViT中的tokens都是固定尺度的，连续的非层次前向传播使多尺度性质不明确，也限制了性能。

在本文中，作者提出利用一个由Transformer和CNN分支组成的编码器，同时利用远程相关性和局部信息。与DPT直接利用ViT作为编码器不同，本工作引入了一个卷积分支来弥补Transformer分支中空间归纳偏差的不足。此外，利用Swin Transformer替代ViT，目的是能够提供分层特征，进而降低计算量。与以前将Transformer嵌入到CNN中的方法不同，本文采用Transformer直接对图像进行编码，可以充分利用Transformer的优势，避免CNN在进行全局上下文建模前丢弃关键信息。

此外，由于这两个分支的独立性，解码器简单的延迟融合导致特征聚集不足和边际性能提高。为了弥补这一差距，设计了HAHI模块，通过特征交互来增强特征和模型的亲合力，这减轻了缺陷，并有助于结合这两个分支的最佳部分。

Encoder =?Transformer Brance + CNN Brance

Transformer Brance

a patch partition module：
- ???????image →?non-overlapping patches →?initial feature representation
- 每个补丁的初始特征表示被设置为连续像素RGB值。
a linear embedding layer：
- ??????????????initial feature representation → projected to an arbitrary dimension
- 作为Transformer第一层的输入?
L Transformer layers：
- LN + MSA + MLP?
- extract features
a residual connection：each module

学习参考DPT从N个选择的Transformer层中采样并重新组装N个特征图作为Transformer的输出。

注：本文的框架与各种Transformer结构兼容。在本文中，更倾向于利用Swin Transformer来提供层次表示并降低计算复杂度。与标准Transformer层的主要区别在于局部注意机制、移位窗口方案和patch融合策略。

CNN Brance

深度估计中，常用标准的ResNet来捕获局部信息，本文仅利用ResNet的第一个block来捕获局部信息，这避免了低级特征被连续的乘法冲刷掉，并大大减少了计算时间。
Transformer特征F和卷积特征G之后，将输入HAHI模块进行进一步处理。与跨深度相比，采用了一个额外的卷积分支来保存局部信息。它避免了CNN对关键信息的丢弃，这样能够在没有伪影的情况下预测出更清晰的深度图。

HAHI Module

为了缓解聚合不足的限制，引入了HAHI模块来增强变压器的特性，并进一步以集对集转换的方式对Transformer与CNN特性的密切联系进行建模，它是由Deform-DETR提出的，并试图应用注意模块来解决异构特征的融合。

利用一组层次特征作为特征增强的输入，由于本文使用的是Swin Transformer提取特征，重新组装的特征图将显示出不同的大小和通道。以往的许多工作都需要对多层次特征进行降采样，以解决瓶颈特征，只能通过简单的连接或潜在卷积方案来增强瓶颈特征。相反，本文的目标：在没有下采样操作的情况下（因为降采样会导致信息的损失），增强所有特征。

【具体算法流程见原文-后续整理】

实验结果

数据集：KITTI? NYU-Depth-v2? SUN RGB-D

评价指标：

absolute relative error (AbsRel)
mean squared relative error (SqRel)
root mean squared error (RMSE)
root mean squared log error (RMSElog)
mean log10 error (log10)
the scale-invariant log arithmic error (SILog)
percentage of AbsRel and SqRel(absErrorRel, sqErrorRel)
root mean squared error of the inverse depth (iRMSE)

实验配置：

batch size 2
8 NVIDIA V100 32GB GPUs?
5 hours
warm-up strategy
cosine annealing learning rate strategy
AdamW 优化器
encoders are pre-trained on the ImageNet classifification, which is the standard protocol of

supervised monocular depth estimation.【协议要求：存疑】