IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计 -> 正文阅读

[人工智能]DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计

【Paper】

目录

核心

介绍

相关工作

方法

Encoder =?Transformer Brance + CNN Brance

HAHI Module

实验结果


核心

目的:解决有监督的单眼深度估计

基础:远距离联系对准确估计深度的重要性——必不可少

设计:

  • 利用带有有效注意力机制的Transformer建模全局信息
  • 利用卷积分支来保存局部信息(因为Transformer在建模时缺少空间感知偏差)
    • 但是:独立的分支导致特征之间缺乏关联性
    • 解决:设计一种层次化聚合和异构交互模块
    • 实现:
      • 加强Transformer特征经过元素级交互
      • 在Transformer和CNN特征之间建立一种以set-to-set转换的affinity密切联系模型
  • 问题:高分辨率特征图上进行全局关注(二次)所带来内存成本巨大。
  • 解决:deformable方案来降低复杂度

结果:

  • 数据集:KITTI、NYU、SUN RGB-D
  • 有突出边缘的单眼深度估计:优 (文章前rank 1)

介绍

单眼深度估计对三维重建/感知很重要。自2016年He的开创性工作以来,卷积神经网络(CNN)一直主导着深度估计的领域,其中设计了基于编码器-解码器的体系结构。虽然已经有许多工作集中在解码器的设计上,最近的研究表明,编码器对于精确的深度估计甚至更为关键。由于缺乏深度线索,充分利用远距离相关性(即物体之间的距离关系)局部信息(即同一物体的一致性)是有效编码器的关键。因此,当前深度估计方法的潜在瓶颈可能在于编码器,卷积算子很难模拟有限的接受域的远距离相关性

就CNN而言,目前已经做出了很大的努力来克服上述限制,大致分为两类:

  • 操纵卷积操作:适用于先进的变体,包括多尺度融合,无效卷积和特征金字塔,以提高卷积算子的有效性。
  • 整合注意机制:引入了注意模块,以建模特征图中所有像素的全局交互作用。
  • 两种策略的组合。虽然性能得到了显著提高,但困境依然存在。

在CNN的一个替代方案中,视觉变压器(ViT)在图像识别上取得了巨大的成功,展示了作为深度估计的编码器的优势。得益于注意机制,变压器在建模与全球接受域的长期相关性方面更专业。然而,初步研究表明ViT编码器在建模局部信息时缺乏空间归纳偏差而不能产生令人满意的性能。

论文为了缓解这些问题,提出了一种新的单眼深度估计框架:DepthFormer

?通过整合Transformer和CNN的优势来提高模型的性能。

  • Transformer:对远距离相关性进行建模
  • CNN:保留局部信息

作者认为,这两种类型的特征的集成可以帮助实现更准确的深度估计。然而,具有后期融合的独立分支导致解码器的特征聚合不足。为了弥补这一差距,设计了分层聚合和异构交互(HAHI)模块,以结合这两个分支的最佳部分

具体来说,它包括一个自注意模块,通过元素级交互来增强Transformer分支的层次层之间的特征,以及一个交叉注意模块,以集对集转换的方式建模“异构”特征(即Transformer和CNN特征)之间的密切联系。由于对高分辨率特征图的全局关注导致了难以忍受的内存成本,建议利用可变形方案,以可学习的方式只关注有限的关键采样向量集来缓解这一问题。

这项工作的主要贡献有三个方面:

  • 应用Transformer作为图像编码器来利用远距离相关性,并采用一个额外的卷积分支来保存局部信息。
  • 设计了HAHI,通过元素级交互来增强特征,并以集到集的转换方式建模密切联系。
  • 提出的方法在KITTI、NYU和SUNRGB-D数据集中显著优于现有技术。
  • 在高度激烈的KITTI深度估计基准2上取得了最具竞争力的结果。

相关工作

从RGB图像中估计深度是一个不适定的问题。缺乏线索、尺度模糊、半透明或反射材料都会导致模糊的情况,即表面不能推断空间结构。随着深度学习的快速发展,CNN已经成为从单一的RGB输入中提供合理的深度图的主流方法/关键组成部分。

单眼深度估计:众多有效的方法中,DPT、Adabins、Transdepth是目前最主要的竞争对手。该论文重点比较这些(和许多其他)方法。

  • DPT:DPT提出在更大尺度的深度估计数据集上利用ViT作为编码器和预训练模型。
  • Adabins:利用自适应bins,动态调整输入场景的表示,并提出在高分辨率嵌入mini-ViT方案(编码器之后)。
  • Transdepth:跨深度在瓶颈处嵌入了ViT,避免Transformer丢失局部信息,并提出了一个注意门解码器来融合多级特征。

编码器-解码器:在编码器方面,采用主流特征提取器来学习特征表示。解码器通常由连续的卷积和上采样算子组成,以后期融合的方式聚合编码器的特征,恢复空间分辨率并估计深度。在论文中,利用了前人中的基线解码器架构,其能够更明确地研究这项工作的关键贡献的性能归因,是独立于解码器的。

Neck:在编码器和解码器之间加入Neck模块来增强特征表示。以往的许多方法只关注瓶颈特征,而忽略了较低级的特征,限制了其有效性。在这项工作中,提出了HAHI模块来增强所有的多层次的层次特征。当另一个分支可用时,它也可以对两个分支特性之间的密切关系进行建模,这有利于解码器聚合异构信息。

Transformer:随着最近应用Transformer解决计算机视觉任务的成功趋势,建议利用Transformer作为编码器来建模远距离相关性。


方法

深度估计的关键组成部分:

  • Transformer分支和CNN分支组成的编码器
  • 层次聚合和异构交互(HAHI)模块。

动机: ViT和CNN都存在各自的局限性。

初步研究:

  • CNN:墙壁装饰和地毯的深度结果不正确。因为用于特征提取的是纯卷积编码器,它们很难建立全局上下文的建模,并通过有限的接受域捕获对象之间的长距离关系。这种大面积的反直觉故障严重损害了模型的性能。

  • ?为了解决上述问题,ViT可以作为一种合适的替代方案,因为其在建模与全局接受域的远距离相关性方面效果更好。进一步设计对比基于ViT和基于ResNet50的编码器来捕获特征。数据表明,基于ViT的编码器对远处物体的深度估计效果更好。然而,在近距离的物体上效果较差。由于深度值呈现长尾分布,且场景中有更多的接近物体,因此应用ViT的模型的总体结果明显较差。

分析:

  • 通常,直接估计远处物体的深度是具有难度的。但是,得益于基于ViT的能够对远距离相关性进行建模,其能够更可靠利用全局内容/像素完成估计。物体之间距离关系可以更好地提高距离物体深度估计的性能。
  • 对于次级近距离目标深度估计结果,存在许多可能的解释。此处,强调2种主要问题:
    • Transformer缺乏空间感知偏置,导致局部信息建模差。深度估计的局部信息反映在详细的上下文中,这对于一致和剧烈变化的估计结果至关重要。然而,这些详细的内容往往会在Transformer的补丁式交互过程中丢失。因为近距离的物体越大,纹理质量越高,Transformer将在这些位置失去更多的细节,严重恶化模型在近距离的性能,导致不满意的结果。
    • 视觉元素在尺度上有很大的差异。一般来说,U-Net形状架构用于深度估计,其中多尺度跳跃连接是开发多级信息的关键。由于ViT中的tokens都是固定尺度的,连续的非层次前向传播使多尺度性质不明确,也限制了性能。

在本文中,作者提出利用一个由Transformer和CNN分支组成的编码器,同时利用远程相关性和局部信息。与DPT直接利用ViT作为编码器不同,本工作引入了一个卷积分支来弥补Transformer分支中空间归纳偏差的不足。此外,利用Swin Transformer替代ViT,目的是能够提供分层特征,进而降低计算量。与以前将Transformer嵌入到CNN中的方法不同,本文采用Transformer直接对图像进行编码,可以充分利用Transformer的优势,避免CNN在进行全局上下文建模前丢弃关键信息。

此外,由于这两个分支的独立性,解码器简单的延迟融合导致特征聚集不足和边际性能提高。为了弥补这一差距,设计了HAHI模块,通过特征交互来增强特征和模型的亲合力,这减轻了缺陷,并有助于结合这两个分支的最佳部分


Encoder =?Transformer Brance + CNN Brance

Transformer Brance

  • a patch partition module:
    • ???????image →?non-overlapping patches →?initial feature representation
    • 每个补丁的初始特征表示被设置为连续像素RGB值。
  • a linear embedding layer:
    • ??????????????initial feature representation → projected to an arbitrary dimension
    • 作为Transformer第一层的输入?
  • L Transformer layers:
    • LN + MSA + MLP?
    • extract features
  • a residual connection:each module

学习参考DPT从N个选择的Transformer层中采样并重新组装N个特征图作为Transformer的输出。

注:本文的框架与各种Transformer结构兼容。在本文中,更倾向于利用Swin Transformer来提供层次表示并降低计算复杂度。与标准Transformer层的主要区别在于局部注意机制、移位窗口方案和patch融合策略。

CNN Brance

  • 深度估计中,常用标准的ResNet来捕获局部信息,本文仅利用ResNet的第一个block来捕获局部信息,这避免了低级特征被连续的乘法冲刷掉,并大大减少了计算时间。
  • Transformer特征F和卷积特征G之后,将输入HAHI模块进行进一步处理。与跨深度相比,采用了一个额外的卷积分支来保存局部信息。它避免了CNN对关键信息的丢弃,这样能够在没有伪影的情况下预测出更清晰的深度图。

HAHI Module

为了缓解聚合不足的限制,引入了HAHI模块来增强变压器的特性,并进一步以集对集转换的方式对Transformer与CNN特性的密切联系进行建模,它是由Deform-DETR提出的,并试图应用注意模块来解决异构特征的融合。

利用一组层次特征作为特征增强的输入,由于本文使用的是Swin Transformer提取特征,重新组装的特征图将显示出不同的大小和通道。以往的许多工作都需要对多层次特征进行降采样,以解决瓶颈特征,只能通过简单的连接或潜在卷积方案来增强瓶颈特征。相反,本文的目标:在没有下采样操作的情况下(因为降采样会导致信息的损失),增强所有特征

【具体算法流程见原文-后续整理】


实验结果

数据集:KITTI? NYU-Depth-v2? SUN RGB-D

评价指标:

  • absolute relative error (AbsRel)
  • mean squared relative error (SqRel)
  • root mean squared error (RMSE)
  • root mean squared log error (RMSElog)
  • mean log10 error (log10)
  • the scale-invariant log arithmic error (SILog)
  • percentage of AbsRel and SqRel(absErrorRel, sqErrorRel)
  • root mean squared error of the inverse depth (iRMSE)

实验配置:

  • batch size 2
  • 8 NVIDIA V100 32GB GPUs?
  • 5 hours
  • warm-up strategy
  • cosine annealing learning rate strategy
  • AdamW 优化器
  • encoders are pre-trained on the ImageNet classifification, which is the standard protocol of
    supervised monocular depth estimation.【协议要求:存疑】

实验效果:?

NYU-Depth-V2?

KITTI?

?

SUN RGB-D

?

?

?

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-06 23:10:15  更:2022-04-06 23:11:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:42:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码