| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计 -> 正文阅读 |
|
[人工智能]DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计 |
目录 Encoder =?Transformer Brance + CNN Brance 核心目的:解决有监督的单眼深度估计 基础:远距离联系对准确估计深度的重要性——必不可少 设计:
结果:
介绍单眼深度估计对三维重建/感知很重要。自2016年He的开创性工作以来,卷积神经网络(CNN)一直主导着深度估计的领域,其中设计了基于编码器-解码器的体系结构。虽然已经有许多工作集中在解码器的设计上,最近的研究表明,编码器对于精确的深度估计甚至更为关键。由于缺乏深度线索,充分利用远距离相关性(即物体之间的距离关系)和局部信息(即同一物体的一致性)是有效编码器的关键。因此,当前深度估计方法的潜在瓶颈可能在于编码器,卷积算子很难模拟有限的接受域的远距离相关性。 就CNN而言,目前已经做出了很大的努力来克服上述限制,大致分为两类:
在CNN的一个替代方案中,视觉变压器(ViT)在图像识别上取得了巨大的成功,展示了作为深度估计的编码器的优势。得益于注意机制,变压器在建模与全球接受域的长期相关性方面更专业。然而,初步研究表明ViT编码器在建模局部信息时缺乏空间归纳偏差而不能产生令人满意的性能。 论文为了缓解这些问题,提出了一种新的单眼深度估计框架:DepthFormer。 ?通过整合Transformer和CNN的优势来提高模型的性能。
作者认为,这两种类型的特征的集成可以帮助实现更准确的深度估计。然而,具有后期融合的独立分支导致解码器的特征聚合不足。为了弥补这一差距,设计了分层聚合和异构交互(HAHI)模块,以结合这两个分支的最佳部分。 具体来说,它包括一个自注意模块,通过元素级交互来增强Transformer分支的层次层之间的特征,以及一个交叉注意模块,以集对集转换的方式建模“异构”特征(即Transformer和CNN特征)之间的密切联系。由于对高分辨率特征图的全局关注导致了难以忍受的内存成本,建议利用可变形方案,以可学习的方式只关注有限的关键采样向量集来缓解这一问题。 这项工作的主要贡献有三个方面:
相关工作从RGB图像中估计深度是一个不适定的问题。缺乏线索、尺度模糊、半透明或反射材料都会导致模糊的情况,即表面不能推断空间结构。随着深度学习的快速发展,CNN已经成为从单一的RGB输入中提供合理的深度图的主流方法/关键组成部分。 单眼深度估计:众多有效的方法中,DPT、Adabins、Transdepth是目前最主要的竞争对手。该论文重点比较这些(和许多其他)方法。
编码器-解码器:在编码器方面,采用主流特征提取器来学习特征表示。解码器通常由连续的卷积和上采样算子组成,以后期融合的方式聚合编码器的特征,恢复空间分辨率并估计深度。在论文中,利用了前人中的基线解码器架构,其能够更明确地研究这项工作的关键贡献的性能归因,是独立于解码器的。 Neck:在编码器和解码器之间加入Neck模块来增强特征表示。以往的许多方法只关注瓶颈特征,而忽略了较低级的特征,限制了其有效性。在这项工作中,提出了HAHI模块来增强所有的多层次的层次特征。当另一个分支可用时,它也可以对两个分支特性之间的密切关系进行建模,这有利于解码器聚合异构信息。 Transformer:随着最近应用Transformer解决计算机视觉任务的成功趋势,建议利用Transformer作为编码器来建模远距离相关性。 方法深度估计的关键组成部分:
动机: ViT和CNN都存在各自的局限性。 初步研究:
分析:
在本文中,作者提出利用一个由Transformer和CNN分支组成的编码器,同时利用远程相关性和局部信息。与DPT直接利用ViT作为编码器不同,本工作引入了一个卷积分支来弥补Transformer分支中空间归纳偏差的不足。此外,利用Swin Transformer替代ViT,目的是能够提供分层特征,进而降低计算量。与以前将Transformer嵌入到CNN中的方法不同,本文采用Transformer直接对图像进行编码,可以充分利用Transformer的优势,避免CNN在进行全局上下文建模前丢弃关键信息。 此外,由于这两个分支的独立性,解码器简单的延迟融合导致特征聚集不足和边际性能提高。为了弥补这一差距,设计了HAHI模块,通过特征交互来增强特征和模型的亲合力,这减轻了缺陷,并有助于结合这两个分支的最佳部分。 Encoder =?Transformer Brance + CNN BranceTransformer Brance
学习参考DPT从N个选择的Transformer层中采样并重新组装N个特征图作为Transformer的输出。 注:本文的框架与各种Transformer结构兼容。在本文中,更倾向于利用Swin Transformer来提供层次表示并降低计算复杂度。与标准Transformer层的主要区别在于局部注意机制、移位窗口方案和patch融合策略。 CNN Brance
HAHI Module为了缓解聚合不足的限制,引入了HAHI模块来增强变压器的特性,并进一步以集对集转换的方式对Transformer与CNN特性的密切联系进行建模,它是由Deform-DETR提出的,并试图应用注意模块来解决异构特征的融合。 利用一组层次特征作为特征增强的输入,由于本文使用的是Swin Transformer提取特征,重新组装的特征图将显示出不同的大小和通道。以往的许多工作都需要对多层次特征进行降采样,以解决瓶颈特征,只能通过简单的连接或潜在卷积方案来增强瓶颈特征。相反,本文的目标:在没有下采样操作的情况下(因为降采样会导致信息的损失),增强所有特征。 【具体算法流程见原文-后续整理】 实验结果数据集:KITTI? NYU-Depth-v2? SUN RGB-D 评价指标:
实验配置:
实验效果:? NYU-Depth-V2? KITTI? ? SUN RGB-D ? ? ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/8 4:53:32- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |