IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 2021年CVPR论文Deep Two-View Structure-from-Motion Revisited阅读笔记 -> 正文阅读

[人工智能]2021年CVPR论文Deep Two-View Structure-from-Motion Revisited阅读笔记

??这篇博客分享的是2021年发表于CVPR上的一篇论文《Deep Two-View Structure-from-Motion Revisited》。该论文使用深度学习的方法,按照经典的SfM流程来解决两视图SfM问题。

在这里插入图片描述
??

1 概述

??论文指出:现有的基于深度学习的方法通过从两个连续帧中恢复绝对姿势,或从单个图像预测深度图来描述该问题,这两种方法都是不适定(ill-posed)问题。相比之下,作者建议要按照经典SfM流程来使用深度学习方法,去解决两视图SfM的问题。
??论文所提出的方法包括:1. 用于预测两帧之间密集匹配的光流估计网络;2. 用于从2D光流匹配中计算相机相对位姿的归一化位姿估计网络;3. 利用对极几何约束来缩小搜索空间,精化密集匹配,并估计相对深度图的尺度不变的深度估计网络。
??实验表明,论文所提出的方法在KITTI depth、KITTI VO、MVS、Scenes11和SUN3D数据集中计算相对位姿和深度估计等方面的表现都优于目前所有最先进的两视图SfM方法。
??
??论文的贡献主要包括如下三点:

  1. 回顾了深度学习在SfM中的应用,并提出了一个新的两视图SfM深度学习框架,以解决不适定性。该框架结合了深度学习和经典几何方法的优点。
  2. 提出了一个尺度不变的深度估计模型来处理深度真值和估计深度之间的不匹配的尺度问题。
  3. 所提出的方法在两视图SfM问题中对相对位姿估计和深度估计方面都优于以往的各种基准方法。

2 现有方法

??作者将现有的用深度学习来解决两视图SfM的方法分为两类:

  • 第一类方法(Figure 1 Type I)将单目相机的深度和位姿估计当成一个联合优化的问题。该类方法使用两个网络:一个网络负责从单个图像中估计最大尺度(up-to-scale)的深度,另一个网络负责从两张输入图像中预测最大尺度的相机位姿。这两个网络在计算时是相互独立的。比如SfMLearner、GeoNet等。
  • 另一类方法(Figure 1 Type II)从图像对中推断出缩放的(scaled)相机位姿和缩放的深度,并使用多视图几何理论对其进行迭代优化。这类方法包括DeMoN、BANet、DeepV2D、DeepSFM等。

在这里插入图片描述
??论文所提出的方法(Figure 1 Our Approach)首先使用深度光流网络估计两帧之间的密集匹配点,从中采样一组高度可靠的匹配,然后使用GPU加速的经典五点RANSAC算法计算相机的相对位姿。由于这些相机的相对位姿具有尺度不确定性,所以估计的深度也会受到尺度不确定性的影响。因此,为了用(已知尺度的)深度真值来监督估计的尺度不确定性深度,论文提出了一种结合尺度特定损失的尺度不变性深度估计网络来估计最终的相对深度图。因为有相机位姿,深度估计网络的搜索空间可以缩小为极线,因此比直接用估计的相机位姿对光流进行三角剖分具有更高的精度。

3 方法流程

3.1 Optical Flow Estimation

??深度光流法可以处理大位移以及无纹理、遮挡和非朗伯曲面。论文使用最先进的网络DICL-Flow,在两个连续帧之间生成密集匹配点。该网络使用位移不变匹配代价学习策略和soft-argmin投影层来确保网络学习密集匹配点,而不是图像流回归。网络在合成数据集上进行了训练,而未在任何测试数据集上进行训练。

3.2 Essential Matrix Estimation

??与以前所有基于深度学习的从输入图像回归相机位姿的方法不同,论文使用匹配点来计算相机位姿。关键问题是:如何从光流中稳健地过滤掉噪声密集的匹配,以仅保留高质量的匹配?作者发现,只需简单地使用SIFT关键点位置(注意,这里不是使用SIFT进行匹配)生成mask即可在所有数据集中都获得很好的结果。该假设是,光流在纹理丰富的区域可以获得更准确的结果。mask内各位置的光流匹配由RANSAC通过GPU加速进行过滤,以避免动态物体的干扰。在获得基本矩阵E后,使用矩阵分解恢复相机姿态(R,t)。

3.3 Scale-Invariant Depth Estimation

??论文提出了一种Scale-Invariant Matching方法来恢复最大尺度的密集深度图。给定一个像点x,生成L个匹配候选点。在标准平面扫描问题中,匹配候选对象的采样分布根据比例因子α而变,如Figure 2所示。此外,由于不知道问题中的绝对尺度,论文将平移向量t进行了标准化。然后,将估计的深度d固定住,匹配候选点的分布就是尺度不变的了。最后,为了使估计深度和深度真值兼容,需要相应地缩放估计深度来匹配深度真值。(由于这里不方便输入公式,因此仅使用文字进行简单描述,有点混乱,具体实现参见原论文)
在这里插入图片描述
??这种尺度不变的匹配策略在论文所提出的框架中起着至关重要的作用,因为它使得所提出的网络不再遭受尺度失调的问题。其他方法无法从这种尺度不变匹配中获益,因为它们通常通过预测绝对尺度来避免尺度失调问题。

3.4 Loss Function

??论文所提出的框架在深度图真值和位姿真值的监督下进行端到端的训练。论文中使用Huber损失来计算预测深度和深度真值之间的差异。如果相机位姿真值和深度真值都给定,还可以通过计算2D点的刚性流(rigid ?ow)来更新光流网络。

4 实验

4.1 数据集

  • KITTI Depth:主要用于自动驾驶场景中的单目深度估计,不考虑相机运动和动态目标。
  • KITTI VO:主要用于相机位姿估计。它包含10个带有相机位姿真值的序列(超过20,000帧)。
  • MVS:通过视频序列和近距离场景构建的来自不同来源的室外场景。
  • Scenes11:由随机形状和运动生成的合成数据集。尽管不是真实的图像,但它仍带有精确的深度和位姿数据。
  • SUN3D:提供了具有噪音的深度和位姿数据的室内图像。

4.2 Depth Evaluation

??KITTI Depth数据集上的定量结果如Table 1所示,定性结果如Figure 3所示:
在这里插入图片描述
在这里插入图片描述
??MVS、Scenes11和SUN3D数据集上的定量结果如Table 2所示,定性结果如Figure 4所示:
在这里插入图片描述
在这里插入图片描述

4.3 Camera Pose Estimation

??KITTI VO数据集上的结果如Table 3和Figure 5所示:
在这里插入图片描述
在这里插入图片描述
??MVS、Scenes11和SUN3D数据集上的结果如Table 4所示:
在这里插入图片描述

4.4 Framework Analysis and Justification

??基于光流的相机位姿估计结果如Table 5所示:
在这里插入图片描述
??尺度失调问题的结果如Table 6所示:
在这里插入图片描述

5 总结

??论文重新讨论了基于深度神经网络的两视图SfM问题。首先,作者认为现有的基于深度学习的SfM方法将深度估计或位姿估计表述为不适定(ill-posed)问题。然后,作者提出了一个新的深度两视图SfM框架,该框架遵循经典的适定(well-posed)SfM流程。大量的实验表明,论文所提出的方法在位姿和深度估计方面都优于所有目前最先进的方法,具有明显的优势。作者认为,未来可以将该框架进行扩展,如三视图SfM和多视图SfM,其中循环一致性和时间一致性可以进一步约束这些已经适定的问题。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-08 10:43:36  更:2021-09-08 10:44:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 15:55:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码