IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 浅谈无监督单目深度估计框架的局限性 -> 正文阅读

[人工智能]浅谈无监督单目深度估计框架的局限性

浅谈无监督单目深度估计框架的局限性

个人拙见,欢迎交流


本文主要介绍基于单目视频序列的无监督单目深度估计框架,分析该框架所依赖的基本假设及其所导致的框架局限性,为该领域的后续发展提供一些个人建议和看法。
文章参考:**单目深度估计综述**等


一、无监督框架

1.基本网络框架

单目深度估计,顾名思义,从单张视图中估计像素点的深度信息;

区别于基于Ground Truth的有监督单目深度估计方法和基于稀疏点云或双目视图的半监督单目深度估计方法,基于单目图像序列的无监督框架充分利用相邻前后帧间的几何信息作为整个框架训练的监督信号。如何构建图像间的几何信息?学过SLAM/VO的都知道,那就是投影投影三要素:内参 K、深度 D 和 位姿 T。内参已知,深度由深度网络输出,因此无监督网络框架还需要设计一个位姿网络输出两张视图间的6D 位姿变换。因此,无监督单目深度估计的基本网络框架组成如下,包含一个深度估计网络Depth CNN和一个位姿估计网络Pose CNN

在这里插入图片描述

From Zhou et al., CVPR, 2017

2.基本损失函数

视图重构损失

视图合成/重构:
在这里插入图片描述已知:相机内参K; 由深度网络得到pt的深度信息,由位姿网络得到 It 与 Is 之间的六自由度位姿T,则构建 It 与 Is 之间的像素投影关系为:
在这里插入图片描述
由于算出来的不一定是整数,所以用线性插值计算该店的像素值,然后将该点采样到 ^Is 图像上的对应位置,通过借助投影不断采样填充,最终实现利用 Is 的像素信息重构出来 It.
计算 ^Is 和It 的视图差异,即视图重构损失:
在这里插入图片描述

平滑损失

常用“edge-aware smoothness”,目的是促进深度图的平滑性:
在这里插入图片描述

二、基本假设

正如上文所述,该无监督框架的训练主要是依赖于由图像间投影关系构造的几何约束,因此该框架主要依赖于两大假设:静态场景假设(投影关系构建)和光度一致性假设(视图重构误差计算)。

1.静态场景假设

在上述无监督框架中,投影函数是基于相机的运动T进行构建,若场景中的点满足投影函数构造的帧间对应关系,则该像素在场景中是静态的,动态物体是不满足该投影函数的。也就是说,如果场景中存在其他运动未知的动态物体,由于框架未考虑其运动,该物体在相邻视图上的位置对应关系 肯定不满足 基于相机运动所构建的投影关系。

在现有的户外数据集,如Cityscapes,KITTI,不可避免的会存在一些动态物体,如移动车辆,行人等,这些都给基于静态场景假设的无监督框架引入了新的噪声,从而导致不准确的误差计算和梯度反向传递。

解决方法:

  1. 借助于语义信息消除动态物体;
  2. 借助神经网络估计动态物体运动,构造新的投影函数。

2.光度一致性假设

视图重构损失,借助投影关系重构的视图和原始视图的差异性,是无监督框架最主要的损失函数;简单来说,其基本原理是:基于投影,构建了相邻视图像素点的对应关系,视图所有对应像素点间光度差异组成了视图重构损失。

文章假设同一个三维点在不同视图上的光度是一致的,即如果深度和位姿网络估计输出是准确的,那么帧间对应点的光度差异就是最小的:即通过最小化视图重构误差,即可实现对深度和位姿网络的训练。

但是,实际上,由于相机曝光等因素,同一个像素点在不同视图上的光度信息存在一定差异性,这会对深度网络和位姿网络的误差梯度传播产业错误的引导,这就导致整个无监督框架的性能收到了一定的制约。(与SLAM和VO中直接法,如LSD-SLAM,DSO等,的局限性类似,对图像广度变化敏感,可以具体借鉴该领域的解决方案)

此外,针对一些复杂场景,比如夜间场景,和白天相比,夜间非单一光源(白天:太阳;夜间:各个路灯、动态车灯等等)导致其完全不满足光度一致性假设,上述无监督框架无法适用。

3.遮挡/视野变化

因为个人觉得这个遮挡问题已经被monodepth2很多的解决了,所以就把这一点列在了最后

与上述两个drawbacks不同,第三点不是由投影的基本原理造成的,而是相机运动导致的。
遮挡/视野变化:在当前帧被遮挡的信息,在下一帧由于相机视角的变化,该信息在下一帧可见;或者,由于相机运动,在当前帧可见的信息,在下一帧移出了视野从而不可见:

如P1, P2, P3区域,在t时刻的视图中是可见的,而在t+1时刻由于相机运动,其在视野之外,从而不可见。

解决方法:

  1. 借助于掩膜神经网络,估计这些不一致区域,并进行消除;(嫁接在位姿网络之后,对对应区域损失进行重新加权,削弱其影响)
  2. 利用前后帧的视野信息互补,解决信息遮挡和信息缺失问题。(即monodepth2 中最小化视图重构损失的基本思想,也是目前视图重构损失构建的主流方案)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-13 17:28:06  更:2021-07-13 17:30:33 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 10:58:01-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码