Boosting Monocular Depth Estimation Models to ?High-Resolution via Content-Adaptive Multi-Resolution Merging
论文地址:Bosting Monocular Depth Estimation......
仅个人学习,欢迎大家批评指正?
完整的论文研读资源见资源:CVPR21-HighResDepth.pdf研读笔记
目录
【研究背景】
【研究动机】
【研究目标】
【研究基础】
【研究思路】
【相关说明】
【研究结果与对比】
【研究局限性】
【研究总结】
【知识点整理】?
?题目:《通过内容自适应多分辨率合并,提高单眼深度估计模型到高分辨率效果》?
作者提出了一种方法:利用单一图像产生高度详细的高分辨率深度估计。
(融合网络)该方法是基于优化一个预训练网络的性能,通过合并不同分辨率和不同补丁的估计来生成一个高分辨率的估计。
【流程概览】
- 首先图像以低分辨率和高分辨率的格式输入网络(MiDas网络+10层U-net的Pix2Pix架构作为生成器)
- 然后,合并MiDaS 的结果(低分辨率估计融合),获得具有一致结构和良好边界定位的基础估计(b)。
- 接着,确定图像中的不同补丁,如图(c)显示了选定补丁的子集及其深度估计。
- 最后,将补丁估计合并到来自(b)的基本估计上,以获得最终的高分辨率结果(d)。
【研究背景】
- 单目或单图像深度估计旨在从单个图像中提取场景的结构。
- 单目深度估计必须于高级单目深度线索,例如遮挡边界和透视。
- 单眼深度估计特定问题包括:
- 在补丁估计中-深度值范围不同;
- 在图像补丁中-存在的上下文的强烈依赖;
- 在高分辨率深度估计中-出现的特征性低频伪影。
- 卷积网络——固有的有限容量,导致存储和生成的信息量提供了一个上限。从而容量限制适用于网络在其接收域内可以生成的内容。
【研究动机】
- 获取具有良好的边界精度和一致的场景结构高的分辨率深度估计问题仍未解决。
- 神经网络在单张图像深度估计方面展现了强大能力,但是,其推断的深度图分辨率远低于百万像素且有时缺少细粒度细节,限制了它们(深度图)的实用性,阻碍了它们在需要高分辨率深度图的应用中的使用。
- 最新技术基于全卷积架构——原则上输入可为任意大小,但是,实际问题中如:可用的GPU内存、不同分辨率数据集的缺少以及CNN的接收域大小等,限制了其潜力。
【研究目标】
- 进一步探究获取具有良好的边界精度和场景一致结构的高分辨率深度估计。
- 通过合并的单张图像的深度估计,获得具有一致整体结构的高频细节。
【研究基础】
- 本文观察到图像边缘与上下文线索合理相关之后,通过对 RGB 梯度进行阈值处理获得图像的近似边缘图。
- 2种深度估计:用较小分辨率的网络输入获得的低分辨率图;同一图像的更高分辨率深度图/补丁,使深度不连续性周围具有更好的准确性,但会受到低频伪影的影响。
- 一个标准的网络且具有10层U-net作为生成器的Pix2Pix架构。目标是将把这个合并网络用于各种输入分辨率,因此10层旨在将训练和推理分辨率提高到1024 × 1024 。
- 训练网络时,将高分辨率输入的细粒度的细节传输到低分辨率输入。
- 从数据集(Middlebury2014&Ibims)中选定一组图像的深度估计中选择补丁来生成输入/输出对。
【研究思路】
- (融合网络)在这项工作中,没有开发新的深度估计方法,而是表明通过合并来自不同分辨率和补丁的估计,可以调整现有的深度估计模型以生成更高质量的结果。侧重于通过改变网络的输入和合并多个估计来生成高频细节。
- 探究输入分辨率和场景架构是如何影响深度估计性能的:
-
Observation1:在场景一致架构和高频细节之间存在权衡;单目深度估计网络的输出特性随输入图像的分辨率而变化。低分辨率的时候,具有结构一致性,但缺少高频细节。高分辨率的时候,更好捕获高频细节,但结构一致性逐渐降低。放大低分辨率图像确实有助于生成更多高频细节。因此,研究估计分辨率主要取决于图像内容而不是原始输入分辨率。 这种双重性来源于给定模型的容量和接收域大小的限制。网络的有限容量和有限的接收域大小来造成了这种双重性。网络的接收域大小主要取决于体系结构和训练分辨率。 -
【示例】当图像以不同分辨率形式输入到同一模型,观察结构一致和边界结果的变化。
?在小输入分辨率下,网络可以成功估计场景的整体结构,但经常遗漏图像中的细节,注意底部图像中遗漏的鸟类。
随着分辨率的提高,边界附近的性能变得更好。然而,网络开始丢失场景的整体结构并在估计中产生低频伪影(这些伪影开始出现的分辨率取决于图像中的上下文线索)。
- ?【示例】当图像以不同分辨率形式输入到同一模型,观察接收域变化。
由于模型是固定的,改变图像分辨率会影响接收域可以“看到”多少场景。随着分辨率的增加,深度线索变得越来越远,信息网络匮乏,这逐渐降低了准确性。
- ?【示例】当图像以不同分辨率输入到网络中,观察深度估计情况。
(中)原始图像分辨率192*192的深度估计情况;(右)原始图像上采样后分辨率500*500的深度估计情况?;观察发现采样后的图像输入后获得更多的细节。估计分辨率主要取决于图像内容而不是原始输入分辨率。?
- ?探究关于输出特征与输入中高级深度线索的数量与分布之间的关系。
- Observation2:当深度线索比接收域大小更远时,模型开始产生结构不一致的结果。图像输入到网络的正确分辨率因区域而异。
- 【原因】:当图像中的这些线索比接收域更远时,网络无法在没有接收到足够信息的像素周围生成连贯的深度估计。
- 【由此】:研究通过在输入图像中选择补丁并将它们在适应局部深度线索密度的分辨率环境下传输给模型进行估计。再将这些估计合并到结构一致的基础估计上,以实现高度详细的高分辨率深度估计。
- 【示例】在基本估计中显示输入补丁,补丁估计融合到基本估计,得到合并后的结果。
- 作者将高分辨率估计大小固定为接收域大小的两倍。将生成的补丁估计值一一合并到该基本估计值上以生成更详细的深度图。其结果代表了图像区域之间的顺序深度关系。
- 探究上下文如何影响网络性能,尤其是输入中的上下文密度如何影响网络性能。
-
Observation3:见支持文件?
【相关说明】
- :适应图像内容的分辨率;
- :以上的分辨率,x:表示给定分辨率下未接收任何上下文信息的像素百分比。
- 分辨率高于 的估计将失去结构一致性,但高分辨率在结果中具有更丰富的高频内容。分辨率高于原始分辨率时,通过合并,可以生成超过的一致结果,这是由网络的感受野大小设置的限制,代价是通过基础网络进行第二次前向传递。
- :实验分析寻找的高分辨率最优配置。
- K :图像中靠近边缘的像素的百分比,该边缘是通过使用接收域大小的四分之一的内核扩展边缘图来确定的。
- 输入分辨率取672*672是可以在两个数据集上获得的无伪影估计的数量的最大化。
- 当图像中的边缘密度变化很大,特别是当图像的很大一部分没有任何边缘时,由于较小,在补丁选择过程最终会选择太小的补丁。解决方案:在补丁选择之前将基本估计上采样到更高的分辨率来解决这种情况的问题。首先,根据具有大量高频内容的 36 百万像素的户外图像的 值确定最大基本尺寸 =3000*3000;然后,为基本估计大小定义了一个简单乘法如上;最大操作可以确保我们不会减少基本尺寸。
- 虽然创建低分辨率和高分辨率输入不是问题,但本地无法生成一致和高分辨率的地面实况。本研究也不能直接使用原始地面实况数据,因为作者仅针对低级合并操作训练网络,并且所需的输出取决于低分辨率估计中的深度值范围。
- 【案例】在不同分辨率下获得的深度估计
- (a) 利用MiDaS 训练分辨率为384 × 384的图像
- (b) 在选定的分辨率下,边缘则最多间隔 384 个像素
- (c) 在更高分辨率下,有 20% 的像素没有相邻边缘。尽管增加的分辨率提供了更清晰的结果,但在 (c) 之外,估计在整体结构方面变得不稳定,通过背景中不正确的工作台深度范围和轮胎周围不切实际的深度梯度可见。
- (d) 我们的合并网络能够将(c)中的细粒度细节融合到(a) 中的一致结构以获得两全其美的结果。
【研究结果与对比】
数据集 | 描述 | 分辨率 | 平均补丁数量 | Middleburry 2014 | 高分辨率且拥有真实地面深度图 | 2145×1501 | 74.82 | IBMS-1 | | 1443×1082 | 12.17 |
RMSE | 均方根误差:预测值与真实值偏差的平方与观测次数n比值的平方根,用来衡量观测值同真值之间的偏差。 | | 像素百分比的最大限度 | ORD | 顺序错误 | | (本文提出)深度不一致不连续率:衡量深度估计中高频的质量。本文使用真实深度计算的超像素中心,并比较跨深度不连续性的相邻超像素质心(centroids),用来进行顺序对比。 |
- 本文提出的方法的运行时间主要取决于我们在管道中使用基础网络的次数。
- 数据分析
1.完整管道显着提高了数值性能, 2.双重估计方法以较小的计算开销提供了良好的改进。 3.内容自适应提升框架在 ORD 和 指标方面持续提高了两个数据集基线上的深度估计精度,表明准确的深度排序和更好地保留的边界。? 4.方法在 RMSE 和方面的表现也相当。 ? 5.简单地根据 自适应地调整输入分辨率可以显着提高性能。? |
作者的方法与双边上采样以及Miklaus提出的之前的细化方法相比: 定性表明,细化方法无法生成基本估计中遗漏的其他细节,例如小物体或明显的深度不连续性。 因此: 细化方法无法添加原始估计中不存在的任何细节。 使用我们基于补丁的合并框架,能够在图像中生成清晰的细节。 |
对 MiDaS 的估计深度值应用阈值时,本文的边界精度更加明显。 |
【研究局限性】
- 由于方法建立在单眼深度估计上,受其本身限制,同时生成的是相对的、有序的深度估计,而不是绝对深度估计;
- 基础模型的性能会随着噪声而降低,同时本文方法无法为噪声图像提供有意义的改进(作者在补充材料中对 NYUv2 数据集的分析中解决了这个问题?)
- 高频估计受到低幅度白噪声的影响,这些白噪声并不总是被合并网络过滤掉,并且可能在我们的结果种导致平坦表面中出现噪声。
【研究总结】
- 本文提出了一种使用预训练模型从单个图像推断高分辨率深度图的算法;
- 以前的工作仅限于亚百万像素分辨率,但本文技术可处理现代相机拍摄的百万像素图像。
- 高质量高分辨率单眼深度估计可以应用到场景如图像分割。
- 作者通过阈值化深度值来展示一个简单的分割,如前图证明了方法的边界定位效果。
基于优化一个预训练网络性能,通过合并不同分辨率和不同patch来生成一个高分辨率的估计。
将同一图像在不同分辨率下的两个深度估计合并以适应图像内容,以生成具有高频细节的结果,同时保持结构的一致性; | 双重估计架构提高了一致性且没有太多开销,提高了整张图片的深度估计。 |
首先,平铺基本分辨率的图像(平铺块的大小等于接受域的大小且块与块之间有三分之一重叠);那么,每一个平铺块都作为候选补丁。然后,开始补丁选择过程。 | 通过将补丁中的边缘密度与整个图像中的边缘密度进行比较,确保每个补丁收到足够的上下文以生成有意义的深度估计。如果图块的边缘密度小于图像,则将其丢弃。 | 具有更高上下文线索密度的区域仍然会从更高分辨率的估计中受益,以生成更多的高频细节。 | 通过合成(带有变化的上下文的)不同分辨率估计,预训练模型可以生成高水平细节的百万像素的深度图。 |
【知识点整理】?
1.Pix2Pix架构
- Pix2Pix架构: 图片来源?论文详解
- pix2pix在image2image的任务之中表现很好。
- 创新点:引入conditionalGAN。conditionalGAN的改进一是GAN loss层面,加入了输入图像的条件;另外引入L1 loss使源域目标域图像尽量接近。
2.低频伪影
?高频代表物体之间的边界处的区域变化大的地方,那么低频可以表示为周边变化不大,如白纸平面,则低频伪影可看作是白纸平面出现其他本不存在的内容。
3.tile the image 平铺图象
平铺图像
平铺渲染是在光学空间中通过规则网格细分计算机图形图像并分别渲染网格或平铺的每个部分的过程。?
平铺渲染过程将图像拆分为一系列块。拆分后,每个块会视为单个图像处理并作为渲染块文件写入磁盘。完成最后一个块之后,所有渲染块文件将合并成一个最终图像文件。随后,这些渲染块文件将会删除。例如,如果图像为 10000x5000 像素,则平铺渲染将处理 1024x1024 个区段并将其合并以生成最终图像。
平铺图像思路:
- 首先计算平铺后的图像的大小,生成同样大小的空白图
- 像然后在空白图像中逐个像素复制图像
- 直接将空白图像像素值设置为平铺后该位置对应的像素值
【平铺图像和图像扁平化的的区别】
|