| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 48、Consistent Video Depth Estimation -> 正文阅读 |
|
[人工智能]48、Consistent Video Depth Estimation |
简介主页:https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/ 传统的多视点立体方法,如COLMAP,通常会对移动的物体产生不完整的深度或纹理较差的区域。 基于学习的方法预测了每一帧的密集深度,但视频重建是闪烁的和几何不一致的。 论文视频深度估计是完全密集的,全局尺度一致的,并能够处理动态移动的物体,因此能添加视频特效。 论文提出一种算法,用于重建单目视频中所有像素的密集、几何一致的深度。利用传统的运动结构重建来建立视频像素的几何约束。与经典重构中的特殊先验不同,论文使用了基于学习的先验,即为单幅图像深度估计训练的卷积神经网络。在测试时,对这个网络进行微调,以满足特定输入视频的几何约束,同时保留它在受约束较少的部分视频中合成似是而非的深度细节的能力。 这种算法能够处理具有挑战性的手持捕获输入视频与支持少量的动态场景运动,如挥手,不能用于极端的物体运动。 深度视频质量和一致性的提高使得有趣的新应用成为可能,全自动视频特效与密集的场景内容相互作用 实现流程将单目视频作为输入,为每一视频帧估计一个摄像机姿态以及一个密集的、几何一致的深度图(达到比例模糊度)。 几何一致性这一术语不仅意味着深度图不会随着时间的推移而闪烁,而且还意味着所有深度图都是相互一致的。因此,可以通过它们的深度和相机姿势在帧之间精确地投射像素,例如:一个静态点的所有观测都应该映射到世界坐标系中的一个公共3D点上,而不漂移
PRE-PROCESSING使用基于运动的结构和多视点立体重建软件COLMAP来估计N帧视频中的每一帧i的内部摄像机参数 K i K_i Ki?、外部摄像机参数( R i , t i R_i, t_i Ri?,ti?)以及半密集深度图 D i M V S D^{MVS}_i DiMVS?。对于没有定义深度的像素,将这些值设置为零。 由于动态对象在重构过程中经常会导致错误,应用Mask R-CNN 在每一帧中独立地分割出人(视频中最常见的“动态对象”),并抑制这些区域的特征提取(COLMAP提供了这个选项) SfM和基于学习的重构的尺度通常不匹配,因为这两种方法都是尺度不变的。这体现在两种方法生成的深度图的值范围不同。为了使尺度与几何损失兼容,调整了SfM尺度,因为可以通过将所有相机平移乘以一个因子来简单地做到这一点。 设
D
i
N
N
D^{NN}_i
DiNN?为基于学习的深度估计方法产生的初始深度图。首先计算图像 i 的相对比例为 然后可以计算全局尺度调整因子 s 层次结构的第一层包含所有连续的帧对 首先使用同源曲(用基于ransac的拟合方法计算)对齐(可能遥远的)帧,以消除两帧之间的主导运动(例如,由于相机旋转)。然后使用FlowNet2 计算对齐帧之间的光流。考虑到移动对象和遮挡/不遮挡(因为它们不满足几何约束或不可靠),应用前后向一致性检查并删除前后向误差大于1像素的像素,生成一个二进制映射 M i → j M_{i→j} Mi→j?。此外,观察到对于重叠较少的帧对,流量估计结果并不可靠。因此,排除了| M i → j M_{i→j} Mi→j?|小于图像面积20%的任何帧对。 TEST-TIME TRAINING ON INPUT VIDEO对于给定的帧对 (i, j) ∈S,光流场 F i → j F_{i→j} Fi→j?描述了哪些像素对显示相同的场景点。可以使用流来测试当前深度估计的几何一致性:如果流是正确的,且流移位的点 f i → j ( x ) f_{i→j}(x) fi→j?(x)与深度重新投影的点 p i → j ( x ) p_{i→j}(x) pi→j?(x)相同(下面定义了这两个术语),那么深度必须是一致的。 可以把它变成一个几何损失 L i → j L_{i→j} Li→j?,并通过网络反向传播任何一致性误差,从而迫使它产生比以前更一致的深度。 L i → j L_{i→j} Li→j?包含两个项,图像空间损耗 L i → j s p a t i a l L^{spatial}_{i→j} Li→jspatial?和视差损耗 L i → j d i f f e r e n c e L^{difference}_{i→j} Li→jdifference?。为了定义它们,首先讨论一些符号。 设 x 为坐标系i中的二维像素坐标,流位移点为 视差损失同样对摄像机坐标系中的视差距离进行惩罚: 因此,对流有效的所有像素的总体损失只是这两种损失的组合, 效果 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/28 18:45:13- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |