| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 游戏开发 -> 视频去模糊论文阅读-Learning Blind Motion Deblurring -> 正文阅读 |
|
[游戏开发]视频去模糊论文阅读-Learning Blind Motion Deblurring |
代码地址:https://github.com/cgtuebingen/learning-blind-motion-deblurring Abstract?????????因为手持摄像机现在很普遍,在每个智能手机上都可以使用,图像和视频几乎可以随时在任何地方录制。然而,在拍摄过程中的由于不必要的相机抖动或者在场景中移动的对象会产生一个模糊的结果。从模糊的记录中去除这些模糊是一个高度不适定的问题,因为无论是清晰的图像还是运动模糊核都是未知的。在多个连续的模糊观测结果之间传播信息可以帮助恢复所需的清晰的图像或视频。在这项工作中,我们提出了一种有效的方法来产生大量的真实训练数据,并提出了一种新的递归网络架构,以考虑时间信息的帧去模糊,它可以有效地处理任意的空间和时间输入大小。 1.Introduction?????????由手持设备拍摄的视频通常包含由相机抖动和物体运动的组合引起的运动模糊。 从模糊的观察中重建清晰的帧是一个高度不适定的问题,根据相机抖动信息是否已知,可以将去模糊方法分别表示为盲或非盲反卷积。在video and image burst deblurring中,单个帧的重建过程可以利用来自相邻帧的额外信息。然而,这个问题仍然具有挑战性,因为每一帧可能会产生不同的相机抖动,而且帧可能帧之间没有对齐。对静态场景的反卷积,神经网络已成功地应用于单帧和多帧去模糊。所有最近的多帧和视频去模糊的网络架构都要求输入匹配固定的时间和空间大小。处理任意的空间维度在理论上是可以通过全卷积网络来实现的,但是由于GPU上的内存有限,它们在推理过程中需要依赖于滑动窗口方法。相比之下,我们的方法是一个去模糊系统,它可以处理任意长度的序列,同时具有一个全卷积网络,可以同时处理全分辨率的视频帧。由于其占用的内存较小,它消除了在推理过程中对滑动窗口方法的需要,从而大大加速了去模糊过程。对于处理任意序列,我们依赖于一个循环方案。虽然convolutional LSTMs[1]提供了一种直接的方法,用循环单元取代传统架构中的空间卷积,但我们发现它们具有挑战性,训练速度慢。除了梯度消失问题外,还需要一些tricks(例如carefully tuned gradient clipping parameters和special variant of batch normalization)。为了解决这些问题,我们引入了一种新的递归编解码器网络。在该网络中,我们加入了空间残差连接,并在后续迭代之间引入了新的时间特征转移。除了网络架构之外,我们还进一步创建了一个新的视频去模糊训练集,因为数据驱动方法的成功在很大程度上取决于可用的真实训练示例的数量和质量。由于获取真实的ground-truth数据非常耗时,我们成功地生成了合成的训练数据。 2.Method????????在我们的方法中,使用一个全卷积神经网络利用之前几帧的信息 2.1.Generating realistic ground-truth data????????训练一个神经网络来预测一个模糊输入的清晰帧需要真实的训练数据,数据集分为模糊帧和相关的清晰帧作为ground-truth。最近的工作是通过GoProHero相机以240fps的速度录制视频,以减少ground-truth中的模糊。然后,对这些高fps视频中的帧进行处理和平均,以产生合理的运动模糊。虽然他们做出了巨大的努力来捕捉各种不同的情况,这个过程在记录样本的数量、各种场景和所使用的记录设备上都是有限的。对于快速移动的物体,由于有限的帧率,可能会出现伪影。我们还测试了使用GoProHero相机生成训练数据的方法,但发现很难产生足够大的sharp ground-truth videos of high quality。我们建议从在线媒体中获取和过滤数据,而不是手动获取训练数据。Training data.我们收集了4k-8k分辨率和帧率为60fps或30fps的视频。视频内容范围从电影预告片、体育赛事、广告到日常生活中的视频。为了去除compression artifacts并获得slightly sharper ground-truth,我们将所有收集到的视频的大小分别调整为1/4和1/8,最终获得full-HD resolution。对于视频 所有的子帧是通过混合原始帧 ?对于每一个清晰帧 2.2.Handling the time dimension? ? ? ? 对于CNN网络的输入形状为: 将输入的帧在channel维度上进行堆叠。这是以删除有关时间顺序的信息为代价的。此外,在训练前需要固定输入帧的数量,这限制了它们的应用。如果是较长的序列只能通过像workarounds like padding和sliding window processing这样的变通方法来处理。另一方面,将时间维度合并到batchsize维度中,可以灵活地处理不同长度的序列。但是每一帧的处理与相邻帧完全无关,没有任何的信息传播。我们尝试了几种基于这些recurrent cells([1,4)的架构,但发现它们很难进行训练,即使经过两天的训练,也几乎没有观察到任何改善。 2.3.Network Architecture? ? ? ? 与recurrent layers不同,我们将整个网络模型规划为deblur blocks的循环应用,并依次处理输入对(target frame and additional observation),这使得我们能够灵活地处理任意长度的序列,实现网络内的信息融合。受到[5,6]的启发,我们在每个deblur block中使用了一个编码器-解码器的架构,见图3。因此,该网络仅由convolution and transpose convolution layers with batchnorm组成。我们将ReLU激活应用于卷积层 ????????为了加快训练过程,我们在编码部分和解码部分之间添加了跳跃连接。因此,我们将从编码器中提取的特征添加到相关的解码器部分。这使得网络能够学习在模糊的输入和清晰的ground-truth之间的残差,而不是最终从头开始生成一个清晰的图像。因此,该网络是全卷积的,允许任意的输入大小。(具体细节详见表1)。 Skip connections as temporal links.我们还建议随着时间的推移,在后续的deblur block之间传播潜在的特征。为此,我们将前一个迭代的特征与当前deblur block的一些特征连接起来。这些跳跃连接如图3中的绿线所示。进一步,减少通道尺寸,以匹配下一层所需的输入形状,使用了一个1x1的卷积层记为 3.Experiments?4.Conclusion????????我们提出了一种新的递归网络架构-recurrent deblurring network(RDN),可以有效地从一系列未对齐的模糊帧中去除相机抖动我和物体运动引起的模糊。我们提出的模型能够快速处理任意长度和大小的图像序列。我们引入了连续deblur blocks之间的时间跳跃连接的概念,它允许在几个时间步长中有效地传播信息?。我们提出的网络在各种模糊观测结果下迭代地提高目标帧的清晰度。此外,我们提出了一种新的方法来有效地生成大量的模糊/清晰的视频序列对。 References[1]?Patraucean V, Handa A, Cipolla R. Spatio-temporal video autoencoder with differentiable memory[J]. arXiv preprint arXiv:1511.06309, 2015. [2]?Su S, Delbracio M, Wang J, et al. Deep video deblurring for hand-held cameras[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1279-1288. [3]?Wieschollek P, Sch?lkopf B, Lensch H, et al. End-to-end learning for image burst deblurring[C]//asian conference on computer vision. Springer, Cham, 2016: 35-51. [4]?Cho K, Van Merri?nboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014. [5]?Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241. [6]?He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778. |
|
|
上一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年4日历 | -2025/4/22 18:15:51- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |