[人工智能] 干货！考虑部署在移动端的视频插帧模型：CDFI

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

对于给定的视频进行插帧操作提高帧率会使得视频更加流畅，但往往用于视频插帧的深度神经网络都具有复杂的模型架构，这使得它们无法部署在系统资源有限的设备上，例如移动设备。

本文提出了一种压缩驱动的插帧网络设计(CDFI)，该设计通过稀疏诱导优化来进行模型剪枝，在实现卓越性能的同时显著减少模型大小。

具体地说，我们首先压缩最近提出的AdaCoF模型，并表明10倍压缩后的AdaCoF表现与原始版本相似;在此基础上，通过引入多分辨率的warping模块，进一步改进了该模型，提高了多层细节的视觉一致性。因此，与原始AdaCoF相比，我们在模型大小仅为四分之一的情况下获得了显著的性能增益。此外，我们的模型在广泛的数据集中表现得与其他技术水平相当。最后，所提出的压缩驱动框架具有通用性，可方便地应用于其他基于DNN的框架插值算法。

本期AI TIME PhD直播间，我们有幸邀请到了本文的作者丁天宇博士为大家分享这项研究工作！

丁天雨：约翰霍普金斯大学(HU)应用数学博士。研究兴趣集中在数值优化、计算机视觉、机器学习和深度学习等方向。曾在微软总部做研究实习，博士期间于NeurIPS，ICML， CVPR等顶级会议上发表多篇论文。个人主页: https:/ /www.tianyuding.com

背? 景

视频插值通过合成两个连续的帧之间的中间帧来提高视频序列的时间分辨率。

传统的视频插帧一般分两步，第一步是估计两个视频帧之间的双向光流场；第二步是根据光流去warping然后融合已知帧来获取中间帧的结果。

传统的视频帧插值被建模为图像序列问题，这些方法在复杂场景中效果较差因为它们不能准确估计光流或表示高频成分。深度学习中的卷积神经网络通过预测光流理解图像中像素值随时间的运动规律，实现了基于光流的运动插值算法，例如训练一个深度CNN直接合成中间帧。

基于流的方法的一个主要缺点是只使用像素方向的信息进行插值。而基于核的方法则是通过在每个输出像素附近的局部块上进行卷积来生成图像，通过对每个输出像素周围的局部块进行卷积操作来合成中间帧。然而，它不能处理超出内核大小的大运动（large motion），并且通常会遭受很高的计算成本。还有一些光流与核相结合的方法，这类方法同样具有基于核的插帧方法的缺点。

Deformable Separable Convolution（DSC）在核的基础上加入了offset（偏移），使得卷积不拘泥于局部块，以此来估计large motion场景下的中间帧。但是，DSC在处理细节场景方面存在一定的缺陷性。

方? 法

本文基于AdaCoF（Adaptive Collaboration of Flows for Video Frame Interpolation）模型，首次探索了现有基于DNN方法中出现的过度参数化问题，并证明了一个压缩程度较大的模型也能表现得同样出色。

下图是AdaCoF模型的结构，首先通过1x1的卷积提取Unet编码层特征金字塔表示，后面接一个Synthesis Net估计核权重以及DSC offset，通过两个AdaCoF进行前向帧、后向帧的warping生成两个候选中间帧，最后融合两个候选中间帧得到最终结果。

模型压缩：

插帧模型想要部署在硬件资源较少的设备比如移动端时，需要更加轻量的模型结构，因此论文又提出了下面模型压缩的方法。

下面是模型压缩前后的模型对比，原模型的大小在83.4M，压缩之后的模型大小降为9.4M，并且PSNR和SSIM两项性能指标没有降低很多。

这种压缩驱动的网络设计是通用的，可以转移到任何其他基于DNN的帧插值算法。

实? 验

本文算法在Vimeo-90K数据集上进行训练和验证，此外在Middlebury和UCF101-DVF数据集上也进行了评估。

下面是本文算法相比其他视频插帧算法的可视化消融实验结果，本文算法模型在细节方面表现更有，在一些large motion的场景也可以表现极佳。

总? 结

CDFI模型使用模型压缩作为确定有效架构的指南，然后对其进行改进。

我们首次考虑了现有方法中的冗余性。

本文展示了一个小得多的AdaCoF模型与原始模型的性能相似，通过简单的修改，它能够在很大程度上优于baseline模型，并且也优于其他最先进的方法。

我们强调，在baseline模型上进行优化的压缩不依赖于模型的特定设计。因此，CDFI框架是通用的，可以应用于其他模型，并为开发高效的帧插值算法提供了一个新的视角。

今日视频推荐

整理：于洁

审核：丁天雨

AI TIME欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你！

请将简历等信息发至yun.he@aminer.cn！

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

更多资讯请扫码关注

我知道你在看哟

点击“阅读原文”查看精彩回放

[人工智能]干货！考虑部署在移动端的视频插帧模型：CDFI