[人工智能] QUALITY-GATED CONVOLUTIONAL LSTM FOR ENHANCING COMPRESSED VIDEO精简中文版

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> QUALITY-GATED CONVOLUTIONAL LSTM FOR ENHANCING COMPRESSED VIDEO精简中文版 -> 正文阅读

[人工智能]QUALITY-GATED CONVOLUTIONAL LSTM FOR ENHANCING COMPRESSED VIDEO精简中文版

1.摘要

在过去的十年里，我们在应用深度学习以提高压缩视频的质量方面取得了巨大的成功。然而，现有的方法目标是在提高质量在单个帧上，或仅使用固定的相邻帧。因此，它们无法充分利用视频的帧间的信息关联性。本文提出了质量控制卷积长短时记忆（QG ConvLSTM）具有双向递归结构的网络可充分利用大范围帧中的有利信息。更重要的是，由于质量波动明显在压缩帧中，更高质量的帧可以提供为其他帧提供更有用的信息，以提高质量。因此，我们提出从质量相关特征中学习“忘记”和“输入”门在ConvLSTM单元格中。因此，像这样的不同质量的帧在CONVLSTM中贡献了不同的重要性，合理和充分地使用每个帧的信息。

2.内容相关性

在这里插入图片描述

可以用皮尔逊相关系数（PCC）来评估两个帧之间的相关性根据。这里，我们计算每个帧与其40个相邻帧（20个先前的帧，以及随后的20帧）之间的PCC。上图显示了Vid-70数据库中所有帧的平均PCC值。可见从上图中可以看出，PCC值在5帧内大于0.79。在10帧的间隔处，平均PCC中间值也高于0.72。当距离扩大到20帧时这一数字约为0.65。这些验证了大范围的帧在内容上存在强相关性，并且这种相关性随着帧间隔而降低。因此，在大范围内充分利用信息帧的范围可以明显地提高上的性能增强压缩视频。因此，我们建议采用本文采用双向ConvLSTM结构。

3.质量波动

在这里插入图片描述
压缩质量是通过峰值信噪比（PSNR）进行评估。明确地在Vid-70数据库中，平均标准偏差每个压缩视频的帧级PSNR的（标准）为MPEG-1/2为1.83 dB，MPEG-4为1.78 dB，MPEG-4为1.64 dBHEVC分别为H.264和1.06 dB。峰谷差异（PVD），表示峰值信噪比曲线中最近的峰值和谷值的差异性。也比MPEG-1/2/4和H.264高于1.00 dB。在最新的HEVC标准中，平均PVD高达1.51 dB。这验证压缩后的质量差异框架。上图展示了一个示例，显示了显而易见的压缩帧之间的质量波动。因此，在使用ConvLSTM增强压缩质量，质量波动也应考虑过的。也就是说，不同质量的帧应在向其他帧提供不同有用信息。基于此，我们通过从质量相关性特性的权重学习提出gating convlstm。

4.框架

在这里插入图片描述
我们的QG ConvlTM网络设计为时空结构，采用双向ConvLSTM结构，以充分利用先前帧和后来帧中的信息。更重要的是，我们提出在质量相关特征（quality-related features）的输入下通过1DLSTM网络在ConvLSTM单元中生成“遗忘”的权重（f n）和“输入”（i n）的权重的门。因此，有不同压缩质量的帧将指导在Convlstm单元中忘记以前的记忆并更新当前的记忆的比例，ConvLSTM中的信息。因此，具有不同压缩质量的帧在convlstm单元中贡献不同的重要性。

具体而言，我们的QG-CONVLSM方法包含四个组件，分别是：
1.空间网络，2.门生成器，3.质量门控单元，4.重建网络。
这个这四个网络的功能分别表示为fs（·），fg（·），fc（·）和fr（·）。此外，我们定义了压缩视频为{Y n}n n=1，其中n表示当前帧，N是总帧数。因此，定义n时刻的质量特征为Q n，QG CONVLSM方法可以表示为
在这里插入图片描述
^Yn为重建帧

空间网络

如上图左侧（a）所示，我们在空间网络中采取CNN层和relu激活函数从压缩帧中提取空间特征。特别的，让Wsm和Bsm表示第m层卷积网络的权重和偏置，对于第n个压缩帧Yn的空间网络的表达式为
在这里插入图片描述
CNN层的总层数为M。
因此，作为时间序列，在我们的空间网络中，每个时间步的n的CNN层共享W和B。

门生成器

回想一下，原始视频不能在质量增强中获得，无参考特征用于我们的门生成器。在本文中，我们利用无参考质量评估方法提取的36个空间特征。此外，量化参数（QP）和位分配也应用于我们的方法作为压缩域特征，它们可以
直接从视频解码器获取。因此，对于第n帧，我们得到一个38维的质量相关特征，表示为qn。一个帧对增强其他帧的重要性是由其与其他框架相比的相对质量决定的，而不是绝对的质量。因此，对于第n帧，我们输入当前帧和T邻域帧的质量特征到我们的门生成器网络。即，我们拥有38*（T+1）维的输入特征。

上图左侧显示，在我们的门生成器中，双向LSTM（BiLSTM）能够学习应对质量波动的时间特征。然后前向和后向LSTM网络的输出被连接并输入到全连接的层以预测门单元的选通权重。总而言之，让“+”和“-”表示向前和向后的方向，门生成器的表达式可以写成：
在这里插入图片描述

式中，hn定义为时间步n的LSTM网络的输出，[·，·]表示沿
通道连接。在（8）中，wfc和bfc是完全连接层的权重和偏差矩阵
，G n是第n帧的输出。与（3）相似，W fc和B fc是每个时间步的共享参数
。最后，我们得到了

作为在我们的QG-ConvLSTM方法中质量门单元的学习到的门权重。

质量门单元

如上所述，在我们的QG-CONVLSM方法中，每个帧的重要性通过压缩后的
质量来区分，因为更高质量的帧可能包含更有用的内容帮助增强其他帧的信息。因此，我们把（8）中的输出Gn应用到我们的质量门单元的C门，替换原始的遗忘门和输入门。假设第n帧是高质量，然后我们试图让Cn去忘记之前的信息，因为先前的信息是低质量并且和之后的帧有着低相关性。与此同时，高质量帧的信息也该用来更新Cn以提供有用的信息为了后来的帧。相反，当一个低质量帧来了，网络期望不要忘记先前的记忆并且小幅度更新当前的信息，根据于此，我们设：
在这里插入图片描述

在我们的质量门控单元中，σ是将fn和in限制在（0,1）的范围内。因此遗忘门和更新记忆的门由G n控制，这是从压缩质量的特征中学到的。
总之，所提出的质量门控单元可以表示为：
在这里插入图片描述
O是哈达玛变换，Hn是质量门单元的输出，回忆我们在QG-Convlstm方法中应用双向ConvLSTM结构，让Hn+和Hn-标注为我们的质量门单元的前向和反向输出。

重建帧

最终，我们采用L层CNN去重建压缩视频的增强帧，

在这里插入图片描述
WrL和BrL为重建CNN层的权重和偏置。和空域特征提取类似，WrL和BrL的参数对于所有时间步来说是共享的，因此，我们得到增强的视频如下：

5.训练

由于QG-CONVLSM方法的所有四个组成部分如果是深层次的网络，他们可以用端到端的方式联合训练。然而，门生成器具有1D-LSTM，
该结构的目的是为ConvLSTM中的提供权重，以便将单元选通ConvLSTM，而其他三个部分用于增强质量。我们首先单独对门生成器进行预训练，然后所有四个网络都被联合训练。

6.实验结果

在这里插入图片描述
与论文中实验结果相似

在这里插入图片描述

可以看到我们的质量门单元扩大了高质量短距离帧的贡献，减少了低质量长距离帧的共享，更重要的是，提出的质量门单元也学习帧间联系和压缩质量的权衡。
在Fig. 6-(b)中，即使156帧相比151帧对于153帧有更远的距离，因为它的高质量它比153帧付出了更多的贡献。作为结果，在视频压缩中的质量增强中，多帧信息能被更合适的使用。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-09-29 10:15:46 更:2021-09-29 10:18:57

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/13 0:03:36-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码