【摘要】提出了一种端到端的对抗生成式视频盲水印嵌入提取算法。该算法主要由编码器和解码器组成,编码器用于生成包含水印信息的视频,解码器用于提取视频中所包含的水印信息。不同于传统的基于频域或空域的视频水印方法,用端到端的训练方式的同时优化编码器和解码器网络。在编码器训练过程中模拟不同的信号和几何攻击类型,生成对抗样本,优化整个网络,以保证所生成水印样本的不可感知性和鲁棒性。实验结果表明:该算法对缩放、平移、裁剪等几何类攻击和压缩、噪声等信号类攻击都具有较强的鲁棒性;同时,该算法独立地训练每一个关键帧,因此还可以抵抗视频中的时间同步攻击。
算法主要包含编码器和解码器 2 部分。 编码器根据 Goodfellow 等[1 6]提出的快速递度符号法(fastgradient sign method,FGSM)为视频关键帧 X 添加扰动p ,生成对抗性样本 X’,ε为扰动强度,取值范围为[0,1],ε越大,扰动越明显,在降低模型精度方面越有效,但同时原始图像的改变也越容易被人眼察觉。 解码器 D 由 1 个深度神经网络构成,将对抗性样本解码为与水印W 长度相同的序列W’。 编码器与解码器采用对抗的方式进行优化。编码器通过加入扰动 p ,生成让解码器解码错误的对抗性样本;解码器将对抗性样本解码成功,即W’=W。 利用编码器生成包含噪声样本进行对抗训练时主要包括 2 个过程[17-18]: 1)生成使预测损失最大化的扰动 p 2)更新使预测损失最小化的模型参数θ 通过不断迭代对抗训练的过程,学习可得可抵抗几何攻击的嵌入水印。端到端的对抗生成式视频数字水印算法流程如图 1 所示。 采用了在期望最大化框架下训练解码器的方法。 客观评价视频数字水印性能主要有峰值信噪比(peak signal to noise ratio,PSNR)和归一化相关系数(normalized cross-correlation,NC)这 2 种方法。 峰值信噪比 图像在嵌入水印后,像素级别会与原始图像有差异,PSNR 值越大,含水印图像与原图像的差异越小,意味着水印的不可见性越高,表示为 式中,MSE 为均方误差,且有 式中:I 为原始图像;I’ 为嵌入水印的图像;m×n 和M×N 为图像的大小。 归一化相关系数 原始水印序列和提取出来的水印序列的相似程度可以用归一化相关系数来衡量,表示为 式中:W 为原始水印序列;W’ 为提取出来的水印序列。 算法效果: 运动模糊攻击:
椒盐噪声:
JPEG 压缩:
旋转:
缩放:
平移:
裁剪:
时间同步攻击: 发明专利
优点:提出了一种端到端的对抗生成式视频水印方法,利用对抗样本的思想,生成对抗扰动作为水印(水印为二值的一维数组,水印的前32位设置为固定的标志位,提取 水 印 时 可 以 根 据 标 志 位 匹 配 提 取的序列是否为水印。),除了对常见的图像处理攻击具有鲁棒性,还可抵抗几何攻击,算法独立的训练每一个关键帧,还可抵抗时间同步攻击。 首 先 读 取 视 频,抽 取 视 频 的关键帧,记录关键帧在原视频中的位置,对于每个关键帧,都进行图像归一化操作,随机初始化解码器的参数和扰动p的大小,开始训练网络,根据原始的关键帧和扰动生成对抗 性 样 本 X′,将 X′ 作 为 网 络 的输入。 缺点:旋转范围小,未考虑水平、垂直翻转如视频开镜像等情况,以及去水印攻击、混淆攻击、摄像机攻击
常见的几种噪声: (1)高斯噪声 (2) 椒盐噪声 (3)泊松噪声 (4)乘性噪声
|