[人工智能] 百度网盘AI大赛-水印智能消除赛第3名方案

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 百度网盘AI大赛-水印智能消除赛第3名方案 -> 正文阅读

[人工智能]百度网盘AI大赛-水印智能消除赛第3名方案

百度网盘AI大赛-水印智能消除赛第3名方案

项目简介

请添加图片描述

本项目是百度网盘AI大赛——图像处理挑战赛：百度水印智能消除赛第3名的解决方案。在该项目中，我们对本次赛题的任务与数据进行了分析，并在此基础上详细介绍了我们模型的搭建思路，同时开源了我们的代码。我们本次比赛的思路更多的还是反映一些比较基础的探索上，没有非常强的创新性，所以比较适合刚刚入门深度学习以及图像处理比赛的选手，掌握一些最最基本思路，即使是新手也可以拿到一个非常理想的名次。

比赛地址：https://aistudio.baidu.com/aistudio/competition/detail/209/0/introduction

我们的代码：
Github（https://github.com/ACALJJ32/watermark_remove_paddle_slbr.git）
AI Studio：（https://aistudio.baidu.com/aistudio/projectdetail/4086295?contributionType=1&shared=1）

赛题介绍

日常生活中带有水印的图片很常见，即使是PS专家，也很难快速且不留痕迹的去除水印。而使用智能去除水印的算法，可以快速自动去除图片中的水印。本次比赛我们需要通过深度学习技术训练模型，对给定的真实场景下采集得到的带有水印的图片进行处理，并最终输出处理后的扫描结果图片。

数据分析

在本次比赛最新发布的数据集中，所有的图像数据均由真实场景采集得到，再通过技术手段进行相应处理，生成可用的脱敏数据集。本次比赛也是一个非常典型的image-to-image的任务。我们下载了官方提供的数据集后，发现训练集是非常大的，训练集共1012550个样本，A榜测试集共5000个样本，我们随机抽取了一部分样本如下：
请添加图片描述
通过观察可以发现，官方提供的训练数据集里面的水印图案还是有非常明显的特点的，我们总结了几点如下：

训练集中的水印图案基本都是字体，基本没有其他图案的水印；一张图像中的水印颜色是不会变化的。
不同图像中的水印在一张图中的分布范围是不一样的。分布范围广的几乎整张图像都会有水印；分布范围小的水印会位于图像的中心位置。
所有图像中的水印图案分布是类似，都是以一种类似的方向倾斜的。

当我们总结了这些特点后，大概会思考到用什么样子的网络结构去处理不同的问题。比如说为了解决分布范围不同，我们通常会优先考虑U-Net structure或者dilation conv来提取不同尺度的特征；水印的颜色变换很小，可以尝试用channel-attention来让模型捕捉到不同通过通道之间的关系。不过，最快的解决方法还是好好看看官方提供的学习资料，本次比赛官方给了三个可以参考的开源代码，我们选择了时间比较近的SLBR。

SLBR：https://github.com/bcmi/SLBR-Visible-Watermark-Removal

数据处理

我们在数据处理上并没有花费太多的心思，处理流程如下：

请添加图片描述
水平翻转是一种常见的图像数据增强的方法。为什么使用随机裁剪而不是按照步长裁剪？因为这次的训练数据已经非常充足了，按照步长裁剪后数据集会更大，随机裁剪输入已经足够了。

模型选择

为什么这里讲模型选择而不是讲改进思路？因为一个模型的它一定是存在某个方面的局限性的，可以是性能也可以是速度，如果我们一开始就只选定了一个模型然后去不断改进，理论上当然可以得到一个不错的分数，但是这个过程是比较辛苦的。比赛的初期官方提供了一个baseline，其实就是一个非常简单的U-Net，我是非常不建议从这个baseline开始改的，因为提分的过程一定会非常吃力，所以我们还是把精力花在了阅读paddle文档，将SLBR的模型改写成了paddle的形式。我们也没有尝试过直接将.pth转换.pdparam，因为经验和直觉告诉我们，很可能遇到什么问题导致模型转换不过来。我们选择的模型结构如下：
请添加图片描述

改进思路

这里我们先说明一下，我们最终的比赛方案还是这个SLBR模型，里面的模块基本没有再做改进，这里可能让大家比较失望，什么都没动的模型还能拿第三名会不会太离谱，但是事实确实如此，而且我们也是做了一系列尝试发现没有效果后，最终又回到了起点。这部分将详细介绍我们是怎么进行魔改最后又回到开始的。

SLBR的思路就是将水印去除的思路分成两个阶段，第一阶段尝试生成一张粗处理的图像以及一张水印的mask图，第二阶段将第一阶段的图像和mask图一起输入再训练。我们在实践的时候先是尝试去实现Coarse Stage，Refinement Stage的网络其实我们也是同步去实现的，但是第二阶段的网络会占用非常大的显存，直接GPU out of memory，所以SLBR的Refinenment Stage网络结构我们在很长一段时间都是放弃的。第一阶段的Coarse Stage改好后，我们在训练集上直接训练了一个epoch，提交验证的分数如下：

请添加图片描述
可以看到这是一个非常理想的开始，MSSSIM有0.99735，PSNR有40.7081dB，要比baseline高好几个level，这也给了我们很大的信心。

紧接着最容易想到的就是用其他网络去替换原论文的Refinement Stage结构，我们最先想到的还是用NAFNet（Simple Baselines for Image Restoration）去替换，该网络结构如下：
请添加图片描述
我们的对比实验结果如下：

可以看到，加上NAFNet后，我们的PSNR直接高了将近2dB.

在接下来的改进中，我们尝试在NAFNet中用skip connection，因为对于图像处理来讲，skip connection在信息的补充上也有重要的作用，但是对于本次任务，直接用skip connnection会把水印的图案引入，所以我们考虑加两层conv，起到一个过滤的作用，示意图如下：
请添加图片描述
得到的对比实验如下：

请添加图片描述
可以看到添加skip connection后，又会高将近0.5dB. 以上基本都是有效的尝试，我们也进行过一些其他的尝试，有一次大的改动是这样的，我们想用一种并行的连接方式来进一步提高模型性能，网络结构是我们NTIRE2022 HDR的思路：
请添加图片描述
这样的一个设计是为了让模型可以捕捉到不同分辨率特征，从而学习到更强的表征，实验结果如下：

请添加图片描述
可以看到这次改进的分数只有35.30dB，这说明一个过大的模型不一定就能得到很高的分数。我们还进行过很多的尝试，这里列了一张excel表格，是我们做过的相关实验：

这里想说明的意思就是，对于模型的改进，我们还是要脚踏实地一点点来，一下子拍脑门想到的方案大概率是不靠谱，好的模型都是做实验做出来的。

小结

待改进的点

本次比赛中，我们的思路还是存在很多改进的地方。水印消除的任务中，我们了解到mask feature对实验结果的影响是非常高的，如何生成准确稳定的mask是任务的关键，我们也尝试过对训练数据中的数据对直接进行相减取绝对值来生成mask，在用这样的mask引导模型生成对应的mask，但是这样做的效果也并不理想，所以我们暂时放弃考虑了这个点，如果这个问题处理得比较好，那么分数一定会得到更明显的提升。我们也尝试直接用vgg loss来改进生成的mask图，但是验证的分数也不理想，提交结果如下：
关于打比赛

打比赛注意节奏，基本上是：数据分析+调研 => 对各种模型进行实验对比，选择最好的模型，站在巨人的肩膀上 => 不断进行改进

打比赛也是一个快速提高自己能力的过程，参加过一个完整的比赛后，我们的视野、能力、经验都会有非常显著的提升，所以在学生期间，还是非常建议大家去打打比赛，对自己帮助很大。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-06-16 21:42:28 更:2022-06-16 21:43:22

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/23 10:44:42-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码