| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Image Manipulation Detection by Multi-View Multi-Scale Supervision -> 正文阅读 |
|
[人工智能]Image Manipulation Detection by Multi-View Multi-Scale Supervision |
1.abstract ????????图像篡改检测的关键挑战是如何学习对新数据篡改敏感的泛化特征同时防止真实图像上的假警报,当前的研究强调sensitivity,忽视了specificity,本文通过multi-view feature learning和multi-scale supervision来解决,通过多视角特征学习和多尺度监督来结局,这种思路在篡改检测上很常见,之前小视科技的活体检测也是多了一条傅里叶的支路来对特征做细化的监督,因为篡改检测是关注篡改图像伪影和边缘的问题,核心在如何在原图上把篡改的区域给区分出来,所以加一条强支路的监督也是合理的。多视角学习利用篡改区域周围的噪声分布和边界伪影,By exploiting noise distribution?and boundary artifact surrounding tampered regions,旨在学习语义不可知的特征,从而获得更普遍的特征, 后者允许我们从真实的图像中学习,而这些图像对于当前基于语义分割网络的方法来说并不重要。 2.introduction ????????copy-move, 将元素从给定图像中的一个区域复制并移动到另一个区域,splicing, 将元素从一个图像复制并粘贴到另一个图像上,inpainting, 移除不需要的元素,这是三种常见的图像处理类型。 ????????该任务被考虑为图像语义分割的简化案例,但是语义分割模型是次优,因为它被设计用于捕获语义信息,使得网络依赖数据集,而不是泛化,这点说的特别好,其实早期的篡改检测的场景设计和定义,大部分是人造数据,在人造数据上定义篡改类型,往往训练训练出来的模型都是强依赖数据的,泛化性极差。 ????????为了学习语义不可知特征(semantic-agnostic features),必须抑制图像内容,这点很重要,之前在做篡改和非篡改的二分类任务时,分类模型学到篡改特征之外的特征因素,而这些是我们不需要的,要抑制这些图像内容的干扰。现在的方法分为两组,即噪声视图方法和边缘监督方法,假设splicing和inpainting引入的新元素在噪声分布方面与真实部分不同,第一组方法旨在利用这种差异,通过预定义高通滤波器或可训练的对应物生成的输入图像的噪声图被单独或与输入图像一起送入深度网络,但这对没有新元素引入的copymove是无效的,第二组方法集中于发现边界伪影作为篡改区域周围的篡改轨迹,通过添加辅助分支来重建区域的边缘。 3.related work 上图是作者调研的最近的一些工作,基本和我之前调研的工作比较类似了,RBG、噪声图等,我之前还看到过使用傅里叶图和ela图做辅助分支特征增强的。 ????????本文主要关注copy-move/splicing/inpainting三种类型,对于高斯模糊和jpeg压缩这种关注constrained?cnn。使用BayerConv这种受约束的卷积层有助于提取噪声信息,但单独使用他们会带来丢失原始rgb输入中其他有用信息的风险。双流fasterrcnn用的是srm滤波器,mvssnet使用了噪声图,并且在后期融合了rgb和噪声图,并且融合使用的也不是不可训练的双线性池化,而是dual attention。 ????????篡改给定图像中的给定区域不可避免的会在篡改区域与其周围环境之间留下痕迹,因此如何利用这种边缘伪影对于篡改检测也很重要。mvssnet有一个边缘监督分支。 4.proposed model ????????分类思路智能确定改区域有没有篡改,但是没有办法精准的将篡改区域给描出来,但是分割的方法不仅可以判断是否篡改,并且给出篡改的具体区域,分割的方法确实不错,之前做分类和检测其实是需要更近一步去思考类似问题的,每个像素有个二分类的概率,在此之上有个全局的分割图,mvssnet接受rgb和噪声图,有三个尺度的标签进行监督,像素,边缘和图像。在篡改检测问题上确实应该基于分割的思路去做,之前一直在想怎么去除非篡改之外的因素的干扰,目前来看,分类方法不可避免都会遇到这个问题,不够细,不是像素级别的特征的分类。不过在区域上找特征提取后共性也挺重要的。 4.1?multi-view feature?learning resnet50为骨干,edge-supervised分支专门设计利用篡改区域周围的细微边界伪影,noise-sensitive分支旨在捕获篡改区域和真实区域的不一致。两个支路都和语义无关。 4.1.1?edge-supervised?branch ????????理想情况下,通过边缘监督,我们希望网络的响应区域更加集中在被篡改的区域。设计这样一个边缘监督网络并非易事。这里值得思考,要不要想db那样让模型更加关注这些边缘区域呢?如第 2 节所述,主要挑战是如何为边缘检测头构建适当的输入。一方面,直接使用最后一个 ResNet 块的特征是有问题的,因为这将强制深层特征捕获低级边缘模式,从而影响操作分割的主要任务。 另一方面,使用来自初始块的特征也是有问题的,因为这些浅层特征中包含的细微边缘图案可以在多次深度卷积后轻松消失。因此,有必要同时使用浅层和深层特征。然而,我们认为之前使用的简单特征连接是次优的,因为特征是混合的,并且不能保证更深的特征会得到边缘头的充分监督。 为了克服挑战,我们建议以从浅到深的方式构建边缘头的输入。 ???????来自不同 ResNet 块的特征以渐进方式组合用于操作边缘检测。 为了增强与边缘相关的模式,我们引入了 Sobel 层。 第 i 个块的特征首先通过 Sobel 层,然后是边缘残差块 (ERB),然后将它们与来自下一个块的对应物组合(通过求和)。 为了防止累积的影响,组合的特征在下一轮特征组合之前要经过另一个 ERB。 我们相信这种机制有助于防止边缘头过度监督或完全忽略深层特征的极端情况。 通过可视化图 4 中最后一个 ResNet 块的特征图,我们观察到所提出的 ESB 确实在篡改区域附近产生了更集中的响应。 在图2中,ESB有两个输出,第一个输出经过sigmoid函数,是个边缘监督图,第二个是主要的分割图? 4.1.2?noise-sensitive?branch ????????为了充分利用噪声视图,我们构建了一个与edge-supervised?branch并行的噪声敏感分支,nsb是一个标准的fcn,使用resnet50,噪声提取选择了BayarConv,它比SRM滤波器更好. ?4.1.3 branch fusion by dual attention ????????通过可训练的dual attention模块来融合esb和nsb的特征输出图,未使用双线性池化,双流fasterrcnn用的是双线性池化,是不用训练的。 ????????da有两条并行的支路,蓝色是通道,绿色是位置,?CA 将通道特征关联起来,以选择性地强调相互依赖的通道特征图。同时,PA 通过所有位置的特征的加权和来选择性地更新每个位置的特征。CA和PA融合之后,通过1x1卷积转换为1个通道的图,图像大小不变,然后再使用无参数双线性上采样,再是sigmoid,转为最终的分割图。da之前是两个2048通道的图的加和,加和之后变成4096通道,在经过da?attention变成1通道。 4.2 multi-scale supervision 三个尺度的监督,像素级别损失,用于学习语义无关特征的边缘损失和图像级别的损失, pixel-scale loss.使用dice?loss,给定图像中备操作的像素通常很少,从极度不平衡的数据中学习,在原图尺寸上学习。 edge loss.使用dice?loss,是一个辅助损失,不在原图尺寸上做计算,在1/4图尺寸下计算损失,减少了训练时的计算成本,同时提高了性能。 image-scale loss.bce loss dice?loss类似于iou-loss,bce是对像素的二分类,图像分割任务中,softmax 交叉熵loss 是对每一个像素点进行类别预测,然后平均所有的像素点. 其本质上仍是对图片的每个像素进行平等的学习,这就导致如果图像上的多种类别存在不平衡时,模型的训练会由最主流的类别所主导. 网络更偏向于对主流类别的学习,而降低了对非主流类别的特征提取能力,bce的话会对正负样本加一下权。dice loss 通过预测和GT的交集除以它们的总体像素进行计算,将一个类别的所有像素作为一个整体进行考量,而且计算交集在总体中的比例,所以不会受大量主流像素的影响,能够提取更好的效果。实际中,dice loss 往往与 bce loss 结合使用,以提升模型训练的稳定性。 本文中是对这三个损失的组合: 这其中clf是分类损失,seg是分割损失,辅助的边缘损失的edge map是通过cv2.findContours获得的 5.experiments f1,默认阈值0.5,输入图像大小为512*512,imagenet预训练初始化。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/6 17:43:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |