| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Convolutional Color Consistency 文献阅读 -> 正文阅读 |
|
[人工智能]Convolutional Color Consistency 文献阅读 |
第一部分 摘要和引入 这篇文章属于间接光源估计的颜色恒常性算法,就是通过估计图像光照的颜色,再将光照颜色去除,从而获得没有色偏的图像(可结合图1理解)。主要思想是将光源估计转换成一个判别任务(discriminate),而不是生成任务 (generate)。 图1 这里具体解释一下生成和判别。在传统的颜色恒常性方法里,例如gray-world是计算像素平均值作为图像光源的颜色,max-RGB是计算像素最大值作为图像光源颜色,这些都是通过图像中的统计学特征,直接生成了光源颜色,这样的就是生成任务。所谓判别任务,就是并不指定光源颜色要怎么直接计算,而是判断图像是白平衡还是非白平衡。(在这里,我个人的理解是判断色度直方图上哪些点是接近光源颜色,哪些点是和光源颜色差距很大。这样的判别模型训练好后,输入一张偏色图像,就可以在色度直方图上找到最接近光源颜色的点,作为估计的光照颜色。关于色度直方图后面会具体描述。) 作者之所以有这样的想法,是因为可以将图像转换到色度空间(色度直方图),在这个二维平面上,寻找哪一个色度是光源的颜色,这个让作者想到目标识别方面的算法。 第二部分 图像组成 公式(1)中,I是相机拍摄的图像,W是物体的反射属性(真实颜色),L是光源的属性。相机拍出来的图像是物体和光源共同作用的结果。对于偏色图像,已知的只有I,需要根据偏色图像I估计光源颜色L,从而得到物体本身的颜色W。 ? 公式(2)(4)中给出的是从rgb空间向uv色度空间转换的公式 (不理解的可以去看看LUV颜色空间)。公式(5)是通过2、4推导来的,可以用来解释在色度空间,偏色图像色度减去光源色度得到物体本身颜色色度。 这里还给了一个亮度计算公式,在第三部分计算色度直方图的时候会使用到。 第三部分 Learning 首先进行色度直方图的定义。 公式(7)是对像素点色度值进行了统计,并加上像素点的亮度作为权重。例如M(u0, v0),后半部分方括号里面,是指对于像素点i,如果其u, v值与u0, v0很接近,相差在ε/2内,就计数为1,否则计数为0。在前面乘上该像素点的亮度值作为权重。N(u, v)是对M(u, v)进行归一化再开平方根。所生成的色度直方图的图形表示如图2: 图2 第二行是色度直方图,横纵坐标分别是u, v,亮度值代表该u, v值对应的像素点个数,像素点个数越多,亮度值越大,也就对应像素点越亮。在一个色度直方图中,会考虑所有的色度值组合,并对它们进行打分,得分最高的色度值即为预测光源的色度值。打分函数也就是对色度直方图进行卷积,是直方图中每个值的线性组合。从a\b\c这三张图中还可以看出,在rgb三通道的颜色值上的缩放,在色度直方图上会表现为点的平移。这三张图形状没有差别,只是光源颜色不同导致这些图形在色度直方图上位置不同。 公式(10)是损失函数的定义。其中,N(u, v)是归一化之后的图像色度直方图;P(u, v)是N(u, v)经过卷积F之后得到的预测光源色度直方图;C(u, v, u*, v*)定义了光源色度之间的差距,也就是错误估计的光源导致的损失。下面这张图是C的可视化,圆圈圈出来的部分是真实光源色度值,越亮代表越接近真实光源,损失C越小,越暗则代表损失C约大。所以损失函数最小化可以理解为,越接近真实光源的地方,C越小,那么权重P可以大一些;而远离真实光源的地方,C越大,权重P越小。那么训练好模型后,输入一张偏色的图像,其色度直方图经过卷积得到P,P中值最大的点,就是最接近真实光源的点,我们将这个点的色度作为估计光源的色度。这个方法也是类似于分类问题,找到概率最大的一个类别,作为预测的标签。 图3 除此之外,作者还使用生成模型和这个判别模型进行了对比,生成模型的损失函数见公式(12)。使这个函数最大化,就是使越接近真实光源的地方权重越大。(其实这里我不是很理解下面的公式)。作者得到生成方法和判别方法的F并将它们可视化,可视化的结果在图4中。从这个结果中可以看出,生成方法这是可以突出最亮的那个点,也就是哪个最接近真实光照,但是判别方法还可以拉开差距,不仅可以突出最亮,还进一步判别哪些点可能性极小,也就是图中黑色暗色的点。最终的模型训练和光源估计过程见图5. 图4 图5 第四部分 efficient filtering 高效滤波 文章中卷积采用金字塔结构,一共有7层(下采样使用双线性差值),每一个都用5*5的小卷积核进行卷积,在中心有高质量的细节,远离中心的区域有粗略的内容。 图6 第五部分 generalization 这个方法中,输入是色度直方图,本质上还是图像的统计信息,和gray-world等方法一样,都将图像视作一包的像素(“bag” of pixels),是没有空间信息的。所以现在不再仅仅对原图像的色度直方图进行卷积,而是构造一系列Ij , Nj , 这些Ij 是原图以及它的增强图像(”augmented” images),将这些图像经过卷积后的结果求和,再输入softmax。 下面说明使用的是哪些augmented images。由于每个通道像素值的缩放必须准确映射到色度直方图上的偏移,因此要保留标量乘法,也就是说scaling操作和filtering操作的先后顺序不影响结果。并且因为要计算log,输入需要是非负值。 公式(13)中,blur是盒子滤波操作(box filter),这里表示的是求和之后再归一化。ρ=2 时,h表示的即为局部标准差。 第六部分 results 数据集用的是color checker和cheng等提出的数据集,第一个是1个相机拍摄的568张图片,第二个数据集是8个相机拍摄的1736张图片(是同一个场景被8个相机拍8次)。使用的是3折交叉验证(3-fold cross-validation),也就是将数据集分为3份,2份用作训练,1份用作验证,循环3次。 ? |
|
|
上一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 3:46:02- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |