[人工智能] Convolutional Color Consistency 文献阅读

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Convolutional Color Consistency 文献阅读 -> 正文阅读

[人工智能]Convolutional Color Consistency 文献阅读

第一部分摘要和引入

这篇文章属于间接光源估计的颜色恒常性算法，就是通过估计图像光照的颜色，再将光照颜色去除，从而获得没有色偏的图像（可结合图1理解）。主要思想是将光源估计转换成一个判别任务（discriminate），而不是生成任务 (generate)。

图1

这里具体解释一下生成和判别。在传统的颜色恒常性方法里，例如gray-world是计算像素平均值作为图像光源的颜色，max-RGB是计算像素最大值作为图像光源颜色，这些都是通过图像中的统计学特征，直接生成了光源颜色，这样的就是生成任务。所谓判别任务，就是并不指定光源颜色要怎么直接计算，而是判断图像是白平衡还是非白平衡。（在这里，我个人的理解是判断色度直方图上哪些点是接近光源颜色，哪些点是和光源颜色差距很大。这样的判别模型训练好后，输入一张偏色图像，就可以在色度直方图上找到最接近光源颜色的点，作为估计的光照颜色。关于色度直方图后面会具体描述。）

作者之所以有这样的想法，是因为可以将图像转换到色度空间（色度直方图），在这个二维平面上，寻找哪一个色度是光源的颜色，这个让作者想到目标识别方面的算法。

第二部分图像组成

公式（1）中，I是相机拍摄的图像，W是物体的反射属性（真实颜色），L是光源的属性。相机拍出来的图像是物体和光源共同作用的结果。对于偏色图像，已知的只有I，需要根据偏色图像I估计光源颜色L，从而得到物体本身的颜色W。

公式（2）（4）中给出的是从rgb空间向uv色度空间转换的公式 (不理解的可以去看看LUV颜色空间)。公式（5）是通过2、4推导来的，可以用来解释在色度空间，偏色图像色度减去光源色度得到物体本身颜色色度。

这里还给了一个亮度计算公式，在第三部分计算色度直方图的时候会使用到。

第三部分 Learning

首先进行色度直方图的定义。

公式（7）是对像素点色度值进行了统计，并加上像素点的亮度作为权重。例如M(u0, v0)，后半部分方括号里面，是指对于像素点i，如果其u, v值与u0, v0很接近，相差在ε/2内，就计数为1，否则计数为0。在前面乘上该像素点的亮度值作为权重。N(u, v)是对M(u, v)进行归一化再开平方根。所生成的色度直方图的图形表示如图2：

图2

第二行是色度直方图，横纵坐标分别是u, v，亮度值代表该u, v值对应的像素点个数，像素点个数越多，亮度值越大，也就对应像素点越亮。在一个色度直方图中，会考虑所有的色度值组合，并对它们进行打分，得分最高的色度值即为预测光源的色度值。打分函数也就是对色度直方图进行卷积，是直方图中每个值的线性组合。从a\b\c这三张图中还可以看出，在rgb三通道的颜色值上的缩放，在色度直方图上会表现为点的平移。这三张图形状没有差别，只是光源颜色不同导致这些图形在色度直方图上位置不同。

公式（10）是损失函数的定义。其中，N(u, v)是归一化之后的图像色度直方图；P(u, v)是N(u, v)经过卷积F之后得到的预测光源色度直方图；C(u, v, u*, v*)定义了光源色度之间的差距，也就是错误估计的光源导致的损失。下面这张图是C的可视化，圆圈圈出来的部分是真实光源色度值，越亮代表越接近真实光源，损失C越小，越暗则代表损失C约大。所以损失函数最小化可以理解为，越接近真实光源的地方，C越小，那么权重P可以大一些；而远离真实光源的地方，C越大，权重P越小。那么训练好模型后，输入一张偏色的图像，其色度直方图经过卷积得到P，P中值最大的点，就是最接近真实光源的点，我们将这个点的色度作为估计光源的色度。这个方法也是类似于分类问题，找到概率最大的一个类别，作为预测的标签。

图3

除此之外，作者还使用生成模型和这个判别模型进行了对比，生成模型的损失函数见公式(12)。使这个函数最大化，就是使越接近真实光源的地方权重越大。（其实这里我不是很理解下面的公式）。作者得到生成方法和判别方法的F并将它们可视化，可视化的结果在图4中。从这个结果中可以看出，生成方法这是可以突出最亮的那个点，也就是哪个最接近真实光照，但是判别方法还可以拉开差距，不仅可以突出最亮，还进一步判别哪些点可能性极小，也就是图中黑色暗色的点。最终的模型训练和光源估计过程见图5.

图4

图5

第四部分 efficient filtering 高效滤波

文章中卷积采用金字塔结构，一共有7层（下采样使用双线性差值），每一个都用5*5的小卷积核进行卷积，在中心有高质量的细节，远离中心的区域有粗略的内容。

图6

第五部分 generalization

这个方法中，输入是色度直方图，本质上还是图像的统计信息，和gray-world等方法一样，都将图像视作一包的像素（“bag” of pixels），是没有空间信息的。所以现在不再仅仅对原图像的色度直方图进行卷积，而是构造一系列Ij , Nj , 这些Ij 是原图以及它的增强图像（”augmented” images），将这些图像经过卷积后的结果求和，再输入softmax。

下面说明使用的是哪些augmented images。由于每个通道像素值的缩放必须准确映射到色度直方图上的偏移，因此要保留标量乘法，也就是说scaling操作和filtering操作的先后顺序不影响结果。并且因为要计算log，输入需要是非负值。

公式（13）中，blur是盒子滤波操作（box filter），这里表示的是求和之后再归一化。ρ=2 时，h表示的即为局部标准差。

第六部分 results

数据集用的是color checker和cheng等提出的数据集，第一个是1个相机拍摄的568张图片，第二个数据集是8个相机拍摄的1736张图片（是同一个场景被8个相机拍8次）。使用的是3折交叉验证（3-fold cross-validation），也就是将数据集分为3份，2份用作训练，1份用作验证，循环3次。