IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Convolutional Color Consistency 文献阅读 -> 正文阅读

[人工智能]Convolutional Color Consistency 文献阅读

第一部分 摘要和引入

这篇文章属于间接光源估计的颜色恒常性算法,就是通过估计图像光照的颜色,再将光照颜色去除,从而获得没有色偏的图像(可结合图1理解)。主要思想是将光源估计转换成一个判别任务(discriminate),而不是生成任务 (generate)。

图1

这里具体解释一下生成和判别。在传统的颜色恒常性方法里,例如gray-world是计算像素平均值作为图像光源的颜色,max-RGB是计算像素最大值作为图像光源颜色,这些都是通过图像中的统计学特征,直接生成了光源颜色,这样的就是生成任务。所谓判别任务,就是并不指定光源颜色要怎么直接计算,而是判断图像是白平衡还是非白平衡。(在这里,我个人的理解是判断色度直方图上哪些点是接近光源颜色,哪些点是和光源颜色差距很大。这样的判别模型训练好后,输入一张偏色图像,就可以在色度直方图上找到最接近光源颜色的点,作为估计的光照颜色。关于色度直方图后面会具体描述。)

作者之所以有这样的想法,是因为可以将图像转换到色度空间(色度直方图),在这个二维平面上,寻找哪一个色度是光源的颜色,这个让作者想到目标识别方面的算法。

第二部分 图像组成

公式(1)中,I是相机拍摄的图像,W是物体的反射属性(真实颜色),L是光源的属性。相机拍出来的图像是物体和光源共同作用的结果。对于偏色图像,已知的只有I,需要根据偏色图像I估计光源颜色L,从而得到物体本身的颜色W。

?

公式(2)(4)中给出的是从rgb空间向uv色度空间转换的公式 (不理解的可以去看看LUV颜色空间)。公式(5)是通过2、4推导来的,可以用来解释在色度空间,偏色图像色度减去光源色度得到物体本身颜色色度。

这里还给了一个亮度计算公式,在第三部分计算色度直方图的时候会使用到。

第三部分 Learning

首先进行色度直方图的定义。

公式(7)是对像素点色度值进行了统计,并加上像素点的亮度作为权重。例如M(u0, v0),后半部分方括号里面,是指对于像素点i,如果其u, v值与u0, v0很接近,相差在ε/2内,就计数为1,否则计数为0。在前面乘上该像素点的亮度值作为权重。N(u, v)是对M(u, v)进行归一化再开平方根。所生成的色度直方图的图形表示如图2:

图2

第二行是色度直方图,横纵坐标分别是u, v,亮度值代表该u, v值对应的像素点个数,像素点个数越多,亮度值越大,也就对应像素点越亮。在一个色度直方图中,会考虑所有的色度值组合,并对它们进行打分,得分最高的色度值即为预测光源的色度值。打分函数也就是对色度直方图进行卷积,是直方图中每个值的线性组合。从a\b\c这三张图中还可以看出,在rgb三通道的颜色值上的缩放,在色度直方图上会表现为点的平移。这三张图形状没有差别,只是光源颜色不同导致这些图形在色度直方图上位置不同。

公式(10)是损失函数的定义。其中,N(u, v)是归一化之后的图像色度直方图;P(u, v)是N(u, v)经过卷积F之后得到的预测光源色度直方图;C(u, v, u*, v*)定义了光源色度之间的差距,也就是错误估计的光源导致的损失。下面这张图是C的可视化,圆圈圈出来的部分是真实光源色度值,越亮代表越接近真实光源,损失C越小,越暗则代表损失C约大。所以损失函数最小化可以理解为,越接近真实光源的地方,C越小,那么权重P可以大一些;而远离真实光源的地方,C越大,权重P越小。那么训练好模型后,输入一张偏色的图像,其色度直方图经过卷积得到P,P中值最大的点,就是最接近真实光源的点,我们将这个点的色度作为估计光源的色度。这个方法也是类似于分类问题,找到概率最大的一个类别,作为预测的标签。

图3

除此之外,作者还使用生成模型和这个判别模型进行了对比,生成模型的损失函数见公式(12)。使这个函数最大化,就是使越接近真实光源的地方权重越大。(其实这里我不是很理解下面的公式)。作者得到生成方法和判别方法的F并将它们可视化,可视化的结果在图4中。从这个结果中可以看出,生成方法这是可以突出最亮的那个点,也就是哪个最接近真实光照,但是判别方法还可以拉开差距,不仅可以突出最亮,还进一步判别哪些点可能性极小,也就是图中黑色暗色的点。最终的模型训练和光源估计过程见图5.

图4

图5

第四部分 efficient filtering 高效滤波

文章中卷积采用金字塔结构,一共有7层(下采样使用双线性差值),每一个都用5*5的小卷积核进行卷积,在中心有高质量的细节,远离中心的区域有粗略的内容。

图6

第五部分 generalization

这个方法中,输入是色度直方图,本质上还是图像的统计信息,和gray-world等方法一样,都将图像视作一包的像素(“bag” of pixels),是没有空间信息的。所以现在不再仅仅对原图像的色度直方图进行卷积,而是构造一系列Ij , Nj , 这些Ij 是原图以及它的增强图像”augmented” images),将这些图像经过卷积后的结果求和,再输入softmax。

下面说明使用的是哪些augmented images。由于每个通道像素值的缩放必须准确映射到色度直方图上的偏移,因此要保留标量乘法,也就是说scaling操作和filtering操作的先后顺序不影响结果。并且因为要计算log,输入需要是非负值。

公式(13)中,blur是盒子滤波操作(box filter),这里表示的是求和之后再归一化。ρ=2 时,h表示的即为局部标准差。

第六部分 results

数据集用的是color checker和cheng等提出的数据集,第一个是1个相机拍摄的568张图片,第二个数据集是8个相机拍摄的1736张图片(是同一个场景被8个相机拍8次)。使用的是3折交叉验证(3-fold cross-validation),也就是将数据集分为3份,2份用作训练,1份用作验证,循环3次。

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章           查看所有文章
加:2021-12-04 13:27:05  更:2021-12-04 13:29:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 3:46:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码