[人工智能] 光场图像的深度估计

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 光场图像的深度估计 -> 正文阅读

[人工智能]光场图像的深度估计

基于光场相机的深度估计主要四类方法：

1、基于多视角的立体匹配

根据光场相机的成像原理，可以将光场图像想像成为多个虚拟相机在多个不同视角拍摄同一场景得到图像的集合，那么此时的深度估计问题就转换成为多视角立体匹配问题。

2、基于重聚焦、散焦、阴影、纹理等多线索融合的方法

（通过衡量像素在不同焦栈处的“模糊度”可以得到其对应的深度）

1、Depth from Combining Defocus and Correspondence Using Light-Field Cameras：设计两种深度线索并估计原始深度；置信度分析及MRF融合

3、基于EPI

缺点：容易受物体遮挡的限制，在遮挡区域的检测效果较差，此外获取深度信息计算量较大，实时性较低。

优点：容易提取数据特征，主要用于特征提取、模式识别。

3.1、场景点的深度与其投影在EPI中的极限斜率呈反相关关系——场景点的深度越大，距离相机平面越远，该点在EPI图像上对应的极线斜率小；反之亦相反。

光场相机具有狭窄的基线，且伴随着噪声，同时存在着精度与速度的权衡。

传统的方法

1、《Globally Consistent Depth Labeling of 4D Light Fields》提出一种结构张量的方法

结构张量主要用于区分图像的平坦区域、边缘区域与角点区域。

EPI图像S的结构张量J为

$J=\begin{bmatrix} G_{\sigma } *(S_{x}S_{x})&G_{\sigma } *(S_{x}S_{y}) \\ G_{\sigma } *(S_{x}S_{y})& G_{\sigma } *(S_{y}S_{y}) \end{bmatrix}=\begin{bmatrix} J_{xx } & J_{xy }\\ J_{xy }& J_{yy } \end{bmatrix}$

其中 $S_{x}$ 和 $S_{y}$ 表示极线图在x,y轴方向上的梯度， $G_{\sigma }$ 为高斯平滑算子。

注：图像梯度是指图像某像素在x和y两个方向上的变化率（与相邻像素比较），是一个二维向量，由2个分量组成，X轴的变化、Y轴的变化。高斯平滑滤波器被使用去模糊图像，和均值滤波器差不多，但是和均值滤波器不一样的地方就是核不同。均值滤波器的核每一个值都是相等，而高斯平滑滤波器的核内的数却是呈现高斯分布的。

? ? ? ?由于场景图像中存在物体的前后顺序（即物体之间的遮挡顺序），因此需要对每个切片进行全局一致性估计。虽然这个优化计算过程很费时，但是可以得到最优的结果。

? ? ? ?分别从水平切片和垂直切片获得深度值后，需要把这些估计的深度值整合到一个统一的深度图中。

4、基于深度学习

随着深度学习的大热，已经有一批先驱开始用深度学习做深度估计，虽然在仿真数据上可以表现得很好，但实际场景千变万化，即使是深度学习的策略也不敢保证对所有的场景都有效。

基于EPI图像

EPINET: A Fully-Convolutional Neural Network for Light Field Depth Estimation Using Epipolar Geometry提出一种全卷积神经网络的深度估计算法，并且给出了一种数据增强的方法。从中心视角出发，根据中心视角与相邻视角的视差，得到不同角度的子孔径图像。

该网络的输入为4个不同方向（水平、垂直、左对角线、右对角线）的子孔径图像，每个方向对应于一路网络，每一路都可以对其对应方向上图像进行编码提取特征。每一路网络都由3个全卷积模块组成。每一个卷积块为：Conv-Relu-Conv-BN-Relu。为了解决基线过短的问题，使用2*2，步长为1的卷积核。将四个方向获得的结果串接起来，输入到后面的7+1个卷积块中。最后一个卷积块结构为Conv-Relu-Conv。

图像增强方式包括视角偏移（从9*9视角中选7*7，可扩展3*3倍数据），图像旋转（ ${90^{\circ}}$ ， $180^{\circ}$ , $270^{\circ}$ ），图像缩放（[0.25,1]），色彩值域变化（[0.5,2]），随机灰度变化，gamma变换（[0.8,1.2]）以及翻转，最终扩充了288倍。