[人工智能] SurroundDepth拜读：自监督环视多相机深度估计

CVPR2022：SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation
Code:https://github.com/weiyithu/SurroundDepth

论文提出了SurroundDepth，将来自多个周围视图的信息合并到一起，以预测摄像头之间的深度图,具体地说:

使用一个联合网络(joint network)来处理所有周围的视图
并提出了一个交叉视图转换器(cross-view transformer)来有效地融合来自多个视图的信息、全局交互
给定多摄像机外部矩阵（ extrinsic matrices）、采用SFM（structure from motion）的稀疏深度来预训练模型,以预测真实世界的尺度
估计车辆的整体自我运动（universal ego-motion），并将其传输到每个视图，以实现多视图一致性

解决痛点：

尽管现代自动驾驶汽车通常配备多个摄像头来拍摄360度全景，现有的大多数方法仍然侧重于从单目图像预测深度图，而忽略了周围视图之间的相关性
由于时间光度一致性（temporal photometric consistency）只能推断相对尺度，这些自监督单目深度估计方法无法产生尺度感知深度。然而，由于多摄像机外部矩阵中的平移向量获得了真实世界的尺度，因此可以获得尺度感知预测。

单目深度估计

一个深度估计网络

一个位姿估计网络

在这里插入图片描述

多目深度估计网络

多目位姿估计网络

在这里插入图片描述

在这里插入图片描述
Depth Net:shared encoder and decoder
Pose Net: universal ego-motion PoseNet

在这里插入图片描述

首先采用SIFT特征提取匹配
- 由于小重叠和大视图变化,相邻视图只取相邻的 $\frac{1}{3}$ 部分匹配
- 用epipolar geometry 过滤 outliers.
使用相机外部矩阵进行三角测量来计算稀疏深度
利用这些稀疏深度以及时间光度损失（temporal photometric loss）来预训练depth和pose网络