[人工智能] 论文阅读笔记《GeoDesc: Learning Local Descriptors by Integrating Geometry Constraints》

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文阅读笔记《GeoDesc: Learning Local Descriptors by Integrating Geometry Constraints》 -> 正文阅读

[人工智能]论文阅读笔记《GeoDesc: Learning Local Descriptors by Integrating Geometry Constraints》

核心思想

??本文提出了一种基于学习的带有几何约束的局部特征描述算法，作者提出一种几何相似性的度量方法，并根据几何相似性改进了训练集的采样方法及损失函数。作者认为如果两个匹配图块之间的几何相似性太高，也就是两幅图像拍摄的角度比较接近时，这样的匹配图块对于网络的训练作用有限，因为太容易了。因此作者希望在采样过程中选择出那些几何相似性更低的，匹配难度更大的图块，这能够为网络的训练提供更多有用的信息。
??和LIFT算法一样，首先利用3D重建数据集获取正确的2D匹配点，根据不同角度拍摄的同一个目标的图像，使用SfM算法获得稀疏的3D重构点云，重构出来的部分就表示两幅图像之间正确匹配。然后将3D点云中的点重新映射到各个图像上，得到2D匹配点。在此基础上，作者又引入的3D Delaunay三角剖分方法用于能见度检测，进一步筛除误匹配点，提高数据的质量。
??对每个2D匹配点都生成一个对应的匹配图块，生成方式如下
在这里插入图片描述
$(x^s_i,y^s_i)$ , $(x^t_i,y^t_i)$ 分别表示输入和输出的规则采样网格坐标（原文中这样写的，我感觉输入输出是不是反了？）， $(x,y,\sigma,\theta)$ 为匹配点的参数，分别表示 $x, y$ 坐标，尺度和方向，这些参数可以通过SIFT描述器获得。
??接下来是计算匹配图块之间的几何相似性，作者提出两个计算方式一个是图块之间的相似性（Patch similarity），另一个是图像之间的相似性（Image similarity）。图块之间的几何相似性描述了从不同视角下获取的一对图块之间的匹配难度，相似性越高，匹配难度越低。首先给定一对匹配图块，将其与以 $C_i$ 和 $C_j$ 为中心的摄像机所看到的相应的3D轨迹 $P$ 联系起来。我理解 $P$ 点就是两个匹配图块对应的3D关键点，因为两个匹配图块是由两个2D匹配点得到的，而两个2D匹配点必然对应空间中的一个3D关键点， $C_i$ 和 $C_j$ 就是拍摄两个图块的相机的中心位置。然后计算 $P$ 点处的法线向量 $P_n$ ，如下图所示
在这里插入图片描述
图块相似性的计算方法如下

$s_1$ 计算了两个观察光线之间的夹角， $s_2$ 计算了两个入射角之间的差异, $g(\alpha,\sigma)$ 是一种角度计算方法，过程如下

图像之间的相似性就是两幅匹配图像之间所有匹配图块相似性的平均值。
在这里插入图片描述
??下面构建每个batch训练匹配图块集，L2-Net和HardNet是从整个数据集中随机采样得到每个Batch的训练集，而本文提出的方法是从一对匹配图像之间构建每个Batch的训练图块集。给定一对匹配图像，从中获取一组匹配图块集 $X=\{(x_1,x_1^+),(x_2,x_2^+),(x_3,x_3^+)...(x_{N_1},x_{N_1}^+),\}$ ， $x_1,x_1^+)$ 表示一对匹配图块， $N_1$ 表示匹配图块集合的大小。每个batch的训练图块集是从 $N_2$ 个匹配图块集合中采样构建起来。作者还将图块几何相似性超过0.85的图块删除掉了。这样做的好处是每个batch中的图块都是比较相似的，给训练带来更大的难度。

实现过程

网络结构

??网络结构借用了L2-Net中的结构，并且使用带有步长的卷积层取代了池化层，除了最后一层其他卷积层后面均带有BN层，最后用一个L2正则化层将卷积层的输出规范化为128维的特征向量。

损失函数

??损失函数包含两个部分结构化损失（Structured loss）和几何损失（Geometric loss）。
??结构化损失保证了匹配图块和误匹配图块之间有一定的距离，首先给定一个匹配图块集合 $X$ ，然后计算图块集合中每对匹配图块的特征向量 $F_1,F_2\in \mathbb{R}^{N_1\times 128}$ 之间的余弦相似度 $S=F_1F_2^T$ ，然后计算 $L=S-\alpha diag(S)$ ，再计算结构化损失 $E_1$
在这里插入图片描述
$l_{i,j}$ 是 $L$ 中的元素。
??几何损失则是使得匹配图块在度量空间中的距离更近。作者根据图块的几何相似性来设置不同阈值，对于匹配难度越大的图块，则认定二者正确匹配的阈值越低。