Anchor Detr学习笔记：

文章目录

Anchor Detr学习笔记：

1.首先介绍下什么叫锚点（Anchor point）

? ??Anchor point就类似一张钉在墙上的相框，但是钉的确不是那么的紧，相框可以围绕着钉子进行旋转，也就是做为变换的支点，类似的还有平移、缩放。这样就实现了图层的旋转与移动。
??懂了Anchor point以后，问题来了—怎么确定Anchor point的位置呢？
??经过一方学习后，我找到了这个答案。在IOS中，anchorPoint点的值是用一种相对bound的比例值来确定的。意思是说，在相框形成的单元坐标左上角、右下角中，AnchorPoint分别为（0，0）、（1，1），同样的就可以得到中心点、左下角和右上角的AnchorPoint为(0.5,0.5), (0,1), (1,0)。
如下图所示：

在这里插入图片描述

? ??（注意：iOS使用左手坐标系，坐标原点在左上角，MacOS使用右手坐标系，原点在左下角）如下图所示：
在这里插入图片描述

以下一张图片对Anchor point的移动进行讲解：

在这里插入图片描述

在我看来这张图的意思大概可以讲解为如下：
??原图（蓝色框）的锚点在（0.5，0.5）处，现在将它的锚点移到（0，0）位置，也就是原图的左上方的点（红色箭头所指位置），就相当于将整张图像”向左上方滑动“直到移动的图像的锚点与原图（0，0）位置重合，滑动后在原图左上方复制一个一模一样大小的视图（橙色框）。

2.再来介绍下什么叫DETR

? ??DETR通过将常见的CNN与transformer架构相结合，直接（并行）预测最终的检测结果。在训练期间，二分匹配将唯一的预测分配给GT框。不匹配的预测应产生“无对象”类预测。
? ??DETR的流程大为简化，可以归结如下：Backbone -> Transformer -> detect header。
??其中，Backbone：主干网络，用于对图像进行特征提取，生成对应的feature map后，传递给后面的网络使用。
??Transformer：基于self—attention的模型，一般用于处理图像、语义问题，因为已经分布过一次笔记这里就不多介绍了。详细的可以看：(29条消息) Transformer学习笔记：_风声向寂的博客-CSDN博客
??detect header：后续连接的网络层，主要是服务于detection任务。
??下面给大家举个图片例子：

在这里插入图片描述

3.Anchor Detr

? ??Anchor Detr基于Transformer的目标检测器。在以前基于Transformer的检测器中，目标的查询是一组可学习的embedding。
??然而，每个可学习的embedding都没有明确的意义（因为是随机初始化的），所以也不能解释它最终将集中在哪里。此外，由于每个对象查询将不会关注特定的区域，所以训练时优化也是比较困难的。为了解决这些问题，大佬们借鉴了CNN目标检测器中的Anchor Point机制，使得每个查询都基于特定的Anchor Point的，使每个查询都可以集中在Anchor Point附近的目标上。
??此外大佬们还使用了一种轻量级的attention变体（行列解耦注意），减少attention的计算成本。

以下是其结构:

在这里插入图片描述