[人工智能] FPN-Feature Pyramid NetWorks

自底向上 Botton-up pathway：建立图像多层金字塔，基于特征提取的神经网络，对于相互链接的拥有相同尺寸的特征图输出的层作为一个stage。从最后一层有效特征图开始，最后一层算一层特征图，特征图长宽每增加一倍，则从相应的stage中取得最深的那层特征图输出作为一层特征图，从而建立特征金字塔。文中以ResNets为例进行了说明。

自顶向下的融合 Top-down pathway and lateral connections：对于建立好的特征金字塔，先进行1*1的卷积得到一个特征图与比其更小的那层特征图利用最近邻采样法进行放大2倍后的图像进行元素相加得到这一层的特征图。对于最顶层，则直接是1*1的卷积之后得到特征图。对每一层特征图再进行一个3*3的卷积从而得到最终使用的特征图。其中1*1卷积即为lateralconnections。

具体结构可以看参考1，以Resnet为例画出来了，清晰明了。

如何使用FPN结构？

1、在目标检测中如何使用？

主要是对RPN步骤进行改进，对于RPN中单个尺寸的特征图，更换为通过FPN得到多尺寸特征图，相对于RPN的3个尺寸3个长宽比e的9个anchor，FPN用五个尺度的特征图用三种长宽比的15个anchor。长宽比1：2、1：1、2：1，尺寸32^2、64^2、128^2、256^2、512^2.head是3*3的对特征图的卷积，然后是1*1的滑动窗口取得anchor。文中还对anchor是能对应到源图像各种尺寸进行了说明。

与目标IOU大于0.7的为正样本，小于0.3的为负样本进行训练；

对于head的参数文中使用了多个尺度的特征图进行共享的方式和每个特征图都有一个自己head结果的方式，发现两种方式的准确率很相似。共享的方式效果还可能更好，这就证明尺度虽多但是表达予以的方式应该是差不多，所以最后用了这种共享head参数的方式，也就是说一个分类器对各个尺度的anchor分类就可以满足要求。

在共享head的基础上，ROI pooling得到7*7的特征，后面链接两个1024-d的加Relu的全连接层，再后面是跟着box和class的预测结果。全连接层而不是卷积层文中说是更快更轻量级在后面实验中证明也能取得更好的效果。

基于Faster-RCNN改进了RPN环节之后作为目标检测的例子，进一步证明了top-down结构、lateral connections 和多尺度anchor的必要性。其中很一点是说在多个尺度的特征图上取anchor有效果提升，但是在一个尺度的特征图上增加取多个尺度的的anchor提升不明显，对以后的实验是有帮助的。

2、在目标分割中如何使用？

使用方法基于DeepMask/SharpMask说明。该网络是用于实力分割中给出是否有物体的判断，如果有物体则进一步输出分割mask图像。原有方法是利用卷积层在图像中生产密集的候选框。

通过FPN的方法得到不同尺度特征图之后：对于预测有无物体利用128-d的向量进行计算。给了几种提取物体区域的处理方式的对比：1、对于特征图中5*5的区域提取出来，然后预测14*14的mask；2、对于特征图中7*7的区域提取出来，然后预测14*14的mask；3、方法1和2的结合；4、对于3中的方法预测mask分辨率提升为28*28；5、对于方法4在训练时用两倍的迭代次数。结果是方法1和2差不多，到3稍有提升，4比3稍有提升，5比4再稍有提升。但是从方法1开始已经比对比的DeepMask、sharpMask和InstanceFCN准确率都要好。