这种过程得到的特征图中，可以认为其中每个点，都蕴含了原图中对应感受野的信息，所有其中每个点，就拥有了高语义的特点。但以Resnet50来说，如果输入的是224x224的图片，最后返回的是一个7x7的特征图，那么相对于原图片的空间信息就被压缩了，这种空间信息的压缩，是对语义的聚合，相对于对图像的概括能力，是有利于分类任务的进行的。

但对于像图像分割，目标检测的需要空间位置信息的任务来说，在7x7的特征图上，去预测224x224上的目标位置就会变得困难了。

针对这个问题，其实最简单的方法就是只要不在每个stage之间加入步幅为2的卷积来降分辨率就好了。但如果这么操作，确实是保留了空间信息，但会导致特征图的感受野不足，虽然通道维度上去了，其实特征图上的每个点的语义信息是不够的，特征提取能力有限。

Low-to-High

Low-to-High其实就是去还原空间信息的过程，而如何在还原空间的信息的同时，还把高维度的语义信息带回去呢。多尺度融合其实就是其中一个比较被认可的思路，下面就以FPN结构来讲解一下。

? ? ? ? ??

FPN结构，现在也比较广泛的用在主流的目标检测网络的backbone中，因为前面说过，224x224的图片，最后得到7x7的特征图，空间信息是不足以来预测位置信息的。但低维度的图的语义信息又不足。

那最直观的想法就是，将高维度的特征图上采样后和低维度的图，相加或者维度拼接（个人认为相加和维度拼接的效果差不多），那么即获得了高维度语义的信息，又融合了低维度的空间信息。

对于目标检测任务来说，使用FPN的多尺度融合特点，并在不同尺度上分别去预测不同尺寸的物体，去解决高语义信息空间信息不足，而富含空间信息的低特征图语义信息不足的问题。

二、HRNet

经过上面的介绍，应该对空间信息和语义信息有了大致的概念了。而HRNet的设计思想就是如何尽可能的去利用高语义特征图的语义信息，和空间信息丰富的低语义信息。其实从网络的结构图就可以看出，HRNet的设计方法，就是融合特征图来既提取高维特征又富有空间信息。?

? ? ??

整体HRNet的结构，可以分为网络开始的Stem层，并行提取特征层，负责语义空间信息交互的stage层，还有最后的输出头Head，下面就分解介绍一下。

网络开始层Stem

每个网络都有从原始图片到进入结构的初始阶段，像resnet中7x7的卷积+3x3的pooling层。在HRNet中，stem相对于一个特征提取的基底作用，在开始就采用了和resnet中bottleneck一样的残差结构来提取原始特征图的特征。这里说原始特征图的原因是，后面的特征图都是基于这个特征图生成的，所以作者采用bottleneck的结构来保证原始特征图的质量是没有问题的。

? ? ? ??