SNUNet-CD: A Densely Connected Siamese Network for Change Detection of VHR Images

该论文受DenseNet and NestedUNet启发，设计了一个类似于DenseNet的结构。提出该结构的原因是：一方面该结构可以很好的提取高阶特征，另一方面，该结构可以很好的结合浅层特征和高阶特征的优点。
因为在利用神经网络提取图片特征时，往往提取到的高阶特征有着较为丰富的语义信息，但是提取高阶特征往往伴随着下采样（尺寸缩小）导致位置信息丢失或者误差较大，简单的上采样方式无法恢复位置信息，而浅层特征往往能够保留较为精准的位置信息。

论文原话：Many studies indicate that shallow layers of the neural network contain fine-grained localization information, while deep layers
contain coarse-grained semantic information.

为什么要关注位置信息： 因为变化检测最终得到的是关于每个像素是否变化的差异图，故位置信息不可以丢失，负责会导致得到的差异图无法和原像素对应。
注：举个简单的例子，下图是一个3层神经网络，通过卷积层Conv1、Conv2得到的特征F1、F2便可以认为是浅层特征，通过卷积层Conv3得到的特征Out便可以认为是深层特征。已知随着网络的深入，得到的深层特征所具有的语义信息越来越好，但是，因为卷积层Conv1、Conv2得到的F1尺寸比input小、F2尺寸比F1小（存在下采样）故可能会影响位置信息。
在这里插入图片描述
同时，因为要结合浅层特征和高阶特征，作者在channel attention module （CAM）的基础上提出了ECAM，该模块可以更好的去选择信息从而更好地结合浅层特征和高阶特征。

一、Introduction

变化检测有两大困难：一是“非语义变化”，例如由摄像机运动、传感器噪声或光线变化引起的变化。变化检测的另一个困难是，“变化”的定义可能会因应用和人的主观意识而有所不同。例如，在许多情况下，如图1所示，从不同季节获得双时间图像。
在这里插入图片描述

“变化”被定义为建筑物和汽车等人造设施的变化，而季节变化被视为干扰因素。因此，许多传统的变化检测方法，如图像差分、变化向量分析（CVA）[2]和PCA&Kmeans[3]等，可以在一些简单场景中获得有效结果，但在这些复杂场景中往往表现不佳.

近年来，许多用于场景分割的神经网络技术和组件已被用于变化检测任务，以提取更深层的表示。首先，U-Net[4]率先建立基准模型；然后，使用暹罗网络并成为变化检测的标准方法[5]–[11]。为了提高变化检测的性能，人们在深度特征提取和细化方面做了大量工作。[10]中，金字塔模型用于提取多尺度特征；在[9]和[12]中，深度监督用于增强浅层特征的表示和识别能力；注意机制用于细化特征并获得更好的特征表示，如[9]中的空间和通道注意、[10]中的自我注意和[11]中的双重注意等。

尽管这些方法已经取得了实际成功，但一个常见的问题是，连续下采样会导致准确的空间位置信息丢失，这通常会导致改变目标边缘的像素不确定性和小目标的确定失误，如图1（d）所示。许多研究[4]、[13]–[15]表明，神经网络的浅层包含细粒度定位信息，而深层包含粗粒度语义信息。

二、网络结构+损失函数

1.网络总体结构

在这里插入图片描述
注：该网络结构图还少了一部分，即通过（b) Ensemble Channel Attention Module模块后得到的特征还需要通过一个1x1的卷积层得到一个二通道的特征图。即SNUNet-CD包含3个部分1.Backbone of SNUNet-CD、2.Ensemble Channel Attention Module、3.一个1x1的卷积层

a. Backbone of SNUNet-CD

设图中节点 X^i,j的输出为x_i,j,则x_i,j的计算表达式如下：
在这里插入图片描述
函数H（·）表示卷积块的操作。函数P（·）表示用于下采样的2×2最大池操作。函数U（·）表示使用转置卷积的上采样。[ ]表示通道维度上的连接，旨在融合特征。

当j=0时，编码器向下采样并提取特征；当j>0时，密集跳过连接机制开始工作，编码器中的细粒度特征被连续传输到深度解码器。
注：公式中没有包含i=0，j=0的情况，通过阅读代码，X_A^0,0 和X_B^0,0 的计算过程为X_A^0,0 =H(inputA)、X_B^0,0 =H(inputB)。

个人觉得结合源码和公式更容易明白计算过程。以下为部分源码：

class conv_block_nested(nn.Module): # 公式中的H（·）
    def __init__(self, in_ch, mid_ch, out_ch):
        super(conv_block_nested, self).__init__()
        self.activation = nn.ReLU(inplace=True)
        self.conv1 = nn.Conv2d(in_ch, mid_ch, kernel_size=3, padding=1, bias=True)
        self.bn1 = nn.BatchNorm2d(mid_ch)
        self.conv2 = nn.Conv2d(mid_ch, out_ch, kernel_size=3, padding=1, bias=True)
        self.bn2 = nn.BatchNorm2d(out_ch)

    def forward(self, x):
        x = self.conv1(x)
        identity = x
        x = self.bn1(x)
        x = self.activation(x)

        x = self.conv2(x)
        x = self.bn2(x)
        output = self.activation(x + identity)
        return output


class up(nn.Module): # 上采样，有两种选择：线性上采样、反卷积
    def __init__(self, in_ch, bilinear=False):
        super(up, self).__init__()

        if bilinear:
            self.up = nn.Upsample(scale_factor=2,
                                  mode='bilinear',
                                  align_corners=True)
        else:
            self.up = nn.ConvTranspose2d(in_ch, in_ch, 2, stride=2)

    def forward(self, x):

        x = self.up(x)
        return x


class ChannelAttention(nn.Module): # CAM模块
    def __init__(self, in_channels, ratio = 16):
        super(ChannelAttention, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        self.fc1 = nn.Conv2d(in_channels,in_channels//ratio,1,bias=False)
        self.relu1 = nn.ReLU()
        self.fc2 = nn.Conv2d(in_channels//ratio, in_channels,1,bias=False)
        self.sigmod = nn.Sigmoid()
    def forward(self,x):
        avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
        max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
        out = avg_out + max_out
        return self.sigmod(out)



class SNUNet_ECAM(nn.Module):
    # SNUNet-CD with ECAM
    def __init__(self, in_ch=3, out_ch=2):
        super(SNUNet_ECAM, self).__init__()
        torch.nn.Module.dump_patches = True
        n1 = 32     # the initial number of channels of feature map
        filters = [n1, n1 * 2, n1 * 4, n1 * 8, n1 * 16]

        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)

        self.conv0_0 = conv_block_nested(in_ch, filters[0], filters[0])
        self.conv1_0 = conv_block_nested(filters[0], filters[1], filters[1])
        self.Up1_0 = up(filters[1])
        self.conv2_0 = conv_block_nested(filters[1], filters[2], filters[2])
        self.Up2_0 = up(filters[2])
        self.conv3_0 = conv_block_nested(filters[2], filters[3], filters[3])
        self.Up3_0 = up(filters[3])
        self.conv4_0 = conv_block_nested(filters[3], filters[4], filters[4])
        self.Up4_0 = up(filters[4])

        self.conv0_1 = conv_block_nested(filters[0] * 2 + filters[1], filters[0], filters[0])
        self.conv1_1 = conv_block_nested(filters[1] * 2 + filters[2], filters[1], filters[1])
        self.Up1_1 = up(filters[1])
        self.conv2_1 = conv_block_nested(filters[2] * 2 + filters[3], filters[2], filters[2])
        self.Up2_1 = up(filters[2])
        self.conv3_1 = conv_block_nested(filters[3] * 2 + filters[4], filters[3], filters[3])
        self.Up3_1 = up(filters[3])

        self.conv0_2 = conv_block_nested(filters[0] * 3 + filters[1], filters[0], filters[0])
        self.conv1_2 = conv_block_nested(filters[1] * 3 + filters[2], filters[1], filters[1])
        self.Up1_2 = up(filters[1])
        self.conv2_2 = conv_block_nested(filters[2] * 3 + filters[3], filters[2], filters[2])
        self.Up2_2 = up(filters[2])

        self.conv0_3 = conv_block_nested(filters[0] * 4 + filters[1], filters[0], filters[0])
        self.conv1_3 = conv_block_nested(filters[1] * 4 + filters[2], filters[1], filters[1])
        self.Up1_3 = up(filters[1])

        self.conv0_4 = conv_block_nested(filters[0] * 5 + filters[1], filters[0], filters[0])

        self.ca = ChannelAttention(filters[0] * 4, ratio=16)
        self.ca1 = ChannelAttention(filters[0], ratio=16 // 4)

        self.conv_final = nn.Conv2d(filters[0] * 4, out_ch, kernel_size=1)

        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
            elif isinstance(m, (nn.BatchNorm2d, nn.GroupNorm)):
                nn.init.constant_(m.weight, 1)
                nn.init.constant_(m.bias, 0)


    def forward(self, xA, xB):
        '''xA'''
        x0_0A = self.conv0_0(xA)
        x1_0A = self.conv1_0(self.pool(x0_0A))
        x2_0A = self.conv2_0(self.pool(x1_0A))
        x3_0A = self.conv3_0(self.pool(x2_0A))
        # x4_0A = self.conv4_0(self.pool(x3_0A))
        '''xB'''
        x0_0B = self.conv0_0(xB)
        x1_0B = self.conv1_0(self.pool(x0_0B))
        x2_0B = self.conv2_0(self.pool(x1_0B))
        x3_0B = self.conv3_0(self.pool(x2_0B))
        x4_0B = self.conv4_0(self.pool(x3_0B))

        x0_1 = self.conv0_1(torch.cat([x0_0A, x0_0B, self.Up1_0(x1_0B)], 1))
        x1_1 = self.conv1_1(torch.cat([x1_0A, x1_0B, self.Up2_0(x2_0B)], 1))
        x0_2 = self.conv0_2(torch.cat([x0_0A, x0_0B, x0_1, self.Up1_1(x1_1)], 1))


        x2_1 = self.conv2_1(torch.cat([x2_0A, x2_0B, self.Up3_0(x3_0B)], 1))
        x1_2 = self.conv1_2(torch.cat([x1_0A, x1_0B, x1_1, self.Up2_1(x2_1)], 1))
        x0_3 = self.conv0_3(torch.cat([x0_0A, x0_0B, x0_1, x0_2, self.Up1_2(x1_2)], 1))

        x3_1 = self.conv3_1(torch.cat([x3_0A, x3_0B, self.Up4_0(x4_0B)], 1))
        x2_2 = self.conv2_2(torch.cat([x2_0A, x2_0B, x2_1, self.Up3_1(x3_1)], 1))
        x1_3 = self.conv1_3(torch.cat([x1_0A, x1_0B, x1_1, x1_2, self.Up2_2(x2_2)], 1))
        x0_4 = self.conv0_4(torch.cat([x0_0A, x0_0B, x0_1, x0_2, x0_3, self.Up1_3(x1_3)], 1))

        out = torch.cat([x0_1, x0_2, x0_3, x0_4], 1)

        intra = torch.sum(torch.stack((x0_1, x0_2, x0_3, x0_4)), dim=0)
        ca1 = self.ca1(intra)
        out = self.ca(out) * (out + ca1.repeat(1, 4, 1, 1))
        out = self.conv_final(out)

        return (out, )

b.Ensemble Channel Attention Module

在这里插入图片描述
该模块的过程还是挺好理解的，在此不做过多解释。

作者提出该模块目的是为了实现最终低级和高级特征的自然聚合，并抑制深度监督的语义差距。

c.1x1卷积层

当通过得到和输入图像尺寸一样大的特征图后，便是如何通过特征图得到最终的差异图，主要有两种方法：
1.基于分类的方法：变化检测可以看为分类问题，一般方法是为图像的每个像素点分配更改分数，其中变化像素点的分数高于未变化像素点的分数。

这种情况下，网络一般输出的是一个双通道的特征图，第一个通道代表像素点为0的概率，第二个通道代表像素点为1的概率。Pytroch中可以通过torch.argmax()来获得差异图。

2.基于度量的方法：需要学习一种度量方法，使得通过这种度量方法让未变化的像素点距离变近、变化的像素点距离变远。常用的损失函数有contrastive loss 和 triplet loss。其中因为triplet loss利用了像素之间的空间信息，所以triplet loss比contrastive loss好。