SNUNet-CD: A Densely Connected Siamese Network for Change Detection of VHR Images
该论文受DenseNet and NestedUNet启发,设计了一个类似于DenseNet的结构。提出该结构的原因是:一方面该结构可以很好的提取高阶特征,另一方面,该结构可以很好的结合浅层特征和高阶特征的优点。 因为在利用神经网络提取图片特征时,往往提取到的高阶特征有着较为丰富的语义信息,但是提取高阶特征往往伴随着下采样(尺寸缩小)导致位置信息丢失或者误差较大,简单的上采样方式无法恢复位置信息,而浅层特征往往能够保留较为精准的位置信息。
论文原话:Many studies indicate that shallow layers of the neural network contain fine-grained localization information, while deep layers contain coarse-grained semantic information.
为什么要关注位置信息: 因为变化检测最终得到的是关于每个像素是否变化的差异图,故位置信息不可以丢失,负责会导致得到的差异图无法和原像素对应。 注: 举个简单的例子,下图是一个3层神经网络,通过卷积层Conv1、Conv2得到的特征F1、F2便可以认为是浅层特征,通过卷积层Conv3得到的特征Out便可以认为是深层特征。已知随着网络的深入,得到的深层特征所具有的语义信息越来越好,但是,因为卷积层Conv1、Conv2得到的F1尺寸比input小、F2尺寸比F1小(存在下采样)故可能会影响位置信息。 同时,因为要结合浅层特征和高阶特征,作者在channel attention module (CAM)的基础上提出了ECAM,该模块可以更好的去选择信息从而更好地结合浅层特征和高阶特征。
一、Introduction
变化检测有两大困难:一是“非语义变化”,例如由摄像机运动、传感器噪声或光线变化引起的变化。变化检测的另一个困难是,“变化”的定义可能会因应用和人的主观意识而有所不同。例如,在许多情况下,如图1所示,从不同季节获得双时间图像。
“变化”被定义为建筑物和汽车等人造设施的变化,而季节变化被视为干扰因素。因此,许多传统的变化检测方法,如图像差分、变化向量分析(CVA)[2]和PCA&Kmeans[3]等,可以在一些简单场景中获得有效结果,但在这些复杂场景中往往表现不佳.
近年来,许多用于场景分割的神经网络技术和组件已被用于变化检测任务,以提取更深层的表示。首先,U-Net[4]率先建立基准模型;然后,使用暹罗网络并成为变化检测的标准方法[5]–[11]。为了提高变化检测的性能,人们在深度特征提取和细化方面做了大量工作。[10]中,金字塔模型用于提取多尺度特征;在[9]和[12]中,深度监督用于增强浅层特征的表示和识别能力;注意机制用于细化特征并获得更好的特征表示,如[9]中的空间和通道注意、[10]中的自我注意和[11]中的双重注意等。
尽管这些方法已经取得了实际成功,但一个常见的问题是,连续下采样会导致准确的空间位置信息丢失,这通常会导致改变目标边缘的像素不确定性和小目标的确定失误,如图1(d)所示。许多研究[4]、[13]–[15]表明,神经网络的浅层包含细粒度定位信息,而深层包含粗粒度语义信息。
二、网络结构+损失函数
1.网络总体结构
注: 该网络结构图还少了一部分,即通过(b) Ensemble Channel Attention Module模块后得到的特征还需要通过一个1x1的卷积层得到一个二通道的特征图。即SNUNet-CD包含3个部分1.Backbone of SNUNet-CD、2.Ensemble Channel Attention Module、3.一个1x1的卷积层
a. Backbone of SNUNet-CD
设图中节点 Xi,j的输出为xi,j,则xi,j的计算表达式如下: 函数H(·)表示卷积块的操作。函数P(·)表示用于下采样的2×2最大池操作。函数U(·)表示使用转置卷积的上采样。[ ]表示通道维度上的连接,旨在融合特征。
当j=0时,编码器向下采样并提取特征;当j>0时,密集跳过连接机制开始工作,编码器中的细粒度特征被连续传输到深度解码器。 注: 公式中没有包含i=0,j=0的情况,通过阅读代码,XA0,0 和XB0,0 的计算过程为XA0,0 =H(inputA)、XB0,0 =H(inputB)。
个人觉得结合源码和公式更容易明白计算过程。以下为部分源码:
class conv_block_nested(nn.Module):
def __init__(self, in_ch, mid_ch, out_ch):
super(conv_block_nested, self).__init__()
self.activation = nn.ReLU(inplace=True)
self.conv1 = nn.Conv2d(in_ch, mid_ch, kernel_size=3, padding=1, bias=True)
self.bn1 = nn.BatchNorm2d(mid_ch)
self.conv2 = nn.Conv2d(mid_ch, out_ch, kernel_size=3, padding=1, bias=True)
self.bn2 = nn.BatchNorm2d(out_ch)
def forward(self, x):
x = self.conv1(x)
identity = x
x = self.bn1(x)
x = self.activation(x)
x = self.conv2(x)
x = self.bn2(x)
output = self.activation(x + identity)
return output
class up(nn.Module):
def __init__(self, in_ch, bilinear=False):
super(up, self).__init__()
if bilinear:
self.up = nn.Upsample(scale_factor=2,
mode='bilinear',
align_corners=True)
else:
self.up = nn.ConvTranspose2d(in_ch, in_ch, 2, stride=2)
def forward(self, x):
x = self.up(x)
return x
class ChannelAttention(nn.Module):
def __init__(self, in_channels, ratio = 16):
super(ChannelAttention, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.max_pool = nn.AdaptiveMaxPool2d(1)
self.fc1 = nn.Conv2d(in_channels,in_channels//ratio,1,bias=False)
self.relu1 = nn.ReLU()
self.fc2 = nn.Conv2d(in_channels//ratio, in_channels,1,bias=False)
self.sigmod = nn.Sigmoid()
def forward(self,x):
avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
out = avg_out + max_out
return self.sigmod(out)
class SNUNet_ECAM(nn.Module):
def __init__(self, in_ch=3, out_ch=2):
super(SNUNet_ECAM, self).__init__()
torch.nn.Module.dump_patches = True
n1 = 32
filters = [n1, n1 * 2, n1 * 4, n1 * 8, n1 * 16]
self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
self.conv0_0 = conv_block_nested(in_ch, filters[0], filters[0])
self.conv1_0 = conv_block_nested(filters[0], filters[1], filters[1])
self.Up1_0 = up(filters[1])
self.conv2_0 = conv_block_nested(filters[1], filters[2], filters[2])
self.Up2_0 = up(filters[2])
self.conv3_0 = conv_block_nested(filters[2], filters[3], filters[3])
self.Up3_0 = up(filters[3])
self.conv4_0 = conv_block_nested(filters[3], filters[4], filters[4])
self.Up4_0 = up(filters[4])
self.conv0_1 = conv_block_nested(filters[0] * 2 + filters[1], filters[0], filters[0])
self.conv1_1 = conv_block_nested(filters[1] * 2 + filters[2], filters[1], filters[1])
self.Up1_1 = up(filters[1])
self.conv2_1 = conv_block_nested(filters[2] * 2 + filters[3], filters[2], filters[2])
self.Up2_1 = up(filters[2])
self.conv3_1 = conv_block_nested(filters[3] * 2 + filters[4], filters[3], filters[3])
self.Up3_1 = up(filters[3])
self.conv0_2 = conv_block_nested(filters[0] * 3 + filters[1], filters[0], filters[0])
self.conv1_2 = conv_block_nested(filters[1] * 3 + filters[2], filters[1], filters[1])
self.Up1_2 = up(filters[1])
self.conv2_2 = conv_block_nested(filters[2] * 3 + filters[3], filters[2], filters[2])
self.Up2_2 = up(filters[2])
self.conv0_3 = conv_block_nested(filters[0] * 4 + filters[1], filters[0], filters[0])
self.conv1_3 = conv_block_nested(filters[1] * 4 + filters[2], filters[1], filters[1])
self.Up1_3 = up(filters[1])
self.conv0_4 = conv_block_nested(filters[0] * 5 + filters[1], filters[0], filters[0])
self.ca = ChannelAttention(filters[0] * 4, ratio=16)
self.ca1 = ChannelAttention(filters[0], ratio=16 // 4)
self.conv_final = nn.Conv2d(filters[0] * 4, out_ch, kernel_size=1)
for m in self.modules():
if isinstance(m, nn.Conv2d):
nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
elif isinstance(m, (nn.BatchNorm2d, nn.GroupNorm)):
nn.init.constant_(m.weight, 1)
nn.init.constant_(m.bias, 0)
def forward(self, xA, xB):
'''xA'''
x0_0A = self.conv0_0(xA)
x1_0A = self.conv1_0(self.pool(x0_0A))
x2_0A = self.conv2_0(self.pool(x1_0A))
x3_0A = self.conv3_0(self.pool(x2_0A))
'''xB'''
x0_0B = self.conv0_0(xB)
x1_0B = self.conv1_0(self.pool(x0_0B))
x2_0B = self.conv2_0(self.pool(x1_0B))
x3_0B = self.conv3_0(self.pool(x2_0B))
x4_0B = self.conv4_0(self.pool(x3_0B))
x0_1 = self.conv0_1(torch.cat([x0_0A, x0_0B, self.Up1_0(x1_0B)], 1))
x1_1 = self.conv1_1(torch.cat([x1_0A, x1_0B, self.Up2_0(x2_0B)], 1))
x0_2 = self.conv0_2(torch.cat([x0_0A, x0_0B, x0_1, self.Up1_1(x1_1)], 1))
x2_1 = self.conv2_1(torch.cat([x2_0A, x2_0B, self.Up3_0(x3_0B)], 1))
x1_2 = self.conv1_2(torch.cat([x1_0A, x1_0B, x1_1, self.Up2_1(x2_1)], 1))
x0_3 = self.conv0_3(torch.cat([x0_0A, x0_0B, x0_1, x0_2, self.Up1_2(x1_2)], 1))
x3_1 = self.conv3_1(torch.cat([x3_0A, x3_0B, self.Up4_0(x4_0B)], 1))
x2_2 = self.conv2_2(torch.cat([x2_0A, x2_0B, x2_1, self.Up3_1(x3_1)], 1))
x1_3 = self.conv1_3(torch.cat([x1_0A, x1_0B, x1_1, x1_2, self.Up2_2(x2_2)], 1))
x0_4 = self.conv0_4(torch.cat([x0_0A, x0_0B, x0_1, x0_2, x0_3, self.Up1_3(x1_3)], 1))
out = torch.cat([x0_1, x0_2, x0_3, x0_4], 1)
intra = torch.sum(torch.stack((x0_1, x0_2, x0_3, x0_4)), dim=0)
ca1 = self.ca1(intra)
out = self.ca(out) * (out + ca1.repeat(1, 4, 1, 1))
out = self.conv_final(out)
return (out, )
b.Ensemble Channel Attention Module
该模块的过程还是挺好理解的,在此不做过多解释。
作者提出该模块目的是为了实现最终低级和高级特征的自然聚合,并抑制深度监督的语义差距。
c.1x1卷积层
当通过得到和输入图像尺寸一样大的特征图后,便是如何通过特征图得到最终的差异图,主要有两种方法: 1.基于分类的方法:变化检测可以看为分类问题,一般方法是为图像的每个像素点分配更改分数,其中变化像素点的分数高于未变化像素点的分数。
这种情况下,网络一般输出的是一个双通道的特征图,第一个通道代表像素点为0的概率,第二个通道代表像素点为1的概率。Pytroch中可以通过torch.argmax()来获得差异图。
2.基于度量的方法:需要学习一种度量方法,使得通过这种度量方法让未变化的像素点距离变近、变化的像素点距离变远。常用的损失函数有contrastive loss 和 triplet loss。其中因为triplet loss利用了像素之间的空间信息,所以triplet loss比contrastive loss好。
这种情况下往往通过欧式距离得到一个单通道的表示特征之间距离的特征图,可以通过阈值分割的方法得到最终的差异图。
这里作者采用了第一种方法,故在b.Ensemble Channel Attention Module后面添加了一个1x1的卷积层用来将得到的特征图的通道数变成2.
2.损失函数
论文中选择了两个损失函数Focal loss 和Dice loss的和来作为损失函数。关于这个损失函数如何计算,由于论文没有写明白,后续阅读完损失函数代码后再做详细说明。
三、实验结果
1.消融实验
这里的n和源码中的n1相对应。
在描述GPU的性能的时候,我们常常用到FLOPS进行描述。FLOPS是Floating-point Operations Per Second的简写,即每秒所能够进行的浮点运算数目(每秒浮点运算量). Flops的理解
2.对比实验
3.可视化结果
在ECAM之后,我们使用热图来可视化特征图。从所有特征图的方差中获得热图。通过ECAM,改变区域获得更高的能量,并且目标边缘处的能量更强。换言之,改变后的目标的边缘得到了增强和更精确地定位,从而提高了检测性能。
|