论文概要

展示了一种网络结构：包括一条收缩路径（用于特征提取）和一条对称的扩展路径（用于获取精确的像素定位）。

这种网络只需要很少的图像进行训练，并在 ISBI 分割挑战上超过了先前最好的方法。而且运行速度很快，在单显卡上分割一张512*512大小的图像仅需不到一秒。

1、介绍

分类是卷积神经网络的经典用途，其输出的结果是单一的类别标签。然而在生物医学图像处理中，输出应该包含每个像素的定位（即每个像素是属于什么类别）。

这时出现了一种滑动窗口的网络训练方法，使用每个像素周围的patch来作为输入进行训练。

优点：
1、可以定位
2、训练数据从patch的角度来说大于训练图像

缺点：
1、速度慢。网络需要分开训练每个patch，并且patch有很多重叠的部分。
2、有在定位正确率和背景使用上的权衡。大的patch需要更多的池化层，降低了定位准确率，小的patch只使用了很少的背景信息。

所以在本文中，我们又引入了一个更加优雅的结构：全卷积网络（fully convolutional network，没有全连接层）。本文作者在FCN基础上进行修改和扩展，就得到了u-net。

2、网络结构

Unet

包含一个收缩路径和一个扩展路径。

收缩路径类似于典型的卷积网络结构，包括两个3*3的无填充卷积和一个2*2的最大池化层。池化层作为下采样，在每次下采样中将特征通道数变为之前的2倍。

扩展路径包括一个2*2的上采样和两个3*3的卷积。上采样每次将特征通道数变为之前的1/2，并与收缩路径相应裁剪好的特征图进行拼接。

最后一层是一个1*1的卷积层，将64个特征向量映射为类别个数。

3、训练

使用到了一个 energy function，形式类似于交叉熵损失函数

在这里插入图片描述
使用 softmax 来计算第 k 类的最大似然函数 $p_k(x)$

在这里插入图片描述
上面的 $α_k(x)$ 表示在第 k 个特征通道的激活值

$w$ 表示一张权重图，说明哪些像素点在训练中更加重要

对于 $w (x)$ 的计算：

在这里插入图片描述
$d_1$ 表示距离最近的细胞边界的距离， $d_2$ 表示距离第二近的细胞边界的距离

一个好的权重初始值是很重要的。对于我们的网络结构，初始权重可以从一个标准差为 $\sqrt{2/N}$ 的高斯分布获得。

$N$ 表示一个神经元的输入节点数

3.1、数据增强

当数据较少时，数据增强在增强网络的不变性和鲁棒性上很重要。对于显微镜图像来说，主要需要平移、旋转的不变性、对于变形和灰度变换的鲁棒性。

可以用在3*3网格上的随机替换向量来生成形变，替换值可以在一个标准差为10像素的高斯分布中抽取。每个像素的替代是使用双三次插值法计算的

在收缩层最后的drop-out层进一步进行数据的增强

4、实验

u-net对于电子显微镜下神经元结构的分割效果：

在这里插入图片描述

在光学显微镜下细胞的分割效果（IOU用来表示两个物体的重合度）：

在这里插入图片描述

5、结论

u-net结构在不同的生物医学图像分割中获得了非常好的表现。由于数据的增强，它仅需较少的标注图像，并且有可以接受的训练时间。

个人总结

1、上采样和下采样的作用？

下采样用于缩小图像。上采样用于放大图像，主要有转置卷积、插值法。

在本论文中，卷积和下采样作为一个编码器，用于提取特征。卷积和上采样作为一个解码器，用于放大图像，从而对每个像素进行定位。

2、在网络中拼接的作用？

在进行下采样的过程中会丢失一些细节信息，可以拼接对应的图像来填补信息的缺失

参考资料

在阅读论文过程中，查阅了如下文章：

U-Net原理分析与代码解读：https://zhuanlan.zhihu.com/p/150579454?utm_id=0
上采样和下采样：https://blog.csdn.net/ytusdc/article/details/121452878
深度学习论文精读[2]：UNet网络：https://blog.csdn.net/weixin_37737254/article/details/125923940
Unet论文详解：https://blog.csdn.net/weixin_36474809/article/details/87931260