1.预备知识
编码器和解码器:
编码器结构: 编码器部分主要由普通卷积层和下采样层将特征图尺寸缩小,使其成为更低维的表征。目的是尽可能多的提取低级特征和高级特征,从而利用提取到的空间信息和全局信息精确分割。 解码器结构: 解码器部分主要由普通卷积、上采样层和融合层组成。利用上采样操作逐步恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成同尺寸输入输出。
随机丢弃层:
当一个复杂的前馈神经网络被训练在小的数据集时,容易造成过拟合。为了防止过拟合,可以通过阻止特征检测器的共同作用来提高神经网络的性能。Dropout可以作为训练深度神经网络的一种技巧供选择。在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用。 ?
?反池化:
上采样通常是两种方式,一种是通过插值的方式实现,另外一种是通过反卷积实现。这里引入第三种实现方式:反池化。
编码器中的每一个最大池化层的索引都存储了起来,用于之后在解码器中使用那些存储的索引来对相应特征图进行去池化操作。这有助于保持高频信息的完整性,但当对低分辨率的特征图进行反池化时,它也会忽略邻近的信息。 ?
?2.研究成果及意义
SegNet:
- 在内存(参数)和准确率之间找到了很好地平衡点
- 将编码解码结构普适化
- 在多个场景数据集中均取得了很好的结果
Segnet包含编码器和解码器,解码器上采样会利用编码期间用到的池化信息。Segnet在camvid数据上达到60.10的miou值,目前65-70算是尚可的模型,论文中有关实验的部分非常饱满。
个人概括SegNet要点:
- 编码解码结构
- 重用max_polling indices(池化索引)
DeconvNet提出深度反卷积网络,编码部分使用vgg16,解码器使用反卷积和反池化,训练是把图像一块一块区域的进行输入,需要一定人为的干预。
?
?
?参考:
B站深度之眼
|