一、深度学习三要素(data,operation,loss) 深度学习就是如何拟合数据的学科,神经网络有足够多的层或单元就可以拟合任何函数 data: the source of knowledge(supervision) operation: the space of growth(learning parameters),设计好定义函数空间,在初始化前提下,根据训练数据让函数逐渐接近数据想让他长成的样子 loss: the goal of fitting(final outputs),输出目标对齐
二、描述网络 Network shape layer: 层,相同神经元构成的整体 scale:尺度,the width and height of a layer-for input the original image size width: 宽度,the number of channels in a layer depth: 深度,the number of layers
Network complexity model size: 训练参数数量 model complexity:浮点数运算,FLOPs是计算量,FLOPS是运算时间 receptive:感受野,网路传至某一层时,在这一层中任何神经元能够看到输入至图像中多大的范围,看到的范围越大,该神经元表达的语义信息就越丰富。但神经元可能受到噪声影响,所以很敏感
三、神经网络 1,全连接神经网络Fully-connected Neurons input: WxHxDx output: WyHyDy connectivity:every pair of neurons in X and Y is connected parameters: WxHxDxWyHyDy FLOPs: WxHxDxWyHyDy Peceptive field size:Wx*Hx
2,Lenet 卷积核:33最合适(22,11太小,44,55太大) padding:边界点周围虚拟点以保证边界点 pooling:同一channel内进行(平移不变性),有两种方式:max,mean 感受野:11,55,66,1414,1616,3232 till the end 第一层卷积:55 第二层卷积:6*6
深度加深使神经元组合成指数级增长,宽度加宽只是现象级增长 在构建网络时,经历重复网络结构;自动设计网络automatic 数据增强很有用,对深度,非深度都适用 CNN中倾向于小滤波器,更深的网络结构 CNN中小数据集网络微调可以极大的提升性能 CNN方法远远好于非深度学习方法
四、分类 1,分类 卷积与全连接之间加SPP层(空间金字塔池化Spatial Pyramid Pooling) 数据增强很有用,对深度,非深度都适用 CNN中倾向于小滤波器,更深的网络结构 CNN中小数据集网络微调可以极大的提升性能 CNN方法远远好于非深度学习方法
2,检测 1)主要思想是基于区域的卷积神经网络特性提取与分类 2)步骤: imput image------Extract region proposals(提出候选区域)----- compute CNN features------- classify region 3)代表: speed first: SSD Balance speed and accuracy: R-FCN accuraccy fist: Faster RCNN
3,分割 1)分类(由容易到难): 语义分割:表示出车辆总区域 实例分割:不同车辆不同区域 全景分割:不同车辆且不同背景物体分开 2)代表: Graph Cut 图割算法 全景、背景分割 出发点:整幅图像每个像素看作一个节点,两个像素间的关系如灰度、距离看作节点间的相似性 目的:划分出具有代表意义的全景与背景区域 假设前提:全景区域与背景区域在空间位置及颜色上有非常大的差别,希望建立能量最小化函数及图割函数寻找节点截断(带来的能量损失最小)
CRF-马尔可夫随机场 重要工作:对分割粗糙的全景图像进行校正,输出精确的特征 主要思想:构建影像图,把像素看作节点,通过不同节点相似性计算灰度或距离关系,通过条件随机场建模,寻求全景与背景的最优划分
|