[人工智能] 深度学习神经网络

文章目录

基础知识
卷积神经网络 Convolutional Neural Network CNN
其他网络结构的主干结构：高级cnn
问题
- 0. 神经网络的层数
- 1. 为什么神经网络要用多层？

基础知识

激活函数：引入非线性增加模型复杂度，不改变数据维度，a=激活函数(b) a、b维度一样

取值[0,1]，如leru取值[0,正无穷)可归一化成[0,1]，符合概率特点

为什么要引入？

线性函数只能进行线性划分，不能解决复杂的：如异或xor问题。
多层网络都能化成一层，为了增加复杂度；
在这里插入图片描述

sigmoid函数：取值 [0,1]

sigmoid函数：函数值处于[0,1]，单调递增，且导数为饱和函数。只要满足三个条件，就是sigmoid函数，有很多种，如下图

其中最出名的是logistic函数【可见我的逻辑斯蒂回归博文，是因为正太分布而产生的函数】，直接把它叫做sigmoid函数：取值[0,1]，导数取值[0,0.25]

relu：倒数函数不连续取值[0,正无穷]，导数取值0或1

softmax

\hat{y_i}=p(y=i)=\sigma(i)=\frac{e^{{z_i}}}{\sum\limits_j^{n-1}{e^{{z_j}}}}\\ n个类，z=wx+b，\hat{y}=\sigma(z)，\hat{y_i}为对是属于i类的预测结果\\

多分类时，需要对每个类别输出的概率满足：

p_i>0，且\sum{p_i}=1

y的标签编码方式为one-hot【只有一个是1，其余是0，因为最终结果只可能属于某一个类，标签的one-hot算法完成的，输入仍为原始标签】

为什么引入？

第一，节省计算量：采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。
第二，防止simoid反向传播时出现的梯度消失。对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），从而无法完成深层网络的训练。
第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生

如何用？：多层神经网络的隐藏层

ReLU 主要用在神经网络中的隐藏层作为激活函数，很少用在输出层，输出层可用sigmoid或softmax等。

relu把负值全变成0，在隐藏层作为激活函数时，可造成网络的稀疏性，加快训练过程。在最后一层作为激活函数时，所有的负值都被丢掉，丢失了大量的信息，相当于把学到的结果丢了一半，此时再进行预测效果大打折扣。

sigmoid一般用于二分类最后一层，softmax用于多分类最后一层。

选定优先级

relu>tanh>sigmoid
后两个导函数为饱和函数（类似正太分布），有学习饱和问题：接近饱和区时，导数趋于0，这种情况会造成信息丢失
问题类型最后一层激活损失函数二分类问题 sigmoid binary_crossentropy多分类、单标签问题 softmax categorical_crossentropy多分类、多标签问题 sigmoid binary_crossentropy回归到任意值无 mse回归到0-1范围内的值 sigmoid mse或binary_crossentropy

损失函数

用真实值与预测值之间的差距【距离差距，分布差距】来指导模型收敛的方向。

凸函数？

平方差/均值平方差：凸函数
交叉熵（逻辑回归）：凸函数
神经网络：非凸函数

等高线

梯度的导数越大，越陡，走一步造成的高度差越大，等高线越密
在这里插入图片描述

损失函数是凸函数时

损失函数3D图

3D图等高线图，压缩到

\theta_1O\theta_2平面

：可知，中心处损失最低

设损失函数

y=f(x_1,x_2)

是个曲面，被平面c(为常数)所截曲线方程为：

y=f(x_1,x_2)\\ y=c\\

该曲线在

x_1Ox_2平面上投影为一条曲线：f(x_1,x_2)=c，即为y=f(x_1,x_2)在x_1Ox_2平面上的一条等高线：由上图可知，中心处损失最低

在等高线f(x_1,x_2)上任一点的切线斜率为：\frac{dx_2}{dx_1}\\ 且由上面隐函数求导可知：\frac{dx_2}{dx_1}=-\frac{f_{x_1}}{f_{x_2}}\\ 则在该处的法线斜率为：\frac{-1}{\frac{dx_2}{dx_1}}=\frac{-1}{-\frac{f_{x_1}}{f_{x_2}}}=\frac{f_{x_2}}{f_{x_1}}\\ 由上面梯度为：(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=\frac{\partial f}{\partial x_1}\vec{i} +\frac{\partial f}{\partial x_2}\vec{j}\\ 在x_1Ox_2平面的梯度方向为：\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}，并指向远离圆圈中心的方向【梯度方向是函数值增大的方向，对应的导数为正】

均值平方差（MSE）：真实值和预测值之间的距离的差距

对目标函数是sigmoid函数时，损失函数采用MSE的情况，其偏导值在输出概率值接近0或者接近1的时候非常小，这可能会造成模型刚开始训练时，偏导值几乎消失

J_{M S E}=\frac{1}{N} \sum_{i=1}^{N}\left(\hat{y}_{i}-y_{i}\right)^{2}

交叉熵：计算两个分布之间的差距

熵

熵反应了不确定度,熵越小，网络输出不确定性越小，估计越准确，网络学到了东西。
在这里插入图片描述

交叉熵

2、当所有输入x的输出都接近期望的输出y的话，交叉熵也会很小，接近于0

H=-\sum_{i} y_{i} \log \left(y_{i}^{\prime}\right)

y是真实分布，\hat{y}是预测分布

二项分布

参数更新优化方法：梯度下降

梯度消失和梯度爆炸：为网络层数太深而引发的梯度反向传播中的连乘效应

原因

前面层上的梯度是来自于后面层上梯度的乘乘积。当存在过多的层次时，就出现了内在本质上的不稳定场景，如梯度消失和梯度爆炸。

详细公式见下面的反向传播

y^L=w^L \cdot x^{L-1}+b^L\\ x^L=g(y^L)：激活函数\\ 倒数第二层的梯度：\\ \frac{\partial Loss}{\partial w^{L-1}}=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1}) \cdot x^{L-2} \\ \frac{\partial Loss}{\partial b^{L-1}}= \frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1})\\

梯度消失：深度网络中，采取了不合适的激活函数，导致学习不到东西。

反向传播时，得到非常小的对参数的导数 $\frac{\partial Loss}{\partial w^{L}}和\frac{\partial Loss}{\partial b^{L}}$ ，原因较小的值连乘 $\prod_{i=0}g'({y^{L+i}})$

经网络有很多层，每个隐藏层都使用Sigmoid函数作为激励函数时，很容易引起梯度消失的问题。
因为sigmoid导数是个饱和函数，形状类似正太分布，接近饱和区时，导数趋于0，由于bp的链式传导：

g'(y^{L+i})趋于0\\ g'(y^{L+{i-1}})，由于训练是逐渐逼近的，所以y^{L+1}在y^{L+2}附近，也趋于0\\

梯度爆炸：深度网络中，参数初始值相对预期过大，导致学习到的网络不稳定。

反向传播时，得到非常大的对 $\frac{\partial Loss}{\partial w^{L}}和\frac{\partial Loss}{\partial b^{L}}$ 的导数，原因较大的值连乘 $\prod_{i=1}w^{L+i}$ 【有较大的w初始值】

解决方法

Mini-batch 和batch

batch 批梯度下降

计算量开销大，计算速度慢，不支持在线学习
遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度

stochastic 随机梯度下降 sgd

速度比较快，但是收敛性能不好，两次参数的更新可能互相抵消，造成目标函数震荡剧烈。
 每一个数据就算一下损失函数，然后求梯度更新参数

Mini-batch 小批的梯度下降

折中手段，克服上面两种缺点
把数据分为若干个批，按批来更新参数，计算量不大，收敛性也不错。

参数更新优化方法：动量优化 Momentum

加快收敛速度，增加稳定性，摆脱局部最优的能力
把前几次的梯度也会参与当前的计算，借助之前的冲劲，步子迈得大一些。
如果当前梯度方向与历史梯度方向一致（表明不是异常点），增强该梯度。
如果当前梯度方向与历史梯度方向不一致（可能是异常点），减弱该梯度。

w\\ 梯度下降：△ w=\eta g【\eta 学习率】\\ 添加了Momentum的梯度下降：△ w_t=\eta g_t+\rho △w_{t-1}【t是迭代次数，\rho 冲量系数】 \\

反向传播

计算图：代码就是在构建计算图

更新非倒数第一层的参数时，重点是要计算倒数第一层总损失对输入的偏导： $\frac{\partial Loss}{\partial x^{L-1}}$ ，详细见下

公式+图

方程

反向传播时最后一层的导数：

\frac{\partial Loss}{\partial y^L}=\frac{\partial Loss}{\partial x^L} \cdot \frac{\partial x^L}{\partial y^L}=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\\ \frac{\partial Loss}{\partial w^L}=\frac{\partial Loss}{\partial y^L} \cdot \frac{\partial y^L}{\partial w^L}=\frac{\partial Loss}{\partial y^L} \cdot \frac{\partial (w^L \cdot x^{L-1}+b^L)}{\partial w^L}=\frac{\partial Loss}{\partial y^L} \cdot x^{L-1}=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L) \cdot x^{L-1}\\ \frac{\partial Loss}{\partial b^L}=\frac{\partial Loss}{\partial y^L} \cdot \frac{\partial y^L}{\partial b^L}=\frac{\partial Loss}{\partial y^L} \cdot \frac{\partial (w^L \cdot x^{L-1}+b^L)}{\partial b^L}=\frac{\partial Loss}{\partial y^L} \cdot 1=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\\ \frac{\partial Loss}{\partial x^{L-1}}=\frac{\partial Loss}{\partial y^L} \cdot \frac{\partial y^L}{\partial x^{L-1}}=\frac{\partial Loss}{\partial y^L} \cdot \frac{\partial (w^L \cdot x^{L-1}+b^L)}{\partial x^{L-1}}=\frac{\partial Loss}{\partial y^L} \cdot w^L=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\\

更新最后一层的参数

w^L=w^L-\eta \cdot \frac{\partial Loss}{\partial w^L}\\ b^L=b^L-\eta \cdot\frac{\partial Loss}{\partial b^L}\\

反向传播时倒数第二层的导数：

\frac{\partial Loss}{\partial y^{L-1}}=\frac{\partial Loss}{\partial x^{L-1}} \cdot \frac{\partial x^{L-1}}{\partial y^{L-1}}=\frac{\partial Loss}{\partial x^{L-1}} \cdot g^{\prime}(y^{L-1})=\frac{\partial Loss}{\partial y^L} \cdot w^L\cdot g^{\prime}(y^{L-1})=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1})\\ \frac{\partial Loss}{\partial w^{L-1}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot \frac{\partial y^{L-1}}{\partial w^{L-1}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot \frac{\partial (w^{L-1} \cdot x^{L-2}+b^{L-1})}{\partial w^{L-1}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot x^{L-2}=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1}) \cdot x^{L-2}\\ \frac{\partial Loss}{\partial b^{L-1}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot \frac{\partial y^{L-1}}{\partial b^{L-1}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot \frac{\partial (w^{L-1} \cdot x^{L-2}+b^{L-1})}{\partial b^{L-1}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot 1=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1})\\ \frac{\partial Loss}{\partial x^{L-2}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot \frac{\partial y^{L-1}}{\partial x^{L-2}}=\frac{\partial Loss}{\partial y^{L-1}} \cdot w^{L-1}=\frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1})\cdot w^{L-1}\\

更新倒数第二层的参数

w^{L-1}=w^{L-1}-\eta \cdot \frac{\partial Loss}{\partial w^{L-1}}=w^{L-1}-\eta \cdot \frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1}) \cdot x^{L-2} \\ b^{L-1}=b^{L-1}-\eta \cdot\frac{\partial Loss}{\partial b^{L-1}}=b^{L-1}-\eta \cdot \frac{\partial Loss}{\partial x^L} \cdot g^{\prime}(y^L)\cdot w^L\cdot g^{\prime}(y^{L-1})\\

代码

卷积神经网络 Convolutional Neural Network CNN

基础术语

感知机/神经元

指单层的神经网络，作为二元线性分类器。
感知机的输出是输入向量x与权重向量w求得内积后，经激活函数f所得到的标量。
在这里插入图片描述

通道

输入通道数

图像在输入时，黑白图像是单通道的（input_ch
annel=1），rgb（
彩色）是3通道的（input_channel=3）是三维：第一维的三个分别是红色分量、绿色分量和蓝色分量
在这里插入图片描述

输出通道数

上一层的输出通道数，是下一层的输入通道数
输出通道数＝卷积核数量
output_channel=filte_number

1个卷积核时，输入图片是RGB 3通道，卷积核是3通道，输出是1通道，这里的1通道是把3个通道的输出合并了，相当于通过求和操作把3个通道压成了1个通道

2个卷积核，得到输出通道数为2
在这里插入图片描述

卷积神经网络结构

卷积层：保存图像的空间信息

卷积核=filter滤波器=权值w：不减少信息的情况下，降低计算量

每个卷积核的通道数=输入数据的通道数：2维卷积核是三维的=(通道数,高,宽)，1维卷积核是3维的=(通道数,1,1)。
 卷积核的个数=输出数据的通道数。
 kernel_size指的是卷积核的高/宽：3=(3,3)或者(4,3) 一般宽=高，且为奇数

图像数据与卷积核（kennel）按照步长（stride length）相乘，得到图像特征（feature map）

卷积核具体的数值

卷积核的类型

1维卷积核 1*1

未损失信息的情况下，改变通道数量，降低计算量
1维卷积核是3维的=(通道数,1,1)：每个卷积核的通道数=输入数据的通道数
0.5,0.3,0.2都是信息融合时的权重，不一定一样
在这里插入图片描述

2维卷积核 h*w

2维卷积核是3维的=(通道数,高,宽)：每个卷积核的通道数=输入数据的通道数

输入数据与一个卷积核作用得到一个通道的输出数据

卷积的宽窄

窄卷积

宽卷积/padding

卷积的步长 stride length

stride=1

stride=2

stride=3

输出尺寸计算

(高,宽)=(\lfloor{\frac{in_h-kernel_h+2padding}{stride}}\rfloor,\lfloor{\frac{in_w-kernel_w+2padding}{stride}}\rfloor)

与全连接时区别

池化层/下采样层

作用

类型

max-pooling：最大值

average-pooling：均值

全连接层

其他网络结构的主干结构：高级cnn

Inception Module (初始模块）

多分支，每个分支最后得到的(batch_size,channel,h,w)中branc_size，h，w都一样
全连接神经网络是串行的，一层输出就是下一层输入net1->net2->…->net_n

Inception Module 结构

作用

超参数的选择：如二维卷积核的高宽，不知道哪个好，就都用一下，找到最优的，但是要保证数据的高宽一致
eg：一个55个卷积核，同两次33的卷积核

代码

ResidualBlock resnet 残差网络：解决神经网络的梯度消失

梯度消失问题

当网络较深时，效果会更差，因为如果梯度较小，经过多次相乘后得到的梯度趋于0，即没有学习到东西

resnet 结构

f(x)和x是在(batch_size,channel,h,w)四个维度都是一样的
 f(x)+x时，直接同位置元素相加

resnet怎么解决梯度消失问题

正常结构：x->f(x)->\sigma(f(x))=y\\ 正常结构的梯度：当\frac{\partial f}{\partial x}很小时，\frac{\partial Loss}{\partial x}很小，连乘导致趋于0\\ \frac{\partial Loss}{\partial x}=\frac{\partial Loss}{\partial y} \cdot \frac{\partial y}{\partial x}=\frac{\partial Loss}{\partial y} \cdot \frac{\partial y}{\partial \sigma} \cdot \frac{\partial \sigma}{\partial x}=\frac{\partial Loss}{\partial y} \cdot \frac{\partial y}{\partial \sigma} \cdot \frac{\partial \sigma}{\partial f} \cdot \frac{\partial f}{\partial x}\\ resnet结构：x->f(x)->f(x)+x->\sigma(f(x)+x)->y\\ resnet结构的梯度：当\frac{\partial f}{\partial x}很小时，\frac{\partial Loss}{\partial x}趋于1，连乘导致趋于1\\ \frac{\partial Loss}{\partial x}=\frac{\partial Loss}{\partial y} \cdot \frac{\partial y}{\partial x}=\frac{\partial Loss}{\partial y} \cdot \frac{\partial y}{\partial \sigma} \cdot \frac{\partial \sigma}{\partial x}=\frac{\partial Loss}{\partial y} \cdot \frac{\partial y}{\partial \sigma} \cdot \frac{\partial \sigma}{\partial f} \cdot (\frac{\partial f}{\partial x}+1)\\

resblock 代码

问题

0. 神经网络的层数

层数越多，学习能力越强，但是如果层数过多，会导致过拟合，连噪声也学习了。找到泛化和拟合的平衡。