开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习（第五章）5.深度学习 -> 正文阅读

[人工智能]机器学习（第五章）5.深度学习

机器学习（第五章）5.深度学习

5.1神经元模型

1.神经网络：神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

2.神经网络中最基本的成分是神经元模型，沿用至今的是**“M-P 神经元模型“，神经元收到来自n个其他神经元传递过来的输入信号**，这些输入信号通过带权重的连接(connection) 进行传递，神经元接收到的总输入值将与神经元的阀值进行比较，然后通过"激活函数” (activation function 处理以产生神经元的输出（通常是给下一个神经元）.
$y=f\left(\sum_{i=1}^{n} w_{i} x_{i}-\theta\right)=f\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)$

在这里插入图片描述

理想中的激活函数是图 5.2(a) 所示的阶跃函数，它将输入值映射为输出值0或者1，显然 “1” 对应于神经元兴奋，“0” 对应于神经元抑制。

但是，阶跃函数具有不连续，不光滑等不太好的性质，因此实际常 Sigmoid函数作为激活函数，又叫挤压函数

在这里插入图片描述

5.2感知机与多层网络

5.1.1感知机模型

感知机 (Perceptron) 由两层神经元组成，如下图所示，输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称"阈值逻辑单元" (threshold logic unit).
在这里插入图片描述

在这里插入图片描述

5.2.2感知机学习策略

在这里插入图片描述

5.2.3感知机学习算法

在这里插入图片描述

其中η∈(0,1)为学习率(learning rate) ,其中w通常不唯一，因为损失函数的最小值点不唯一，

5.3神经网络

5.3.1神经网络

像感知机这种单个神经元分类能力有限，只能分类线性可分的数据集，对于线性不可分的数据集，需考虑多个神经元构成的神经网络

下图这个两层感知机就能解决异或问题。输出层与输入层之见的一层神经元，被称为隐层或隐含层(hidden layer) ，隐含层和输出层神经元都是拥有激活函数的功能神经元.

在这里插入图片描述

更常见的是多层前馈神经网络：每层神经元与下一层神经元完全互连，神经元之间不存在同层连接，也不存在跨层连接。

在这里插入图片描述

方便求导，所以在前面乘了指数1/2，平衡掉指数带来的影响

5.3.2误差逆传播算法

1.误差逆传播算法（BP算法）：基于随机梯度下降的参数更新算法

在这里插入图片描述

2.下面以输入层第i个神经元与隐层第h个神经元之间的连接权Vih为例：

在这里插入图片描述

$\begin{array}{l} E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2}, \Delta v_{i h}=-\eta \frac{\partial E_{k}}{\partial v_{i h}} \\ \frac{\partial E_{k}}{\partial v_{i h}}=\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial \alpha_{h}} \cdot \frac{\partial \alpha_{h}}{\partial v_{i h}} \end{array}$

在这里插入图片描述
求出的是为梯度，基于梯度下降的参数更新算法，需要在加一个负号，再乘以学习率η，最终得

$\Delta v_{i h}=\eta e_{h} x_{i}$
同理：
$\Delta w_{h j}=\eta g_{j} b_{h}$

以及第一个阈值和第二个阈值
$\Delta \gamma_{h}=-\eta e_{h}\\ \Delta \theta_{j}=-\eta g_{j}$

其中
$\begin{array}{c} e_{h}=-\frac{\partial E_{k}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial \alpha_{h}} \\ =-\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} f^{\prime}\left(\alpha_{h}-\gamma_{h}\right) \\ =\sum_{j=1}^{l} w_{h j} g_{j} f^{\prime}\left(\alpha_{h}-\gamma_{h}\right) \\ =b_{h}\left(1-b_{h}\right) \sum_{j=1}^{l} w_{h j} g_{j} \end{array}$
学习本 ηε(0, 1) 控制着算沾每一轮迭代中的更新步长，太大则容易振荡，太小则收敛速度又会过过慢，常设置为 η=0. 1.有时为了精细调价，η在Vih和Whj的表达式中取值可以不一样。

3.标准 BP 算法工作流程

对每个训练样例， BP算法执行以下操作:

先将输入示例提供给输入层神经元，然后逐层将信号前传，直到产生输出层的结果;

然后计算输出层的误差(第 4-5 行) ，再将误差逆向传播至隐层神经元(第6行) ：

最后根据隐层神经元的误差来别连接权和阈值进行调整(第7行).

该法代过程循环进行，直到达到某些停止条件为止。

4.BP 算法的目标是要最小化训练集上的累积误差
$E=\frac{1}{m} \sum_{k=1}^{m} E_{k}$

但"标准 BP 算法"每次仅针对一个训练样例更新连接权和阈值，也就是说，上图算法的更新规则是基于单个的 Ek 推导而得，类似可以推导出基于累积误差最小化的更新规则，就得到了**“累积误差逆传播算法”**。

累积BP算法与标准BP 算法都很常用.

标准 BP 算法

每次更新只针对单个样例，而且参数更新得非常频繁，而且对不同样例进行更新的效果可能出现"抵消"现象.因此，为了达到同样的累积误差极小点标准 BP 算法往往需进行更多次数的迭代。

累积 BP 算法

直接针对累积误差最小化，它在读取整个训练集一遍后才对参数进行更新，其参数更新的频率低得多.但

在很多任务中，累积误差下降到一定程度之后，进一步下降会非常缓慢，这时标准 BP 往往会更快获得较好的解，尤其是在训练非常大时更明显。

5.有两种策略常用来缓解BP网络的过拟合.

早停：将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值.

正则化：其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接权与阔值的平方和.仍令Ek表示第k个训练样例上的误差，wi叫表示连接权和阈值，则误差目标函数E改变为
$E=\lambda \frac{1}{m} \sum_{k=1}^{m} E_{k}+(1-\lambda) \sum_{i} w_{i}^{2}$
其中 λε(0 1) 用于对经验误差与网络复杂度这两项进行折中，常通过交叉验证法来估计.