[人工智能] 李宏毅深度学习笔记（三）—

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 李宏毅深度学习笔记（三）——调整模型的技巧 -> 正文阅读

[人工智能]李宏毅深度学习笔记（三）——调整模型的技巧

在训练神经网络的时候，如果没有得到好的结果，我们就需要使用一些特殊的技巧。下面分别讨论在两种不同的情况下，调整模型的方法。

1.训练集上得到的误差很大

如果模型在训练集上得到的误差就已经很大，说明可能是你没有选择合适的函数集或者是漏掉了最优解，针对这两种情况，可以选择两种改进方法。

（1）修改激活函数（activation?function）

在之前两篇文章中使用的激活函数是sigmoid函数，但是sigmoid函数的问题在于它对于输入的变化是不敏感的，也就是说，输入产生的变化对输出的影响是很小的。

于是，每经过一次sigmoid函数，输入的变化就会衰减一次，在经过很多层Hidden?Layer之后，输入对于输出的结果就几乎没有什么影响了。这会导致我们的训练误差偏大。

选用其他的激活函数可以解决这个问题。

ReLU：在z<0时，函数值为0；在z>0时,函数值等于输入。这样z<0的部分对于整个神经网络没有影响，z>0的部分，函数是线性的， $\Delta a=\Delta z$ ，解决了衰减的问题。

Maxout：把原本要作为激活函数的输入的值进行分组（分组的方式和数量人为指定），取每组的最大值作为输出。

这样的结构代表了激活函数的形式是可学习的。它能包含许多函数形式在内，包括ReLU。下图展示了Maxout如何实现与ReLU相同的效果。

?当然，Maxout也可以实现更多的函数形式。这些函数都是分段的，并且每一段都是线性的。

但是有一个问题，这样的激活函数是不能微分的，那么如何使用梯度下降的方法训练这样的神经网络呢？答案是如果每次只使用分段函数的一段就可以避免这个问题。我们注意到，在取max之后，只有一个神经元的输入发挥了作用。这意味着，对于一组固定的输入而言，删去那些没有被用到的神经元对整个神经网络的学习是没有影响的，激活函数等同于一个线性的函数。所以在训练的时候只需要考虑这些发挥作用的神经元的参数即可。

如下图所示，在训练过程中，针对输入x1和x2，第一层只有 $z_{1}^{1}$ 和 $z_{4}^{1}$ 发挥了作用，此时相当于删除了神经元 $z_{2}^{1}$ 和 $z_{3}^{1}$ ，激活函数是 $\sigma(z)=z$ 。这样我们就能像处理一般的神经网络一样，使用Backpropagation训练参数。