开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 拟合++++ -> 正文阅读

[人工智能]拟合++++

1、偏差bias: 偏差是指预测结果与真实值之间的差异，排除噪声的影响，偏差更多的是针对某个模型输出的样本误差，偏差是模型无法准确表达数据关系导致，比如模型过于简单，非线性的数据关系采用线性模型建模，偏差较大的模型是错的模型；
2、方差variance: 模型方差不是针对某一个模型输出样本进行判定，而是指多个(次)模型输出的结果之间的离散差异， 注意这里写的是多个模型或者多次模型，即不同模型或同一模型不同时间的输出结果方差较大。方差是由训练集的数据不够导致，一方面量 (数据量) 不够，有限的数据集过度训练导致模型复杂，另一方面质(样本质量)不行，测试集中的数据分布未在训练集中，导致每次抽样训练模型时，每次模型参数不同，输出的结果都无法准确的预测出正确结果。

1、欠拟合（高偏差）

1.1解决方法：

增加特征维度（简单的方法就是加深模型深度）

2、过拟合（高方差）

2.1解决方法

（1）增加数据：

增加数据量/使用数据增强等方法（如mixup，马赛克增强等）

（2）使用合适的模型

减少网络层数、神经元个数等限制网络的拟合能力

（3）使用dropout

dropout代码：

import numpy as np
def dropout(x,p):
    if p<0 or p>1:
        raise  Exception('P must be in [0,1]')
    retain_prob=1-p
    mask=np.random.binomial(n=1,p=retain_prob,size=x.size)
    x*=mask
    x/=retain_prob
    return x

dropout为什么可以避免过拟合

（1）取平均的作用：先回到正常的模型（没有dropout），我们用相同的训练数据去训练5个不同的神经网络，一般会得到5个不同的结果，此时我们可以采用 “5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。（例如 3个网络判断结果为数字9,那么很有可能真正的结果就是数字9，其它两个网络给出了错误结果）。这种“综合起来取平均”的策略通常可以有效防止过拟合问题。因为不同的网络可能产生不同的过拟合，取平均则有可能让一些“相反的”拟合互相抵消。dropout掉不同的隐藏神经元就类似在训练不同的网络（随机删掉一半隐藏神经元导致网络结构已经不同)，整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合，一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。

（2）减少神经元之间复杂的共适应关系：**因为dropout导致两个神经元不一定每次都在一个dropout网络中出现。（这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况）。迫使网络去学习更加鲁棒的特征（这些特征在其它的神经元的随机子集中也存在）。**换句话说假如我们的神经网络是在做出某种预测，它不应该对一些特定的线索片段太过敏感，即使丢失特定的线索，它也应该可以从众多其它线索中学习一些共同的模式（鲁棒性）。（这个角度看 dropout就有点像L1，L2正则，减少权重使得网络对丢失特定神经元连接的鲁棒性提高）

（3）（不一定对，听个乐就行）Dropout类似于性别在生物进化中的角色：物种为了生存往往会倾向于适应这种环境，环境突变则会导致物种难以做出及时反应，性别的出现可以繁衍出适应新环境的变种，有效的阻止过拟合，即避免环境改变时物种可能面临的灭绝。

dropout的使用流程

1.仅在训练时使用，测试时不用
2.训练时：（以 inverted dropout为例）
前向：利用伯努利分布，随机生成一个只包含0，1的mask矩阵p（丢弃的概率），然后利用这个mask去乘上输入，得到的就是dropout后的结果，再除以（1-9）
反向：根据mask求对应梯度

dropout为什么要除1-p

当模型使用了dropout后，训练的时候只有占比为1-p的隐藏层单元参与训练，而当预测的时候，所有的隐藏层单元都需参与进来的，最终就会导致预测结果比训练时平均大 $\frac{1}{1-p}$ ,为避免此类情况，需要将前向输出结果乘以\frac{1}{1-p}$以保证下一层的输入规模不变。

而使用了inverted dropout，可以在训练的时候直接将dropout后的权重扩大 $\frac{1}{1-p}$ 倍,从而使得预测结果维度不变，使得预测时无需额外操作。

数学分析：
设dropout选择系数为p，那么该层大约会有比例为p的单元会被抛弃，即我们可以将每一次dropout视作为依次伯努利实验，故而该层的dropout服从伯努利分布，而分布的期望就是np， $z^{L}=w^{L}*a^{L-1}+b^{L}$ ，即当 $L ? 1$ 层有比例为p的单元drop后， $a^{L-1}$ 层的期望会变大为原有的p倍，为保证 $L$ 层的输入期望 $Z$ 不变，则需要将 $a^{L-1}$ 与dropout矩阵乘积后，除以 $1 ? p$ ，即扩大 $\frac{1}{1-p}$ 倍