?通常我们会把整个样本数据集分成三部分，训练集，用来训练模型；验证集，用来验证不同算法的表现情况；测试集，用来作为算法的无偏估计。在数据量较少，如100，1000，10000时，可以设计为3：1：1，在数据量较大时，应设为98：1：1，数据量越大，训练集比例应当越高，此外我们需要保证训练集和测试集样本分布相同，保持统一来源。

还有一点，测试集可以不进行设置，因为测试集是用来展现算法的结果，我们使用训练集训练好模型后分别放在验证集上验证，然后分别在验证集上验证根据结果选择模型也是可以的，并不一定要进行无偏估计。

2 偏差和方差

1 概念

偏差和方差是机器学习领域必须解决的两个问题，传统机器学习中，它们对应着欠拟合和过拟合两个对立概念，但是在深度学习中，它们是两个独立的概念，我们需要同时降低这两个值以获得最优模型，下图是二维平面上高偏差，最优解，高方差的例子：

对于如上的二维特征，从图中可以很明显的看出来，但是对于无法绘制图像的高维特征，我们只能通过划分的数据集来判断，如果训练集误差为1%，验证集误差为11%，这说明模型对训练集效果好，对验证集较差，这说明出现了过拟合，从而导致模型泛化能力差，这就是高方差的体现；而如果训练集误差为15%，验证集误差为16%，这说明，模型出现了欠拟合情况，这是高偏差的体现；如果训练集误差为15%，验证集为30%，这就是最坏的情况，高偏差高方差的表现。

一般而言，训练集误差体现是否出现了偏差，验证集合误差体现是否出现了方差，更准确的来说，是训练集和验证集的相对差值体现了方差。?

2 如何避免出现方差和偏差

避免出现高偏差的方法：增加隐藏层个数，神经元个数，增加训练次数，选择更优的模型

避免出现高方差的方法：增加训练集数据，进行正则化，选择更优的模型

3 正则化

1 正则化的概念

上面我们提到了可以通过正则化减少过拟合情况，下面我们具体介绍一下这种方法：

我们在学习逻辑回归的时候，采用了L2正则化，具体表述如下所示

要注意的是由于w的维度一般很大，所以整个神经网络很大程度上由w决定，为了简便，我们通常忽略了对b的正则化。

?上图中没有参数平方处理的正则化被称为L1正则化，与L2正则化相比，L1正则化得到的w较稀疏，有很多参数是0，但是实际上L1在应用时并没有明显的优势，反而在微分求导时较为复杂，因此不常使用。

在正则化中的 $\lambda$ ?参数就是超参数，我们通过试验确定最优的参数。

在深度学习中，L2正则化的表达式为：

公式里的 $\left \| w^{[l]} \right \|^{2}$ ?被称为Frobenius范数，一个矩阵的Frobenius范数就是所有元素平方和的平方根，由于加入了正则化，因此梯度下降算法中的w更新公式要修改为：

L2正则化再加入正则化之后会使梯度下降的更快，这是由于加入正则化后每次迭代会额外减去一个增量：

?2 正则化的工作原理

假定我们选择了一个非常复杂的神经网络模型，并且在没有使用正则化的情况下得到了一个过拟合的结果，但当我们加入正则化项后，当正则化参数很大时，参数w近似为零，这意味着有一部分神经元的作用会被忽略掉，从而可以将一个复杂模型简化为一个简单模型（甚至类似于逻辑回归模型），通过前面的学习我们可以了解到，简单模型不容易过拟合，从而问题就从降低方差变成降低偏差的问题了。