[人工智能] 机器学习系列：模型选择与评估，误差分析与优化

概述

前面学习了线性回归，逻辑回归，神经网络来训练数据得到预测模型。但是如何评价预测模型的优劣，如何对预测模型进行误差分析以及如何改进，这是实际应用中所关注的。下面会将要针对模型的评估，优化改进进行学习，旨在对模型进行进一步完善做出明确的指导。

以往的做法是：用训练集进行训练得到最终参数，并还是用训练集计算模型的准确率。
该做法的问题：易产生过拟合，将模型推广到新的数据集上效果并不好。

改进的做法：将数据集分为训练集和测试集，训练集用于训练得到最优参数，测试集用于评估模型准确率。
提出新问题：假如我们还未确定训练模型，需要在以下多项式模型中选择最优的模型进行训练，用哪部分数据进行训练得到最优模型呢？

在这里插入图片描述

进一步改进为：在数据集中再抽出一部分来作为交叉验证集用于上述模型选择。

我们可以把数据集分为三个部分：训练集（Training Set）、交叉验证集（Cross Validation Set）、测试集（Test Set）。这三者的分配比例可以是：60%,20%,20%。（注意：分配数据前需要将数据打乱）

这三部分的误差计算公式如下：

在这里插入图片描述

?需要注意的是，当计算训练集、交叉验证集和测试集误差时，不计算正则项。

可以大致理解训练模型的步骤：

Step 1：用训练集训练各种模型，线性的，多项式的，有正则化的，无正则化的，追求训练误差的最小化。
Step 2：用验证集去计算训练出来的模型的验证误差，并选出表现最好的一个作为最终模型。
Step 3：用测试集，评估最终模型的表现优劣。

加:2021-11-20 18:23:44 更:2021-11-20 18:24:00

-2025/7/29 20:52:48-

网站联系: qq:121756557 email:121756557@qq.com IT数码