1.训练集

训练集（training dataset）：用于模型拟合的数据样本。

2.验证集

验证集（validation dataset）：是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。通常用来在模型迭代训练时，用以验证当前模型泛化能力（准确率，召回率等），以决定是否停止继续训练。

测试集（test dataset）：用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

形象上来说训练集就像是学生的课本，学生根据课本里的内容来掌握知识；验证集就像是作业，通过作业可以知道不同学生学习情况、进步的速度快慢；而最终的测试集就像是考试，考的题是平常都没有见过，考察学生举一反三的能力。
在这里插入图片描述

传统机器学习中，数据量较小。

无验证集情况下：训练集:测试集 = 7: 3
有验证集情况下：训练集:验证集:测试集 = 6: 2: 2

在深度学习中，数据量较大，可以拿出很小的比例来当验证集和测试集（比例小但数据量可能仍然很大）。如：假设有100W条数据，只需要拿出1W条来当验证集，1W条来当测试集，就能很好地work了。

深度学习数据量较大的情况下：训练集:验证集:测试集＝ 98: 1: 1

加:2022-02-05 21:44:41 更:2022-02-05 21:47:03

-2026/4/27 11:14:34-

网站联系: qq:121756557 email:121756557@qq.com IT数码