西瓜书第一二章

第一章

给定有标签的数据集，通过它学习输入与输出的对应关系
就像刷题一样，自己做题，然后根据给的答案（label）来不断调整自己的方法和思路，最终作出正确答案。

监督学习目前使用较为广泛

给定数据集，没有标签，期望模型学习到数据的结构特征

无监督学习没有给出“正确的答案”（标签），而是只有数据，通过程序自己去挖掘数据具有的特征。

聚类算法：将数据分成几类，根据数据样本抽取出的特征，挖掘数据的关联、聚合模式。

过拟合（Overfitting）：学习器将训练样本学的太好，导致泛化性能下降。过拟合无法避免只能缓解
欠拟合（Underfitting）：学习器学习能力低下造成

通常机器学习中，用训练集训练学习方法然后测试集测试学习器对样本的判别能力，以测试集上的测试误差作为泛化误差近似。本节提到几个如何划分测试集和训练集的方法。

留出法（handout）
保持数据分布的一致性，保持用于学习的数据集与用于测试的数据集的分布特征一致（例如：分层采样）
多次重复划分
测试集不能太大，也不能太小（例如：1/5～1/3）
k 折交叉验证法（cross validation）
1. 留出法总归是使用了一部分数据，没有测试全部数据，因此 k 折交叉验证就是解决这个问题。
2. 假设将数据集分成 k = 10 份，第一次使用 D10 作为测试集，第二次使用 D9 作为测试集，直至每个都当过测试集，然后将 k 个结果求平均，就是最终结果。
自助法（bootstrap ）
1. 基于”自助采样“的方法，也称：“有放回采样”、“可重复采样”
2. 对数据集进行有放回采样，并且采样出的集合与原样本集同规模，但是数据分布有所改变