前言
??本文为记录自己日常学习过程中积累的相关易忘知识,同时也将书本以外学习到的内容补充进去,作为一个备忘录。
机器学习基本知识
常见术语:
- 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
- 学习任务的分类:根据训练数据是否有标记信息,可以将其分类为监督学习和无监督学习。
- 监督学习:监督学习是根据已有数据集,知道输入和输出结果之间的关系,然后根据这种已知关系训练得到一个最优模型。
- 无监督学习:用某种算法去训练无标签的训练集从而能让我们我们找到这组数据的潜在结构。
- 自监督学习:自监督学习的做法非常简单,就是输入的是一堆无标签的原始数据,但是通过数据本身的结构或者特性,人为构造标签出来。在无标注数据上训练,通过一些方法让模型学习到数据的 inner representation,再接下游任务。
- 泛化能力:尽管模型的样本空间没有该输入,但是模型依然能够很好的将输入正确映射到样本空间。
人工智能的各个路线:
?符号主义:人工智能源于数理逻辑,计算机上实现逻辑演绎系统,如基于统计的分类、学习算法等。 ?连接主义:人工智能源于仿生学特别是对人脑模型的研究,典型成果是神经网络的连接机制和学习算法。 ?行为主义:又称为进化主义(evolutionism)或控制论学派(cyberneticsism),其原理为控制论及感知动作型控制系统。
误差:
-
学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error)。 -
学习器在训练集上的误差称为“训练误差”(training error)或 “经验误差”(empirical error)。 -
在新样本上的误差称为“泛化误差”(generalization error)。
拟合:
- “过拟合”(overfitting):当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降.
- “欠拟合”(underfitting), 这是指对训练样本的一般性质尚未学好.
西瓜书上的图片实例为下图:
机器学习基本任务:
- 分类:根据数据本身具有的属性特征,将其分为不同的类别,预测结果为离散值
- 回归:预测结果为连续值,通常是根据某种方法,尽量接近真实结果
机器学习训练过程中集合分类:
- 训练集:顾名思义它是用来训练模型的,为了减少泛化误差,我们需要通过训练集不断的训练来使得我们的模型能够更好的接近真实数据。
- 测试集(test set): 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。测试集的作用是体现在测试的过程。
- 验证集(validation set): 查看模型训练的效果是否朝着坏的方向进行。验证集的作用是体现在训练的过程。
- 对原始数据进行三个数据集的划分:防止模型过拟合。
对数据集的划分方法:
留出法:
??留出法”(hold- out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S∪T, S∩T=O 。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。
交叉验证法:
交叉验证法(cross validation)处理步骤:
- 先将数据集D划分为k个大小相似的互斥子集,即D= D1∪D2∪…UDk,Di∩Dj=
O (i≠j)。每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。 - 然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试。
- 返回k个测试结果的均值。
自助法:
自助法(bootstrap sampling) 处理步骤:
- 给定包含m个样本的数据集D,对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;
- 重复执行这个过程m次后,我们就得到了包含m个样本的数据集D’。
分类任务性能度量指标:
- 错误率和精度
- 查全率、查准率和F1
- 查准率:我查出来的有多少是正确的(你认为是对的中,有多少确实是对的)
- 查全率:正确情况中有多少被我选出来了(本来是对的中,你找回了多少)
混淆矩阵
??对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、 假正例(false positive)、 真反例(true negative)、假反例(false negative)四种情形,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+ FP+TN + FN =样例总数.分类结果的“混淆矩阵”(confusion matrix)如下图所示。
聚类任务性能度量指标
聚类性能度量大致有两类:外部指标和内部指标。
外部指标:
概念:将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”(external index)。 根据上面的数据可以由一下公式计算出外部指标: 上述性能度量的结果值均在[0, 1]区间,值越大越好。
内部指标:
概念:直接考察聚类结果而不利用任何参考模型,称为“内部指标”(internal index)。 (本小节内容主要是西瓜书上的内容,个人补充理解相关指标) 根据上面的式子可以得出下面的度量指标。
key:聚类标准应该是簇内尽量相似,簇间尽量不同。
DBI指标:分子为两个簇内的平均距离之和,这个值应该尽可能小,以保证簇内尽量相似。
分母为两个簇中心的距离,这个值应该尽可能大,保证簇间的不同。
所以该指标应该是分子越小越好,分母越大越好,总体上应该是越小越好。
DI指标:分子是两个簇之间的最小距离这个值应该是越大越好;
分母是簇内的直径,这个值应该越小越好。
综上,DI指标越大越好。
总结
??本文未完待续,之后再继续补充。
|