一 绪论
1.1 基本术语
样本/示例:每天记录是关于一个事件或对象的描述
属性/特征:反映事件或对象在某方面的表现或性质的事项
样本空间/属性空间:属性张成的空间
1.2 归纳偏好
大佬说跳过,之后再看
二 模型评估与选择
2.1 误差与拟合
误差
- 训练误差/经验误差:学习器在训练集上的误差
- 泛化误差:在新样本上的误差(显然希望得到泛化误差小的学习器)
拟合(好的学习器应尽可能的从训练样本中学出适用于所有潜在样本的“普遍规律”)
- 过拟合:把样本自身的特点当做所有潜在样本的一般性质导致泛化能力下降 (学习能力强大导致的)
- 欠拟合:对训练样本的一般性质尚未学好 (学习能力低下导致的)
过拟合是机器学习面临的关键障碍,而且无可避免,只能“缓解”(P≠NP)
2.2 数据集分类方法
测试集训练集应该尽可能的互斥
2.2.1 留出法
直接将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T
划分比例:一般为2/3~4/5的样本用于训练
2.2.2 交叉验证法
将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的作为测试集
通常把交叉验证法称为“k折交叉验证”,k最常用值是10,其他常用值为5,20等
2.2.3 自助法
2.3 性能与度量
2.3.1 回归任务
要评估学习器的性能就要把学习器预测结果与真实标记进行比较
回归任务最常用的性能度量是 均方误差
E
(
f
:
D
)
=
1
m
∑
i
=
1
m
(
f
(
x
i
)
?
y
i
)
2
E(f:D)=\frac{1}{m}\sum_{i=1}^{m}{(f(x_i) - y_i)^2}
E(f:D)=m1?i=1∑m?(f(xi?)?yi?)2 数据分布D和概率密度函数p(·),均方误差为
E
(
f
:
D
)
=
∫
x
?
D
∑
i
=
1
m
(
f
(
x
)
?
y
)
2
p
(
x
)
d
x
E(f:D)=\int_{x-D}\sum_{i=1}^{m}{(f(x) - y)^2p(x)dx}
E(f:D)=∫x?D?i=1∑m?(f(x)?y)2p(x)dx
2.3.2 分类任务
2.3.2.1 错误与精度
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例
2.3.2.2 查全率、查准率与F1
查准率
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP? 查全率
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP? 分类结果混淆矩阵 查全率和查准率是矛盾的度量,一般来说P越高,R往往越低;而R越高,P往往越低。
P-R曲线
2.3.3 ROC 与 AUC
大佬说 ROC 与 AUC及往后的跳过,之后再看
|