学习内容:西瓜书和南瓜书--第3章?
讲解课程:Datawhale吃瓜教程(https://www.bilibili.com/video/BV1Mh411e7VU)
目录
第三章?线性模型
3.1-3.2 线性回归
3.3 对数几率回归
3.4 线性判别分析
?3.5-3.6
第三章?线性模型
3.1-3.2 线性回归
1. 线性函数的基本形式
2. 参数求解方法:最小二乘法
3.3 对数几率回归
- 对数几率回归:又叫逻辑回归。它是为了解决线性回归不能分类的问题,找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来.
- 逻辑回归函数采用sigmoid函数,将(-∞,+∞)上的标签值映射到(0, 1)范围.
3.4 线性判别分析
- 线性判别分析(LDA)是一种经典的监督线性降维方法:设法将训练样例投影到一条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.
- LDA的原理是“类间大,类内小”,对新样本分类时根据投影点的位置来确定类别.
- 可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术.
3.5-3.6
- 一对一(OvO),N个类别产生N * (N - 1) / 2种分类器
- 一对多(OvR或称OvA),N个类别产生N - 1种分类器
- 多对多(MvM),如纠错输出码技术
- 过采样法,增加正例使正负例数目接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本.
- 欠采样法,减少负例使正负例数目接近,如EasyEnsemble:每次从大多数类中抽取和少数类数目差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出一个AdaBoost分类器(带阈值),最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.
- 再缩放法
|