线性模型是神经网络和深度学习的基础,原理比较简单,主要看书就行,重点是线性回归和对数几率回归这两节。
1、线性回归
求解方法:用最小二乘法使均方误差最小化,可以求出最优解。
2、逻辑回归(对数几率回归)
线性模型外面套上一层Sigmoid函数,就可以解决二分类问题。求解方法与线性回归一样,用最小二乘法最小化均方误差。
3、线性判别分析(LDA)
将数据的特征点(坐标)投影到一条直线上,使同类样本的投影点尽可能靠近,异类样本的投影点尽可能远离,从而实现分类的效果。LDA用“降维+分类”的思想,主要解决二分类问题。
4、多分类学习
一对一(OvO):N个类别两两配对,将多分类问题转化为N(N-1)/2个二分类问题。
一对余(OvR):假设有N个类别,每次把一个类作为正类,其他类作为反类,将多分类问题转化为(N-1)个二分类问题。
多对多(MvM):每次选择若干类为正类,若干个为反类。常用方法为“纠错输出码”(Error Correcting Output Codes, ECOC)。
5、类别不平衡
(1)问题描述
数据集正样本和负样本的数量相差很多,如:998个负样本,2个正样本。学习算法可能会学习到一个永远为正或负的分类器模型,但这样的模型没有应用价值。
(2)解决方法(以“负样本很多正样本很少”为例)
欠采样:去除一些负样本,使正反样本数量接近。
过采样:增加一些正样本,使正反样本数量接近。
阈值移动:在分类器预测正负概率比时,乘上负样本与正样本数量之比。(正负概率比>1,则预测结果为正例)
|