支持向量机概述
Support Vector Machine SVM 是一类按监督学习(Supervised learning)方式对数据进行二元分类的广义线性分类器(Generalized linear classifier)其决策边界是对学习样本求解的最大编辑超平面(maximum-margin- hyperplane)与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提高了一种更为清晰,更加强大的方式。
硬、软间隔
硬间隔就是说分类完全正确
软间隔是说分类存在一定分类错误
线性可分、线性不可分
算法思想
找到结合边缘上的若干数据-支持向量(Support vector),用这些点找出一个超平面,使得支持向量到该平面(成为决策面)的距离最大
数学推导
线性可分向量机
线性支持向量机
线性不可分向量机
典型的降维打击 划重点!!调节参数时候要注意:
γ
\gamma
γ越大,支持向量越少,反正支持向量越多,
C
C
C是惩罚系数,即是对误差的宽容度,
C
C
C越高,越不能容忍误差,容易过拟合,反之越小的时候,容易出现欠拟合。
重点总结:
n
n
n是特征数,
m
m
m为训练样本数 (1)如果相较于m而言,n要大许多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机。 (2)如果n较小,而且m大小中等,比如n在1-1000之间,而m在10-10000之间,使用高斯核函数的支持向量机 (3)如果n较小,而m较大,例如n在1-1000之间,而m大于50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。
|