[人工智能] SVM推导过程解读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> SVM推导过程解读笔记 -> 正文阅读

[人工智能]SVM推导过程解读笔记

最近在看七月在线学习课程，学到SVM解读，记录下学习心得和体会，供有需者共勉。

正文：

概念定义

支持向量机，它是一种二分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

通俗讲，就是找到空间上能划分训练数据集，并且几何间隔最大的分离超平面。

线性分类器概念

给定一个数据集，假设它们分别属于两个类，现在要找到一个线性分类器，把这些数据分成两类。如果用 x 表示数据点，用 y 表示类别（假设1或者-1，代表两个不同类），一个线性分类器的学习目标，便是要在 n 维的数据空间中找到一个超平面，方程表达式：

?对于线性可分的数据集来说，这样的超平面有无穷多个（即感知机），但是几何间隔最大的分离超平面却是唯一的。

思路递进

哪个超平面对二分类最优？

从直观上而言，这个最优的超平面应该是最适合分开两类数据的直线（假设看成二维）。而判定“最适合”的标准，就是这条直线离直线两边的最近训练集数据都很远（也就是模型的泛化能力最强，不会因验证集稍微超出边界训练集数据，就会作出误判）。所以，得寻找有着最大间隔的超平面，即最中间的那条线，使得距离两边的训练集数据“最宽”。

如何判断正负样本？

根据上述公式：w·x + b = 0（W：模型分类函数的法向量），对于任意训练数据x，求x 与W的点乘：

1）当为正样本数据时，根据点乘定义，结果肯定超出截面直线的距离，即X+·W大于某个值，W·Ux ≥?C；

2）当为负样本数据时，数据X- 与法向量的点乘，则小于某个值，W·Ux ≤?C；

此时结论：要找到最优解，就是找到最优W和C（b）的过程。

常数值判断，变形为 -1~1判断？

这个 1 和-1 的分类标准来源于logistic回归。Logistic回归目的是从特征学习出一个 0/1 分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷，因此，使用 logistic 函数（或称 sigmoid 函数）将自变量映射到(0,1)上，映射后的值被认为是属于 y=1 的概率。

把 logistic 回归做变形，将使用的结果标签 y = 0 和 y = 1的概率值替换为 y = -1和y = 1的分类值，于是上述得到的分类判断不等式转变为：

W·Ux+ + b ≥?1

W·Ux- + b ≤?-1

即超平面一边的数据点所对应的y全是-1，另一边所对应的y全是1。再变形公式整合为单一形式：

y (W·Ux + b) - 1 ≥ 0，其中y=1或-1 (x为X+时，y=1; x为X-时，y=-1)