开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 机器学习 03：线性可分支持向量机 -> 正文阅读

[数据结构与算法]机器学习 03：线性可分支持向量机

一、主要思想：

支持向量机（SVM）的基本模型线性支持支持向量机是定义在特征空间上的间隔最大的线性分类器，这使它有别于感知机。适用于高维小样本，且线性可分的数据。

二、找最大间隔：

2.1 距离：

距离是一种映射关系，满足：
$\begin{cases}D(x,y)\ge0,\ D(x,y)=0\Leftrightarrow x=y\\D(x,y)=D(y,x)\\D(x,z)\ne D(x,y)+D(y,z)\end{cases}$

这里我们使用 2 范数来计算距离

2.2 间隔：

距超平面最近的点到平面的距离的两倍。由此我们可以推出间隔的计算公式：
$\gamma_i=2\frac{\vec w\cdot\vec x_i+b}{\parallel \vec w\parallel}$

而其中距超平面最近的点的间隔是 $\gamma = \min\limits_{i=1,2,3\cdots}\gamma_i$

我们要寻找合适的 $(\vec w,b)$ ，使得间隔最大，也就是
$\max\limits_{\vec w,\ b}\gamma\\s.t.\ \forall i\ (\vec w\vec x_i+b)y_i>0$

但是寻找的过程非常的麻烦，所以我们要对此进行优化。

2.2.1 优化目标函数

支持向量机的缩放引理：假设找到一组 $(\vec w,b)$ ，对于 $\forall r>0$ ， $(r\vec {w},rb)$ 仍是解

令引理中的 $r=\gamma$ ：

$\begin{aligned}y_ir_i=y_i(\frac{\vec w}{\parallel\vec w\parallel}\cdot x_i+\frac{b}{\parallel\vec w\parallel})&\ge\gamma\\y_i(\frac{\vec w}{\parallel\vec w\parallel\gamma}\cdot x_i+\frac{b}{\parallel\vec w\parallel\gamma})&\ge1\end{aligned}$

其中 $\parallel\vec w\parallel$ 和 $\gamma$ 都是标量，所以令：

$\vec w^*=\frac{\vec w}{\parallel\vec w\parallel\gamma}\\b^*=\frac{b}{\parallel\vec w\parallel\gamma}$

于是有：

$y_i(\vec w^*\vec x_i+b^*)\ge1$

也就是说，我们总能通过放缩使得间隔为 1 并且解为 $(\vec w^*,b^*)$

由于 $(\vec w^*,b^*)$ 和 $(\vec w,b)$ 是倍数关系，于是我们的目标就变成了：
$\max\limits_{\vec w^*,b^*}\gamma=\max\limits_{\vec w^*,b^*}\frac{2}{\parallel\vec w^*\parallel}\min\limits_i(\vec w^*\cdot x_i+b^*)=\max\limits_{\vec w^*,b^*}\frac{2}{\parallel\vec w^*\parallel}$

取倒数使得求最大值变成求最小值，方便起见，我们把 $(\vec w^*,b^*)$ 写为 $(\vec w,b)$ ，此时，目标函数变成了：

$\min\limits_{\vec w,b}\frac{1}{2}\parallel\vec w\parallel\\s.t.\ y_i(\vec w\cdot\vec x_i+b)\ge1$

带有约束的最值问题，可以想到使用拉格朗日乘子法来求目标函数。

2.2.2 拉格朗日乘子法

$L(\vec w,b,\vec\alpha)=\frac{1}{2}\parallel\vec w\parallel-\sum\limits_{i=1}^N\alpha_i(y_i(\vec w\cdot\vec x_i+b)-1)\\s.t.\ \alpha_i\ge0$

令 $\theta(\vec w)=\max\limits_{\alpha_i\ge0}L(\vec w,b,\vec\alpha)$

$\theta(\vec w)=\begin{cases}\frac{1}{2}\parallel\vec w\parallel^2&\vec w,b\ 满足约束\\\infty&\vec w,b\ 不满足约束\end{cases}$

于是原约束问题就等价于：
$\min\limits_{\vec w,b}\theta(\vec w)=\min\limits_{\vec w,b}\max\limits_{\alpha_i\ge0}L(\vec w,b,\vec\alpha)$

这样我们就把一个带有约束的最值问题转化成了无约束最值问题。但是求解这个新的约束问题过程非常复杂，所以我们需要使用拉格朗日函数的对偶性。

2.2.3 拉格朗日函数的对偶性

设：
$\min\limits_{\vec w,b}\max\limits_{\alpha_i\ge0}L(\vec w,b,\vec\alpha)=p^*$

把 $\min$ 和 $\max$ 互换一下：
$\max\limits_{\alpha_i\ge0}\min\limits_{\vec w,b}L(\vec w,b,\vec\alpha)=d^*$

通常情况下， $p^*\ge d^*$ ，要使等号成立，需要满足两个条件：

优化问题是凸优化问题
满足 $K K T$ 条件

凸优化问题

凸优化问题 (Convex optimization problem) 要求目标函数为凸函数，而且定义域为凸集

凸函数：

若 $f^{\prime\prime}(x)\ge0$ ，则 $f (x)$ 为凸函数。

显然 $\theta(\vec w)$ 是凸函数

凸集：

当集合 $C$ 中任意两点之间的线段上的点也在 $C$ 内，则这个集合是凸集。

所以 $\theta(\vec w)$ 的定义域是一个凸集。

$K K T$ 条件

主问题可行： $y_i(\vec w\cdot\vec x_i+b)-1\ge0$
对偶问题可行： $\alpha_i\ge0$
互补松弛： $\alpha_i(y_i(\vec w\cdot\vec x_i+b)-1)=0$

等号成立，所以可以计算 $d^*$ ，令 $L(\vec w,b,\vec\alpha)$ 对 $\vec w$ 和 $b$ 的偏导为 0 可得：
$\vec w=\sum\limits_{i=1}^N\alpha_iy_i\vec x_i\\\sum\limits_{i=1}^N\alpha_iy_i=0$

带回 $L(\vec w,b,\vec\alpha)$ ：
$\min\limits_{\vec w,b}L(\vec w,b,\vec\alpha)=-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_j(\vec x_i\cdot\vec x_j)+\sum\limits_{i=1}^N\alpha_i$

对上式求最大值，即：
$\min\limits_{\alpha_i\ge0}\left(\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_j(\vec x_i\cdot\vec x_j)-\sum\limits_{i=1}^N\alpha_i\right)\\s.t. \sum\limits_{i=1}^N\alpha_iy_i=0$

对于上式，可以使用序列最小最优化算法（SMO）求解 $\vec\alpha^*$ ，进而求出 $\vec w,b$ 。

通过以下条件：
$\begin{cases}KKT\ 条件\\\vec w=\sum\limits_{i=1}^N\alpha_iy_i\vec x_i\\\sum\limits_{i=1}^N\alpha_iy_i=0\end{cases}$

由于 $\vec w\ne0$ ，可以推知至少存在一个 $\alpha_i^*>0$ 且对于此 $i$ 有
$y_i(\vec w^*\cdot\vec x_i+b^*)=1$

也就是说，对于任意训练样本 $(\vec x_i,y_i)$ ，总有 $\alpha_i=0$ 或者 $y_i(\vec w\cdot\vec x_i+b)=1$ 。而 $y_i(\vec w\cdot\vec x_i+b)=1$ 表示该点位于最大间隔边界上，也就是说它是一个支持向量。

这显示出了支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。

调库实现：

import numpy as np
from sklearn import svm
from sklearn import datasets
from sklearn.model_selection import train_test_split

My_Data = datasets.load_iris()
x = My_Data['data']
y = My_Data['target']
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size = 0.3)

clf = svm.SVC(kernel='linear')
clf.fit(train_x, train_y)

clf.predict(test_x)
print(clf.score(test_x, test_y))