1.前言

??在前两篇文章中，我们主要讨论了数据线性可分和数据近似线性可分的情况，但是有些时候数据可能是非线性可分的，此时前两种模型将不再适用。如图1所示，显然在二维空间中无法找到一条直线将正负实例点分开，但是将数据从二维升为三维之后，便可找到一个分离超平面将正负实例点完全分开了，这就是非线性支持向量机的基本思路。即先使用一个变换将输入空间的数据映射到特征空间中，然后在特征空间中使用线性分类学习方法从训练数据中学习分类模型。我的理解是，将非线性可分的数据变换到特征空间后，特征空间中的数据变成了线性可分或者近似线性可分的，这时再在特征空间中学习线性支持向量机，从而实现非线性可分数据的分类。

图1 线性不可分示例

图2 维度变换示意图

2.核函数

??核函数的定义：设 $\chi$ 是输入空间， $H$ 为特征空间，如果存在一个从 $\chi$ 到 $H$ 的映射: $\chi \to H$ 使得对所有 $\boldsymbol{x},\boldsymbol{z} \in \chi$ ，满足条件： $K(\boldsymbol{x},\boldsymbol{z})=\phi(\boldsymbol{x}) \cdot \phi(\boldsymbol{z})$ ，则称 $K(\boldsymbol{x},\boldsymbol{z})$ 为核函数， $\phi(\boldsymbol{x})$ 为映射函数，其中 $\phi(\boldsymbol{x}) \cdot \phi(\boldsymbol{z})$ 为 $\phi(\boldsymbol{x})$ 和 $\phi(\boldsymbol{z})$ 的内积。
??直观上的理解就是通过核函数这个工具来将数据从输入空间映射到特征空间的，但是为什么不直接使用映射函数 $\phi(\boldsymbol{x})$ 而是使用核函数呢？首先，直接计算核函数 $K(\boldsymbol{x},\boldsymbol{z})$ 比较容易，而通过 $\phi(\boldsymbol{x}) \cdot \phi(\boldsymbol{z})$ 计算核函数相对困难；其次，我们观察在前一篇文章中所推出的线性支持向量机对偶问题的目标函数：
${_\boldsymbol{\alpha}^{min}}\ \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i \alpha_j y_i y_j(\boldsymbol{x}_i \cdot \boldsymbol{x}_j)-\sum_{i=1}^{N}\alpha_i$ 以及分离超平面的表达式：
$\sum_{i=1}^{N}\alpha^*_i y_i (\boldsymbol{x}_i \cdot \boldsymbol{x})+b^*=0$ 可以发现：其中只涉及到输入实例与实例之间的内积，所以将数据从输入空间变换到特征空间后，我们依然只需要知道 $\phi(\boldsymbol{x}) \cdot \phi(\boldsymbol{z})$ ，而不需要单独计算出 $\phi(\boldsymbol{x})$ 的值和 $\phi(\boldsymbol{z})$ 的值，这也是为什么直接用核函数的原因之一。
??在实际的任务中，最常用的核函数为高斯核函数，其表达式如下：
$K(\boldsymbol{x},\boldsymbol{z})=\text{exp}(-\frac{||\boldsymbol{x}-\boldsymbol{z}||^2}{2\sigma^2})$

3.非线性支持向量机

??将线性支持向量机对偶问题中的 $\boldsymbol{x}_j \cdot \boldsymbol{x}_j$ 替换为核函数 $K(\boldsymbol{x}_i,\boldsymbol{x}_j)$ 就得到了非线性支持向量机的最优化问题表达式：
${_\boldsymbol{\alpha}^{min}}\ \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i \alpha_j y_i y_jK(\boldsymbol{x}_i,\boldsymbol{x}_j)-\sum_{i=1}^{N}\alpha_i \\ s.t.\ \sum_{i=1}^{N}\alpha_i y_i =0 \\ 0 \le \alpha_i \le C$ ??对于给定的训练数据集 $T=\{(\boldsymbol{x_1},y_1),(\boldsymbol{x_2},y_2),...,(\boldsymbol{x_N},y_N)\}$ ,其中 $\boldsymbol{x_1}\in \chi = R^n$ , $y_i \in \{+1,-1\}$ , $i = 1, 2, 3, . . . ., N$ ，非线性支持向量机的求解过程与线性支持向量机相差不多，过程如下：
（1）选取适当的核函数 $K(\boldsymbol{x},\boldsymbol{z})$ 和适当的惩罚因子 $C$ ,构造并求解上面给出的最优化问题，求得最优解 $\boldsymbol{\alpha}^*=({\alpha}^*_1,{\alpha}^*_2,...,{\alpha}^*_N)^T$ ；
（2）选择 $\boldsymbol{\alpha^*}$ 的一个正分量 $\alpha^*_j < C$ ，根据公式求得 $b^*$ ：
$b^*=y_j-\sum_{i=1}^{N}\alpha^*_i y_iK(\boldsymbol{x}_i \cdot \boldsymbol{x}_j)$ （3）构造决策函数：
$f(\boldsymbol{x})=\text{sign}(\sum_{i=1}^{N}\alpha^*_i y_i K(\boldsymbol{x}_i \cdot \boldsymbol{x})+b^*)$ 当核函数为高斯核函数时，对应的支持向量机是高斯径向基函数分类器，分类决策函数则为：
$f(\boldsymbol{x})=\text{sign}(\sum_{i=1}^{N}\alpha^*_i y_i \text{exp}(-\frac{||\boldsymbol{x}-\boldsymbol{z}||^2}{2\sigma^2})+b^*)$