[人工智能] 【机器学习】《统计学习方法》学习笔记第二章感知机

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【机器学习】《统计学习方法》学习笔记第二章感知机 -> 正文阅读

[人工智能]【机器学习】《统计学习方法》学习笔记第二章感知机

第二章　感知机

二分类线性模型，输入实例的特征向量，输出+1，-1二值代表的类别。
公式： $sign(\omega \cdot x + b)$ ， $s i g n (x)$ 函数将正负值规约到±1。
本质是用一个 $N$ 维的超平面将特征空间划分为正负两部分。 $\omega, b$ 就是超平面的法向量和截距。
损失函数：误分类的点个数不是 $\omega, b$ 的连续可导函数，不易优化。采用误分类点到超平面 $S$ 的总距离。空间中任意一点到 $x 0$ 到 $S$ 的距离： $\frac{1}{\|\omega\|}\vert\omega \cdot x + b\vert$
又对于误分类的数据，有 $\vert\omega \cdot x_i + b\vert$ 与 $y_i$ （±1）异号，故可以通过乘 $y_i$ 去掉绝对值，再对全体误分类点求和，忽略系数，得到感知机学习的损失函数： $L(\omega,b) = -\sum_{x_i \in M}y_i(\omega \cdot x_i + b)$
其中 $M$ 为误分类点的集合。
导数：一元函数 $y = f (x)$ 在某一点沿 $x$ 轴正方向的变化率（一个值）；

偏导数：多元函数沿某个轴正方向的变化率（一个值）；

方向导数：函数沿任意方向的变化率（一个值）；

梯度：函数在空间中变化率最大的方向，是一个向量，记作 $\nabla f$ 。这个方向在每个轴上的分量就是沿该轴的偏导数。
对于我们的最优化问题，可以将参数 $\omega, b$ 和损失函数的取值对应为一个三维空间的 $x, y, z$ 轴，我们要找出“山”上海拔最低的位置。从任意点出发，每次计算“下山”最快的梯度方向，然后向该方向前进一小步，不断迭代直至损失函数减小至0。每次前进的距离称为步长（或学习率）。
$L$ 关于 $\omega, b$ 的偏导分别为 $\nabla_{\omega}L(\omega, b) = - \sum_{x_i \in M}y_ix_i \\ \nabla_{\omega}b(\omega, b) = - \sum_{x_i \in M}y_i$
每次随机选一个误分类点，依据该点数据对参数进行更新： $\omega \leftarrow \omega + \eta y_i x_i \\ b \leftarrow b + \eta y_i$
由此得到感知机学习算法的原始形式：
1. 选取初值 $\omega_0, b_0$ ；
2. 在训练集中选取数据 $x_i, y_i)$ ；
3. 如果 $y_i(\omega \cdot x_i + b \leq 0)$ , 使用上面的公式更新 $\omega, b$ ；
4. 转至2，直至训练集中没有误分类点。
可以证明（P42），误分类次数有上界，经过有限次搜索可以找到将训练数据完全正确分开的超平面。
感知机学习算法的对偶形式：由 $\omega, b$ 的更新公式可知，假设一个点 $x_i$ 被使用（误分类）了 $n_i$ 次，令 $a_i = n_i \eta$ 则最终学习到的 $\omega, b$ 可以用以下形式代替： $\omega = \sum_{i=1}^N a_i y_i x_i \\ b = \sum_{i=1}^N a_i y_i$
于是问题转变为对变量 $a_i(n_i)$ 的学习。算法：
1. $\alpha \leftarrow 0, b \leftarrow 0$ ；
2. 在训练集中选取数据 $x_i, y_i)$ ；
3. 如果 $y_i \left (\sum\limits_{j=1}^N \alpha _j y_j x_j \cdot x_i + b \right) \leq 0$ ，更新：
  $\alpha_i \leftarrow \alpha_i + \eta \\ b \leftarrow b + \eta y_i \\ (or: \ n_i \leftarrow n_i + 1)$
4. 转至2，直到没有误分类数据。
结果上与原始形式是等价的，主要作用是可以通过预计算实现效率提升。原始形式中，判断分类正误的公式中 $\omega \cdot x_i$ 内积计算复杂度为 $O (n)$ ，其中 $n$ 为特征空间维数；而对偶形式中由于内积均以 $x_i \cdot x_j$ 形式出现，故可以预先计算出所有组合，形成一个对称/三角矩阵（Gram矩阵），复杂度由求和项决定，即 $O (N)$ ，转移到了训练集大小 $N$ 上。对于训练数据量远小于特征空间维数的数据集，该方法可以有效提升效率。