硬间隔(Hard-Margin)
图示
介绍
- 上图所示,正样本为实心圆点,负样本为空心圆点。正负样本特征为
x
i
,
x
i
∈
R
d
x_i, x_i\in \mathbb{R}^d
xi?,xi?∈Rd,正负样本的类别(标签)是1或-1,即
y
i
∈
{
1
,
?
1
}
y_i\in \{1,-1\}
yi?∈{1,?1}
- H:
w
.
x
+
b
=
0
\textbf{w}.\textbf{x}+b=0
w.x+b=0,二分类问题的边界
- H1:
w
.
x
+
b
=
1
\textbf{w}.\textbf{x}+b=1
w.x+b=1,平行于H
- H2:
w
.
x
+
b
=
?
1
\textbf{w}.\textbf{x}+b=-1
w.x+b=?1,平行于H
- H1和H2能够无误地把样本点划分开来
- Margin(间距):H1和H2的距离
- 正样本:位于H1左侧的样本,包括H1上的样本
- 负样本:位于H2右侧的样本,包括H2上的样本
- 支持向量:位于H1或H2之上的样本点
正负样本:
y
i
(
w
?
x
+
b
)
?
1
≥
0
?
{
正
样
本
:
i
f
?
y
i
=
1
,
?
w
.
x
+
b
≥
1
负
样
本
:
i
f
?
y
i
=
?
1
,
?
w
.
x
+
b
≤
?
1
y_i(\textbf{w}\cdot \textbf{x}+b)-1\geq 0\Rightarrow \begin{cases} 正样本:if\ y_i=1,\ \textbf{w}.\textbf{x}+b \geq 1 \\ 负样本:if\ y_i=-1,\ \textbf{w}.\textbf{x}+b \leq -1 \end{cases}
yi?(w?x+b)?1≥0?{正样本:if?yi?=1,?w.x+b≥1负样本:if?yi?=?1,?w.x+b≤?1?
问题:H1到H2的距离:
M
a
r
g
i
n
=
2
∣
∣
w
∣
∣
Margin=\frac{2}{||w||}
Margin=∣∣w∣∣2? 答:两平行直线之间的距离公式:
(
C
1
?
C
2
)
A
2
+
B
2
l
1
:
A
x
+
B
y
+
C
1
=
0
l
2
:
A
x
+
B
y
+
C
2
=
0
\frac{(C_1-C_2)}{\sqrt{A^2+B^2}} \\ l1: Ax+By+C_1=0 \\ l2: Ax+By+C_2=0
A2+B2
?(C1??C2?)?l1:Ax+By+C1?=0l2:Ax+By+C2?=0
问题:
w
\textbf{w}
w垂直与H原因 答:
w
\textbf{w}
w和
x
\textbf{x}
x是两个向量,
b
b
b是偏置权重对应的特征值为1
问题:
∣
∣
w
∣
∣
=
||w||=
∣∣w∣∣=? 答:
∣
∣
w
∣
∣
=
w
2
||w||=\sqrt{w^2}
∣∣w∣∣=w2
?
问题:
b
b
b是什么? 答:
b
b
b是偏置权重
公式推导
==SVM(硬间距)的任务:==找到超平面H1和H2
- 能够无误把样本划分成两部分
- 能够无误划分样本的H1和H2的最大间距(Margin)
- 上面两个条件需要同时满足
- 根据SVM的作用,所以SVM叫做大间距分类器
找到超平面H1和H2
?
\Rightarrow
? 能够无误把样本划分成两部分&&能够无误划分样本的H1和H2的最大间距(Margin)
m
a
x
?
M
a
r
g
i
n
?
m
a
x
?
2
∣
∣
w
∣
∣
?
m
i
n
?
∣
∣
w
∣
∣
2
2
s
.
t
.
?
y
i
(
w
?
x
+
b
)
?
1
≥
0
\begin{aligned} max\ Margin \Rightarrow max\ \frac{2}{||w||} \Rightarrow min\ \frac{||w||^2}{2} \\ s.t.\ y_i(\textbf{w}\cdot \textbf{x}+b)-1\geq 0 \end{aligned}
max?Margin?max?∣∣w∣∣2??min?2∣∣w∣∣2?s.t.?yi?(w?x+b)?1≥0?
不等式约束的条件极值问题:使用拉格朗日乘数法求解
L
(
w
,
b
,
α
i
)
=
1
∣
∣
w
∣
∣
2
?
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
)
=
1
2
∣
∣
w
∣
∣
2
?
∑
i
=
1
I
α
i
y
i
(
w
.
x
i
+
b
)
+
∑
i
=
1
I
α
i
s
.
t
.
?
α
i
≥
0
\begin{aligned} L(w,b,\alpha_i) &=\frac{1}{||w||^2}-\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1) \\ &=\frac{1}{2}||w||^2-\sum\limits^I_{i=1}\alpha_iy_i(w.x_i+b)+\sum\limits^I_{i=1}\alpha_i \\ s.t.\ \alpha_i \geq0 \end{aligned}
L(w,b,αi?)s.t.?αi?≥0?=∣∣w∣∣21??i=1∑I?αi?(yi?(w.xi?+b)?1)=21?∣∣w∣∣2?i=1∑I?αi?yi?(w.xi?+b)+i=1∑I?αi??
转化为凸优化问题:
min
?
w
,
b
max
?
α
i
≥
0
L
(
w
,
b
,
α
i
)
\min_{w,b}\max_{\alpha_i \geq0}L(w,b,\alpha_i)
w,bmin?αi?≥0max?L(w,b,αi?)
条件极值问题 转化为 凸优化问题的(约束)条件:
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
)
=
0
\alpha_i(y_i(w.x_i+b)-1)=0
αi?(yi?(w.xi?+b)?1)=0
条
件
极
值
问
题
能
够
转
化
为
凸
优
化
问
题
?
max
?
α
i
≥
0
L
(
w
,
b
,
α
i
)
=
1
∣
∣
w
∣
∣
2
?
max
?
α
i
≥
0
{
1
∣
∣
w
∣
∣
2
?
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
)
}
=
1
∣
∣
w
∣
∣
2
?
1
∣
∣
w
∣
∣
2
?
max
?
α
i
≥
0
{
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
)
}
=
1
∣
∣
w
∣
∣
2
?
min
?
α
i
≥
0
{
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
)
}
=
0
s
.
t
.
?
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
)
≥
0
?
α
i
≥
0
条
件
极
值
问
题
能
够
转
化
为
凸
优
化
问
题
的
要
求
:
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
)
=
0
\begin{aligned} 条件极值问题 能够转化为 凸优化问题 & \Rightarrow \max_{\alpha_i \geq0}L(w,b,\alpha_i)=\frac{1}{||w||^2} \\ & \Rightarrow \max_{\alpha_i \geq0}\big\{\frac{1}{||w||^2}-\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1)\big\}=\frac{1}{||w||^2} \\ & \Rightarrow \frac{1}{||w||^2}-\max_{\alpha_i \geq0}\big\{\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1)\big\}=\frac{1}{||w||^2} \\ & \Rightarrow \min_{\alpha_i \geq0}\big\{\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1)\big\}=0 \\ s.t. &\ \alpha_i(y_i(w.x_i+b)-1)\geq 0 \\ &\ \alpha_i\geq 0 \\ 条件极值问题 能够转化为 凸优化问题的要求: & \alpha_i(y_i(w.x_i+b)-1)=0 \end{aligned}
条件极值问题能够转化为凸优化问题s.t.条件极值问题能够转化为凸优化问题的要求:??αi?≥0max?L(w,b,αi?)=∣∣w∣∣21??αi?≥0max?{∣∣w∣∣21??i=1∑I?αi?(yi?(w.xi?+b)?1)}=∣∣w∣∣21??∣∣w∣∣21??αi?≥0max?{i=1∑I?αi?(yi?(w.xi?+b)?1)}=∣∣w∣∣21??αi?≥0min?{i=1∑I?αi?(yi?(w.xi?+b)?1)}=0?αi?(yi?(w.xi?+b)?1)≥0?αi?≥0αi?(yi?(w.xi?+b)?1)=0?
求解凸优化问题:先求偏导数,再令偏导数=0
目
标
:
由
内
到
外
max
?
α
i
≥
0
L
(
w
,
b
,
α
i
)
先
:
?
L
(
w
,
b
,
α
i
)
?
α
i
=
?
∑
i
=
1
I
(
y
i
(
w
x
i
+
b
)
?
1
)
再
:
?
L
(
w
,
b
,
α
i
)
?
α
i
=
0
,
即
∑
i
=
1
I
(
y
i
(
w
x
i
+
b
)
?
1
)
=
0
,
发
现
有
两
个
变
量
w
和
b
,
求
解
有
难
度
最
后
:
需
要
转
变
求
解
思
路
,
对
偶
变
换
min
?
w
,
b
max
?
α
i
≥
0
L
(
w
,
b
,
α
i
)
?
对
偶
变
换
max
?
α
i
≥
0
min
?
w
,
b
L
(
w
,
b
,
α
i
)
\begin{aligned} 目标: &由内到外 \\ &\max_{\alpha_i \geq0}L(w,b,\alpha_i) \\ 先: \\ &\frac{\partial{L(w,b,\alpha_i)}}{\partial{\alpha_i}}=-\sum\limits^I_{i=1}(y_i(wx_i+b)-1) \\ 再: \\ &\frac{\partial{L(w,b,\alpha_i)}}{\partial{\alpha_i}}=0,即\sum\limits^I_{i=1}(y_i(wx_i+b)-1)=0,发现有两个变量w和b,求解有难度 \\ 最后: &需要转变求解思路,对偶变换 \\ &\min_{w,b}\max_{\alpha_i \geq0}L(w,b,\alpha_i) \stackrel{对偶变换}{\Longrightarrow} \max_{\alpha_i \geq0}\min_{w,b}L(w,b,\alpha_i) \end{aligned}
目标:先:再:最后:?由内到外αi?≥0max?L(w,b,αi?)?αi??L(w,b,αi?)?=?i=1∑I?(yi?(wxi?+b)?1)?αi??L(w,b,αi?)?=0,即i=1∑I?(yi?(wxi?+b)?1)=0,发现有两个变量w和b,求解有难度需要转变求解思路,对偶变换w,bmin?αi?≥0max?L(w,b,αi?)?对偶变换?αi?≥0max?w,bmin?L(w,b,αi?)?
求解对偶问题(凸优化问题的对偶问题):先求偏导数,再令偏导数=0
目
标
:
由
内
到
外
min
?
w
,
b
L
(
w
,
b
,
α
i
)
先
:
?
L
(
w
,
b
,
α
i
)
?
w
=
w
?
∑
i
=
1
I
α
i
y
i
x
i
?
L
(
w
,
b
,
α
i
)
?
b
=
?
∑
i
=
1
I
α
i
y
i
再
:
?
L
(
w
,
b
,
α
i
)
?
w
=
w
?
∑
i
=
1
I
α
i
y
i
x
i
=
0
?
w
=
∑
i
=
1
I
α
i
y
i
x
i
?
L
(
w
,
b
,
α
i
)
?
b
=
?
∑
i
=
1
I
α
i
y
i
=
0
?
0
=
∑
i
=
1
I
α
i
y
i
回
代
:
回
代
到
对
偶
问
题
max
?
α
i
≥
0
min
?
w
,
b
L
(
w
,
b
,
α
i
)
=
max
?
α
i
≥
0
{
1
2
∣
∣
w
∣
∣
2
?
∑
i
=
1
I
α
i
y
i
(
w
.
x
i
+
b
)
+
∑
i
=
1
I
α
i
}
=
max
?
α
i
≥
0
{
1
2
∣
∣
w
∣
∣
2
?
∑
i
=
1
I
α
i
y
i
w
.
x
i
?
∑
i
=
1
I
α
i
y
i
b
+
∑
i
=
1
I
α
i
}
=
max
?
α
i
≥
0
{
1
2
∣
∣
w
∣
∣
2
?
∑
i
=
1
I
α
i
y
i
w
.
x
i
+
∑
i
=
1
I
α
i
}
=
max
?
α
i
≥
0
{
∑
i
=
1
I
α
i
?
1
2
∣
∣
w
∣
∣
2
}
=
max
?
α
i
≥
0
{
∑
i
=
1
I
α
i
?
1
2
∑
i
=
1
I
∑
j
=
1
I
α
i
α
j
y
i
y
j
x
i
x
j
}
结
果
:
对
偶
问
题
求
解
结
果
max
?
α
i
≥
0
{
∑
i
=
1
I
α
i
?
1
2
∑
i
=
1
I
∑
j
=
1
I
α
i
α
j
y
i
y
j
x
i
x
j
}
s
.
t
.
?
∑
i
=
1
I
α
i
y
i
=
0
,
来
自
?
L
(
w
,
b
,
α
i
)
?
b
?
α
i
≥
0
,
来
自
“
拉
格
朗
日
系
数
”
要
求
\begin{aligned} 目标: &由内到外 \\ &\min_{w,b}L(w,b,\alpha_i) \\ 先: \\ &\frac{\partial{L(w,b,\alpha_i)}}{\partial{w}}=w-\sum\limits^I_{i=1}\alpha_iy_ix_i \\ &\frac{\partial{L(w,b,\alpha_i)}}{\partial{b}}=-\sum\limits^I_{i=1}\alpha_iy_i \\ 再: \\ &\frac{\partial{L(w,b,\alpha_i)}}{\partial{w}}=w-\sum\limits^I_{i=1}\alpha_iy_ix_i=0 \Longrightarrow w=\sum\limits^I_{i=1}\alpha_iy_ix_i \\ &\frac{\partial{L(w,b,\alpha_i)}}{\partial{b}}=-\sum\limits^I_{i=1}\alpha_iy_i=0 \Longrightarrow 0=\sum\limits^I_{i=1}\alpha_iy_i \\ 回代: &回代到对偶问题 \\ \max_{\alpha_i \geq0}\min_{w,b}L(w,b,\alpha_i) &=\max_{\alpha_i \geq0}\big\{\frac{1}{2}||w||^2-\sum\limits^I_{i=1}\alpha_iy_i(w.x_i+b)+\sum\limits^I_{i=1}\alpha_i\big\} \\ &=\max_{\alpha_i \geq0}\big\{\frac{1}{2}||w||^2-\sum\limits^I_{i=1}\alpha_iy_iw.x_i-\sum\limits^I_{i=1}\alpha_iy_ib+\sum\limits^I_{i=1}\alpha_i\big\} \\ &=\max_{\alpha_i \geq0}\big\{\frac{1}{2}||w||^2-\sum\limits^I_{i=1}\alpha_iy_iw.x_i+\sum\limits^I_{i=1}\alpha_i\big\} \\ &=\max_{\alpha_i \geq0}\big\{\sum\limits^I_{i=1}\alpha_i-\frac{1}{2}||w||^2\big\} \\ &=\max_{\alpha_i \geq0}\big\{\sum\limits^I_{i=1}\alpha_i-\frac{1}{2}\sum\limits^I_{i=1}\sum\limits^I_{j=1}\alpha_i\alpha_jy_iy_jx_ix_j\big\} \\ 结果: &对偶问题求解结果 \\ & \max_{\alpha_i \geq0}\big\{\sum\limits^I_{i=1}\alpha_i-\frac{1}{2}\sum\limits^I_{i=1}\sum\limits^I_{j=1}\alpha_i\alpha_jy_iy_jx_ix_j\big\} \\ s.t. &\ \sum\limits^I_{i=1}\alpha_iy_i=0,来自\frac{\partial{L(w,b,\alpha_i)}}{\partial{b}} \\ &\ \alpha_i\geq0,来自“拉格朗日系数”要求 \end{aligned}
目标:先:再:回代:αi?≥0max?w,bmin?L(w,b,αi?)结果:s.t.?由内到外w,bmin?L(w,b,αi?)?w?L(w,b,αi?)?=w?i=1∑I?αi?yi?xi??b?L(w,b,αi?)?=?i=1∑I?αi?yi??w?L(w,b,αi?)?=w?i=1∑I?αi?yi?xi?=0?w=i=1∑I?αi?yi?xi??b?L(w,b,αi?)?=?i=1∑I?αi?yi?=0?0=i=1∑I?αi?yi?回代到对偶问题=αi?≥0max?{21?∣∣w∣∣2?i=1∑I?αi?yi?(w.xi?+b)+i=1∑I?αi?}=αi?≥0max?{21?∣∣w∣∣2?i=1∑I?αi?yi?w.xi??i=1∑I?αi?yi?b+i=1∑I?αi?}=αi?≥0max?{21?∣∣w∣∣2?i=1∑I?αi?yi?w.xi?+i=1∑I?αi?}=αi?≥0max?{i=1∑I?αi??21?∣∣w∣∣2}=αi?≥0max?{i=1∑I?αi??21?i=1∑I?j=1∑I?αi?αj?yi?yj?xi?xj?}对偶问题求解结果αi?≥0max?{i=1∑I?αi??21?i=1∑I?j=1∑I?αi?αj?yi?yj?xi?xj?}?i=1∑I?αi?yi?=0,来自?b?L(w,b,αi?)??αi?≥0,来自“拉格朗日系数”要求?
最终求得
α
i
,
w
,
b
\alpha_i, w, b
αi?,w,b:
根
据
max
?
α
i
≥
0
{
∑
i
=
1
I
α
i
?
1
2
∑
i
=
1
I
∑
j
=
1
I
α
i
α
j
y
i
y
j
x
i
x
j
}
?
求
得
α
根
据
w
=
∑
i
=
1
I
α
i
y
i
x
i
,
来
自
?
L
(
w
,
b
,
α
i
)
?
w
?
求
得
w
根
据
α
i
(
y
i
(
w
x
i
?
b
)
?
1
)
=
0
,
来
自
条
件
极
值
问
题
转
凸
优
化
问
题
的
约
束
条
件
?
求
得
b
根据\max_{\alpha_i \geq0}\big\{\sum\limits^I_{i=1}\alpha_i-\frac{1}{2}\sum\limits^I_{i=1}\sum\limits^I_{j=1}\alpha_i\alpha_jy_iy_jx_ix_j\big\} \longrightarrow 求得 \alpha \\ 根据w=\sum\limits^I_{i=1}\alpha_iy_ix_i,来自\frac{\partial{L(w,b,\alpha_i)}}{\partial{w}} \longrightarrow 求得 w \\ 根据\alpha_i(y_i(wx_i-b)-1)=0,来自条件极值问题转凸优化问题的约束条件 \longrightarrow 求得 b
根据αi?≥0max?{i=1∑I?αi??21?i=1∑I?j=1∑I?αi?αj?yi?yj?xi?xj?}?求得α根据w=i=1∑I?αi?yi?xi?,来自?w?L(w,b,αi?)??求得w根据αi?(yi?(wxi??b)?1)=0,来自条件极值问题转凸优化问题的约束条件?求得b
补充:所有约束条件
{
y
i
(
w
x
i
+
b
)
?
1
≥
0
,
来
自
要
求
所
有
样
本
位
于
H
1
和
H
2
之
上
或
之
外
w
=
∑
i
=
1
I
α
i
y
i
x
i
,
来
自
?
L
(
w
,
b
,
α
i
)
?
w
0
=
∑
i
=
1
I
α
i
y
i
,
来
自
?
L
(
w
,
b
,
α
i
)
?
b
α
i
≥
0
,
来
自
拉
格
朗
日
系
数
要
求
α
i
(
y
i
(
w
x
i
?
b
)
?
1
)
=
0
,
来
自
条
件
极
值
问
题
转
凸
优
化
问
题
的
约
束
条
件
\begin{cases} y_i(wx_i+b)-1\geq0,来自要求所有样本位于H1和H2之上或之外 \\ w=\sum\limits^I_{i=1}\alpha_iy_ix_i,来自\frac{\partial{L(w,b,\alpha_i)}}{\partial{w}} \\ 0=\sum\limits^I_{i=1}\alpha_iy_i,来自\frac{\partial{L(w,b,\alpha_i)}}{\partial{b}} \\ \alpha_i\geq0,来自拉格朗日系数要求 \\ \alpha_i(y_i(wx_i-b)-1)=0,来自条件极值问题转凸优化问题的约束条件 \end{cases}
??????????????????????yi?(wxi?+b)?1≥0,来自要求所有样本位于H1和H2之上或之外w=i=1∑I?αi?yi?xi?,来自?w?L(w,b,αi?)?0=i=1∑I?αi?yi?,来自?b?L(w,b,αi?)?αi?≥0,来自拉格朗日系数要求αi?(yi?(wxi??b)?1)=0,来自条件极值问题转凸优化问题的约束条件?
软间隔(Soft-Margin)
图示
介绍
- 上图所示,H1划分正样本,H2划分负样本,但是H1并未能够将正样本完全分开,有一点P被错误划分为了负样本
- 为了正确划分样本点P,H1向下平移
ζ
\zeta
ζ成为H1’
- 此时,H1’左上的点为正样本,H2右下的样本为负样本
- 发现,H1’将某些负样本错误划分成了正样本
- 发现,H1’和H2之间的样本点既被划分成了正样本又被划分成了负样本
- Margin为H1’和H2之间的距离
- 进一步,H1’将某些负样本错误划分成了正样本,类别划分错误的样本点多,误差大
- 进一步,H1’和H2之间的距离Margin小,泛化能力弱,需要找到更大Margin
进一步:
- 在大数据量的情况下,完全无误划分正负样本难度大 且 得到大Margin的难度大
?
退
求
其
次
\stackrel{退求其次}{\Longrightarrow}
?退求其次? 找到允许分错小部分样本的大间距
?
\Longrightarrow
? 软间距
- 如何得到软间距:
已
知
{
硬
间
距
软
间
距
要
求
:
允
许
一
定
分
类
误
差
和
间
距
足
够
大
?
平
移
硬
间
距
超
平
面
H1
或
H2
?
得
到
新
的
正
负
样
本
公
式
已知 \begin{cases} 硬间距 \\ 软间距要求:允许一定分类误差 和 间距足够大 \end{cases} \Longrightarrow 平移硬间距超平面\text{H1}或\text{H2} \Longrightarrow 得到新的正负样本公式
已知{硬间距软间距要求:允许一定分类误差和间距足够大??平移硬间距超平面H1或H2?得到新的正负样本公式
正负样本:
y
i
(
w
?
x
+
b
)
?
1
+
ζ
≥
0
?
{
正
样
本
:
i
f
?
y
i
=
1
,
?
w
.
x
+
b
≥
1
?
ζ
负
样
本
:
i
f
?
y
i
=
?
1
,
?
w
.
x
+
b
≤
?
1
+
ζ
s
.
t
.
?
ζ
≥
0
y_i(\textbf{w}\cdot \textbf{x}+b)-1+\zeta\geq 0\Rightarrow \begin{cases} 正样本:if\ y_i=1,\ \textbf{w}.\textbf{x}+b \geq 1-\zeta \\ 负样本:if\ y_i=-1,\ \textbf{w}.\textbf{x}+b \leq -1+\zeta \end{cases} s.t.\ \zeta\geq 0
yi?(w?x+b)?1+ζ≥0?{正样本:if?yi?=1,?w.x+b≥1?ζ负样本:if?yi?=?1,?w.x+b≤?1+ζ?s.t.?ζ≥0
新Margin:
M
a
r
g
i
n
=
2
?
2
ζ
∣
∣
w
∣
∣
\begin{aligned} Margin &= \frac{2-2\zeta}{||w||} \end{aligned}
Margin?=∣∣w∣∣2?2ζ??
问题:
ζ
\zeta
ζ作用
- 上下平移硬间距超平面H1,H2二者代表无分类误差
-
ζ
\zeta
ζ变化
?
\Rightarrow
?分类误差变化 && H1’和H2’的间距变化
问题:
ζ
?
w
∣
∣
w
∣
∣
\frac{\zeta\cdot \textbf{w}}{||\textbf{w}||}
∣∣w∣∣ζ?w?是什么? 答:
ζ
\zeta
ζ在
w
\textbf{w}
w方向上的投影
问题:向量投影公式 答:
已
知
,
向
量
a
,
b
a
在
b
方
向
上
的
投
影
=
a
?
b
∣
∣
b
∣
∣
已知,向量\textbf{a}, \textbf{b} \\ \textbf{a}在\textbf{b}方向上的投影=\frac{\textbf{a}\cdot\textbf{b}}{||\textbf{b}||}
已知,向量a,ba在b方向上的投影=∣∣b∣∣a?b?
公式推导
SVM(软间距)的任务:
- 允许一定分类误差,能够适度(弹性)有误把样本划分成两部分
- 能够最大化H1’和H2’的间距(Margin)
- 上面两个条件需要同时满足
- 根据SVM的作用,所以SVM叫做软间距
已知硬间距条件极值:找到超平面H1和H2
?
\Rightarrow
? 能够无误把样本划分成两部分&&能够无误划分样本的H1和H2的最大间距(Margin)
m
a
x
?
M
a
r
g
i
n
?
m
a
x
?
2
∣
∣
w
∣
∣
?
m
i
n
?
∣
∣
w
∣
∣
2
2
s
.
t
.
?
y
i
(
w
?
x
+
b
)
?
1
≥
0
\begin{aligned} max\ Margin \Rightarrow max\ \frac{2}{||w||} \Rightarrow min\ \frac{||w||^2}{2} \\ s.t.\ y_i(\textbf{w}\cdot \textbf{x}+b)-1\geq 0 \end{aligned}
max?Margin?max?∣∣w∣∣2??min?2∣∣w∣∣2?s.t.?yi?(w?x+b)?1≥0?
推知软间距条件极值:找到超平面H1’和H2’
?
\Rightarrow
? 有适度失误把样本划分成两部分&&有适度失误划分样本的H1’和H2’的最大间距(Margin)
max
?
?
M
a
r
g
i
n
?
m
a
x
?
2
?
2
ζ
∣
∣
w
∣
∣
?
m
i
n
?
{
∣
∣
w
∣
∣
2
2
+
C
∑
i
=
1
I
ζ
i
}
s
.
t
.
?
y
i
(
w
?
x
+
b
)
?
1
+
ζ
≥
0
ζ
≥
0
C
的
作
用
:
已
知
ζ
作
用
,
ζ
变
化
?
分
类
误
差
变
化
和
H
1
′
和
H
2
′
的
间
距
变
化
因
此
,
我
们
需
要
控
制
(
惩
罚
)
ζ
?
使
用
超
参
数
C
控
制
(
惩
罚
)
ζ
?
使
用
超
参
数
C
控
制
(
惩
罚
)
分
类
误
差
和
H
1
′
和
H
2
′
的
间
距
\begin{aligned} \max\ Margin \Rightarrow max\ \frac{2-2\zeta}{||w||} \Rightarrow min\ \big\{\frac{||w||^2}{2}+C\sum\limits^I_{i=1}\zeta_i\big\} \\ s.t.\ &y_i(\textbf{w}\cdot \textbf{x}+b)-1+\zeta\geq 0 \\ &\zeta\geq 0 \\ C的作用: &已知\zeta作用,\zeta变化\Rightarrow分类误差变化 和 H1'和H2'的间距变化 \\ &因此,我们需要控制(惩罚)\zeta \Rightarrow 使用超参数C控制(惩罚)\zeta\Rightarrow 使用超参数C控制(惩罚)分类误差和H1'和H2'的间距 \end{aligned}
max?Margin?max?∣∣w∣∣2?2ζ??min?{2∣∣w∣∣2?+Ci=1∑I?ζi?}s.t.?C的作用:?yi?(w?x+b)?1+ζ≥0ζ≥0已知ζ作用,ζ变化?分类误差变化和H1′和H2′的间距变化因此,我们需要控制(惩罚)ζ?使用超参数C控制(惩罚)ζ?使用超参数C控制(惩罚)分类误差和H1′和H2′的间距?
不等式约束的条件极值问题:使用拉格朗日乘数法求解
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
=
1
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
I
ζ
i
?
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
?
∑
i
=
1
I
u
i
ζ
i
s
.
t
.
?
α
i
≥
0
u
i
≥
0
\begin{aligned} L(w,b,\zeta_i,\alpha_i,u_i) &=\frac{1}{||w||^2}+C\sum\limits^I_{i=1}\zeta_i-\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1+\zeta_i)-\sum\limits^I_{i=1}u_i\zeta_i \\ s.t.\ &\alpha_i \geq0 \\ & u_i\geq0 \end{aligned}
L(w,b,ζi?,αi?,ui?)s.t.??=∣∣w∣∣21?+Ci=1∑I?ζi??i=1∑I?αi?(yi?(w.xi?+b)?1+ζi?)?i=1∑I?ui?ζi?αi?≥0ui?≥0?
转化为凸优化问题:
min
?
w
,
b
,
ζ
i
max
?
α
i
≥
0
,
u
i
≥
0
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
\min_{w,b,\zeta_i}\max_{\alpha_i \geq0, u_i\geq0}L(w,b,\zeta_i,\alpha_i,u_i)
w,b,ζi?min?αi?≥0,ui?≥0max?L(w,b,ζi?,αi?,ui?)
条件极值问题 转化为 凸优化问题的(约束)条件:
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
=
0
?
且
?
u
i
ζ
i
=
0
\alpha_i(y_i(w.x_i+b)-1+\zeta_i)=0\ 且\ u_i\zeta_i=0
αi?(yi?(w.xi?+b)?1+ζi?)=0?且?ui?ζi?=0
条
件
极
值
问
题
能
够
转
化
为
凸
优
化
问
题
?
max
?
α
i
≥
0
,
u
i
≥
0
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
=
∣
∣
w
∣
∣
2
2
+
C
∑
i
=
1
I
ζ
i
?
max
?
α
i
≥
0
,
u
i
≥
0
{
1
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
I
ζ
i
?
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
?
∑
i
=
1
I
u
i
ζ
i
}
=
∣
∣
w
∣
∣
2
2
+
C
∑
i
=
1
I
ζ
i
?
max
?
α
i
≥
0
,
u
i
≥
0
{
?
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
?
∑
i
=
1
I
u
i
ζ
i
}
=
0
?
min
?
α
i
≥
0
,
u
i
≥
0
{
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
+
∑
i
=
1
I
u
i
ζ
i
}
=
0
?
min
?
α
i
≥
0
,
u
i
≥
0
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
+
min
?
α
i
≥
0
,
u
i
≥
0
∑
i
=
1
I
u
i
ζ
i
=
0
?
根
据
条
件
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
=
0
?
且
?
u
i
ζ
i
=
0
s
.
t
.
?
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
≥
0
?
α
i
≥
0
?
u
i
≥
0
条
件
极
值
问
题
能
够
转
化
为
凸
优
化
问
题
的
要
求
:
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
=
0
?
且
?
u
i
ζ
i
=
0
\begin{aligned} 条件极值问题 能够转化为 凸优化问题 & \Rightarrow \max_{\alpha_i \geq0,u_i\geq0}L(w,b,\zeta_i,\alpha_i,u_i)=\frac{||w||^2}{2}+C\sum\limits^I_{i=1}\zeta_i \\ & \Rightarrow \max_{\alpha_i \geq0,u_i\geq0}\big\{\frac{1}{||w||^2}+C\sum\limits^I_{i=1}\zeta_i-\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1+\zeta_i)-\sum\limits^I_{i=1}u_i\zeta_i\big\}=\frac{||w||^2}{2}+C\sum\limits^I_{i=1}\zeta_i \\ & \Rightarrow \max_{\alpha_i \geq0,u_i\geq0}\big\{-\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1+\zeta_i)-\sum\limits^I_{i=1}u_i\zeta_i\big\}=0 \\ & \Rightarrow \min_{\alpha_i \geq0,u_i\geq0}\big\{\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1+\zeta_i)+\sum\limits^I_{i=1}u_i\zeta_i\big\}=0 \\ & \Rightarrow \min_{\alpha_i \geq0,u_i\geq0}\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1+\zeta_i)+\min_{\alpha_i \geq0,u_i\geq0}\sum\limits^I_{i=1}u_i\zeta_i=0 \\ & \stackrel{根据条件}{\Rightarrow}\alpha_i(y_i(w.x_i+b)-1+\zeta_i)=0\ 且\ u_i\zeta_i=0 \\ s.t. &\ \alpha_i(y_i(w.x_i+b)-1+\zeta_i)\geq 0 \\ &\ \alpha_i\geq 0 \\ &\ u_i\geq 0 \\ 条件极值问题 能够转化为 凸优化问题的要求: & \alpha_i(y_i(w.x_i+b)-1+\zeta_i)=0\ 且\ u_i\zeta_i=0 \end{aligned}
条件极值问题能够转化为凸优化问题s.t.条件极值问题能够转化为凸优化问题的要求:??αi?≥0,ui?≥0max?L(w,b,ζi?,αi?,ui?)=2∣∣w∣∣2?+Ci=1∑I?ζi??αi?≥0,ui?≥0max?{∣∣w∣∣21?+Ci=1∑I?ζi??i=1∑I?αi?(yi?(w.xi?+b)?1+ζi?)?i=1∑I?ui?ζi?}=2∣∣w∣∣2?+Ci=1∑I?ζi??αi?≥0,ui?≥0max?{?i=1∑I?αi?(yi?(w.xi?+b)?1+ζi?)?i=1∑I?ui?ζi?}=0?αi?≥0,ui?≥0min?{i=1∑I?αi?(yi?(w.xi?+b)?1+ζi?)+i=1∑I?ui?ζi?}=0?αi?≥0,ui?≥0min?i=1∑I?αi?(yi?(w.xi?+b)?1+ζi?)+αi?≥0,ui?≥0min?i=1∑I?ui?ζi?=0?根据条件αi?(yi?(w.xi?+b)?1+ζi?)=0?且?ui?ζi?=0?αi?(yi?(w.xi?+b)?1+ζi?)≥0?αi?≥0?ui?≥0αi?(yi?(w.xi?+b)?1+ζi?)=0?且?ui?ζi?=0?
求解凸优化问题:先求偏导数,再令偏导数=0
目
标
:
由
内
到
外
max
?
α
i
≥
0
,
u
i
≥
0
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
先
:
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
α
i
=
?
∑
i
=
1
I
(
y
i
(
w
x
i
+
b
)
?
1
+
ζ
i
)
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
u
i
=
?
∑
i
=
1
I
ζ
i
再
:
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
α
i
=
0
,
即
∑
i
=
1
I
(
y
i
(
w
x
i
+
b
)
?
1
+
ζ
i
)
=
0
,
发
现
有
三
个
变
量
w
,
b
和
ζ
i
,
求
解
有
难
度
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
u
i
=
0
,
即
∑
i
=
1
I
ζ
i
=
0
,
则
ζ
i
=
0
,
无
意
义
最
后
:
需
要
转
变
求
解
思
路
,
对
偶
变
换
min
?
w
,
b
max
?
α
i
≥
0
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
对
偶
变
换
max
?
α
i
≥
0
min
?
w
,
b
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
\begin{aligned} 目标: &由内到外 \\ &\max_{\alpha_i \geq0, u_i\geq0}L(w,b,\zeta_i,\alpha_i,u_i) \\ 先: \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{\alpha_i}}=-\sum\limits^I_{i=1}(y_i(wx_i+b)-1+\zeta_i) \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{u_i}}=-\sum\limits^I_{i=1}\zeta_i \\ 再: \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{\alpha_i}}=0,即\sum\limits^I_{i=1}(y_i(wx_i+b)-1+\zeta_i)=0,发现有三个变量w, b和\zeta_i,求解有难度 \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{u_i}}=0,即\sum\limits^I_{i=1}\zeta_i=0,则\zeta_i=0,无意义 \\ 最后: &需要转变求解思路,对偶变换 \\ &\min_{w,b}\max_{\alpha_i \geq0}L(w,b,\zeta_i,\alpha_i,u_i)\stackrel{对偶变换}{\Longrightarrow} \max_{\alpha_i \geq0}\min_{w,b}L(w,b,\zeta_i,\alpha_i,u_i) \end{aligned}
目标:先:再:最后:?由内到外αi?≥0,ui?≥0max?L(w,b,ζi?,αi?,ui?)?αi??L(w,b,ζi?,αi?,ui?)?=?i=1∑I?(yi?(wxi?+b)?1+ζi?)?ui??L(w,b,ζi?,αi?,ui?)?=?i=1∑I?ζi??αi??L(w,b,ζi?,αi?,ui?)?=0,即i=1∑I?(yi?(wxi?+b)?1+ζi?)=0,发现有三个变量w,b和ζi?,求解有难度?ui??L(w,b,ζi?,αi?,ui?)?=0,即i=1∑I?ζi?=0,则ζi?=0,无意义需要转变求解思路,对偶变换w,bmin?αi?≥0max?L(w,b,ζi?,αi?,ui?)?对偶变换?αi?≥0max?w,bmin?L(w,b,ζi?,αi?,ui?)?
求解对偶问题(凸优化问题的对偶问题):先求偏导数,再令偏导数=0
目
标
:
由
内
到
外
min
?
w
,
b
,
ζ
i
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
先
:
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
w
=
w
?
∑
i
=
1
I
α
i
y
i
x
i
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
b
=
?
∑
i
=
1
I
α
i
y
i
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
ζ
i
=
∑
i
=
1
I
C
?
∑
i
=
1
I
ζ
i
?
∑
i
=
1
I
u
i
再
:
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
w
=
w
?
∑
i
=
1
I
α
i
y
i
x
i
=
0
?
w
=
∑
i
=
1
I
α
i
y
i
x
i
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
b
=
?
∑
i
=
1
I
α
i
y
i
=
0
?
0
=
∑
i
=
1
I
α
i
y
i
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
ζ
i
=
∑
i
=
1
I
C
?
∑
i
=
1
I
ζ
i
?
∑
i
=
1
I
u
i
=
0
?
C
?
α
i
=
u
i
回
代
:
回
代
到
对
偶
问
题
max
?
α
i
≥
0
,
u
i
≥
0
min
?
w
,
b
,
ζ
i
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
=
max
?
α
i
≥
0
,
u
i
≥
0
{
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
I
ζ
i
?
∑
i
=
1
I
α
i
(
y
i
(
w
.
x
i
+
b
)
?
1
+
ζ
i
)
?
∑
i
=
1
I
u
i
ζ
i
}
=
max
?
α
i
≥
0
,
u
i
≥
0
{
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
I
ζ
i
?
∑
i
=
1
I
α
i
y
i
w
x
i
?
∑
i
=
1
I
α
i
y
i
b
+
∑
i
=
1
I
α
i
?
∑
i
=
1
I
α
i
ζ
i
?
∑
i
=
1
I
u
i
ζ
i
}
=
max
?
α
i
≥
0
,
u
i
≥
0
{
∑
i
=
1
I
α
i
+
∑
i
=
1
I
(
C
?
u
i
)
ζ
i
?
1
2
∣
∣
w
∣
∣
2
}
=
max
?
α
i
≥
0
,
u
i
≥
0
{
∑
i
=
1
I
α
i
?
∑
i
=
1
I
∑
j
=
1
I
α
i
α
j
y
i
y
j
x
i
x
j
}
结
果
:
对
偶
问
题
求
解
结
果
max
?
α
i
≥
0
,
u
i
≥
0
{
∑
i
=
1
I
α
i
?
1
2
∑
i
=
1
I
∑
j
=
1
I
α
i
α
j
y
i
y
j
x
i
x
j
}
s
.
t
.
?
∑
i
=
1
I
α
i
y
i
=
0
,
来
自
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
b
?
C
≥
α
i
≥
0
,
来
自
“
拉
格
朗
日
系
数
”
要
求
(
α
i
≥
0
)
?
u
i
≥
0
,
来
自
“
拉
格
朗
日
系
数
”
要
求
\begin{aligned} 目标: &由内到外 \\ &\min_{w,b,\zeta_i}L(w,b,\zeta_i,\alpha_i,u_i) \\ 先: \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{w}}=w-\sum\limits^I_{i=1}\alpha_iy_ix_i \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{b}}=-\sum\limits^I_{i=1}\alpha_iy_i \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{\zeta_i}}=\sum\limits^I_{i=1}C-\sum\limits^I_{i=1}\zeta_i-\sum\limits^I_{i=1}u_i \\ 再: \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{w}}=w-\sum\limits^I_{i=1}\alpha_iy_ix_i=0 \Longrightarrow w=\sum\limits^I_{i=1}\alpha_iy_ix_i \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{b}}=-\sum\limits^I_{i=1}\alpha_iy_i=0 \Longrightarrow 0=\sum\limits^I_{i=1}\alpha_iy_i \\ &\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{\zeta_i}}=\sum\limits^I_{i=1}C-\sum\limits^I_{i=1}\zeta_i-\sum\limits^I_{i=1}u_i=0 \Longrightarrow C-\alpha_i=u_i \\ 回代: &回代到对偶问题 \\ \max_{\alpha_i \geq0,u_i\geq0}\min_{w,b,\zeta_i}L(w,b,\zeta_i,\alpha_i,u_i) &=\max_{\alpha_i \geq0,u_i\geq0}\big\{\frac{1}{2}||w||^2+C\sum\limits^I_{i=1}\zeta_i-\sum\limits^I_{i=1}\alpha_i(y_i(w.x_i+b)-1+\zeta_i)-\sum\limits^I_{i=1}u_i\zeta_i\big\} \\ &=\max_{\alpha_i \geq0,u_i\geq0}\big\{\frac{1}{2}||w||^2+C\sum\limits^I_{i=1}\zeta_i-\sum\limits^I_{i=1}\alpha_iy_iwx_i-\sum\limits^I_{i=1}\alpha_iy_ib+\sum\limits^I_{i=1}\alpha_i-\sum\limits^I_{i=1}\alpha_i\zeta_i-\sum\limits^I_{i=1}u_i\zeta_i\big\} \\ &=\max_{\alpha_i \geq0,u_i\geq0}\big\{\sum\limits^I_{i=1}\alpha_i+\sum\limits^I_{i=1}(C-u_i)\zeta_i-\frac{1}{2}||w||^2\big\} \\ &=\max_{\alpha_i \geq0,u_i\geq0}\big\{\sum\limits^I_{i=1}\alpha_i-\sum\limits^I_{i=1}\sum\limits^I_{j=1}\alpha_i\alpha_jy_iy_jx_ix_j\big\} \\ 结果: &对偶问题求解结果 \\ & \max_{\alpha_i \geq0,u_i\geq0}\big\{\sum\limits^I_{i=1}\alpha_i-\frac{1}{2}\sum\limits^I_{i=1}\sum\limits^I_{j=1}\alpha_i\alpha_jy_iy_jx_ix_j\big\} \\ s.t. &\ \sum\limits^I_{i=1}\alpha_iy_i=0,来自\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{b}} \\ &\ {\color{red} C}\geq\alpha_i\geq0,来自“拉格朗日系数”要求(\alpha_i\geq0) \\ &\ u_i\geq0,来自“拉格朗日系数”要求 \end{aligned}
目标:先:再:回代:αi?≥0,ui?≥0max?w,b,ζi?min?L(w,b,ζi?,αi?,ui?)结果:s.t.?由内到外w,b,ζi?min?L(w,b,ζi?,αi?,ui?)?w?L(w,b,ζi?,αi?,ui?)?=w?i=1∑I?αi?yi?xi??b?L(w,b,ζi?,αi?,ui?)?=?i=1∑I?αi?yi??ζi??L(w,b,ζi?,αi?,ui?)?=i=1∑I?C?i=1∑I?ζi??i=1∑I?ui??w?L(w,b,ζi?,αi?,ui?)?=w?i=1∑I?αi?yi?xi?=0?w=i=1∑I?αi?yi?xi??b?L(w,b,ζi?,αi?,ui?)?=?i=1∑I?αi?yi?=0?0=i=1∑I?αi?yi??ζi??L(w,b,ζi?,αi?,ui?)?=i=1∑I?C?i=1∑I?ζi??i=1∑I?ui?=0?C?αi?=ui?回代到对偶问题=αi?≥0,ui?≥0max?{21?∣∣w∣∣2+Ci=1∑I?ζi??i=1∑I?αi?(yi?(w.xi?+b)?1+ζi?)?i=1∑I?ui?ζi?}=αi?≥0,ui?≥0max?{21?∣∣w∣∣2+Ci=1∑I?ζi??i=1∑I?αi?yi?wxi??i=1∑I?αi?yi?b+i=1∑I?αi??i=1∑I?αi?ζi??i=1∑I?ui?ζi?}=αi?≥0,ui?≥0max?{i=1∑I?αi?+i=1∑I?(C?ui?)ζi??21?∣∣w∣∣2}=αi?≥0,ui?≥0max?{i=1∑I?αi??i=1∑I?j=1∑I?αi?αj?yi?yj?xi?xj?}对偶问题求解结果αi?≥0,ui?≥0max?{i=1∑I?αi??21?i=1∑I?j=1∑I?αi?αj?yi?yj?xi?xj?}?i=1∑I?αi?yi?=0,来自?b?L(w,b,ζi?,αi?,ui?)??C≥αi?≥0,来自“拉格朗日系数”要求(αi?≥0)?ui?≥0,来自“拉格朗日系数”要求?
最终求得
α
i
,
u
i
,
w
,
b
,
ζ
i
\alpha_i,u_i,w, b,\zeta_i
αi?,ui?,w,b,ζi?:
根
据
max
?
α
i
≥
0
,
u
i
≥
0
{
∑
i
=
1
I
α
i
?
1
2
∑
i
=
1
I
∑
j
=
1
I
α
i
α
j
y
i
y
j
x
i
x
j
}
?
求
得
α
根
据
u
i
=
C
?
α
i
,
C
是
超
参
?
求
得
u
i
根
据
w
=
∑
i
=
1
I
α
i
y
i
x
i
,
来
自
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
w
?
求
得
w
根
据
α
i
(
y
i
(
w
x
i
?
b
)
?
1
+
ζ
i
)
=
0
,
来
自
条
件
极
值
问
题
转
凸
优
化
问
题
的
约
束
条
件
?
求
得
b
根
据
u
i
ζ
i
=
0
,
来
自
条
件
极
值
问
题
转
凸
优
化
问
题
的
约
束
条
件
?
求
得
ζ
i
根据\max_{\alpha_i \geq0,u_i\geq0}\big\{\sum\limits^I_{i=1}\alpha_i-\frac{1}{2}\sum\limits^I_{i=1}\sum\limits^I_{j=1}\alpha_i\alpha_jy_iy_jx_ix_j\big\} \longrightarrow 求得 \alpha \\ 根据u_i=C-\alpha_i,C是超参 \longrightarrow 求得 u_i \\ 根据w=\sum\limits^I_{i=1}\alpha_iy_ix_i,来自\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{w}} \longrightarrow 求得 w \\ 根据\alpha_i(y_i(wx_i-b)-1+\zeta_i)=0,来自条件极值问题转凸优化问题的约束条件 \longrightarrow 求得 b \\ 根据u_i\zeta_i=0,来自条件极值问题转凸优化问题的约束条件 \longrightarrow 求得 \zeta_i
根据αi?≥0,ui?≥0max?{i=1∑I?αi??21?i=1∑I?j=1∑I?αi?αj?yi?yj?xi?xj?}?求得α根据ui?=C?αi?,C是超参?求得ui?根据w=i=1∑I?αi?yi?xi?,来自?w?L(w,b,ζi?,αi?,ui?)??求得w根据αi?(yi?(wxi??b)?1+ζi?)=0,来自条件极值问题转凸优化问题的约束条件?求得b根据ui?ζi?=0,来自条件极值问题转凸优化问题的约束条件?求得ζi?
补充:所有约束条件
{
y
i
(
w
x
i
+
b
)
?
1
+
ζ
i
≥
0
,
来
自
要
求
所
有
样
本
位
于
H1’
和
H2’
之
上
或
之
外
w
=
∑
i
=
1
I
α
i
y
i
x
i
,
来
自
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
w
0
=
∑
i
=
1
I
α
i
y
i
,
来
自
?
L
(
w
,
b
,
ζ
i
,
α
i
,
u
i
)
?
b
α
i
≥
0
,
来
自
拉
格
朗
日
系
数
要
求
u
i
≥
0
,
来
自
拉
格
朗
日
系
数
要
求
α
i
(
y
i
(
w
x
i
?
b
)
?
1
+
ζ
i
)
=
0
,
来
自
条
件
极
值
问
题
转
凸
优
化
问
题
的
约
束
条
件
u
i
ζ
i
=
0
,
来
自
条
件
极
值
问
题
转
凸
优
化
问
题
的
约
束
条
件
\begin{cases} y_i(wx_i+b)-1+\zeta_i\geq0,来自要求所有样本位于\text{H1'}和\text{H2'}之上或之外 \\ w=\sum\limits^I_{i=1}\alpha_iy_ix_i,来自\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{w}} \\ 0=\sum\limits^I_{i=1}\alpha_iy_i,来自\frac{\partial{L(w,b,\zeta_i,\alpha_i,u_i)}}{\partial{b}} \\ \alpha_i\geq0,来自拉格朗日系数要求 \\ u_i\geq0,来自拉格朗日系数要求 \\ \alpha_i(y_i(wx_i-b)-1+\zeta_i)=0,来自条件极值问题转凸优化问题的约束条件 \\ u_i\zeta_i=0,来自条件极值问题转凸优化问题的约束条件 \end{cases}
????????????????????????????????yi?(wxi?+b)?1+ζi?≥0,来自要求所有样本位于H1’和H2’之上或之外w=i=1∑I?αi?yi?xi?,来自?w?L(w,b,ζi?,αi?,ui?)?0=i=1∑I?αi?yi?,来自?b?L(w,b,ζi?,αi?,ui?)?αi?≥0,来自拉格朗日系数要求ui?≥0,来自拉格朗日系数要求αi?(yi?(wxi??b)?1+ζi?)=0,来自条件极值问题转凸优化问题的约束条件ui?ζi?=0,来自条件极值问题转凸优化问题的约束条件?
问题:软间距要求
C
≥
α
i
≥
0
{\color{red} C}\geq\alpha_i\geq0
C≥αi?≥0硬间距要求
α
i
≥
0
\alpha_i\geq0
αi?≥0 答:
- 已知
C
C
C的作用:
C
的
作
用
:
已
知
ζ
作
用
,
ζ
变
化
?
分
类
误
差
变
化
和
H
1
′
和
H
2
′
的
间
距
变
化
因
此
,
我
们
需
要
控
制
(
惩
罚
)
ζ
?
使
用
超
参
数
C
控
制
(
惩
罚
)
ζ
?
使
用
超
参
数
C
控
制
(
惩
罚
)
分
类
误
差
和
H
1
′
和
H
2
′
的
间
距
\begin{aligned} C的作用: &已知\zeta作用,\zeta变化\Rightarrow分类误差变化 和 H1'和H2'的间距变化 \\ &因此,我们需要控制(惩罚)\zeta \Rightarrow 使用超参数C控制(惩罚)\zeta\Rightarrow 使用超参数C控制(惩罚)分类误差和H1'和H2'的间距 \end{aligned}
C的作用:?已知ζ作用,ζ变化?分类误差变化和H1′和H2′的间距变化因此,我们需要控制(惩罚)ζ?使用超参数C控制(惩罚)ζ?使用超参数C控制(惩罚)分类误差和H1′和H2′的间距? -
C
≥
0
,
默
认
C
=
1.0
C\geq0, 默认C=1.0
C≥0,默认C=1.0
- 若
C
C
C设置大了,
为
了
max
?
?
M
a
r
g
i
n
?
m
a
x
?
2
?
2
ζ
∣
∣
w
∣
∣
?
m
i
n
?
{
∣
∣
w
∣
∣
2
2
+
C
∑
i
=
1
I
ζ
i
}
?
ζ
i
设
置
小
值
?
H1
和
H2
平
移
距
离
小
?
接
近
于
硬
间
隔
?
要
求
分
类
误
差
小
?
大
数
据
情
况
下
训
练
时
间
长
,
M
a
r
g
i
n
小
\begin{aligned} 为了\max\ Margin \Rightarrow max\ \frac{2-2\zeta}{||w||} &\Rightarrow min\ \big\{\frac{||w||^2}{2}+C\sum\limits^I_{i=1}\zeta_i\big\} \\ &\Rightarrow \zeta_i 设置小值 \\ &\Rightarrow \text{H1}和\text{H2}平移距离小 \\ &\Rightarrow 接近于硬间隔 \\ &\Rightarrow 要求分类误差小 \\ &\Rightarrow 大数据情况下训练时间长,Margin小 \end{aligned}
为了max?Margin?max?∣∣w∣∣2?2ζ???min?{2∣∣w∣∣2?+Ci=1∑I?ζi?}?ζi?设置小值?H1和H2平移距离小?接近于硬间隔?要求分类误差小?大数据情况下训练时间长,Margin小? - 若
C
C
C设置小了,
为
了
max
?
?
M
a
r
g
i
n
?
m
a
x
?
2
?
2
ζ
∣
∣
w
∣
∣
?
m
i
n
?
{
∣
∣
w
∣
∣
2
2
+
C
∑
i
=
1
I
ζ
i
}
?
ζ
i
设
置
较
大
值
?
H1
和
H2
平
移
距
离
较
大
?
不
接
近
于
硬
间
隔
?
要
求
分
类
误
差
较
大
?
大
数
据
情
况
下
训
练
时
间
较
短
,
M
a
r
g
i
n
较
大
\begin{aligned} 为了\max\ Margin \Rightarrow max\ \frac{2-2\zeta}{||w||} &\Rightarrow min\ \big\{\frac{||w||^2}{2}+C\sum\limits^I_{i=1}\zeta_i\big\} \\ &\Rightarrow \zeta_i 设置较大值 \\ &\Rightarrow \text{H1}和\text{H2}平移距离较大 \\ &\Rightarrow 不接近于硬间隔 \\ &\Rightarrow 要求分类误差较大 \\ &\Rightarrow 大数据情况下训练时间较短,Margin较大 \end{aligned}
为了max?Margin?max?∣∣w∣∣2?2ζ???min?{2∣∣w∣∣2?+Ci=1∑I?ζi?}?ζi?设置较大值?H1和H2平移距离较大?不接近于硬间隔?要求分类误差较大?大数据情况下训练时间较短,Margin较大?
|