集成学习(一):数学基础
第一期笔记主要回顾大学学的数学基础,主要分四大块,每块我会记录一些重要的知识点或者是之前忘了的知识点,常记常新。
一、高等数学
1.雅可比矩阵(Jacobian) 假设
F
:
R
n
→
R
m
F: \mathbb{R}_{n} \rightarrow \mathbb{R}_{m}
F:Rn?→Rm? 是一个从n维欧氏空间映射到到m维欧氏空间的函数。 这个函数由m个实函数组成:
y
1
(
x
1
,
?
?
,
x
n
)
,
?
?
,
y
m
(
x
1
,
?
?
,
x
n
)
y_{1}\left(x_{1}, \cdots, x_{n}\right), \cdots, y_{m}\left(x_{1}, \cdots, x_{n}\right)
y1?(x1?,?,xn?),?,ym?(x1?,?,xn?) 。这些函数的偏导数(如果存在)可以组成一个m行n列的矩阵,这个矩阵就是所谓的雅可 比矩阵:
[
?
y
1
?
x
1
?
?
y
1
?
x
n
?
?
?
?
y
m
?
x
1
?
?
y
m
?
x
n
]
\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right]
?????x1??y1????x1??ym????????xn??y1????xn??ym??????? 可见,梯度向量是雅克比矩阵的特例! 例子:求
F
=
(
f
1
(
x
,
y
)
,
f
(
x
,
y
)
)
T
F=(f_1(x,y),f_(x,y))^T
F=(f1?(x,y),f(?x,y))T的雅克比矩阵,其中
f
1
(
x
,
y
)
=
2
x
2
+
y
2
,
f
2
(
x
,
y
)
=
x
2
+
3
y
2
f_1(x,y) = 2x^2 + y^2,f_2(x,y) = x^2 + 3y^2
f1?(x,y)=2x2+y2,f2?(x,y)=x2+3y2。
2.黑塞矩阵(Hessian) 黑塞矩阵(Hessian Matrix),又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。 在数学中,海森矩阵(Hessian matrix 或 Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵,假設有一实数函数
f
(
x
1
,
x
2
,
…
,
x
n
)
f\left(x_{1}, x_{2}, \ldots, x_{n}\right)
f(x1?,x2?,…,xn?) 如果
f
f
f 所有的二阶偏导数都存在,那么
f
f
f 的海森矩阵的第
i
j
i j
ij 项,即:
H
(
f
)
i
j
(
x
)
=
D
i
D
j
f
(
x
)
H(f)_{i j}(x)=D_{i} D_{j} f(x)
H(f)ij?(x)=Di?Dj?f(x) 其中
x
=
(
x
1
,
x
2
,
…
,
x
n
)
,
x=\left(x_{1}, x_{2}, \ldots, x_{n}\right),
x=(x1?,x2?,…,xn?), 即
H
(
f
)
=
[
?
2
f
?
x
1
2
?
2
f
?
x
1
?
x
2
?
?
2
f
?
x
1
?
x
n
?
2
f
?
x
2
?
x
1
?
2
f
?
x
2
2
?
?
2
f
?
x
2
?
x
n
?
?
?
?
?
2
f
?
x
n
?
x
1
?
2
f
?
x
n
?
x
2
?
?
2
f
?
x
n
2
]
H(f)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]
H(f)=?????????x12??2f??x2??x1??2f???xn??x1??2f???x1??x2??2f??x22??2f???xn??x2??2f????????x1??xn??2f??x2??xn??2f???xn2??2f?????????? 实际上,Hessian矩阵是梯度向量g(x)对自变量x的Jacobian矩阵。 例子:求
f
(
x
,
y
)
=
2
x
2
+
y
2
f(x,y)=2x^2+y^2
f(x,y)=2x2+y2的海森矩阵。
3.牛顿法 牛顿法: 首先牛顿法是求解函数值为0时的自变量取值的方法。 利用牛顿法求解目标函数的最小值其实是转化成求使目标函数的一阶导为0的参数值。这一转换的理论依据是,函数的极值点处的一阶导数为0. 其迭代过程是在当前位置x0求该函数的切线,该切线和x轴的交点x1,作为新的x0,重复这个过程,直到交点和函数的零点重合。此时的参数值就是使得目标函数取得极值的参数值。
迭代的公式如下:
θ
:
=
θ
?
α
?
′
(
θ
)
?
′
′
(
θ
)
\theta:=\theta-\alpha \frac{\ell^{\prime}(\theta)}{\ell^{\prime \prime}(\theta)}
θ:=θ?α?′′(θ)?′(θ)? 当
θ
\theta
θ是向量时, 牛顿法可以使用下面式子表示:
θ
:
=
θ
?
α
H
?
1
?
θ
?
(
θ
)
\theta:=\theta-\alpha H^{-1} \nabla_{\theta} \ell(\theta)
θ:=θ?αH?1?θ??(θ) 其中
H
H
H叫做海森矩阵,其实就是目标函数对参数
θ
\theta
θ的二阶导数。
牛顿法和梯度下降法的比较
1.牛顿法:是通过求解目标函数的一阶导数为0时的参数,进而求出目标函数最小值时的参数。
收敛速度很快。
海森矩阵的逆在迭代过程中不断减小,可以起到逐步减小步长的效果。
缺点:海森矩阵的逆计算复杂,代价比较大,因此有了拟牛顿法。
2.梯度下降法:是通过梯度方向和步长,直接求解目标函数的最小值时的参数。
越接近最优值时,步长应该不断减小,否则会在最优值附近来回震荡。
二、线性代数
- 正定二次型与Hesse矩阵(黑赛矩阵)
定义:R上一个元二次型q(x1,x2,?,xn)可以看成定义在实数域上n个变量的实函数。如果对于变量x1,x2,?,xn的每一组不全为零的值,函数值q(x1,x2,?,xn)都是正数,那么就称q(x1,x2,?,xn)是一个正定二次型。 类似地,如果对于变量x1,x2,?,xn的每一组不全为零的值,q(x1,x2,?,xn)都是负数,就称q(x1,x2,?,xn)是负定的。 黑赛矩阵:若f具有二阶连续偏导,并记 Hf(P0)=(fxx(P0)fyx(P0)fxy(P0)fyy(P0))=(fxxfyxfxyfyy)P0 ,它称为在的黑赛矩阵。 (极值条件)设二元函数f在点P0(x0,y0)的某领域U(P0)上具有二阶连续偏导数,且P0是f的稳定点。则当Hf(P0)是正定矩阵时,f在点P0取得极小值;当Hf(P0)是负定矩阵时,f在P0点取得极大值;当Hf(P0)是不定矩阵时,f在点P0不取极值。
三、概率论与随机过程
1.马尔可夫过程(离散时间)
\quad
随机过程
{
X
n
,
n
=
0
,
1
,
2
,
?
?
}
\left\{X_{n}, n=0,1,2, \cdots\right\}
{Xn?,n=0,1,2,?} 称为 Markov 链,若它只取有限或可 列个值(若不另外说明,以非负整数集
{
0
,
1
,
2
,
?
?
}
\{0,1,2, \cdots\}
{0,1,2,?} 来表示),并且对任意的
n
?
0
n \geqslant 0
n?0, 及任意状态
i
,
j
,
i
0
,
i
1
,
?
?
,
i
n
?
1
,
i, j, i_{0}, i_{1}, \cdots, i_{n-1},
i,j,i0?,i1?,?,in?1?, 有
P
{
X
n
+
1
=
j
∣
X
n
=
i
,
X
n
?
1
=
i
n
?
1
,
?
?
,
X
1
=
i
1
,
X
0
=
i
0
}
=
P
{
X
n
+
1
=
j
∣
X
n
=
i
}
P\left\{X_{n+1}=j \mid X_{n}=i, X_{n-1}=i_{n-1}, \cdots, X_{1}=i_{1}, X_{0}=i_{0}\right\}=P\left\{X_{n+1}=j \mid X_{n}=i\right\}
P{Xn+1?=j∣Xn?=i,Xn?1?=in?1?,?,X1?=i1?,X0?=i0?}=P{Xn+1?=j∣Xn?=i}
式中,
X
n
=
i
X_{n}=i
Xn?=i 表示过程在时刻
n
n
n 处于状态
i
,
i,
i, 称
{
0
,
1
,
2
,
?
?
}
\{0,1,2, \cdots\}
{0,1,2,?} 为该过程的状态空间, 记为 S,式子刻画了 Markov 链的特性,称为 Markov 性。对 Markov 链,给 定过去的状态
X
0
,
X
1
,
?
?
,
X
n
?
1
X_{0}, X_{1}, \cdots, X_{n-1}
X0?,X1?,?,Xn?1? 及现在的状态
X
n
,
X_{n},
Xn?, 将来的状态
X
n
+
1
X_{n+1}
Xn+1? 的条件分布与 过去的状态独立,只依赖于现在的状态。
直观理解:已知现在
B
=
{
X
n
=
i
}
B = \{X_n = i \}
B={Xn?=i},将来
A
=
X
n
+
1
=
j
A = X_{n+1} = j
A=Xn+1?=j与过去
C
=
{
X
n
?
1
=
i
n
?
1
,
.
.
.
,
X
0
=
i
0
}
C = \{X_{n-1}=i_{n-1},...,X_0 = i_0\}
C={Xn?1?=in?1?,...,X0?=i0?}独立。
-
(一步)转移概率:
{
X
n
,
n
=
0
,
1
,
2
,
?
?
}
\left\{X_{n}, n=0,1,2, \cdots\right\}
{Xn?,n=0,1,2,?} 的一步转移概率,简称转移概率,记为
p
i
j
,
p_{i j},
pij?, 它代表处于状态
i
i
i 的 过程下一步转移到状态
j
j
j 的概率。 -
(一步)转移概率矩阵:
P
=
(
p
i
j
)
=
(
p
i
j
)
i
,
j
∈
I
P = (p_{ij}) = (p_{ij})_{i,j \in I}
P=(pij?)=(pij?)i,j∈I?
2.高斯过程 首先当随机变量是1维的时候,我们称之为一维高斯分布,概率密度函数
p
(
x
)
=
N
(
μ
,
σ
2
)
,
p(x)=N\left(\mu, \sigma^{2}\right),
p(x)=N(μ,σ2), 当 随机变量的维度上升到有限的
p
p
p 维的时候,就称之为高维高斯分布,
p
(
x
)
=
N
(
μ
,
Σ
p
×
p
)
p(x)=N\left(\mu, \Sigma_{p \times p}\right)
p(x)=N(μ,Σp×p?) 。而 高斯过程则更进一步,他是一个定义在连续域上的无限多个高斯随机变量所组成的随机过程,换句话说,高斯过程是一个无限维的高斯分布。
- 高斯过程:对于一个连续域
T
T \quad
T (假设他是一个时间轴),如果我们在连续域上任选
n
n
n 个时刻:
t
1
,
t
2
,
t
3
,
…
,
t
n
∈
T
,
t_{1}, t_{2}, t_{3}, \ldots, t_{n} \in T,
t1?,t2?,t3?,…,tn?∈T, 使得获得的一个
n
n
n 维向量
{
ξ
1
,
ξ
2
,
ξ
3
,
…
,
ξ
n
}
\left\{\xi_{1}, \xi_{2}, \xi_{3}, \ldots, \xi_{n}\right\}
{ξ1?,ξ2?,ξ3?,…,ξn?} 都满足其是一个
n
n
n
维高斯分布,那么这个
{
ξ
t
}
\left\{\xi_{t}\right\}
{ξt?} 就是一个高斯过程。
四、数理统计
1.全概率公式和贝叶斯公式 (1)全概率公式 定义: 如果事件
A
1
,
A
2
,
?
?
,
A
n
A_{1}, A_{2}, \cdots, A_{n}
A1?,A2?,?,An? 是一个完备事件组,并且都具有正概率,则有:
P
(
B
)
=
P
(
A
1
)
P
(
B
∣
A
1
)
+
P
(
A
2
)
P
(
B
∣
A
2
)
+
?
+
P
(
A
n
)
P
(
B
∣
A
n
)
=
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
\begin{array}{c} P(B)=P\left(A_{1}\right) P\left(B \mid A_{1}\right)+P\left(A_{2}\right) P\left(B \mid A_{2}\right)+\cdots+P\left(A_{n}\right) P\left(B \mid A_{n}\right) \\ =\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right) \end{array}
P(B)=P(A1?)P(B∣A1?)+P(A2?)P(B∣A2?)+?+P(An?)P(B∣An?)=∑i=1n?P(Ai?)P(B∣Ai?)? 对于任何事件
B
,
B,
B, 事件
A
A
ˉ
A \bar{A}
AAˉ 构成最简单的完备事件组,根据全概率公式得
P
(
B
)
=
P
(
A
B
+
A
ˉ
B
)
=
P
(
A
B
)
+
P
(
A
ˉ
B
)
=
P
(
A
)
P
(
B
∣
A
)
+
P
(
A
ˉ
)
P
(
B
∣
A
ˉ
)
\begin{aligned} P(B) &=P(A B+\bar{A} B)=P(A B)+P(\bar{A} B) \\ &=P(A) P(B \mid A)+P(\bar{A}) P(B \mid \bar{A}) \end{aligned}
P(B)?=P(AB+AˉB)=P(AB)+P(AˉB)=P(A)P(B∣A)+P(Aˉ)P(B∣Aˉ)?
(2)2.2 贝叶斯公式 定义: 设
A
1
,
A
2
,
?
?
,
A
n
A_{1}, A_{2}, \cdots, A_{n}
A1?,A2?,?,An? 是一完备事件组,则对任一事件
B
,
P
(
B
)
>
0
,
B, P(B)>0,
B,P(B)>0, 有
P
(
A
i
∣
B
)
=
P
(
A
i
B
)
P
(
B
)
=
P
(
A
i
)
P
(
B
∣
A
i
)
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
P\left(A_{i} \mid B\right)=\frac{P\left(A_{i} B\right)}{P(B)}=\frac{P\left(A_{i}\right) P\left(B \mid A_{i}\right)}{\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right)}
P(Ai?∣B)=P(B)P(Ai?B)?=∑i=1n?P(Ai?)P(B∣Ai?)P(Ai?)P(B∣Ai?)? 以上公式就叫贝叶斯公式,可由条件概率的定义及全概率公式证得。
例子: 市场上供应的某种商品只由甲、乙、丙3个厂生产,甲厂占45%,乙厂占35%,丙厂占20%。如果各厂的次品率依次为 4%, 2%, 5% 。现从市场上购买1件这种商品,发现是次品,试判断它是由甲厂生产的概率。 设事件
A
1
,
A
2
,
A
3
,
A_{1}, A_{2}, A_{3},
A1?,A2?,A3?, 分别表示“商品为甲、乙、丙厂生产的",事件
B
B
B 表示“商品为次品”,由题意得到概率
P
(
A
1
)
=
45
%
,
P
(
A
2
)
=
35
%
,
P
(
A
3
)
=
20
%
P
(
B
∣
A
1
)
=
4
%
,
P
(
B
∣
A
2
)
=
2
%
,
P
(
B
∣
A
3
)
=
5
%
\begin{array}{c} P\left(A_{1}\right)=45 \%, P\left(A_{2}\right)=35 \%, P\left(A_{3}\right)=20 \% \\ P\left(B \mid A_{1}\right)=4 \%, P\left(B \mid A_{2}\right)=2 \%, P\left(B \mid A_{3}\right)=5 \% \end{array}
P(A1?)=45%,P(A2?)=35%,P(A3?)=20%P(B∣A1?)=4%,P(B∣A2?)=2%,P(B∣A3?)=5%? 根据贝叶斯公式,可得:
P
(
A
1
∣
B
)
=
P
(
A
1
)
P
(
B
∣
A
1
)
P
(
A
1
)
P
(
B
∣
A
1
)
+
P
(
A
2
)
P
(
B
∣
A
2
)
+
P
(
A
3
)
P
(
B
∣
A
3
)
=
45
%
×
4
%
45
%
×
4
%
+
35
%
×
2
%
+
20
%
×
5
%
≈
0.514
\begin{aligned} P\left(A_{1} \mid B\right) &=\frac{P\left(A_{1}\right) P\left(B \mid A_{1}\right)}{P\left(A_{1}\right) P\left(B \mid A_{1}\right)+P\left(A_{2}\right) P\left(B \mid A_{2}\right)+P\left(A_{3}\right) P\left(B \mid A_{3}\right)} \\ &=\frac{45 \% \times 4 \%}{45 \% \times 4 \%+35 \% \times 2 \%+20 \% \times 5 \%} \approx 0.514 \end{aligned}
P(A1?∣B)?=P(A1?)P(B∣A1?)+P(A2?)P(B∣A2?)+P(A3?)P(B∣A3?)P(A1?)P(B∣A1?)?=45%×4%+35%×2%+20%×5%45%×4%?≈0.514? 在“购买一件商品”这个试验中,
P
(
A
i
)
P\left(A_{i}\right)
P(Ai?) 是在试验以前就已经知道的概率,所以习惯地称为先验概率。试验结果出现了次品(即
B
B
B 发 生),这时条件概率
P
(
A
i
∣
B
)
P\left(A_{i} \mid B\right)
P(Ai?∣B) 反映了在试验以后对
B
B
B 发生的“来源”(即次品的来源)的各种可能性的大小,通常称为后验概率。
以上资料来自于 :https://github.com/datawhalechina/ensemble-learning 感谢各位贡献者,第一期内容比较少,但是比较硬核。
|