开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【学习笔记】集成学习（一）：数学基础 -> 正文阅读

[人工智能]【学习笔记】集成学习（一）：数学基础

Datawhale组队学习第27期：集成学习
本次学习的指导老师萌弟的教学视频
本贴为学习记录帖，有任何问题欢迎随时交流~
部分内容可能还不完整，后期随着知识积累逐步完善。
开始时间：2021年7月13日
最新更新：2021年7月13日（Task1数学基础）

【Task01】数学基础

一、高等数学

1. 多元函数

n维空间
- 元素：由n元有序实数组的全体构成的集合
- 运算：和运算与数乘运算（线性运算，封闭性）
距离（这里指的是欧氏距离，可以联系后面的范数）
$\rho(x, y)=\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}\right)^{2}+\cdots+\left(x_{n}-y_{n}\right)^{2}}$
- 更一般的距离定义（LP距离，p=2时就是欧氏距离）：
  $L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{1}{p}}$
二元函数
- 定义域是一个平面
- 二元函数是一个曲顶柱体

2. 雅可比矩阵和黑塞矩阵

梯度向量
- 某一函数在该点处的方向导数沿着方向取得的最大值
- 方向、变化率（模）
- 一般这里默认是增大最快的方向（正常来说有增大或减小）
  - 负梯度是指减少最快的方向
$J a c o b i a n$ 矩阵
- 设存在一个函数，使得n维空间映射到m维空间
- 函数由m个实函数组成，n个变量
- 所有的实函数的偏导数组成m行n列的矩阵，即雅可比矩阵
- 每行都是对应函数的梯度
$H e s s i a n$ 矩阵
- 类似于雅可比矩阵，但存储的是二阶导数
$[\frac{\partial^2f}{\partial x_i \partial x_j}]_{n \times n}$
- Hessian矩阵是梯度向量 $g (x)$ 对自变量 $x$ 的 $J a c o b i a n$ 矩阵。

3. 极值

极值：设函数 $f (x)$ 在点 $x_{0}$ 的某邻域 $U\left(x_{0}\right)$ 内有定义，如果对于去心邻域U $\left(x_{0}\right)$ 内的任一 $x$ , 有 A：
$f(x)<f\left(x_{0}\right) \text { 或 } f(x)>f\left(x_{0}\right)$

鞍点是比较适合用于对抗
极值局部概念，最值是全局概念
最优性条件
- 一元函数情况
- 一阶导数充分条件
- 二阶导数充分条件
多元函数情况下

设n多元实函数 $f\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 在点 $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 的邻域内有二阶连续偏导，若有:

$\left.\frac{\partial f}{\partial x_{j}}\right|_{\left(a_{1}, a_{2}, \ldots, a_{n}\right)}=0, j=1,2, \ldots, n$

$H(f)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$

? (1) 当 $H (f)$ 正定矩阵时, $f\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 在 $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 处是极小值;

? (2) 当 $H (f)$ 负定矩阵时, $f\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 在 $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 处是极大值;

? (3) 当 $H (f)$ 不定矩阵时, $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 不是极值点。

? (4) 当A为半正定矩阵或半负定矩阵时, $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 是“可疑"极值点，尚需要利用其他方法来判定。

二、线性代数

向量空间

内积/点积

import numpy as np
a = np.array([a1, a2, ..., an])
c = np.dot(np.transpose(a), b)	# 内积
c = np.dot(a.T, b)

线性相关与线性无关
- 二维中线性相关即平行，线性无关是不平行
- 以二维向量空间为例，若存在两个不平行（线性无关）的向量，该空间的所有向量都可以由这两个向量线性表示。
- 该向量空间的线性无关向量组称为该向量空间的基。
- 极大线性无关组代表某个方程的信息\解，个数又称为秩。
施密特正交化
- 正交，内积为0
- 单位化，模长为1
```
from sympy.matrices import Matrix, GramSchmidit
```
范数
- 长度（从二维推广出来的）
- 由向量映射到常数
- 性质
  - 正定性
  - 齐次性
  - 三角不等式
矩阵
- 本质上是一个变换
- 行列式
- 矩阵变换的程度、幅度（二维中表示变化面积）
- numpy.linalg.det()可以计算行列式
矩阵范数
- 使用np.linalg.norm(x, ord=)
特征值和特征向量
- np.linaleig(x)
迹
- 变换幅度的速率
正定矩阵
- 所有矩阵的特征值都是正的

三、概率论基础

1. 基本的概念

随机试验
- 可重复性
- 可观察性
- 不确定性
样本空间
- 全部样本点的集合
概率
- 多次重复实验中，事件A发生的频率稳定在常数p附近
条件概率、独立性
全概率公式和贝叶斯公式

2. 随机变量

定义：

随机变量 $X$ 是定义在样本空间 $\Omega$ 上的函数，当 $x$ 是 $X$ 的观测值时，存在 $\Omega$ 中的 $w$ 使得 $x = X (w)$
- 本质上是一个函数
- 随机现象映射到实数域上
- 离散随机变量、连续随机变量
概率密度与分布列
- 离散型的概率分布
  - 二项分布
  - 伯努利分布
  - 泊松分布
- 连续性的概率分布
  - 均匀分布
  - 正态分布
特征数
- 期望
- 方差（标准差）

3. 随机向量

定义：

随机向量 $X_1, X_2, ..., X_n)$ 是定义在样本空间 $\Omega$ 的n元函数（即由有限个随机变量组成的向量），当 $x_1, x_2,...,x_n)$ 是 $X_1, X_2, ..., X_n)$ 的观测值时，存在 $w$ 使得 $x_1, x_2,...,x_n) = (X_1(w), X_2(w), ..., X_n(w))$ ，这时称 $x_1, x_2,...,x_n)$ 为 $X_1, X_2, ..., X_n)$ 的一次观测或一次实现。
联合概率密度与分布列
- 边际分布
- 条件概率分布
特征数
- 期望
- 方差
- 协方差：如果两个随机向量的协方差阵是对角阵，则随机向量是无关的
无限个随机变量
- 大数定律
  - 独立同分布，随样本量增大，样本均值收敛到总体均值
- 中心极限定理
  - 样本量足够大，样本均值的分布服从正态分布

四、数理统计

1. 主要分支：

参数估计（重点）
假设检验

2. 总体与样本

关键前提：随机抽样
样本与总体是同分布的
不同样本之间是独立的
格里纹科定理
- 经验分布函数
- 当样本n趋向于无穷时，经验分布函数依概率收敛于总体分布函数
参数
- 总体中确定但未知的常量（这是频率学派）
- 参数是随机变量（贝叶斯学派）

3. 极大似然估计MLE（频率学派）

$\theta^* = argmaxP(X|\theta)$

哪一个参数最有可能让分布产生给定的样本
观察样本的联合概率（引入独立性，变成连乘）
目标函数：找到一组参数，使得联合概率达到最大
处理：对联合概率取对数，不改变性质
求解算法：
- 数值求解，直接求偏导
- 梯度下降法
- 牛顿法

4. 贝叶斯估计（贝叶斯学派）

小数据问题，容易出现过拟合
- 贝叶斯模型（无穷个模型）与集成学习（有限个模型）
- 在模型中融入不确定性，利用前人的经验
- 对模型进行压缩
最大后验估计MAP
$\theta^* = argmax P(\theta|X) = argmax\frac{P(X,\theta)}{P(X)} = argmax\frac{P(X|\theta) \cdot P(\theta)}{P(X)} = argmaxP(X|\theta) \cdot P(\theta)$
- 可以看作对极大似然进行了归一化
- 最优化问题等价于后验概率最大
- $P (X)$ 比较难算，一般是采用近似推断，对参数后验分布进行采样，取得其均值近似。
  $\int_{\theta} P(X,\theta) d\theta = \int_{\theta}P(y'|x'; \theta) \cdot f(\theta)d\theta = \frac{1}{S}\sum\limits_{i=1}^{S}P(y'|x'; \theta^S) \\ 其中，\theta^S \sim P(\theta|X)$
预测比较难，算法性能目前较低

五、随机过程

1. 随机过程

定义：引入了时间变量T（不是随机的），设T为 $(-\infty,+\infty)$ 的子集，若对每个 $t\in T$ ， $X_t$ 是随机变量，则称随机变量的集合 $\{X_t|t\in T \}$ 是随机过程。当每个t都有一次观测，那么会形成一条曲线，则称这条曲线为一条轨道或一条轨迹。

? 例如：某一商店一天的顾客数。
有限维分布

? 对于任何正整数m和T中互不相同的 $t_1,...,t_m$ ，称 $X_{t1},...,X_{tm})$ 的联合分布为随机过程 $\{X_t|t \in T\}$ 的一个有限维分布，称全体的有限维分布为该随机过程的概率分布。
随机过程同分布

如果两个随机过程有相同的有限维分布，称它们为同分布。
随机过程独立性

? 如果一随机过程中任意选取的 ${ X_{t1}, ..., X_{ti} \}$ 与另一随机过程中任意选出的 ${ Y_{t1}, ..., Y_{ti} \}$ 是相互独立的，则称它们的两个随机过程独立。

2. 随机序列

定义：如果时间集合T是整数，就是一个随机序列（时间序列），记作 $X_n$ 。
独立增量性

? 互不相交的时间段内发生事件的个数是相互独立，对于任意正整数n和$0 \le t_1 \le t_2 \le … \le t_n $，随机变量$ N(0),N(0,t_1),N(t_1,t_2),…,N(t_{n-1}, t_n)$是相互独立
平稳增量性

? 长度相等的时间段内，事件发生的个数的概率分布是相同的，对于任意 $t_2 >t_1 \ge 0$ ，随机变量 $N(t_1 + s, t_2 + s)与N(t_1, t_2)$ 同分布。
严平稳和宽平稳
- 严平稳：相同时间段内，联合概率分布相同
- 宽平稳：均值是常数，协方差只与时间差有关
独立增量过程
- 任意时刻的增量是相互独立。
平稳增量过程
- 一定时间差下的增量相同。
平稳独立增量过程
- 兼有独立增量和平稳增量

2. 计数过程

随机过程 $\{N(t), t \ge 0\}$ 为计数过程， $N (t)$ 表示从 0 到 t 时刻某一特定事件A发生的次数
- $\ge 0$ 且取值为整数
- 当 $s < t$ 时， $\le N(t)$ 且 $N (s) ? N (t)$ 表示 $(s, t]$ 时间内事件A发生的次数。

3. 泊松过程

计数过程 $\{N(t), t \ge 0\}$ 称为参数为 $\lambda(\lambda > 0)$ 的Poisson过程，有：
- $N (0) = 0$
- 过程有独立增量
- 任一长度为 $t$ 的时间区间中事件发生的次数均服从均值为 $\lambda t$ 的Poisson分布
  $对一切s\ge 0, t >0, 有：\\ P\{N(t+s) - N(s) = n \} = e^{-\lambda t} \frac{(\lambda t)^n}{n!}, n=0,1,2,...$
${N(t+s) - N(s) = n \}$ 与起始点s无关，只与时间间隔t有关，具有平稳增量性。
设 ${ N(t) \}$ 是强度为 $\lambda$ 的泊松过程，容易计算 $\lambda t$ ，而 $\lambda = \frac{E(N(t))}{t}$ 是单位时间内事件发生的次数的平均数。
伯努利试验中每次实验成功的概率很小，随试验增多，二项分布会逼近Poisson分布
设 $\lambda > 0$ 是一个常数，计数过程 ${ N(t) \}$ 为满足强度为 $\lambda$ 的泊松过程的条件：
- $N (0) = 0$
- ${N(t)\}$ 是独立增量过程，具有平稳增量性
- 一般性：对任何 $t\ge 0$ ，当发生的次数 $h$ 趋向于0时，有： $P(N(h)=1)=\lambda h + o(h)$ 与 $\ge 2)=o(h)$

4. 呼叫泊松流

呼叫流

设 ${N(t)}$ 是强度为 $\lambda$ 的泊松过程，定义 $S_0=0$ ，用 $S_n$ 表示第n个事件发生的时刻，又称第n个到达时刻或第n个呼叫时，由于 $S_0,S_1,...,S_n$ 依次到达， ${S_t\}$ 为泊松过程 ${N(t)\}$ 的呼叫流。（转换思想，区别于完备事件）
基本关系：
$\{ N(t) \ge n \} = \{ S_n \le t \} \\ \{ N(t) = n \} = \{ S_n \le t < S_{n+1} \}$
等待间隔： $X_n = S_n - S_{n-1}$
泊松过程 ${N(t) \}$ 的等待间隔 $X_1, X_2,...,X_n,...$ 是来自指数总体 $\epsilon(\lambda)$ 的随机变量。
泊松过程的汇合与分流
- 对于强度为 $\lambda_1$ 的泊松过程 ${N_1(t)\}$ 和强度为 $\lambda_2$ 的泊松过程 ${N_2(t)\}$ ，两者独立且有
  $N(t) = N_1(t) + N_2(t)$
- 两个独立的泊松过程之和也是泊松过程，强度 $\lambda = \lambda_1 + \lambda_2$ 。
- 从另一个角度看，如将强度按 $p : 1 ? p$ 进行分流的话，两个分流依旧是泊松过程，具体可以参考这篇文章。

5.马尔可夫随机过程

马尔可夫链：未来只与现在有关，与过去无关（独立）
随机过程 ${ X_n, n=0,1,2,... \}$ 称为Markov链，若它只取有限或可列个值，并且对任意的 $\ge 0$ 及任意状态 $i,j,i_0,i_1,..., i_{n-1}$ 有如下结果：

$P(X_{n+1} = k_{n+1} | X_n = k_n, X_{n-1} =k_{n-1},...,X_0=k_0) = P(X_{n+1} = k_{n+1} | X_n = k_n)$

$X_n=i$ 表示过程时刻n处于状态 $i$ ，称 ${0,1,2,...}$ 为该过程的状态空间，记为 $S$ 。
（一步）转移概率：

${X_n, n=0,1,2,...\}$ 的一步转移概率，记为 $p_{ij}$ ，表示状态 $i$ 的过程下一步转移到状态 $j$ 的概率
（一步）概率转移矩阵： $(p_{ij}) = (p_{ij})_{i,j \in I}$

6. 鞅

定义

? 设 $\{Y_n, n \ge 0\}$ 为一随机变量序列。若对于随机 $\forall n > 0$ ，有随机过程 $\{X_n, n \ge 0\}$ ，其中 $X_n$ 是 $Y_0, Y_1,...,Y_n)$ 的函数，$E(|X_n|) < \infty $且$ E(X_{n+1}|Y_0, …, Y_n) = X_n $，则称随机过程$ {X_n, n \ge 0} $是关于$ {Y_n, n \ge 0}$的鞅。
常用于定价公平性和系统稳定性研究中。
高斯过程
- 无限维度的高斯分布（这里无限维度指的是无限多个高斯随机变量）
- 定义：
  
  一随机过程 $X=\{X_t \}_{t \in T}$ ，对于一个连续域 $T$ ，若从连续域上任选 $n$ 个时刻，即： $\forall t_1,t_2,...,t_n \in T$ ，获得的 $n$ 维向量 $\{\xi_1, \xi_2,...,\xi_n \}$ 都是高斯随机向量，则称 ${X_t\}$ 为高斯过程。

六、课后作业（Rosenbrock函数）

在这里插入图片描述
目前只做了第1题：

1.图像（基于Python）

import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import *

@interact(a=(-5, 5, 0.1), b=(-10, 10, 1), h=(-360,360,30), w=(-360,360,30))
def plot_3d(a=0, b=10, h=20, w=150):
    plt.figure(figsize=(10, 10))
    x = np.linspace(-1.5, 1.5, 300)
    y = np.linspace(-1.5, 1.5, 300)
    X, Y = np.meshgrid(x, y)
    Z = (a - X) ** 2 + b * (Y - X ** 2) ** 2
    ax = plt.subplot(1, 1, 1, projection='3d')
    ax.plot_surface(X, Y, Z, cmap='plasma')
    ax.set_xlabel('x')
    ax.set_ylabel('y')
    ax.set_zlabel('z')
    ax.view_init(elev=h, azim=w)
    plt.title('Rosenbrock')