开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习（上） -> 正文阅读

[人工智能]机器学习（上）

机器学习（1）

机器学习：

模式识别

计算机视觉

数据挖掘

语音识别

统计学习

自然语言处理

训练样本
特征抽取
学习函数
预测

有监督问题：有label
无监督问题：无label
回归：输出具体的值
分类：所分类的问题

线性回归

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2$

$h_\theta(x)=\sum\limits_{i=0}^n\theta_ix_i=\theta^Tx$

$y^{(i)}=\theta^Tx^{(i)}+\varsigma^{(i)}$

误差是独立并且具有相同的分布通常认为服从均值为0方差为 $\theta^2$ 的高斯分布

$p(\varsigma^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\varsigma^{(i)^2}}{2\sigma^2})$

$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$

最大似然函数：
$L(\theta) = \prod\limits_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\ = \prod\limits_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$
即需要求 $\arg\max(L(\theta))$

$l(\theta)=logL(\theta)$

$l(\theta)=m\log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}.\frac{1}{2}\sum\limits_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$

$J(\theta)=\frac{1}{2}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

即需要求 $arg\min J(\theta)$

$J(\theta)=\frac{1}{2}(X\theta-y)^T(X\theta-y) \\ \nabla_\theta J(\theta)= \nabla_\theta(\frac{1}{2}(\theta^TX^T-y^T)(X\theta-y)) \\ =\nabla_\theta(\frac{1}{2}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^ty)) \\ =X^TX\theta-X^Ty \\ \theta=(X^TX)^{-1}X^Ty$

逻辑回归

可用于分类（二分类）与回归

$h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

取值范围[0,1]

$h_{\theta}(x)^{'}=h(x)(1-h(x))$

采用梯度下降进行优化

不用求出其导数

决策树和随机森林

分类算法

树状结构表示数据分类的结果

根节点
非叶子节点（决策点）
叶子节点（分类标记）
分支（测试的结果）

训练阶段

分类阶段

两个事件相互独立： $P (X, Y) = P (X) ? P (Y)$ $L o g (X Y) = L o g (X) + L o g (Y)$

从根开始，一层一层开始分类。

需要用熵来判断谁是层数低的结点

$H (x)$ 当成事件发生的不确定性，内部的混乱程度

$P (几率越大) ? > H (X) 值越小$

$P (几率越小) ? > H (X) 值越大$

熵 = $\sum\limits_{i=1}^np_iln(P_i)$

$Gini(p)=\sum\limits_{i=1}^Kp_k(1-p_k)=1-\sum\limits_{k=1}^Kp_k^2$

p越大，熵和Gini系数越小

构造决策树基本思想

构造树的基本想法是随着树深度的增加，节点的熵迅速降低。

熵降低的速度越快越好，可以使深度越小

根据每一次划分后，集合的熵之和最小最好，可以导致信息增益最大，使得信息熵下降得最快

决策树的版本

ID3：信息增益

C4.5：信息增益率

CART：Gini系数

ID3缺陷：

信息增益率过大：样本过多，每个样本的数量稀少

评价函数： $C(T)=\sum\limits_{t\in leaf}N_tH(t)$ $N_t$ 权重值， $H (t)$ 熵值

评价函数越小越好，类似于损失函数

能够处理连续型的属性，首先将连续型属性离散化，把连续型属性的值分成不同的区间

缺失数据的考虑：构建决策树，可以忽略损失数据，计算增益时，仅考虑具有属性值的记录

决策树剪枝

预剪枝：构建决策树的过程时，提前终止（防止过拟合）

后剪枝：决策树构建好后，才开始裁剪

$C_{\alpha}(T)=C(T)+\alpha|T_{leaf}|$ 叶子节点个数越多，损失越大

随机森林

Bootstrapping：有放回采样

Bagging：有放回采样n个样本一共建立分类器

一片决策树共同进行相同的决策

随机：随机选择百分之多少的样本进行训练，随机选择特征

贝叶斯算法

贝叶斯公式

$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

拼写纠正

垃圾邮件过滤

模型比较理论

最大似然：最符合观测数据（ $P (h ∣ D)$ 最大的最有优势）后验概率越大越有优势

奥卡姆剃刀： $P (h)$ 较大的模型有较大的优势先验概率越大越有优势，越是高阶的多项式越是不常见

朴素贝叶斯：特征之间相互独立，互不影响

Xgboost

集成分类器

预测值： $\hat {y_i} = \sum_jw_jx_{ij}$

目标函数： $l(y_i,\hat{y_i})=(y_i-\hat{y_i})^2$

最优解： $F^*({x})=\arg \min E_{(x,y)}[L(y,F(x))]$

基本思想：是在每加一棵树在原先的基础之上有提升

$\hat{y_i}^{(0)} = 0$

$\hat{y_i}^{(1)}=f_1(x_i)=\hat{y_i}^{(0)}+f_1(x_i)$

$\hat{y_i}^{(t)}=\sum\limits_{k=1}^tf_k(x_i)=\hat{y_i}^{(t-1)}+f_t(x_i)$

等价于第t轮的模型预测，再保留前面 $t ? 1$ 轮的模型预测上，加入一个新的函数

惩罚项： $\Omega(f_t)=\gamma T+\frac{1}{2}\lambda\sum\limits_{j=1}^Tw_j^2$ 针对每一棵树来说

第一项是叶子结点的个数，后面一项是正则化的惩罚项，构成总的损失函数

$obj^{(t)}=\sum\limits_{i=1}^nl(y_i,\hat{y_i}^{(t)})+\sum_{i=1}^t \Omega(f_i)$

? $=\sum\limits_{i=1}^nl(y_i,\hat{y_i}^{(t-1)}+f_t(x_i))+\Omega(f_t)+c$

目标需要找到 $f_t$ 来优化目标

用泰勒展开进行优化

$obj^{(t)}=\sum_{i=1}^n[l(y_i,\hat{y_i}^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega(f_t)+const$

$g_i$ 为一阶导， $h_i$ 为二阶导

转化为对叶子结点的遍历

$obj^{(t)}=\sum_{i=1}^n[g_iw_q(x_i)+\frac{1}{2}h_i w_{q(x_i)}^2]+\gamma T +\lambda \frac{1}{2}\sum_{j=1}^T w_j^2$

? $=\sum_{j=1}^T[(\sum_{i \in I_j}g_i)w_j+\frac{1}{2}(\sum_{i \in I_j}h_i+ \lambda)w_j^2]+\gamma T$

$G_j=\sum_{i \in I_j}g_i$ $H_j=\sum_{i \in I_j}h_i$

$obj^{(t)}=\sum_{i=1}^T[G_jw_j+\frac{1}{2}(H_j+ \lambda w_j^2)]+ \gamma T$

偏导数=0

计算出 $w_j=-\frac {G_j}{H_j+ \lambda}$

$Obj=-\frac{1}{2}\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda}+\gamma T$

是否要进行左节点与右节点的切分

计算切分后的差异

$Gain=\frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}]-\gamma$

Adaboost

自适应增强

前一个分类器分错的样本会得到加强，加权后全体样本再次被用来训练下一个基本分类器。同时，在每一轮加入一个新的弱分类器，直到达到某个预定足够小的错误率，或者预先指定的最大迭代次数

最后新的分类器由多个分类器加权得到的

初始化数据的权值分布，初始时所有样本的权重相同
训练弱分类器，若某个样本未被准确分类，则提高其权重；若正确分类，降低权重
将弱分类器加权组合成强分类器

支持向量机

分类问题

假定有一个超平面： $w^Tx+b=0$

超平面上有两个点： $x^{'} \ x^{''}$ 满足 $w^Tx^{'}=-b \qquad w^Tx^{''}=-b$

平面的法向量w： $w^T(x^{''}-x^{'})=0$

$x^{''} 和 x^{'}$ 是向量形式

distance(point to line)= $\frac{w^T}{||w||}(x-x^T)$ = $\frac{1}{||w||}|w^Tx+b|$

SVM在分类中，正例的时候 $y = 1$ ，负例的时候 $y = ? 1$

这样就可以满足 $y_i y(x_i)>0$

找到一个直线，使得离该线最近的点越远：

$\arg \limits_{w,b} \max (\min \frac{y_i(w^T x_i+b)}{||w||})$

通过放缩： $y_i(w^Tx_i+b) \ge 1$

则需要求 $max_{w,b}\frac{1}{||w||}$

转换成求最小值 $\min_{w,b}\frac{1}{2}w^2$ 且 $y_i(w^Tx_i+b)\ge 1$

利用拉格朗日乘子法：

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum\limits_{i=1}^n{\alpha_i}(y_i(w^Tx_i+b) - 1)$

对偶问题： $\min\limits_{w,b}\max\limits_{\alpha}L(w,b,\alpha)>\max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha)$

分别对w和b求偏导，分别得到两个条件

$\frac{\partial{L}}{\partial{w}}=0$ -> $w=\sum\limits_{i=1}^n \alpha_iy_ix_n$

$\frac{\partial{L}}{\partial{b}}=0$ -> $\sum\limits_{i=1}^n \alpha_iy_i=0$

在对 $\alpha$ 求导即可

拉格朗日乘子法

$\min f(x)$

$\quad g_i(x) \le 0 \quad i=1,\dots,m$

支持向量决定着分割面的点，决定了间隔分离超平面

软间隔

出现个别的点影响整个超平面的分隔情况

引入松弛因子，变成了软间隔问题

$y_i(wx_i+b)\ge1-\varepsilon_i$

目标函数： $\min \frac{1}{2}||w||^2+C\sum\limits_{i=1}^n \varepsilon_i$

当C趋近于无穷大时：意味着分类严格不能有错误

当C趋近于很小时：意味着可以有更大的错误容忍

核函数

从低维空间到高维空间进行映射

核函数的好处：在一个低维空间完成高维度样本内积的计算

可以简化成在低维进行内积将结果映射到高维上

与在高维上进行内积结果相同

高斯核函数

$K(X,Y)=exp\{\frac{||X-Y||^2}{2\sigma^2}\}$

ARIMA

平稳性：

平稳性就是要求经由样本时间序列所得到的拟合曲线，在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去
平稳性要求序列的均值和方差不发生明显变化

严平稳与弱平稳：

严平稳：严平稳表示的分布不随时间的改变而改变。白噪声：无论怎么取，期望是0，方差是1
弱平稳：期望与相关系数（依赖性）不变。未来某时刻的t的值依赖它的过去信息，所以需要依赖性

数据相对稳定：

差分法：时间序列t与t-1时刻的差值

自回归模型（AR）

描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测
自回归模型必须满足平稳性的要求
p阶自回归过程的公式定义： $y_t=\mu+\sum_{i=1}^p \gamma_iy_{t-i}+\epsilon_t$
$y_t$ 是当前值， $\mu$ 是常数项， $P$ 是阶数， $\gamma_i$ 是自相关系数， $\epsilon_t$ 是误差

自回归模型的限制：

自回归模型是用自身的数据来进行预测
必须具有平稳性
必须具有自相关性，如果自相关系数 $(\varphi_i)<0.5$ ，则不宜采用
自回归只适用于预测与自身前期相关的现象

移动平均模型（MA）

移动平均模型关注的是自回归模型中误差项的累加
q阶自回归过程的公式定义： $y_t=\mu+\epsilon_t+\sum_{i=1}^q \theta_i \epsilon_{t-i}$
移动平均法能有效地消除预测中的随机波动

自回归移动平均模型： $(A R M A)$

自回归与移动平均的结合
公式定义： $y_t=\mu+\sum_{i=1}^p\gamma_iy_{t-i}+\epsilon_t+\sum_{i=1}^q\theta_i\epsilon_{t-i}$

ARIMA：差分自回归移动平均模型

将非平稳时间序列转化为平稳时间序列

然后将因变量仅对它滞后值以及随机误差项的现值和滞后值进行回归所建立的模型

选择p值和q值

自相关函数ACF

有序的随机变量序列与其自身相比较自相关函数反映了同一序列在不同时序的取值之间的相关性
$ACF(k)=\varrho_k=\frac{Cov(y_t,y_{t-k})}{Var(y_t)}$

偏自相关函数（PACF）

ACF中得到的并不是 $x (t)$ 与 $x (t ? k)$ 之间单纯的相关关系
$x (t)$ 同时还会受到 $\dots x(t-k+1)$ 的影响
PACF剔除了中间 $k ? 1$ 个随机变量 $x(t-1),\dots,x(t-k+1)$ 的干扰之后， $x (t ? k)$ 对 $x (t)$ 影响的相关程度

模型	ACF	PACF
AR（p）	衰减趋于0（几何型或振荡型）	p阶后结尾
MA（q）	q阶后结尾	衰减趋于0（几何型或振荡型）
ARMA（p，q）	q阶后衰减趋于0（几何型或振荡型）	p阶后衰减趋于0（几何型或振荡型）

截尾：落在置信区间之内（95%的点都符合该规则）