数据平稳性与差分

平稳性就是要求经由样本时间序列所得到的拟合曲线，在未来的一段期间内仍然能顺着现有的形态"惯性"地延续下去。

平稳性要求序列的均值和方差不随时间发生明显变化。

严平稳：表示随机变量的分布不随时间的改变而改变，比如：白噪声（正态），无论怎么取值，期望都是0，方差都是1。

弱平稳：期望与相关系数（依赖性）不变，未来某时刻的 $t$ 的值 $X_{t}$ 依赖于过去的信息。

一阶差分法：时间序列在 $t$ 与 $t ? 1$ 时刻的差值。
fig1
二阶差分则是一阶差分的差分。

AR模型，MA模型，ARMA模型，ARIMA模型

首先，了解自回归模型AR；

AR描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测，自回归模型必须满足平稳性要求， $p$ 阶自回归模型的公式定义为： $y_{t}=\mu+\sum_{i=1}^{p}\gamma_{i}y_{t-i}+e_{t}$ 其中， $y_{t}$ 是当前值， $\mu$ 是常数项， $p$ 是阶数， $\gamma_{i}$ 是自相关系数， $e_{t}$ 是误差。

自回归模型通常要求数据具有自相关性，如果自相关性太小，则不适合采用。

然后了解移动平均模型MA；

移动平均模型关注的是自回归模型中的误差项的累加，移动平均可以消除预测中的随机波动， $q$ 阶的公式定义为： $y_{t}=\mu+e_{t}+\sum_{i=1}^{q}\theta_{i}e_{t-i}$ 我们结合AR和MA得到模型ARMA，即自回归移动平均模型： $y_{t}=\mu+\sum_{i=1}^{p}\gamma_{i}y_{t-i}+e_{t}+\sum_{i=1}^{q}\theta_{i}e_{t-i}$ ARIMA模型则是在ARMA的基础上增加了数据的差分处理，全称ARIMA(p,d,q)，即差分自回归移动平均模型，p为自回归项数，d为时间序列成为平稳序列所需的差分次数，q为移动平均项数。

ARIMA的原理是将非平稳时间序列差分转化为平稳时间序列后，将因变量对输出的滞后值与误差的滞后值进行回归建模。

参数p，d，q的确定与模型检验

d为差分的次数，d通常不超过2，p和q参数由下表的规则确定：

模型	ACF	PACF
$A R (p)$	-	p阶后截尾
$M A (q)$	q阶后截尾	-

其中，截尾表示落在置信区间内的阶数（通常是95%置信区间）。

比如：
fig3
比如上图，应该选择p=2，q=10。

在确定p，d，q三个参数后，我们对 $\mu,\gamma,\theta$ 进行学习，学习的方式是灵活的，比如以MSE为损失进行梯度下降。

对于模型检验；

我们将模型得到的输出数据与真实值进行求差操作（计算残差），并进行白噪声检验，如果残差序列是白噪声序列，就说明时间序列中有用的信息已经被提取完毕了，剩下的全是随机扰动，是无法预测和使用的，残差序列如果通过了白噪声检验，则建模就可以终止了，因为没有信息可以继续提取。如果残差不是白噪声，就说明残差中还有有用的信息，需要修改模型或者进一步提取。