一、关于时间序列分析
截面数据: 某一类指标,在同一时点上对不同个体的观察数据。 时间序列数据: 某一类指标,在不同时点上对同一个体的观察数据。
时间序列(time series): 按时间的先后顺序排列形成的一组随机变量。 时间序列分类:
- 按照研究对象的多少,分为一元时间序列和多元时间序列。
- 按照观察时间的连续与否,分为离散时间序列和连续时间序列。
- 按照时间序列的统计特性,分为平稳时间序列和非平稳时间序列。
二、时间序列的基本概念
1、随机过程
随机过程(stochastic process): 一组有序的随机变量,可以记为
{
Y
t
,
t
∈
T
}
\{Y_t,t\in T\}
{Yt?,t∈T}。 连续型随机过程: 若
T
T
T为连续集,则
{
Y
t
}
\{Y_t\}
{Yt?}为连续型随机过程。 离散型随机过程: 若
T
T
T为离散集,则
{
Y
t
}
\{Y_t\}
{Yt?}为离散型随机过程。
时间序列: 具有离散型时间指标集的随机过程,通常表示为
{
Y
t
,
t
=
?
?
,
?
2
,
?
1
,
0
,
1
,
2
,
?
?
}
\{Y_t,t=\cdots,-2,-1,0,1,2,\cdots\}
{Yt?,t=?,?2,?1,0,1,2,?}。 样本序列: 随机变量
Y
t
Y_t
Yt?在时间上的取值,也就是
{
Y
t
}
\{Y_t\}
{Yt?}的一个样本,通常表示为
{
y
t
,
t
=
?
?
,
?
2
,
?
1
,
0
,
1
,
2
,
?
?
}
\{y_t,t=\cdots,-2,-1,0,1,2,\cdots\}
{yt?,t=?,?2,?1,0,1,2,?}。 时间序列与样本序列的关系: 样本序列是时间序列的一次实现。目的:揭示时间序列的性质。手段:通过样本序列的性质进行推断。
2、随机过程的分布及其特征
随机过程的分布: 设
{
Y
t
}
\{Y_t\}
{Yt?}为一随机过程,
- 对于任意一个
t
(
t
∈
T
)
t(t\in T)
t(t∈T),
Y
t
Y_t
Yt?为随机变量,其分布函数为:
F
Y
t
(
y
)
=
P
(
Y
t
≤
y
)
F_{Y_t}(y)=P(Y_t\le y)
FYt??(y)=P(Yt?≤y)这一分布为随机过程
{
Y
t
}
\{Y_t\}
{Yt?}的一维分布。
- 对于任意给定的
t
1
,
t
2
(
t
1
,
t
2
∈
T
)
t_1,t_2(t_1,t_2\in T)
t1?,t2?(t1?,t2?∈T),
Y
t
1
,
Y
t
2
Y_{t_1},Y_{t_2}
Yt1??,Yt2??为随机变量,其联合分布函数为:
F
Y
t
1
,
Y
t
2
(
y
)
=
P
(
Y
t
1
≤
y
2
,
Y
t
2
≤
y
2
)
F_{Y_{t_1},Y_{t_2}}(y)=P(Y_{t_1}\le y_2,Y_{t_2}\le y_2)
FYt1??,Yt2???(y)=P(Yt1??≤y2?,Yt2??≤y2?)这一分布为随机过程
{
Y
t
}
\{Y_t\}
{Yt?}的二维分布。
- 对于任意给定的
t
1
,
t
2
,
?
?
,
t
n
(
t
1
,
t
2
,
?
?
,
t
n
∈
T
)
t_1,t_2,\cdots,t_n(t_1,t_2,\cdots,t_n\in T)
t1?,t2?,?,tn?(t1?,t2?,?,tn?∈T),
Y
t
1
,
Y
t
2
,
?
?
,
Y
t
n
Y_{t_1},Y_{t_2},\cdots,Y_{t_n}
Yt1??,Yt2??,?,Ytn??为随机变量,其联合分布函数为:
F
Y
t
1
,
Y
t
2
,
?
?
,
Y
t
n
(
y
)
=
P
(
Y
t
1
≤
y
1
,
Y
t
2
≤
y
2
,
?
?
,
Y
t
n
≤
y
n
)
F_{Y_{t_1},Y_{t_2},\cdots,Y_{t_n}}(y)=P(Y_{t_1}\le y_1,Y_{t_2}\le y_2,\cdots,Y_{t_n}\le y_n)
FYt1??,Yt2??,?,Ytn???(y)=P(Yt1??≤y1?,Yt2??≤y2?,?,Ytn??≤yn?)这一分布为随机过程
{
Y
t
}
\{Y_t\}
{Yt?}的
n
n
n维分布。
随机过程的数字特征:
- 均值函数:
μ
t
=
E
(
Y
t
)
=
∫
?
∞
+
∞
y
d
F
Y
t
(
y
)
\mu_t=E(Y_t)=\int_{-\infty}^{+\infty}ydF_{Y_t}(y)
μt?=E(Yt?)=∫?∞+∞?ydFYt??(y)
- 方差函数:
σ
t
2
=
V
a
r
(
Y
t
)
=
∫
?
∞
+
∞
(
y
?
E
(
Y
t
)
)
2
d
F
Y
t
(
y
)
\sigma_t^2=Var(Y_t)=\int_{-\infty}^{+\infty}(y-E(Y_t))^2dF_{Y_t}(y)
σt2?=Var(Yt?)=∫?∞+∞?(y?E(Yt?))2dFYt??(y)
- 自协方差函数:
γ
(
t
,
k
)
=
γ
t
,
k
=
C
o
v
(
Y
t
,
Y
k
)
=
E
[
(
Y
t
?
E
Y
t
)
(
Y
k
?
E
Y
k
)
]
\gamma(t,k)=\gamma_{t,k}=Cov(Y_t,Y_k)=E[(Y_t-EY_t)(Y_k-EY_k)]
γ(t,k)=γt,k?=Cov(Yt?,Yk?)=E[(Yt??EYt?)(Yk??EYk?)]
- 自相关函数:
ρ
(
t
,
k
)
=
ρ
t
,
k
=
C
o
r
(
Y
t
,
Y
k
)
=
γ
(
t
,
k
)
σ
t
2
×
σ
k
2
=
γ
(
t
,
k
)
σ
t
×
σ
k
\rho(t,k)=\rho_{t,k}=Cor(Y_t,Y_k)=\frac{\gamma(t,k)}{\sqrt{\sigma_t^2\times\sigma_k^2}}=\frac{\gamma(t,k)}{\sigma_t\times\sigma_k}
ρ(t,k)=ρt,k?=Cor(Yt?,Yk?)=σt2?×σk2?
?γ(t,k)?=σt?×σk?γ(t,k)?
- 偏相关函数:
?
(
t
,
k
)
=
?
t
,
k
=
C
o
r
(
Y
t
,
Y
k
∣
Y
k
+
1
,
?
?
,
Y
t
?
1
)
=
C
o
v
(
Y
t
,
Y
k
∣
Y
k
+
1
,
?
?
,
Y
t
?
1
)
σ
t
2
×
σ
k
2
=
C
o
v
(
Y
t
,
Y
k
∣
Y
k
+
1
,
?
?
,
Y
t
?
1
)
σ
t
×
σ
k
\phi(t,k)=\phi_{t,k}=Cor(Y_t,Y_k|Y_{k+1},\cdots,Y_{t-1})=\frac{Cov(Y_t,Y_k|Y_{k+1},\cdots,Y_{t-1})}{\sqrt{\sigma_t^2\times\sigma_k^2}}=\frac{Cov(Y_t,Y_k|Y_{k+1},\cdots,Y_{t-1})}{\sigma_t\times\sigma_k}
?(t,k)=?t,k?=Cor(Yt?,Yk?∣Yk+1?,?,Yt?1?)=σt2?×σk2?
?Cov(Yt?,Yk?∣Yk+1?,?,Yt?1?)?=σt?×σk?Cov(Yt?,Yk?∣Yk+1?,?,Yt?1?)?
自协方差和自相关系数的性质:
- 对称性:
γ
(
t
,
k
)
=
γ
(
k
,
t
)
ρ
(
t
,
k
)
=
ρ
(
k
,
t
)
\gamma(t,k)=\gamma(k,t)\quad\rho(t,k)=\rho(k,t)
γ(t,k)=γ(k,t)ρ(t,k)=ρ(k,t)
- 非负定性:自协方差矩阵和自相关系数阵是对称非负定矩阵。
- 规范性:
ρ
(
t
,
t
)
=
1
\rho(t,t)=1
ρ(t,t)=1且
∣
ρ
(
t
,
t
)
∣
≤
1
|\rho(t,t)|\le1
∣ρ(t,t)∣≤1
3、几种重要的随机过程
- 白噪声(white noise)过程:设
{
Y
t
}
\{Y_t\}
{Yt?}为随机过程,若
E
(
Y
t
)
=
0
E(Y_t)=0
E(Yt?)=0,
C
o
v
(
Y
t
,
Y
s
)
=
{
σ
2
t
=
s
0
t
=
s
Cov(Y_t,Y_s)=\begin{cases}\sigma^2&t=s\\0&t=s\end{cases}
Cov(Yt?,Ys?)={σ20?t=st=s?,则称
{
Y
t
}
\{Y_t\}
{Yt?}为白噪声过程,一般用
{
?
t
}
\{\epsilon_t\}
{?t?}来表示。
- 正态过程:设
{
Y
t
}
\{Y_t\}
{Yt?}为随机过程,若
{
Y
t
}
\{Y_t\}
{Yt?}的有限维分布都是正态分布,则称
{
Y
t
}
\{Y_t\}
{Yt?}为正态过程,也称为高斯过程。
- 独立增量过程:设
{
Y
t
}
\{Y_t\}
{Yt?}为随机过程,若对任意
n
n
n及
t
i
∈
T
,
i
=
1
,
2
,
?
?
,
n
,
t
1
<
t
2
<
?
<
t
n
t_i\in T,i=1,2,\cdots,n,t_1<t_2<\cdots<t_n
ti?∈T,i=1,2,?,n,t1?<t2?<?<tn?,随机变量
Y
t
2
?
Y
t
1
,
Y
t
3
?
Y
t
2
,
?
?
,
Y
t
n
?
Y
t
n
?
1
Y_{t_2}-Y_{t_1},Y_{t_3}-Y_{t_2},\cdots,Y_{t_n}-Y_{t_{n-1}}
Yt2???Yt1??,Yt3???Yt2??,?,Ytn???Ytn?1??相互独立,则称
{
Y
t
}
\{Y_t\}
{Yt?}为独立增量过程。
- 维纳过程:设
{
Y
t
}
\{Y_t\}
{Yt?}为随机过程,若
{
Y
t
}
\{Y_t\}
{Yt?}满足:
Y
0
=
0
Y_0=0
Y0?=0;
{
Y
t
}
\{Y_t\}
{Yt?}为独立增量过程;对任意
0
≤
s
≤
t
,
Y
t
?
Y
s
0\le s\le t,Y_t-Y_s
0≤s≤t,Yt??Ys?服从正态分布,则称
{
Y
t
}
\{Y_t\}
{Yt?}为维纳过程,也称为布朗运动过程。
三、时间序列的主要特征
1、相关性
相关性: 一类是不同变量在同一时点上的相关(静态相关);一类是同一变量在不同时点上的相关(动态相关)。 时间序列的相关性: 大多数时间序列存在着前后依存的关系,即自相关性,因此我们需要分析序列的动态相关。时间序列的相关性可以通过自相关函数来加以反映 。
2、平稳性与非平稳性
严平稳过程: 设
{
Y
t
}
\{Y_t\}
{Yt?}为随机过程,若
F
Y
t
1
,
Y
t
2
,
?
?
,
Y
t
n
(
y
)
=
F
Y
t
1
+
h
,
Y
t
2
+
h
,
?
?
,
Y
t
n
+
h
(
y
)
F_{Y_{t_1},Y_{t_2},\cdots,Y_{t_n}}(y)=F_{Y_{t_{1+h}},Y_{t_{2+h}},\cdots,Y_{t_{n+h}}}(y)
FYt1??,Yt2??,?,Ytn???(y)=FYt1+h??,Yt2+h??,?,Ytn+h???(y)对任意正整数
n
n
n,任意整数
h
h
h成立,则称
{
Y
t
}
\{Y_t\}
{Yt?}为严平稳过程。 弱平稳过程: 设
{
Y
t
}
\{Y_t\}
{Yt?}为随机过程,
{
Y
t
}
\{Y_t\}
{Yt?}的二阶矩有限,若
E
(
y
t
)
=
E
(
y
t
?
j
)
=
μ
E(y_t)=E(y_{t-j})=\mu
E(yt?)=E(yt?j?)=μ;
V
a
r
(
y
t
)
=
V
a
r
(
y
t
?
j
)
=
σ
2
Var(y_t)=Var(y_{t-j})=\sigma^2
Var(yt?)=Var(yt?j?)=σ2;
C
o
v
(
y
t
,
y
t
?
s
)
=
C
o
v
(
y
t
?
j
,
y
t
?
j
?
s
)
=
γ
s
Cov(y_t,y_{t-s})=Cov(y_{t-j},y_{t-j-s})=\gamma_s
Cov(yt?,yt?s?)=Cov(yt?j?,yt?j?s?)=γs?对任意正整数
t
t
t,任意整数
j
,
s
j,s
j,s成立,其中
μ
,
σ
2
,
γ
s
\mu,\sigma^2,\gamma_s
μ,σ2,γs?均为常数,则称
{
Y
t
}
\{Y_t\}
{Yt?}为弱平稳过程。
严平稳与弱平稳的关系:
- 严平稳时间序列的所有统计性质都不随时间的推移而改变。
- 弱平稳时间序列具有有限的常数均值和方差,自协方差(自相关系数)只与时滞
s
s
s有关,而与时间的起始位置
t
t
t无关。
时间序列的平稳性:
- 如果序列是平稳的,则意味着这组序列两个时刻的数据的相关性都保持稳定,因此可以基于历史数据呈现出来的统计规律很好地预测未来。
- 如果序列是非平稳的,那么用一个模型反映序列的过去和未来就会很困难。
3、波动聚集性
波动聚集性: 有一类时间序列,尽管它会围绕一个固定的均值波动,但在不同时期其波动程度却存在很大差异。
四、时间序列分析的一般步骤
Created with Rapha?l 2.3.0
收集时间序列数据
判断平稳性
模型识别
参数估计
模型检验
预测
差分
yes
no
yes
no
五、时间序列的分析软件
本系列将使用Python建模
六、参考文献
[1]易丹辉,王燕.应用时间序列分析(第五版)[M].北京:中国人民大学出版社,2019. [2]黄红梅.应用时间序列分析[M].北京:清华大学出版社,2016.
|