[人工智能] DeepAR论文笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> DeepAR论文笔记 -> 正文阅读

[人工智能]DeepAR论文笔记

1. what is motivation？研究动机

在近年来，时间序列预测出现新局面：海量（上千甚至是上百万）相关时间序列的预测。例如，预测城市中每户居民的用电量，大型零售商所有商品的销量等。在上述所有场景中，可以使用那些过去相似、或相关的时间序列来对单个时间序列进行建模预测。这样做的优势是：可以拟合复杂模型而不产生过拟合，免去传统机器学习中所必须的大量人工特征制作的过程。

2. What is the problem the paper wants to solve？论文想要解决的问题是什么？

海量（上千甚至是上百万）相关时间序列的预测。具体的问题有：

海量时间序列的数量级不同，而且数量级的分布严重偏斜
- 很难按照数量级的不同分组训练模型，因为无法保证这样分组情况下，组内的序列具有相同的偏度。
- 标准化、批量归一化和正则化的手段都将失效

3. What is their approach?论文提出的方法？

数学语言描述：
在第 $t$ 时刻，对于给定的第 $i$ 个时间序列的值记为 $z_{i,t}$ ，我们的目标是建立如下条件概率分布模型：
$P(\bold{z}_{i, t_0:T}|\bold{z}_{i, 1:t_0-1}, \bold{x}_{i, 1:T})$

其中:

$\bold{z}_{i, t_0:T} = [{z}_{i, t_0}, {z}_{i, t_0+1}, .., {z}_{i, T}]$ 表示未来要预测的时间序列。而 $t_0, T]$ 表示模型的预测范围。
$\bold{z}_{i, 1：t_0-1} = [{z}_{i, 1}, {z}_{i, 2}, .., {z}_{i, t_0-1}]$ 表示未来要过去的时间序列。而 $1,t_0-1]$ 表示模型训练范围。
时间步 $t$ 是一个相对概念，可以表示任意时间周期

3.1 针对时间序列预测问题提出带分布参数估计的自回归模型

为了逼近目标模型，该文提出了基于RNN架构的自回归模型，如图1所示。

在这里插入图片描述

图1 deepar 模型介绍

deepar模型数学描述如下：

$Q_{\Theta}(\bold{z}_{i, t_0:T}|\bold{z}_{i, 1:t_0-1}, \bold{x}_{i, 1:T})=\prod_{t=t_0}^TQ_{\Theta}(z_{i,t}|\bold{z}_{i,1:t-1}, \bold{x}_{i, 1:T})=\prod_{t=t_0}^T\mathcal{l}(z_{i,t}|\theta(\bold{h}_{i,t}, \Theta))$

其中自回归神经网络的输出 $\bold{h}_{i,t}$ ：

$\bold{h}_{i,t}=h(\bold{h}_{i,t-1}, z_{i,t-1}, x_{i,t}, \Theta)\tag 1$

其中， $h$ 是自回归神经网络中的元件。似然函数 $KaTeX parse error: Undefined control sequence: \cal at position 1: \?c?a?l?{l}(z_{i,t}|\th…$ 是一个固定的分布，它的参数是由网络的输出 $\bold{h}_{i,t}$ ，即函数 $\theta(\bold{h}_{i,t}, \Theta)$ , 决定的。

似然函数 $\mathcal{l}(z|\theta)$ 估计分布函数的参数 $\theta$ 。下一个时间点的概率分布函数的所有参数 $\theta$ (包括均值和方差等)由神经网络输出决定。
deepar模型参数 $\Theta$ 通过最大化对数似然函数 $\mathcal{L}$ 来优化。

$\mathcal{L}=\sum_{i=1}^N\sum_{t=t_0}^T\log\mathcal{l}(z_{i,t}|\theta(\bold{h}_{i,t}))\tag 2$

3.2 针对序列数量级呈幂律分布问题带来的挑战，提出缩放和加权采样解决方法

挑战1：RNN等自回归模型内部的非线性单元只能输出固定范围值（例如 softmax的0到1）。模型必须要在输入层将输入数据缩放到合适的范围，同时在模型输出层反转这种缩放。
挑战1解决办法：文章提出一个依赖于item的缩放因子 $v_i$ ，在输入层对输入数据 $z_{i,t}$ 除以 $v_i$ ，然后在输出层的时候乘以这个缩放因子。该文采用一个均值缩放因子 $v_i=1+\frac{1}{t_0}\sum_{t=1}^{t_0}z_{i,t}$ ，在实践中效果不错。
挑战2：训练过程中样本采样不平衡。随机梯度下降是均匀地从数据集中采样样本进行训练。这样会使得数量少但是数量级大的序列样本很难被选中参与训练，进而导致此类样本欠拟合。
挑战2解决办法：将随机梯度的均匀采样，改为依照序列数量级 $v_i$ 作为权重进行采样。

3.3 对于其他特征 $\bold{x}_{i,t}$

除了时间序列自身信息意外，还有其他信息能够帮助到序列预测。例如在销量预测项目中，在预测时间范围内产品的价格和促销活动等。这个信息的利用就是deepar模型中的 $\bold{x}_{i,t}$ ，对于 $\bold{x}_{i,t}$ 既可以是 item-dependent, 也可以是time-dependent，或者两者兼有。

该文使用的特征有：

“age” feature：序列中每个观测点到第一个观测点的距离；对于daily数据使用 day-of-the-week特征；对于hourly数据使用hour-of-the-day特征；对于weekly数据构建week-of-the-year特征；对于monthly数据构建month-of-the-year特征；
品类特征：在销量预测中还使用了多级品类特征。例如，衣服（clothing）
所有的 $x_{i,t}$ 都进行了Z分数标准化

4. What are the key conclusions and key results?关键结论和关键结果？

在现实数据集上评估，比当时最先进的方法有15%的性能提升。
在相关的序列集中，通过放缩和按序列数量级加权采样的方法解决了序列数量级分布广泛的问题。
可以生成具有较高准确率的概率分布预测
可以学习到季节性和在时间维度上不太明确的增长趋势

5. What is the novelty?有什么创新的地方？

提出基于RNN架构的概率分布预测模型，包含在计数数据集上使用negative Binomial 似然函数作为训练的目标函数。
使用按数量级缩放技巧处理数量级分布较广的序列数据集

6. Any related work worth of following?

针对含有较多0的销量预测，即低动销产品（Slow-moving items）和间歇性需求产品
- 似然函数：zero-inflated Poisson distribution 零度膨胀泊松分布； negative binomial distribution 负二项分布；或者是前面两个的结合；a tailored multi-stage likelihood；
- hierarchical probabilistic state-space model分层的概率状态空间模型使得相关连的序列之间可以共享信息，并且允许有解释变量；对于低动销产品的分布函数选用的是 zero-inflated Poisson 和 negative binomial的结合。Nicolas Chapados. Effective bayesian modeling of groups of related count time series. In Proceedings of The 31st International Conference on Machine Learning, pages 1395–1403, 2014
- 间歇性高销量需求预测（demand is highly intermittent and bursty: long runs of zeros, with islands of high counts），状态空间法，对于非高斯分布的参数最大似然估计采用了拉普拉斯近似法（Laplace approximation）；Matthias W Seeger, David Salinas, and Valentin Flunkert. Bayesian intermittent demand forecasting for large inventories. In Advances in Neural Information Processing Systems, pages 4646–4654, 2016
相关序列之间共享信息可以提高预测的准确率。
- Matrix Factorization model for multiple time series：Hsiang-Fu Yu, Nikhil Rao, and Inderjit S Dhillon. Temporal regularized matrix factorization for high-dimensional time series prediction. In D. D. Lee, M. Sugiyama, U. V. Luxburg,I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29,pages 847–855. Curran Associates, Inc., 2016.
- 利用层次信息的贝叶斯方法实现序列之间信息共享：（1）Effective bayesian modeling of groups of related count time series. In Proceedings of The 31st International Conference on Machine Learning, pages 1395–1403, 2014；（2）Rob J. Hyndman, Roman A. Ahmed, George Athanasopoulos, and Han Lin Shang. Optimal combination forecasts for hierarchical time series. Computational Statistics & Data Analysis, 55(9):2579 – 2589, 2011.
利用神经网络建模间歇性序列数据
- Nikolaos Kourentzes. Intermittent demand forecasts with neural networks. International Journal of Production Economics, 143(1):198–206, 2013. ISSN 09255273. doi: 10.1016/j.ijpe.2013.01.009.
深度状态空间法
- 亚马逊的Deep State Space Models for Time Series Forecasting