IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> DeepAR论文笔记 -> 正文阅读

[人工智能]DeepAR论文笔记

1. what is motivation?研究动机

在近年来,时间序列预测出现新局面:海量(上千甚至是上百万)相关时间序列的预测。例如,预测城市中每户居民的用电量,大型零售商所有商品的销量等。在上述所有场景中,可以使用那些过去相似、或相关的时间序列来对单个时间序列进行建模预测。 这样做的优势是:可以拟合复杂模型而不产生过拟合,免去传统机器学习中所必须的大量人工特征制作的过程。

2. What is the problem the paper wants to solve?论文想要解决的问题是什么?

海量(上千甚至是上百万)相关时间序列的预测。具体的问题有:

  • 海量时间序列的数量级不同,而且数量级的分布严重偏斜
    • 很难按照数量级的不同分组训练模型,因为无法保证这样分组情况下,组内的序列具有相同的偏度。
    • 标准化、批量归一化和正则化的手段都将失效

3. What is their approach?论文提出的方法?

数学语言描述:
在第 t t t时刻,对于给定的第 i i i个时间序列的值记为 z i , t z_{i,t} zi,t?, 我们的目标是建立如下条件概率分布模型:
P ( z i , t 0 : T ∣ z i , 1 : t 0 ? 1 , x i , 1 : T ) P(\bold{z}_{i, t_0:T}|\bold{z}_{i, 1:t_0-1}, \bold{x}_{i, 1:T}) P(zi,t0?:T?zi,1:t0??1?,xi,1:T?)

其中:

  • z i , t 0 : T = [ z i , t 0 , z i , t 0 + 1 , . . , z i , T ] \bold{z}_{i, t_0:T} = [{z}_{i, t_0}, {z}_{i, t_0+1}, .., {z}_{i, T}] zi,t0?:T?=[zi,t0??,zi,t0?+1?,..,zi,T?] 表示未来要预测的时间序列。而 [ t 0 , T ] [t_0, T] [t0?,T]表示模型的预测范围。
  • z i , 1 : t 0 ? 1 = [ z i , 1 , z i , 2 , . . , z i , t 0 ? 1 ] \bold{z}_{i, 1:t_0-1} = [{z}_{i, 1}, {z}_{i, 2}, .., {z}_{i, t_0-1}] zi,1t0??1?=[zi,1?,zi,2?,..,zi,t0??1?] 表示未来要过去的时间序列。而 [ 1 , t 0 ? 1 ] [1,t_0-1] [1,t0??1]表示模型训练范围。
  • 时间步 t t t是一个相对概念,可以表示任意时间周期

3.1 针对时间序列预测问题提出带分布参数估计的自回归模型

为了逼近目标模型,该文提出了基于RNN架构的自回归模型,如图1所示。

在这里插入图片描述

图1 deepar 模型介绍

deepar模型数学描述如下:

Q Θ ( z i , t 0 : T ∣ z i , 1 : t 0 ? 1 , x i , 1 : T ) = ∏ t = t 0 T Q Θ ( z i , t ∣ z i , 1 : t ? 1 , x i , 1 : T ) = ∏ t = t 0 T l ( z i , t ∣ θ ( h i , t , Θ ) ) Q_{\Theta}(\bold{z}_{i, t_0:T}|\bold{z}_{i, 1:t_0-1}, \bold{x}_{i, 1:T})=\prod_{t=t_0}^TQ_{\Theta}(z_{i,t}|\bold{z}_{i,1:t-1}, \bold{x}_{i, 1:T})=\prod_{t=t_0}^T\mathcal{l}(z_{i,t}|\theta(\bold{h}_{i,t}, \Theta)) QΘ?(zi,t0?:T?zi,1:t0??1?,xi,1:T?)=t=t0?T?QΘ?(zi,t?zi,1:t?1?,xi,1:T?)=t=t0?T?l(zi,t?θ(hi,t?,Θ))

其中自回归神经网络的输出 h i , t \bold{h}_{i,t} hi,t?

h i , t = h ( h i , t ? 1 , z i , t ? 1 , x i , t , Θ ) (1) \bold{h}_{i,t}=h(\bold{h}_{i,t-1}, z_{i,t-1}, x_{i,t}, \Theta)\tag 1 hi,t?=h(hi,t?1?,zi,t?1?,xi,t?,Θ)(1)

其中, h h h是自回归神经网络中的元件。似然函数KaTeX parse error: Undefined control sequence: \cal at position 1: \?c?a?l?{l}(z_{i,t}|\th…是一个固定的分布,它的参数是由网络的输出 h i , t \bold{h}_{i,t} hi,t?,即函数 θ ( h i , t , Θ ) \theta(\bold{h}_{i,t}, \Theta) θ(hi,t?,Θ), 决定的。

  • 似然函数 l ( z ∣ θ ) \mathcal{l}(z|\theta) l(zθ)估计分布函数的参数 θ \theta θ。下一个时间点的概率分布函数的所有参数 θ \theta θ(包括均值和方差等)由神经网络输出决定。
  • deepar模型参数 Θ \Theta Θ通过最大化对数似然函数 L \mathcal{L} L来优化。

L = ∑ i = 1 N ∑ t = t 0 T log ? l ( z i , t ∣ θ ( h i , t ) ) (2) \mathcal{L}=\sum_{i=1}^N\sum_{t=t_0}^T\log\mathcal{l}(z_{i,t}|\theta(\bold{h}_{i,t}))\tag 2 L=i=1N?t=t0?T?logl(zi,t?θ(hi,t?))(2)

3.2 针对序列数量级呈幂律分布问题带来的挑战,提出缩放和加权采样解决方法

  • 挑战1:RNN等自回归模型内部的非线性单元只能输出固定范围值(例如 softmax的0到1)。模型必须要在输入层将输入数据缩放到合适的范围,同时在模型输出层反转这种缩放。
  • 挑战1解决办法:文章提出一个依赖于item的缩放因子 v i v_i vi?,在输入层对输入数据 z i , t z_{i,t} zi,t?除以 v i v_i vi?,然后在输出层的时候乘以这个缩放因子。该文采用一个均值缩放因子 v i = 1 + 1 t 0 ∑ t = 1 t 0 z i , t v_i=1+\frac{1}{t_0}\sum_{t=1}^{t_0}z_{i,t} vi?=1+t0?1?t=1t0??zi,t?,在实践中效果不错。
  • 挑战2:训练过程中样本采样不平衡。随机梯度下降是均匀地从数据集中采样样本进行训练。这样会使得数量少但是数量级大的序列样本很难被选中参与训练,进而导致此类样本欠拟合。
  • 挑战2解决办法:将随机梯度的均匀采样,改为依照序列数量级 v i v_i vi?作为权重进行采样。

3.3 对于其他特征 x i , t \bold{x}_{i,t} xi,t?

除了时间序列自身信息意外,还有其他信息能够帮助到序列预测。例如在销量预测项目中,在预测时间范围内产品的价格和促销活动等。这个信息的利用就是deepar模型中的 x i , t \bold{x}_{i,t} xi,t?,对于 x i , t \bold{x}_{i,t} xi,t?既可以是 item-dependent, 也可以是time-dependent,或者两者兼有。

该文使用的特征有:

  • “age” feature:序列中每个观测点到第一个观测点的距离;对于daily数据使用 day-of-the-week特征;对于hourly数据使用hour-of-the-day特征;对于weekly数据构建week-of-the-year特征;对于monthly数据构建month-of-the-year特征;
  • 品类特征:在销量预测中还使用了多级品类特征。例如,衣服(clothing)
  • 所有的 x i , t x_{i,t} xi,t?都进行了Z分数标准化

4. What are the key conclusions and key results?关键结论和关键结果?

  • 在现实数据集上评估,比当时最先进的方法有15%的性能提升。
  • 在相关的序列集中,通过放缩和按序列数量级加权采样的方法解决了序列数量级分布广泛的问题。
  • 可以生成具有较高准确率的概率分布预测
  • 可以学习到季节性和在时间维度上不太明确的增长趋势

5. What is the novelty?有什么创新的地方?

  • 提出基于RNN架构的概率分布预测模型,包含在计数数据集上使用negative Binomial 似然函数作为训练的目标函数。
  • 使用按数量级缩放技巧处理数量级分布较广的序列数据集

6. Any related work worth of following?

  • 针对含有较多0的销量预测,即低动销产品(Slow-moving items)和 间歇性需求产品

    • 似然函数:zero-inflated Poisson distribution 零度膨胀泊松分布; negative binomial distribution 负二项分布; 或者是前面两个的结合;a tailored multi-stage likelihood;
    • hierarchical probabilistic state-space model分层的概率状态空间模型使得相关连的序列之间可以共享信息,并且允许有解释变量;对于低动销产品的分布函数选用的是 zero-inflated Poisson 和 negative binomial的结合。Nicolas Chapados. Effective bayesian modeling of groups of related count time series. In Proceedings of The 31st International Conference on Machine Learning, pages 1395–1403, 2014
    • 间歇性高销量需求预测(demand is highly intermittent and bursty: long runs of zeros, with islands of high counts),状态空间法,对于非高斯分布的参数最大似然估计采用了拉普拉斯近似法(Laplace approximation);Matthias W Seeger, David Salinas, and Valentin Flunkert. Bayesian intermittent demand forecasting for large inventories. In Advances in Neural Information Processing Systems, pages 4646–4654, 2016
  • 相关序列之间共享信息可以提高预测的准确率。

    • Matrix Factorization model for multiple time series:Hsiang-Fu Yu, Nikhil Rao, and Inderjit S Dhillon. Temporal regularized matrix factorization for high-dimensional time series prediction. In D. D. Lee, M. Sugiyama, U. V. Luxburg,I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29,pages 847–855. Curran Associates, Inc., 2016.
    • 利用层次信息的贝叶斯方法实现序列之间信息共享:(1)Effective bayesian modeling of groups of related count time series. In Proceedings of The 31st International Conference on Machine Learning, pages 1395–1403, 2014;(2)Rob J. Hyndman, Roman A. Ahmed, George Athanasopoulos, and Han Lin Shang. Optimal combination forecasts for hierarchical time series. Computational Statistics & Data Analysis, 55(9):2579 – 2589, 2011.
  • 利用神经网络建模间歇性序列数据

    • Nikolaos Kourentzes. Intermittent demand forecasts with neural networks. International Journal of Production Economics, 143(1):198–206, 2013. ISSN 09255273. doi: 10.1016/j.ijpe.2013.01.009.
  • 深度状态空间法

7. Any general comments?

该论文针对时间序列,提出具有RNN架构的概率分布预测模型,创新性地提出按照序列数量级缩放和采样的方法,用一个全局模型对不同数量级序列进行了建模。关于低动销和间歇性需求的产品销量预测可以结合项目持续优化。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-16 11:17:35  更:2021-07-16 11:18:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 9:58:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码