1. 处理问题:
多元预测通常带有复杂的输入(包括静态协变量、已知的未来输入、其他在过去观测到的外部时间序列等),而我们却不知它们具体是如何相互交互以及作用于目标的(即各参数通过复杂的非线性交互后才会输出结果,因此很难相信一个模型的输出和对其进行debug)。然而常用的可解释DNN模型对时间序列是不太适合的。
2. 相关工作:
1)用于多元预测的DNN:
可分为两类:可迭代的自回归模型、直接的sequence-to-sequence模型
a. 可迭代方法:
使用one-step-ahead预测模型并不停地将预测结果作为下一步输入。
b. 直接方法:
显示地在每个时间步为多个预定义的维度生成预测,其结构基于sequence-to-sequence模型
2)时间序列的可解释性–注意力
注意力机制被用在翻译、图像分类等领域,最近被用于时间序列的可解释性。然而目前工作往往忽略了静态变量的重要性,TFT通过为静态特征配置独立的encoder-decoder注意力机制来解决这一问题。
3. 多元预测:
假设一个给定的时间序列数据集有I个独立的实体,每个实体有一系列静态变量、输入和每个时间步的输出
3. 本文提出:
Temporal Fusion Transformer(TFT,时态融合变换器),是一个基于注意力的框架,能够结合高性能的多元预测与可解释性。
特别地,TFT帮助用户识别:1)对预测问题而言很重要的全局变量;2)持续的temporal模式;3)重要事件。
整个模型最重要的思想就是变量选择。对于多元异构的输入分别处理,逐层筛选过滤非必要的特征,从而去除噪声,保留重要信息,进而增加了可解释性。
4. TFT组成:
配置循环层用于局部处理,配置可解释的自注意力层用于学习数据集中的长期依赖性,配置专门的组件用于选择相关特征,配置一系列门控层用于抑制不必要的输入,从而在各种范围内实现高性能。
1)门控机制:
来忽略没用的内容,为大数据集提供自适应的网络深度和复杂度
2)变量选择网络:
在每个时间步选择相关的输入变量(特别用于静态协变量和事件相关协变量),允许TFT去除任何可能对性能产生负面有影响的不必要的噪声输入。
3)静态协变量编码器:
用于将静态特征整合进网络
4)temporal处理:
对于观测到的和已知的随时间变化的变量,用来学习长期和短期的temporal关系。一个sequence-to-sequence层用于局部处理,一个可解释的multi-head attention block用于学习长期依赖性
5)预测间隔:
用于决定每个预测维度的目标值的范围
|