如何通过轨迹相似性度量方法,发现新冠易感人群 轨迹作为一种时空数据,指的是某物体在空间中的移动路径,通常表示为GPS点的序列,例如tr=<p1→p2→…pn>,其中点pi=(lat,lng,t),表示该物体在t时刻位于地理坐标位置(lat,lng)上,lat和lng分别表示纬度和经度。
停留点
【1】HGSM——基于层级结构图的相似度分析
数据集
【1】Dataset: GestureMidAirD1。26个界面命令手势 【2】Singapore’s police now have access to contact tracing data 【3】corona virus.jhu.map
时间序列
相似性度量
【1】时序数据特征提取
聚类
《Time-series clustering – A decade review》 3.1. Finding similar time-series in time Euclidean distance measure are proper for this objective. Fourier transforms, wavelets or Piecewise Aggregate Approximation (PAA). Keogh and Kasetty
3.2. Finding similar time-series in shape elastic methods such as Dynamic time Warping (DTW)
3.3. Finding similar time-series in change (structural similarity) Hidden Markov Models (HMM) or an ARMA process. This approach is proper for long time-series, not for modest or short time-series.
【1】【2】github: Timeseries Classification: KNN & DTW
【时序分割】2017KDD论文 Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series(TICC)
SAX(Symbolic Aggregate Approximation)符号聚合近似
【1】 【2】 【3】附Python代码 【4】Professor Keogh’s homepage
- PAA (Piece-wise Average Approximation) 把不同时长的序列都分成n段,每段取它的均值,这样每个时间序列都变成了n维的特征,然后你就可以用欧式距离或者余弦计算相似度了。问题是:分段大丢失信息多,分段小降维程度低,关键是如何选择合适的线段数和合适的分段点。
有个改进叫APCA, 根据时间序列变化自动确定是否分段,每个子段用该子段上各点的平均值来表示。 - 界标模型(landmark) 将时间序列中一些转折点定义为界标,如局部极大值、极小值和拐点等。每个序列都要对数值标准化,然后通过限定界标的变化幅度和持续时间找出最重要的n个界标。最后用这n个界标计算相似度。(Peng Changshing, Wang Haixun, Zhang Sylvia R, Parker D Stott. Landmarks: A New Model for Similarity-Based Pattern Querying in Time Series Databases[D]. Feb: Proc 16th IEEE Int’1 Conf on Data Engineering, 2000, 675~693)
Shapelet
【1】Shapelet : 一种象形化的时间序列特征提取方法 【2】
FFT快速傅立叶变换
其他
时空交通数据预测方法及应用 一些对时间序列数据的理解
|