这是一篇ICLR2023 top 5%论文
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
论文链接:https://openreview.net/pdf?id=vSVLM2j9eie
代码:https://github.com/Thinklab-SJTU/Crossformer

1. Multivariate Time Series Forecasting

MTS,多变量时序数据预测。利用MTS的历史值可以预测其未来的趋势,例如心电图(ECG),脑电图(EEG)脑磁图(MEG)的诊断以及系统监测等等都是固有的多变量问题。该任务数据每个实例序列拥有多个维度,是一个d维向量和m个观测值(时间序列)的列表,如下所示数据(借鉴自综述论文:《The great multivariate time series classification bake off: a review and experimental evaluation of recent algorithmic advances》)
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

2. 动机

MTS的核心额外复杂性在于,区别性特征可能存在于维度之间的相互作用中,而不仅仅存在于单个序列中的自相关性中。标准的Transformer中核心self-attention可能仅仅建模了单个序列的自相关性,忽略了跨维度的依赖关系。

此外,如下图所示,当数据序列很长时,计算复杂性高,但是可以观察到,接近的数据点具有相似的注意权重!

基于此,作者提出一个分层encoder-decoder框架Crossformer.
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

3. Crossformer

目标:输入一段历史序列
x
1
:
T

R
T
×
D
x_{1:T} \in \mathbb{R}^{T\times D}
x1:TRT×D
,预测未来的一段序列
x
T
+
1
:
T
+
τ

R
τ
×
D
x_{T+1:T+\tau} \in \mathbb{R}^{\tau \times D}
xT+1:T+τRτ×D
.

3.1 Hierarchical Encoder-Decoder

作者提出一个新的层次Encoder-Decoder的架构,如下所示,由左边encoder(灰色)和右边decoder(浅橘色)组成。其主要包含Dimension-Segment-Wise (DSW) embedding,Two-Stage Attention (TSA)层和Linear Projection。

3.2 Dimension-Segment-Wise embedding (DSW)

输入
x
1
:
T

R
T
×
D
x_{1:T} \in \mathbb{R}^{T\times D}
x1:TRT×D
,表明输入包含
T
T
T
个序列,每个序列有
D
D
D
个维度。如下所示,如果我们分的每个segment的长度为
L
s
e
g
L_{seg}
Lseg
,则每个序列中可以划分出
T
L
s
e
g
\frac{T}{L_{seg}}
LsegT
个segment,每个序列有
D
D
D
个维度,则整个输入共包含
T
L
s
e
g
×
D
\frac{T}{L_{seg}} \times D
LsegT×D
个segment,故
x
1
:
T
x_{1:T}
x1:T
可以记为:
x
1
:
T
=
{
x
i
,
d
(
s
)

1

i

T
L
s
e
g
,
1

d

D
}
x_{1:T}=\{x^{(s)}_{i,d}|1\le i \le \frac{T}{L_{seg}}, 1 \le d \le D \}
x1:T={xi,d(s)∣1iLsegT,1dD}
。在
d
d
d
维度中的第
i
i
i
个segment的size记为
x
i
,
d
(
s
)

R
1
×
L
s
e
g
x^{(s)}_{i,d} \in \mathbb{R}^{1 \times L_{seg}}
xi,d(s)R1×Lseg
,然后使用线性投影和位置嵌入将每个段嵌入到一个向量中:
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
其中
h
i
,
d

R
d
m
o
d
e
l
h_{i,d} \in \mathbb{R}^{d_{model}}
hi,dRdmodel

E

R
d
m
o
d
e
l
×
L
s
e
g
E \in \mathbb{R}^{d_{model} \times L_{seg}}
ERdmodel×Lseg
表示可学习的映射矩阵。
E
i
,
d
(
p
o
s
)

R
d
m
o
d
e
l
E^{(pos)}_{i,d} \in \mathbb{R}^{d_{model}}
Ei,d(pos)Rdmodel
表示在
(
i
,
d
)
(i,d)
(i,d)
位置的可学习位置嵌入。

最后,可以获得一个2D的向量数组
H
=
{
h
i
,
d

1

i

T
L
s
e
g
,
1

d

D
}

R
T
L
s
e
g
×
D
×
d
m
o
d
e
l
H=\{ h_{i,d}|1 \le i \le \frac{T}{L_{seg}},1 \le d \le D \} \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}
H={hi,d∣1iLsegT,1dD}RLsegT×D×dmodel
.
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

3.3 Two-Stage Attention (TSA)

由上可得输入现在为:
H

R
T
L
s
e
g
×
D
×
d
m
o
d
e
l
H \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}
HRLsegT×D×dmodel
,为了方便,记
L
=
T
L
s
e
g
L=\frac{T}{L_{seg}}
L=LsegT
,则输入为
H

R
L
×
D
×
d
m
o
d
e
l
H \in \mathbb{R}^{L \times D \times d_{model}}
HRL×D×dmodel
。TSA主要由cross-time stage和
cross-dimension stage组成,如下图所示。

ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

4 实验

5. 结论

在6个数据集上的实验结果展示了该方法优于之前的先进技术。

以上仅为本人小记,有问题欢迎指出(●ˇ∀ˇ●)

发表回复