传统方法无法实现精确的中长期预测,忽视时空相关性。我们提出了一种新颖的时空图卷积网络,采用了全卷积结构。
图卷积:GCN
时间卷积:卷积核在时间维度上滑动,对于长度为 M M M的序列和宽度为 K t K_t Kt的卷积核,输出长度为 M − K t + 1 M-K_t+1 M−Kt+1,最后使用了门控机制GLU
T ∗ τ Y = P ⊙ σ ( Q ) T *_{\tau}Y=P\odot\sigma(Q) T∗τY=P⊙σ(Q)
P和Q是使用不同参数的时间卷积的输出。
模型:
中间的是时空卷积块,两个时间卷积中间夹了图卷积,应用了瓶颈策略:图卷积的通道数很少,减少计算量
每一个时空卷积块后使用了layer normalization,对结点和特征做归一化。
第 l l l个时空卷积块,对于输入 v l ∈ R M × n × C l v^l\in R^{M\times n\times C^l} vl∈RM×n×Cl,输出 v l + 1 ∈ R ( M − 2 ( K t − 1 ) ) × n × C l + 1 v^{l+1}\in R^{(M-2(K_t-1))\times n\times C^{l+1}} vl+1∈R(M−2(Kt−1))×n×Cl+1
v l + 1 = Γ 1 l ∗ τ R e L U ( Θ l ∗ G ( Γ 0 l ∗ τ v l ) ) v^{l+1}=\Gamma^l_1*_\tau ReLU(\Theta^l*_G(\Gamma^l_0*_\tau v^l)) vl+1=Γ1l∗τReLU(Θl∗G(Γ0l∗τvl))
Γ 0 l \Gamma^l_0 Γ0l和 Γ 1 l \Gamma^l_1 Γ1l分别是上面和下面的时间卷积核, Θ l \Theta^l Θl是图卷积核,在最后一个时空卷积块的后面附加了一个时间卷积层,将时间维度变为1,最后使用全连接层,实现单步预测
交通预测存在3个挑战:(1)路网上复杂的空间相关性,(2)非线性时间相关性,以及持续变化的路况,(3)实现长期预测的固有困难。我们将交通流建模成有向图上的扩散过程,提出了DCRNN。
空间:扩散卷积,看作在图上的随机游走,经过多步后这个马尔可夫过程收敛到平稳分布,这里取K次迭代
X : , p ⋆ G f θ = ∑ k = 0 K − 1 ( θ k , 1 ( D O − 1 W ) k + θ k , 2 ( D I − 1 W T ) k ) X : , p X_{:,p}\star_G f_{\theta}=\sum_{k=0}^{K-1}(\theta_{k,1}(D_O^{-1}W)^k+\theta_{k,2}(D_I^{-1}W^T)^k)X_{:,p} X:,p⋆Gfθ=k=0∑K−1(θk,1(DO−1W)k+θk,2(DI−1WT)k)X:,p
D O − 1 W D_O^{-1}W DO−1W和 D I − 1 W T D_I^{-1}W^T DI−1WT分别表示前向和后向转移矩阵。扩展到多输出就是
H : , q = a ( ∑ p = 1 P X : , p ⋆ G f Θ q , p , : , : ) H_{:,q}=a(\sum_{p=1}^PX_{:,p}\star_Gf_{\Theta_{q,p,:,:}}) H:,q=a(p=1∑PX:,p⋆GfΘq,p,:,:)
Θ ∈ R Q × P × K × 2 \Theta\in R^{Q\times P\times K\times2} Θ∈RQ×P×K×2,从P维映射到Q维。
时间:用扩散卷积替换GRU中的矩阵乘法
采用Endoder-Decoder结构进行多步预测,Decoder训练时输入真实值,预测时输入预测值,为了防止这种差异影响模型的性能,采用了Scheduled Sampling技术。
现有的时空图建模方法都假设图结构是固定的,由于连接不完整,可能并没有反映真正的依赖关系,这些方法中使用的RNN和CNN不能捕获长期依赖。本文使用自适应邻接矩阵提取隐藏的空间依赖,使用堆叠的1维空洞卷积:感受野随层数指数增长,能够处理十分长的序列。
图卷积:
Z = ∑ k = 0 K P f k X W k 1 + P b k X W k 2 + A ~ a p t k X W K 3 Z=\sum_{k=0}^{K}P_f^kXW_{k1}+P_b^kXW_{k2}+\tilde{A}^k_{apt}XW_{K3} Z=k=0∑KPfkXWk1+PbkXWk2+A~aptkXWK3
P f P_f Pf为归一化后的邻接矩阵 , P b P_b Pb是邻接矩阵的转置的归一化,分别代表前向转移矩阵和后向转移矩阵, A ~ a p t \tilde{A}_{apt} A~apt是自适应邻接矩阵
A ~ a p t = S o f t m a x ( R e L U ( E 1 E 2 T ) ) \tilde{A}_{apt}=Softmax(ReLU(E_1E_2^T)) A~apt=Softmax(ReLU(E1E2T))
E 1 , E 2 ∈ R N × c E_1,E_2\in R^{N\times c} E1,E2∈RN×c为结点嵌入矩阵, E 1 E_1 E1是源结点嵌入, E 2 E_2 E2是目标结点嵌入。
时间卷积:带门控机制的一维因果卷积(GLU),采用了空洞卷积。
h = g ( Θ 1 ⋆ X + b ) ⊙ σ ( Θ 2 ⋆ X + b ) h=g(\Theta_1\star X+b)\odot \sigma(\Theta_2\star X+b) h=g(Θ1⋆X+b)⊙σ(Θ2⋆X+b)
模型:实验时共8层,空洞率为[1,2,1,2,1,2,1,2]:
人工设计感受野大小,使最后一层时空卷积层输出的时间维度为1,经全连接层映射为输出维度
现有的交通流预测方法无法建模交通数据的动态时空相关性,我们提出来一个新颖的基于注意力机制的时空图卷积网络。由3个独立的组件组成,分别建模交通流的3种时间属性,即recent,daily-periodic,weekly-periodic。每个组件包含2个部分:(1)时空注意力机制,(2)时空卷积
recent:前 T h T_h Th个时间片的流量
daily-periodic:前 T d T_d Td天同样时间片的流量
weekly-periodic:前 T w T_w Tw周同样时间片的流量
空间注意力:不同位置的交通条件相互之间有影响,这种影响是高度动态的。
S = S o f t m a x ( V s ⋅ σ ( ( X h r − 1 W 1 ) W 2 ( W 3 X h r − 1 ) T + b s ) ) S=Softmax(V_s\cdot\sigma((X_h^{r-1}W_1)W_2(W_3X_h^{r-1})^T+b_s)) S=Softmax(Vs⋅σ((Xhr−1W1)W2(W3Xhr−1)T+bs))
X h r − 1 ∈ R N × C r − 1 × T r − 1 X_h^{r-1}\in R^{N\times C_{r-1}\times T_{r-1}} Xhr−1∈RN×Cr−1×Tr−1是第r个时空块的输入, V s , b s ∈ R N × N V_s,b_s\in R^{N\times N} Vs,bs∈RN×N, W 1 ∈ R T r − 1 W_1\in R^{T_r-1} W1∈RTr−1, W 2 ∈ R C r − 1 × T r − 1 W_2\in R^{C_{r-1}\times T_{r-1}} W2∈RCr−1×Tr−1, W 3 ∈ R C r − 1 W_3\in R^{C_r-1} W3∈RCr−1是可学习参数。 S ′ S' S′与邻接矩阵合并用于调整影响权重。
时间注意力:不同时间片的交通状态有相关性
E = S o f t m a x ( V e ⋅ σ ( ( ( X h r − 1 ) T U 1 ) U 2 ( U 3 X h r − 1 ) + b e ) ) E=Softmax(V_e\cdot\sigma(((X_h^{r-1})^TU_1)U_2(U_3X_h^{r-1})+b_e)) E=Softmax(Ve⋅σ(((Xhr−1)TU1)U2(U3Xhr−1)+be))
V e , b e ∈ R T r − 1 × T r − 1 V_e,b_e\in R^{T_{r-1}\times T_{r-1}} Ve,be∈RTr−1×Tr−1, U 1 ∈ R N _U1\in R^N U1∈RN, U 2 ∈ R C r − 1 × N U_2\in R^{C_{r-1}\times N} U2∈RCr−1×N, U 3 ∈ R C r − 1 U_3\in R^{C_r-1} U3∈RCr−1是可学习参数。 E E E直接应用在输入上
X ^ h r − 1 = X h r − 1 E \hat{X}_h^{r-1}=X_h^{r-1}E X^hr−1=Xhr−1E
图卷积:ChebNet结合空间注意力矩阵
g θ ∗ G x = g θ ( L ) x = ∑ k = 1 K − 1 θ k ( T k ( L ~ ) ⊙ S ′ ) x g_{\theta*G}x=g_\theta(L)x=\sum_{k=1}^{K-1}\theta_k(T_k(\tilde{L})\odot S')x gθ∗Gx=gθ(L)x=k=1∑K−1θk(Tk(L~)⊙S′)x
时间维度卷积:
X h r = R e L U ( Θ ∗ ( R e L U ( g θ ∗ G X ^ h r − 1 ) ) ) X_h^{r}=ReLU(\Theta*(ReLU(g_{\theta*G}\hat{X}_h^{r-1}))) Xhr=ReLU(Θ∗(ReLU(gθ∗GX^hr−1)))
全连接层:映射到目标输出维度
多组件混合:每个节点在不同组件中的影响权重不同
Y ^ = W h ⊙ Y ^ h + W d ⊙ Y ^ d + W w ⊙ Y ^ w \hat{Y}=W_h\odot\hat{Y}_h+W_d\odot\hat{Y}_d+W_w\odot\hat{Y}_w Y^=Wh⊙Y^h+Wd⊙Y^d+Ww⊙Y^w
模型:还使用了残差连接
现有的区域级网约车需求预测算法主要建模空间邻近区域之间的欧几里得相关性,但我们发现距离遥远的区域之间的非欧相关性对实现精准的预测也十分重要。我们提出了STMGCN,使用多个图来捕获这种相关性。为了在建模时间相关性时利用全局信息,我们进一步提出了上下文门控循环神经网络,使用门控机制对历史观测重新分配权重。
首先建立了3种图:邻域图、功能相似性图、交通连接图
领域图 A N A_N AN:每个区域与它周围的3x3网格上的8个区域相连接,权重为1
功能相似性图 A S A_S AS:两个区域的连接权重是POI向量的相似性,当然要消除弱连接保持稀疏性
交通连接性图 A C A_C AC:两个区域由高速公路或地铁直接相连算连接,定义了连接性函数,可能是路的数量
A C , i , j = m a x ( 0 , c o n n ( v i , v j ) − A N , i , j ) A_{C,i,j}=max(0, conn(v_i, v_j)-A_{N,i,j}) AC,i,j=max(0,conn(vi,vj)−AN,i,j)
这里减去了邻域连接性防止冗余连接。
介绍多图卷积:
X l + 1 = σ ( ⨆ A ∈ A f ( A ; θ i ) X l W l ) X_{l+1}=\sigma(\bigsqcup_{A\in\mathbb{A}}f(A;\theta_i)X_lW_l) Xl+1=σ(A∈A⨆f(A;θi)XlWl)
⨆ \bigsqcup ⨆代表聚集函数,如sum,max,average等, f ( A ; θ i ) f(A;\theta_i) f(A;θi)是邻接矩阵的函数,如拉普拉斯矩阵
时间相关性建模:上下文门控循环神经网络
X ^ ( t ) = [ X ( t ) , F G K ′ ( X ( t ) ) ] \hat{X}^{(t)}=[X^{(t)},F_G^{K'}(X^{(t)})] X^(t)=[X(t),FGK′(X(t))]
F G K ′ F_G^{K'} FGK′是图卷积操作,也就是将相关区域的信息和自身的信息连接起来,作为上下文信息
z ( t ) = F p o o l ( X ^ ( t ) ) = 1 ∣ V ∣ ∑ i = 1 ∣ V ∣ X ^ i , : ( t ) z^{(t)}=F_{pool}(\hat{X}^{(t)})=\frac{1}{|V|}\sum_{i=1}^{|V|}\hat{X}^{(t)}_{i,:} z(t)=Fpool(X^(t))=∣V∣1i=1∑∣V∣X^i,:(t)
所有区域上的全局平均池化, z ( t ) ∈ R T × P z^{(t)}\in R^{T\times P} z(t)∈RT×P
s = σ ( W 2 δ ( W 1 z ) ) s=\sigma(W_2\delta(W_1z)) s=σ(W2δ(W1z))
s ∈ R T s\in R^T s∈RT, σ \sigma σ是sigmoid函数, δ \delta δ是ReLU函数, s s s作为注意力权重
X ~ ( t ) = X ( t ) ∘ s ( t ) \tilde{X}^{(t)}=X^{(t)}\circ s^{(t)} X~(t)=X(t)∘s(t)
重新分配权重后,将每个区域的特征送入RNN
H i , : = R N N ( X ~ i , : ( 1 ) , . . . , . X ~ i , : ( T ) ) f o r i = 1 , . . . , ∣ V ∣ H_{i,:}=RNN(\tilde{X}^{(1)}_{i,:},...,.\tilde{X}^{(T)}_{i,:}) \quad for \quad i = 1,...,|V| Hi,:=RNN(X~i,:(1),...,.X~i,:(T))fori=1,...,∣V∣
H ∈ R V × F H \in R^{V\times F} H∈RV×F,再使用上述的多图卷积提取空间相关性,这里 K = 2 K=2 K=2,共3层卷积,输出维度为64,最后使用全连接层