A Novel Approach Based on Encoder-Decoder with Attention Framework for Multi-modal Multi-label Learn

方法

A Novel Approach Based on Encoder-Decoder with Attention Framework for Multi-modal Multi-label Learn_第1张图片
给定实例的输入模态序列{x 1 ^1 1,x 2 ^2 2,…,x m ^m m},考虑到每个模态的维度数不同,修改输入模态 x ~ k \tilde x^k x~k为[0,0,…, x k x^k xk,…,0], h → \overrightarrow h h , h ← \overleftarrow h h 分别是前向和后向隐藏状态,对于第 t t t步,
h → t \overrightarrow h_t h t= F e n → \overrightarrow {F_{en}} Fen ( x ˜ t \~x^t x˜t, h → t − 1 \overrightarrow h_{t-1} h t1)
h ← t \overleftarrow h_t h t= F e n ← \overleftarrow {F_{en}} Fen ( x ˜ t \~x^t x˜t, h ← t − 1 \overleftarrow h_{t-1} h t1)
h t h_t ht=[ h → t \overrightarrow h_t h t; h ← t \overleftarrow h_t h t]
其中, F e n → \overrightarrow {F_{en}} Fen F e n ← \overleftarrow {F_{en}} Fen 是非线性函数,这篇文章使用GRU
注意力向量能这样计算:a i _i i= ∑ j = 1 m α i j h j \sum_{j=1}^m\alpha_{ij}h_j j=1mαijhj,其中
在这里插入图片描述
r i j r_{ij} rij=a(s i − 1 _{i-1} i1, h j h_j hj),a( ⋅ \cdot )是一个打分函数,s是解码器的隐藏状态
每个s都有两个输出:标签预测和模态预测。在第 t t t步,最终标签预测是上一步的预测和相关矩阵 W c o W_{co} Wco 加上当前步的结果的乘积,S t _t t=F d e _{de} de(x t ^t t,s t − 1 _{t-1} t1,a t _t t),其中F d e _{de} de F e n → \overrightarrow {F_{en}} Fen 一样,不过输入多了注意力向量。最终计算损失对框架的参数的导数,然后更新框架的参数。
A Novel Approach Based on Encoder-Decoder with Attention Framework for Multi-modal Multi-label Learn_第2张图片

体会

不懂作者为何要对模态进行序列建模?
作者未公布代码

你可能感兴趣的:(MMML学习,深度学习,人工智能,计算机视觉,机器学习)