论文:FEED-FORWARD NETWORKS WITH ATTENTION CAN SOLVE SOME LONG-TERM MEMORY PROBLEMS

题目:FEED-FORWARD NETWORKS WITH ATTENTION CAN SOLVE SOME LONG-TERM MEMORY PROBLEMS” (Raffel 和 Ellis, 2016, p. 1)

“带有注意力的前馈网络可以解决一些长期记忆问题” (Raffel 和 Ellis, 2016, p. 1) (pdf)

这篇论文提出了一种适用于前馈神经网络的简化注意力模型,并展示了这个模型可以解决序列长度比已发布的最佳结果更长和变化范围更广的合成“加法”和“乘法”长期记忆问题

这篇论文提出了一种适用于前馈神经网络的简化注意力模型,并展示了这个模型可以解决序列长度比已发布的最佳结果更长和变化范围更广的合成“加法”和“乘法”长期记忆问题【19†source】。

原理

注意力机制允许模型的不同时间点状态之间有更直接的依赖关系。在这篇论文中,注意力基础模型在每个时间步骤产生一个隐藏状态 ( h_t ),然后计算一个作为状态序列加权平均的“上下文”向量 ( c_t ),权重 ( \alpha{tj} ) 在每个时间步骤 t 为每个状态 ( h_j ) 计算。然后,这些上下文向量被用来计算一个新的状态序列 ( s ),其中 ( s_t ) 取决于 ( s ) 和在 ( t-1 ) 时刻的模型输出。这些权重是通过一个学习函数 ( a ) 来计算的,该函数被认为是计算给定 ( h_j ) 和前一个状态 ( s_{t-1} ) 的 ( h_j ) 的标量重要性值【20†source】。

论文中还提出了一种简化的前馈注意力机制。在这种机制中,注意力被看作是通过计算状态序列的自适应加权平均来产生输入序列的固定长度嵌入 ( c )。使用这种简化形式的注意力,模型可以处理变长序列,即使 ( h_t ) 的计算是前馈的,即 ( h_t = f(x_t) )。使用前馈函数 ( f ) 还可以实现大幅度的效率提升,因为计算可以完全并行化【21†source】。

限制

然而,论文也指出了模型的一个明显限制,即在时间顺序重要的任务上会失败,因为随时间计算的平均值会丢失顺序信息。尽管如此,作者提出,在一些实际任务中,处理非常长的序列比时间顺序的重要性要小得多。例如,在文本文档分类中,单词的顺序对于许多任务来说并不重要。论文的实验明确展示了包含注意力机制可以让模型在计算其输出时引用序列中的特定点。它们也为Bahdanau等人在2014年提出的观点提供了另一个论据,即注意力帮助模型处理非常长和长度变化极大的序列。作者对提出的前馈模型在需要序列时间整合的额外真实世界问题中的效益持乐观态度,并且表示需要进一步的研究。为了方便未来的工作,所有在实验中使用的代码都可以在线获取【22†source】。
代码

代码:https://www.cnblogs.com/xinxuann/p/17864058.html

你可能感兴趣的:(机器学习,人工智能)