Associative Long Short-Term Memory

Neil Zhu,ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

Ivo Danihelka, Greg Wayne, Benigno Uria, Nal Kalchbrenner, and Alex Graves from Google DeepMind

摘要

本文介绍一种新的不需增加网络参数个数来为递归神经网络增加额外内存的方法。该系统有一个基于复数值向量的关联内存,并和 Holographic Reduced Representation 和 LSTM 网络紧密相关。全息化归表示有受限的能力:在他们存储更多的信息时,每次检索由于干涉产生噪声。我们的系统创建出冗余的存储副本,这样可以减少检索的噪声。实验结果表明在多回忆任务上有更快的学习速度。

1. 引言

该项工作致力于增强 LSTM (Hochreiter & Schmidhuber, 1997),这已经成为了在序列预测、语音识别和机器翻译中广泛应用的技术。(Graves, 2013; Graves et al., 2013; Sutskever et al., 2014) 我们这里解决了 LSTM 的两个限制。第一个限制是 LSTM 的内存单元数目和递归权重矩阵的大小相关。拥有 N_h 内存单元的 LSTM 需要递归权重矩阵大小为 O(N_h^2)。第二个限制是 LSTM 其实学习表示如矩阵这样的数据结构的不太好的选择,因为 LSTM 本身缺少一种机制在读写时进行内存的索引。

为了解决这个限制,递归神经网络现在已经有了软/硬注意力机制来访问外部存储空间(Graves et al., 2014; Sukhbaatar et al., 2015; Joulin & Mikolov, 2015; Grefenstette et al., 2015; Zaremba & Sutskever, 2015) 的增强。注意力机制类似于一种寻址系统,可以选择存储空间的位置。被选择的内存地址指向的内容可以通过网络进行读/改操作。

这里,我们在 关联 LSTM 中给出了一种不同的寻址机制,其中如 LSTM 中那样,项以一种分布式向量表示的方式进行无位置存储。我们的系统基于两个特性来实现存放键值对的 关联数组:

  1. 将 LSTM 和全息化归表示思想合并来使能键值对存储。
  2. 直接应用 HRR 的想法产生一个非常lossy的存储。我们使用冗余存储来增加内存的能力从而降低内存访问的噪声。

HRR 使用一种“绑定”算子来实现两个向量(键和相应的内容)之间的键值关联。他们天生就能够实现一个关联数组;同样也能够轻松地实现栈、队列或者列表。因为 HRR 可能对大多数的读者不太熟悉,第二节我们会给出一个关于 HRR 和相关的向量-符号架构 (Kanerva, 2009) 的简短的介绍。

在计算科学中,RAID技术提供了一种从不可靠部件构建可靠存储的方式。我们通过冗余存储技术来简单地降低一个全息表示内部的检索误差,这个在第三节进行介绍。接着在第五节将冗余关联内存和 LSTM 进行关联。系统可以通过这样方式增加到更大的内存空间而不需要增加更多的网络参数。在第六节的实验展示了这种内存系统在学习速度和准确率上的好处。

2. 背景

全息化归表示是一种用固定长度的向量来表示键值对的关联数组的简单机制。每个独立的键值对和整个关联数组的大小相同;数组通过所有对的和进行表示。具体说,假设有一个复数向量键 $$r = (a_r[1])$$

你可能感兴趣的:(Associative Long Short-Term Memory)