【笔记】论文阅读 | One shot learning with memory-augmented neural networks

  • 论文信息:Santoro A, Bartunov S, Botvinick M, et al. One-shot learning with memory-augmented neural networks[J]. arXiv preprint arXiv:1605.06065, 2016.
  • 博文作者:Veagau
  • 编辑时间:2020年01月07日

本文是2016年ICML的会议论文,作者来自谷歌的DeepMind。在论文中作者提出了一种记忆增强神经网络(memory-augmented neural networks,简记MANN)来快速吸收样本中蕴含的信息并利用这些信息对仅提供数个样本的情境做出准确的预测,即少样本学习(Few-Shot Learning)。由于使用了外部记忆部件,因此作者还提出一种有效获取外部记忆部件中内容的方法。

元学习过程主要划分为两个阶段:第一个阶段,元学习模型在不同的任务上,如在一个具体的数据集内实现准确的分类,进行快速学习;第二阶段,元学习模型提取跨任务的知识,并利用这些知识对第一阶段进行指导。上一篇论文中提及的网络模型就已经证实了带有记忆功能的神经网络适用于这种元学习场景,不过上文用到的LSTM神经网络只能暂时的存储学习到的知识表示,是一种内部记忆(Internal Memory)网络架构,而本文中借鉴神经图灵机(Neural Turing Machine)的思想,采用外部记忆(External Memory)网络架构对跨任务知识进行存取。

整个网络结构示意图如下。

【笔记】论文阅读 | One shot learning with memory-augmented neural networks_第1张图片

数据对(data pair)依然采用错位的方式输入到网络中,在前向传播的过程中,输入样本与目标标签的会进行绑定,经过编码后存储在外部记忆元件中,在下一个样本输入后,网络对记忆元件中内容进行检索,解析出相关的信息进行预测。这些信息在记忆元件中是以矩阵的形式进行存储的,每个样本对应的编码信息对应矩阵的一行数据,对矩阵存取即对其进行读写操作。读(read)时采用神经图灵机使用的策略——计算新的输入样本的编码表示,然后用于与矩阵中每一行数据进行相似度计算,最后加权得出最终的预测信息。写(Write)时采用LRUA(Least Recently Used Access)——最近最少使用策略,对最近最少使用的存储单元进行覆盖操作,从而节省存储空间与查询开支。

采用记忆增强网络架构能够很好的解决训练数据稀疏(少样本)的问题,不过本文中提出的记忆单元寻址策略灵活性尚有不足,能否让网络自主设计寻址策略,并且让其适应更大范围任务的学习以及与主动学习相结合还值得进一步研究。

你可能感兴趣的:(【笔记】论文阅读 | One shot learning with memory-augmented neural networks)