【论文笔记】Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification

文章目录

  • 前言
  • 摘要(Abstract)
  • 一、简介(Introduction)
  • 二、相关工作(Related Work)
    • 2.1 文档级情感分类
  • 三、长短时记忆神经网络(Long Short-Term Memory Networks)
  • 四、缓存长短时记忆神经网络(Cached Long Short-Term Memory Neural Network)
    • 1.CIFG-LSTM
    • 2.CLSTM
  • 五、训练(Training)
  • 六、实验(Experiment)
  • 七、结果(Result)
  • 文献说明

前言

Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification

高速缓存的LSTM用于文档级情感分类

此论文发表于EMNLP2016

主要把每个部分自己的笔记记录在这里。

摘要(Abstract)

主要内容:

1、神经网络拥有优化特征工程的能力,可以用于情感分类。
2、由于记忆单元的不足,在RNNs架构下,对Long-Text的分类仍是挑战,以此引出了本文的CLSTM。
3、引入缓存机制(cache mechanism)将memory分成几组,并给与不同的遗忘率。以此来解决文本级超远距离的长期依赖问题。
4、三个数据集分别为Yelp2013,Yelp2014,IMDB。

一、简介(Introduction)

1、RNNs流行是由于其能够处理变长的文本(variable-length texts),但RNN不足以处理溢出和从相对较远的时间步提取关键的情感信息。
2、句子或者段落级的情感分析期望从有限的信息中提取特征,文档级的情感分析期望能在噪声和局部冗余的情况下,选择并存储全局的情感信息。
3、引文[Tang et al.,2015a;Tai et al.,2015]中提出分层提取语义信息来解决此类文本的可伸缩性问题,例如首先生成句子表示,再组合生成文档嵌入。
4、Atkinson 和 Shiffrin在1968年提出了双存储的内存模型,这使得记忆可在短期的“缓冲”中存留一小段时间,并加强在长期记忆中的联系。
5、低遗忘率的组起缓存作用,将信息桥接传递到高遗忘率的组。

二、相关工作(Related Work)

2.1 文档级情感分类

1、现在文档级情感分类最大的挑战是:并不是文档的每一部分在推断整体情感上具有同等的信息量。
2、[Tai et al.2015]一文提出了树与LSTM融合以获得更好的语义组合;[Bhatia et al.2015]使用了额外信息进行增强。
3、从相关工作中可知,本文的灵感来自于:
 ①从外部存储的LSTM转化为内存优化
 ②原来是时间尺度区分,隐藏状态分组,现优化为为每个组赋予不同的遗忘率



三、长短时记忆神经网络(Long Short-Term Memory Networks)

此部分简单介绍了一下LSTM的内容。
【论文笔记】Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification_第1张图片

四、缓存长短时记忆神经网络(Cached Long Short-Term Memory Neural Network)

1.CIFG-LSTM

本文说为了控制和平缓历史与传入的新信息,引用了[Greff et al.2015]提出的CIFG-LSTM,介绍说是耦合了输入门和遗忘门(这里的疑问是:和GRU相比区别和优劣在哪里呢?)
然后日出了更新公式:
在这里插入图片描述

2.CLSTM

更新公式如下:
【论文笔记】Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification_第2张图片
其中符号含义:
C k : 内 部 存 储 器 O k : 输 出 门 r k : 遗 忘 率 r k ( t ) : t 时 间 步 , 第 K 组 的 遗 忘 率 Ψ k : 压 缩 函 数 C_k:内部存储器\quad O_k:输出门\quad r_k:遗忘率\\r^{(t)}_k:t时间步,第K组的遗忘率\quad \Psi_k:压缩函数 Ck:Ok:rk:rk(t):tKΨk:

模型图如下:
【论文笔记】Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification_第3张图片
双向的BCLSTM则是把两个向量进行了拼接以获取语义。
在这里插入图片描述
对于遗忘率的作用解释:不同组通过控制遗忘率来捕捉不同程度的依赖关系
F-rate-High:短期记忆
F-rate-low: 长期记忆

五、训练(Training)

主要解释了用交叉熵(cross-entropy)来评价损失函数:
在这里插入图片描述

六、实验(Experiment)

1、首先给出了实验效果比较的图:
【论文笔记】Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification_第4张图片
2、总结一下超参数和初始化:
预训练词向量维度(Glove):50
隐藏单元:50
权重衰减集合{5e-4,1e-4,1e-5}
优化器:Adagrad
学习率:0.01
初始化的迭代矩阵是在[-0.1,0.1]的均匀分布中进行采样的
3、选择在验证集上获得最佳效果的超参数,在测试集上进行最终评估。

七、结果(Result)

1、单向RNN不能捕获存储语义,LSTM有所改善,CIFG-LSTM与LSTM性能相当。
2、双向模型更能进行全局把握,尤其是出现在长文本开头的信息。
3、缓存机制能在没有双向结构支持下有效存储有价值的信息。
4、B-CLSTM甚至超过了利用额外信息的模型。
5、在时间复杂度和参数个数CLSTM较优秀。
6、内存组的数量设置是很重要的,通过下图可以就看出,当神经元总数一定,分组越多,每组的神经元就越少,而数量不足是会影响分类能力的。
【论文笔记】Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification_第5张图片

文献说明

本文是:Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification[Jiacheng Xu,Danlu Chen,Xipeng Qiu,Xuanjing Huang]的笔记。
笔记中的引文均是原文的引文:
[Tang et al.2015a]
Duyu Tang, Bing Qin, and Ting Liu.2015a. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification.EMNLP, pages 1422–1432.
[Tai et al.2015]
Kai Sheng Tai, Richard Socher, and Christopher D Manning. 2015. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL, pages 1556–1566.
[Bhatia et al.2015]
Parminder Bhatia, Y angfeng Ji, and Jacob Eisenstein. 2015. Better document-level sentiment analysis from rst discourse parsing.
In Proceedings of the Conference on Empirical Methods inNatural Language Processing,(EMNLP).
[Greff et al.2015] Klaus Greff, Rupesh Kumar Srivastava,Jan Koutn´ ık, Bas R Steunebrink, and Jürgen Schmid-huber. 2015. LSTM: A Search Space Odyssey.arXiv.org, March.

你可能感兴趣的:(机器学习,神经网络,机器学习,深度学习,python,人工智能)