科研训练第十九-二十二周——关于TNet以及MemNet


tags:

  • 论文阅读

  • NLP


1. 论文阅读

《Transformation Networks for Target-Oriented Sentiment Classifification》

  • [paper]

  • [code]

《Aspect Level Sentiment Classification with Deep Memory Network》

  • [paper]
  • [code]

1.1 introduction

1.1.1 TNet

提出了Transformation Networks (TNet)解决Attention机制和CNN本身在ABSC任务上的缺陷(具体缺陷见1.2)

主要贡献:

  • 采用了CNN的TNet解决ABSC问题,且性能在基准数据集上取得了最好的效果。
  • 提出了一种新的根据目标target的转换组件,以更好地将目标信息集成到单词表示中。
  • 设计了一种上下文保存机制,将上下文信息转发到深度转换体系结构中,因此,该模型可以更深从层次的网络中学习到更加抽象的上下文单词特征。

1.1.2 MemNet

提出了MemNet模型,利用Attention多层机制来记忆上下文的文本信息,其速度比LSTM要快很多(cpu)
主要贡献:

  • 基于Attention的模型来捕获上下文信息,摆脱了LSTM耗时问题
  • 效率和正确率大大提高

1.2 motivation

1.2.1 TNet

  • 注意力机制本身的缺陷:
    • 对某单词进行注意力分值计算的时候,会引入噪声

解释:比如说,“This dish is my favorite and I always get it and never get tired of it.”对其中的dish做注意力机制计算的时候,会引入不相关的词比如“never”“tired”

  • CNN本身对于文本处理的缺陷:

    • 不能像RNN一样完整探索到上下文信息

    • 难以处理多目标词的情况(即使探索到也很难基于上下文进行取舍)

解释:如句子“great food but the service was dreadful”,对于目标词“food”而言,CNN很难给出“good”和“dreadful”之间合理的抉择

1.2.2 MemNet

LSTM耗时,并行性弱,同时不能准确捕获基于aspect的上下文信息

1.3 model

1.3.1 TNet

结合上图,从下往上解释一下模型部分:

  1. x i x_i xi是原始输入,红色模块是双向LSTM,(因为前人研究表明基于上下文的单词表示是卷积架构中单词的有效表示方式),输出 h i h_i hi是这一层加入上下文关系的单词表示的结果。 h i = [ L S T M l e f t − > r i g h t ( x i ) ; L S T M r i g h t − > l e f t ( x i ) ] , i ∈ [ 1 , n ] h_i=[LSTM_{left->right}(x_i);LSTM_{right->left}(x_i)],i∈[1,n] hi=[LSTMleft>right(xi);LSTMright>left(xi)],i[1,n]

  2. 灰色模块是CPT(上下文保存转换),主要作用是引入target到单词表示中来没有用传统的attention计算的权重来做……而是用了自己设计的TST模块,同时强调CPT是多层的

    TST组件从下往上介绍:

    • 双向LSTM获取目标词的表示 h τ h^{\tau} hτ

    • 将上一步的 h τ h^{\tau} hτ动态地与句子中地单词 w i w_i wi关联起来,异变在时间步时定制目标表示KaTeX parse error: Expected 'EOF', got '}' at position 11: r_i^{\tau}}̲

    • 全连接层,获取第 i i i个目标词的表示

    • LF/AS:TST之后,由Bi-LSTM得到的上下文信息会丢失,为了利用上下文信息,这里提出了两种策略LF和AS

      • LF:无损转发,模型一开始红色Bi-LSTM生成的表示和TST生成的表示直接相加

      • AS:自适应缩放,引入参数 W W W b b b,学习模型应该保留多少一开始红色Bi-LSTM生成的表示和多少TST生成的表示。相当于引入了门控机制。

  1. CNN:位置编码(假设一个target周围检测到多个opinion的时候,默认离他最近的贡献最大)

1.3.2 MemNet

科研训练第十九-二十二周——关于TNet以及MemNet_第1张图片
并行性比使用LSTM的模型更好,实际上是多个attention层的叠加,利用多层attention捕获上下文之间的关系,以此替代利用如LSTM这种时序模型的求解。

1.4 Examination

TNet仅仅尝试了LF的做法,AS调试还存在问题,精度没有达到合理状态

1.5 Result

因为没有找到twitter的xml数据……所以仅给出在laptop以及restaurant上的结果:
科研训练第十九-二十二周——关于TNet以及MemNet_第2张图片

2. Coding的故事

bugs真可爱

3. 参考资料

  1. Tnet阅读笔记
  2. MemNet阅读笔记

碎碎念:
复工万岁~~!!!
开学准备迎接各路神仙打架~加油加油加油✨

你可能感兴趣的:(科研训练,深度学习,自然语言处理,人工智能)