tags:
论文阅读
NLP
《Transformation Networks for Target-Oriented Sentiment Classifification》
[paper]
[code]
《Aspect Level Sentiment Classification with Deep Memory Network》
提出了Transformation Networks (TNet)解决Attention机制和CNN本身在ABSC任务上的缺陷(具体缺陷见1.2)
主要贡献:
提出了MemNet模型,利用Attention多层机制来记忆上下文的文本信息,其速度比LSTM要快很多(cpu)
主要贡献:
解释:比如说,“This dish is my favorite and I always get it and never get tired of it.”对其中的dish做注意力机制计算的时候,会引入不相关的词比如“never”“tired”
CNN本身对于文本处理的缺陷:
不能像RNN一样完整探索到上下文信息
难以处理多目标词的情况(即使探索到也很难基于上下文进行取舍)
解释:如句子“great food but the service was dreadful”,对于目标词“food”而言,CNN很难给出“good”和“dreadful”之间合理的抉择
LSTM耗时,并行性弱,同时不能准确捕获基于aspect的上下文信息
结合上图,从下往上解释一下模型部分:
x i x_i xi是原始输入,红色模块是双向LSTM,(因为前人研究表明基于上下文的单词表示是卷积架构中单词的有效表示方式),输出 h i h_i hi是这一层加入上下文关系的单词表示的结果。 h i = [ L S T M l e f t − > r i g h t ( x i ) ; L S T M r i g h t − > l e f t ( x i ) ] , i ∈ [ 1 , n ] h_i=[LSTM_{left->right}(x_i);LSTM_{right->left}(x_i)],i∈[1,n] hi=[LSTMleft−>right(xi);LSTMright−>left(xi)],i∈[1,n]
灰色模块是CPT(上下文保存转换),主要作用是引入target到单词表示中来没有用传统的attention计算的权重来做……而是用了自己设计的TST模块,同时强调CPT是多层的
TST组件从下往上介绍:
双向LSTM获取目标词的表示 h τ h^{\tau} hτ
将上一步的 h τ h^{\tau} hτ动态地与句子中地单词 w i w_i wi关联起来,异变在时间步时定制目标表示KaTeX parse error: Expected 'EOF', got '}' at position 11: r_i^{\tau}}̲
全连接层,获取第 i i i个目标词的表示
LF/AS:TST之后,由Bi-LSTM得到的上下文信息会丢失,为了利用上下文信息,这里提出了两种策略LF和AS
LF:无损转发,模型一开始红色Bi-LSTM生成的表示和TST生成的表示直接相加
AS:自适应缩放,引入参数 W W W和 b b b,学习模型应该保留多少一开始红色Bi-LSTM生成的表示和多少TST生成的表示。相当于引入了门控机制。
并行性比使用LSTM的模型更好,实际上是多个attention层的叠加,利用多层attention捕获上下文之间的关系,以此替代利用如LSTM这种时序模型的求解。
TNet仅仅尝试了LF的做法,AS调试还存在问题,精度没有达到合理状态
因为没有找到twitter的xml数据……所以仅给出在laptop以及restaurant上的结果:
bugs真可爱
碎碎念:
复工万岁~~!!!
开学准备迎接各路神仙打架~加油加油加油✨