TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记

An Empirical Study on Leveraging Position Embeddings for Target-oriented Opinion Words Extraction
利用位置嵌入提取目标导向意见词的实证研究

  • 摘要
  • 1 介绍
  • 2 实验设置
    • 2.1 词表示选择
    • 2.2 Encoders
  • 3 实验总结
    • 1.
    • 2.
    • 3.
    • 4.
    • 5.
    • 6.
    • 7.
  • 4 总结

摘要

面向目标的意见词抽取(TOWE) 是面向目标的情感分析的一个新的子任务,旨在为文本中给定的方面抽取意见词。当前最先进的方法利用位置嵌入来捕捉单词与目标的相对位置。然而,这些方法的性能取决于将这些信息合并到单词表示中的能力。在本文中,我们探索了各种基于预训练单词嵌入或语言模型的文本编码器,它们利用词性和位置嵌入,旨在检查TOWE中每个组件的实际贡献。我们还采用了一种图形卷积网络(GCN)来通过结合语法信息来增强单词表示。我们的实验结果表明,基于BiLSTM的模型可以有效地将位置信息编码到单词表示中,而使用GCN只能获得边际收益。有趣的是,我们的简单方法优于一些最先进的复杂神经结构。

1 介绍

面向目标的意见词抽取(TOWE) 是面向目标的情感分析的细粒度任务,旨在针对文本中的意见目标(或方面)抽取意见词。鉴于“食物很好,但服务非常慢”这句话,TOWE试图识别分别对应于目标“食物”和“服务”的意见词“好”和“非常慢”。TOWE通常被视为一个序列标记问题,使用BIO标记方案来区分意见词范围的Beginning, Inside and Outside。
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第1张图片
学习有效的词表示是解决TOWE问题的关键一步。传统的工作已经使用手工制作的特征来表示不容易概括的词。更近期的工作已经探索了神经网络来自动学习单词表示。

以前的基于神经的方法使用了单词嵌入表示输入。然而,TOWE是一个复杂的任务,它需要一个模型来知道每个单词在文本中的相对位置。接近目标的词语通常表达了对这方面的情感。

Fan等人采用LSTM网络对词嵌入中的目标位置信息进行编码。Wu等人用双向LSTM (BiLSTM)网络将潜在的意见知识(latent opinion knowledge)转化为词和位置嵌入。最近,V等人提出了ONG,一种结合BERT (transformer的双向编码表示)、位置嵌入、有序神经元LSTM (ON-LSTM)和图卷积网络(GCN)的方法。将语法(syntactic)信息引入单词表示中。虽然该模型获得了最先进的结果,但之前的研究表明,ON-LSTM实际上在恢复潜在树结构方面并不比LSTM表现得更好。此外,ON-LSTMs在限制短期依赖性方面比LSTMs表现更差。由于在文本中,观点词通常接近目标词,ON-LSTM有可能丢失方面词意见词有关的任何信息(例如位置) 之间的关系。

在本文中,我们经验地评估了一组流行的文本编码器,考虑词、位置和词性信息。我们的研究表明,基于BiLSTMs的方法可以有效地利用位置编码,与更复杂的方法(如ONG)在标准TOWE数据集上的结果相比,即使不是更好,也是有竞争力的。有趣的是,将BiLSTM编码器与GCN结合来显式捕获语法信息只获得很小的增益。这表明基于BiLSTM的方法具有适合TOWE任务的归纳偏差,使得GCN不那么重要。

2 实验设置

2.1 词表示选择

作者选择了两种词表示:
G : Glove词嵌入、每个token的位置嵌入POSN和词性信息POST
B : 每个token的BERT向量与位置嵌入POSN连接起来TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第2张图片POSN:wi和wj的相对距离di (即di=i−j)
POST:使用Stanford解析将词性标签分配给每个token

Glove词嵌入
在这里插入图片描述

TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第3张图片
对于ice和steam作为i,j:
词water、fashion作为k:比值接近1
词solid、gas作为k:比值原理1
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第4张图片

2.2 Encoders

CNN
取一个固定的窗口,并用多个过滤器来提取特征向量
Transformer
对输入词进行线性转换,以学习基于上下文的表示
BiLSTM
双向LSTM,接受输入表示,以向前和向后的方向对上下文进行建模
ON-LSTM
has an inductive bias toward learning latent tree structures.
对学习潜在树结构有归纳倾向
GCN
在这里插入图片描述

3 实验总结

1.

CNN(G)善于从更简单的词的表示中挖掘信息(Glove),比Transformer(G)强-->>TOWE是一个短序列任务(20词)
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第5张图片

2.

BiLSTM(G)(BiLSTM(B)) > ON-LSTM(G)(ON-LSTM(B)).-->>跟踪短期依赖信息在TOWE中很重要
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第6张图片ON-LSTM
层级越低代表语言中颗粒度越小的结构,而层级越高则代表颗粒度越粗的结构,比如在中文句子中,“字”可以认为是最低层级的结构,词次之,再上面是词组、短语等。层级越高,颗粒度越粗,那么它在句子中的跨度就越大

高层级的信息意味着它要在高层级对应的编码区间保留更久(不那么容易被遗忘门过滤掉),而低层级的信息则意味着它在对应的区间更容易被遗忘

参考文章
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第7张图片TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第8张图片TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第9张图片
能够无监督地从训练好的模型(比如语言模型)中提取输入序列的层级树结构

TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第10张图片

3.

BiLSTM(G) > BiLSTMword
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第11张图片

4.

GCN提供了额外的语法信息,有助于表示学习
GCN provides additional syntactic information语法信息 that is helpful for representation learning.
在这里插入图片描述
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第12张图片

5.

BiLSTM+GCN(G)提升较小
–>>BiLSTM(G)具有适合TOWE任务的归纳偏置(Inductive Bias),其性能主要取决于输入表示的质量

归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的规则,然后对模型做一定的约束,从而可以起到“模型选择”的作用

6.

使用Bert时GCN提升小-->>BERT嵌入的表达能力及其捕获语法依赖的能力

TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第13张图片

7.

消融实验 位置嵌入对TOWE性能至关重要

POST词性标签嵌入;POSN位置嵌入
TOWE:Leveraging Position Embeddings for Target-oriented Opinion Words Extraction笔记_第14张图片

4 总结

CNN(G)善于从更简单的词的表示中挖掘信息>Transformer(G)

BiLSTM(G)(BiLSTM(B)) > ON-LSTM(G)(ON-LSTM(B))TOWE需要跟踪短期依赖信息
BiLSTM(G)具有适合TOWE任务的归纳偏置

GCN提供了额外的语法信息,有助于表示学习;
使用Bert时GCN提升小,BERT嵌入的表达能力及其捕获语法依赖的能力

位置嵌入对TOWE性能至关重要

你可能感兴趣的:(NLP,【AI】调研与实战,TOWE,BiLSTM,方面情感分析)