本文从新的角度研究了方面类别情绪分析(ACSA)任务,探索一个基于外部知识的Beta分布引导的方面感知图构造。也就是说,本文不再纠缠如何费力地搜索情绪线索的方面,而是如何基于公共知识库更好地找到单词高度情感相关的上下文方面并确定他们的重要性,以便学习方面相关的上下文情感依赖与ACSA这些词。具体地说,首先将每个方面视为一个支点,从外部情感常识知识中衍生出与该方面高度相关的方面感知词汇。然后,使用Beta分布来导出方面感知权重,每个方面感知权重反映了对方面的重要性。然后,将方面感知词作为粗粒度方面的替代品来构建图,以利用ACSA中特殊化的上下文情绪依赖关系。在6个基准数据集上的实验表明,我们的方法显著优于最先进的基线方法。
尽管现有的方法取得了很好的进展,但它们通常都纠结于如何从上下文中搜索粗粒度方面的情感线索。然而,从纯粹基于内隐方面的语境中理解面向方面的情感词汇是一项艰巨的任务。这主要是由于1)方面类别通常不会在上下文中表现出来,2)多个方面和在同一上下文中可能会提到的情感极性。相反,可以利用句子中明确出现的与方面相关的词来建模该方面的上下文情感信息。如图1所示,在句子中有一些与方面相关的词(例如,“地方”、“昂贵”、“披萨”和“美味”),可以明确地利用情感依赖与这些词来识别情感极性的方面。
在此基础上,本文从一个新的角度来研究ACSA任务,提出为相应方面的上下文构建方面感知图。更具体地说,将不同的方面视为不同的轴,然后从外部知识中搜索与方面相关的词,称为方面感知词,作为粗粒度方面的替代品,为特定方面构造上下文图。此外,受到许多以前基于图的方法的启发,图中边的权值对于图信息的聚合非常重要。此外,根据实证研究还发现,方面意识词对方面的贡献明显不同。例如,对于方面实体“餐厅”来说,方面感知词汇“地方”比“披萨”更重要。随后,该想法的主要挑战发展为如何确定具有感知方面的词对相应方面的重要性,可以利用图中边的权重来学习该方面的情感线索。
从知识库的角度来看,一个单词可以通过各种路径连接或不连接一个方面,成功的连接概率(对应于图中一条边的权重)可以自然地看作是二项分布。因此,本文通过Beta分布,基于外部知识的先验知识(路径和连接信息)建模所有成功连接可能性的概率来检验边的权重,这是二项分布的共轭先验分布。通过这种方式,可以调查所有连接到方面的方面感知词的概率,从而确定方面感知词的最佳置信概率(权重),称为方面感知权重。随后基于与其权重配对的方面感知词,为每个上下文构建方面感知图。
在此基础上,提出了一种方面感知图卷积网络(AAGCN)结构,以绘制与ACSA方面的上下文情感依赖关系。主要贡献总结如下:
本节详细描述作者所提出的点图卷积网络(AAGCN)。如图2所示,模型由三个主要部分组成:1)Aspect-aware words derivation,它为从外部知识的不同方面生成一系列不同的情感词汇。2) Aspect-aware graphs construction,它基于方面感知词构建上下文的方面感知图。3)Aspect-aware sentiment learning,它基于方面感知图和上下文表示,提取与方面相关的情绪依赖关系。
给定一个句子 s 由 n 个 单 词 s = { w 1 , w 2 , . . . , w n } s由n个单词s=\{w_1,w_2,...,w_n\} s由n个单词s={w1,w2,...,wn}和相应的方面a组成,这可能不会出现在 ( { w i } ∣ i = 1 , 2 , . . . , n ) (\{w_i\}|i=1,2,...,n) ({wi}∣i=1,2,...,n)中。方面类别情绪分析的目标是从上下文中检测出该方面的情绪极性(即积极、消极或中性)。在这里,每个方面可以包括实体E和属性A(即E#A)或仅包括实体E。
为句子中没有出现的方面构建上下文情绪依赖图,本文将一个方面视为支点,并通过在一定数量的跳数中搜索与外部情感知识高度相关的词来获得具有方面感知的词。具体来说,如果单词包含与方面的直接关系,那么这些单词就是1跳方面的单词。相应地,如果单词包含与1跳方面感知单词的关系,那么这些单词就是2跳方面感知单词,等等。此外,如果一个方面由E#A组成,则分别为实体E和属性A寻找方面感知词,因为E和A的角色在情感检测中通常有所不同。
在这种情况下,从直觉上来说,主要的挑战是确定每个有方面意识的词对这个方面的情感重要性。总的来说,跳数是大致重要的影响。然而,如图3(a)和(b)所示,带有2跳的黄色点只包含一个唯一的链接,比同时连接到许多其他不相关单词的绿色点更重要。对于每个单词,它要么连接到κ−跳中的方面,要么不连接,每个感知方面的单词都有一个潜在的Beta分布,揭示了该方面的相关度的分布。
因此,基于外部知识学习到的先验知识,本文采用Beta分布,它通常被用来建模一个实验的所有成功概率,以得出每个方面感知词的重要性 ρ ( w i ) ρ(w_i) ρ(wi):
ρ ( w i ) = 1 − C D F ( f ( μ ; α , β ) ) ρ(w_i)=1-CDF(f(\mu;\alpha,\beta)) ρ(wi)=1−CDF(f(μ;α,β))
μ i = γ 1 C i α − C i s C i α + γ 2 N κ N \mu_i=\gamma_1 \frac{C_i^\alpha-C_i^s}{C_i^\alpha}+\gamma_2 \frac{N^κ}{N} μi=γ1CiαCiα−Cis+γ2NNκ
其中, C D F ( f ( μ ; α , β ) ) CDF(f(\mu;\alpha,\beta)) CDF(f(μ;α,β))表示 f ( μ ; α , β ) f(\mu;\alpha,\beta) f(μ;α,β)的累积分布。这里 µ i µ_i µi表示方面感知词 w i w_i wi的不相关概率, C i a 是 知 识 中 w i C_i^a是知识中w_i Cia是知识中wi的邻居计数, C i s 是 C_i^s是 Cis是方面软件邻居的计数。 N κ 为 κ N^κ为κ Nκ为κ−跳方面感知词的词汇量大小, N 为 整 个 语 料 库 的 词 汇 量 大 小 。 γ 1 和 γ 2 N为整个语料库的词汇量大小。γ_1和γ_2 N为整个语料库的词汇量大小。γ1和γ2是控制不相关邻居和跳数影响的系数。也就是说,在推导方面感知权值时,作者考虑了不相关的邻居和跳数的影响。
如图4中所示的例子,对于“食物”,单词“美味”比“红色”更重要,尽管它的跳数更大。 f ( μ ; α , β ) f(\mu;\alpha,\beta) f(μ;α,β)表示所有重要概率 θ 的 B e t a θ的Beta θ的Beta分布,定义为:
f ( μ ; α , β ) ≜ θ α − 1 ( 1 − θ ) β − 1 B ( α , β ) f(\mu;\alpha,\beta) \triangleq \frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{B(\alpha, \beta)} f(μ;α,β)≜B(α,β)θα−1(1−θ)β−1
B ( α , β ) ≜ ∫ 0 1 θ α − 1 ( 1 − θ ) β − 1 d θ B(\alpha,\beta)\triangleq \int_0^1 \theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta B(α,β)≜∫01θα−1(1−θ)β−1dθ
其中, B B B是用于归一化的Beta函数。这里 α 和 β 表 示 B e t a 分 布 的 B e t a 分 α和β表示Beta分布的Beta分 α和β表示Beta分布的Beta分布参数:
在此基础上,可以为每个方面感知词获得一个像样的方面感知权重。此外,本文将方面本身和每个无关单词的方面感知权重分别设置为1和0。
本节描述一个关于这些方面的构造上下文依赖图的新解决方案,假设这些方面不会出现在句子中。基于方面感知词及其方面感知权重,作者计算了方面标注图中每个词对的边缘权重如下:
A i , j = ρ ( w i ) + ρ ( w j ) A_{i,j}=ρ(w_i)+ρ(w_j) Ai,j=ρ(wi)+ρ(wj)
受到许多先前基于图的研究的启发,作者还使用句子的依赖树来更好地捕捉句法关系。也就是说,如果 w i 和 w j w_i和w_j wi和wj在句子的依赖树中包含依赖关系,则给 A i , j A_{i,j} Ai,j的边权值加1。然后构造无向图来丰富情感和依赖信息: A i , j = A j , i A_{i,j}=A_{j,i} Ai,j=Aj,i,并为每个单词设置一个自循环: A i , i = 1 A_{i,i}=1 Ai,i=1。
对于每个句子,首先从嵌入查找表 V ∈ R m × N V∈R^{m×N} V∈Rm×N中检索到句子中每个单词的嵌入情况。因此,对于一个有 n n n个单词的句子,可以得到相应的嵌入矩阵 X = [ x 1 , x 2 , . . . , x n ] X=[x_1,x_2,...,x_n] X=[x1,x2,...,xn],其中 x i ∈ R m 是 w i x_i∈R^m是w_i xi∈Rm是wi的单词嵌入,在训练过程中进行了微调。 M M M是嵌入的维数。然后,将嵌入矩阵 X X X作为输入输入到双向LSTM(Bi-LSTM)层中,推导出句子的隐藏上下文表示:
H = { h 1 , h 2 , . . . , h n } = B i − L S T M ( X ) H=\{h_1,h_2,...,h_n\}=Bi-LSTM(X) H={h1,h2,...,hn}=Bi−LSTM(X)
其中 h t ∈ R 2 m h_t∈R^{2m} ht∈R2m表示由Bi-LSTM层导出的时间步长 t t t的隐藏表示。
在此基础上,将句子的方面感知图和隐藏的上下文表示法 H H H输入到方面感知的GCN中,以绘制出该方面对上下文情绪的依赖关系。对于由E#A组成的方面,使用了一个新的交互式GCN块来捕获实体和属性之间的潜在交互。第1个GCN块中的每个节点根据其在实体和属性图邻接矩阵中的隐藏表示进行更新,过程定义为:
f i l = R e L U ( A ~ i e g i l − 1 W e l + b e l ) f_i^l=ReLU(\tilde A_i^eg_i^{l-1}W_e^l+b_e^l) fil=ReLU(A~iegil−1Wel+bel) (8)
g i l = R e L U ( A ~ i a f i l W a l + b a l ) g_i^l=ReLU(\tilde A_i^af_i^{l}W_a^l+b_a^l) gil=ReLU(A~iafilWal+bal)
其中, g l − 1 g^{l−1} gl−1是从前面的GCN块演化而来的隐藏表示。 A ~ \tilde A A~是一个归一化的对称邻接矩阵:
A ~ i = A i / ( E i + 1 ) \tilde A_i=A_i/(E_i+1) A~i=Ai/(Ei+1)
其中 E i = ∑ j = 1 n A i , j 为 A i E_i=\sum^n_{j=1}A_{i,j}为A_i Ei=∑j=1nAi,j为Ai的度。这里,第一个GCN块的原始输入节点从Bi-LSTM层学习的隐藏表示中检索,即 g 0 = H g_0=H g0=H。此外,对于仅由E组成的方面,方面感知GCN使用等式 (8)进行更新。受(Zhangetal.,2019)的启发,本文采用了一种基于检索的注意机制来捕捉与重要的上下文方面相关的情绪线索:
ζ = ∑ i = 1 n h t ⊤ g i L , η t = exp ( ζ t ) ∑ i = 1 n exp ( ζ i ) \zeta=\sum_{i=1}^n h_t^\top g_i^L, \eta_t=\frac{\exp(\zeta_t)}{\sum_{i=1^n \exp(\zeta_i)}} ζ=i=1∑nht⊤giL,ηt=∑i=1nexp(ζi)exp(ζt)
因此,方面感知情绪特征的最终表现如下:
y = softmax ( W o r + b o ) y=\text{softmax}(W_or+b_o) y=softmax(Wor+bo)
r = ∑ t = 1 n η t h t r=\sum_{t=1}^n \eta_th_t r=t=1∑nηtht
本文的任务的目标是通过最小化预测分布和地面真实分布之间的交叉熵损失来训练分类器:
L = − ∑ i = 1 S ∑ j = 1 C y ^ i j ⋅ log ( y i j ) + λ ∣ ∣ Θ ∣ ∣ 2 \mathcal{L}=-\sum_{i=1}^S\sum_{j=1}^C \hat y_i^j·\log(y_i^j)+\lambda||\Theta||_2 L=−i=1∑Sj=1∑Cy^ij⋅log(yij)+λ∣∣Θ∣∣2
其中, S 为 训 练 规 模 , C 为 类 别 数 。 y ^ 是 情 S为训练规模,C为类别数。\hat y是情 S为训练规模,C为类别数。y^是情感的真实分布。 λ λ λ是L2正则化项的权重。 Θ Θ Θ表示所有可训练的参数。
数据集的统计数据如表1所示。对于没有开发集的数据集,我们选择10%的训练集作为验证集,以调整超参数。
对于非bert模型,使用GloVe将每个单词初始化为300维的嵌入。隐藏的向量维数是300。GCN块为2。 γ 1 和 γ 2 γ_1和γ_2 γ1和γ2的系数分别为0.4和0.6, λ λ λ为0.00001,是初步研究中的最优超参数。使用Adam作为优化器,学习率为0.001,小批量为16。在嵌入层后应用了一个0.3的dropout。对于基于bert的模型,使用预先训练的未简化的bert-base,768维嵌入4,学习率为0.00002。SeniceNet包含了词汇之间的情感常识关系,这在本研究中被用来派生方面意识词汇。将最大跳数设置为5。报告的结果是10次运行的平均得分,以获得统计上稳定的结果。
如表2所示,在6个数据集上的实验结果表明,本文提出的模型在非bert、基于bert和基于bert的模型以及E#A和E方面的性能始终优于比较模型。这验证了所提出的模型在ACSA中的有效性。
与没有使用分布来推导方面感知权重的模型相比,在任何分布中,性能都得到了总体提高。这意味着,探索分布来建模单词和相应方面之间的成功连接概率,更能适应从外部知识中获得更有价值的方面感知权重。此外,由不同分布产生的结果表明,本文的AAGCN,它探索Beta分布来确定方面感知的权重,明显优于几个相关分布。这意味着部署Beta分布来基于从外部知识中学习到的先验知识来建模方面感知单词的所有成功连接概率,从而获得更多合理的方面感知权重,从而提高ACSA性能。
对于不同的外部知识场景,AAGCN和AAGCN-c总体上都优于基线,这证明了本文方法在推导特殊软件词汇方面的通用性。此外,与基于ConceptNet的模型相比,该模型在非bert和基于bert的条件下都有相当大的优势。这表明,包含情感关系的诱惑网可以推进模型利用情绪信息,并在ACSA中取得更好的性能。
为了研究模型中不同组件对性能的影响,本文进行了消融研究,并将结果报告见表3。请注意,完全连接图和删除具有方面感知的词都严重降低了性能。这验证了从上下文中识别特殊单词在ACSA任务中构造图的意义和有效性。此外,不使用依赖树的模型会导致稍差的性能,这意味着将语法关系合并到图中可以进一步导致ACSA性能的提高。
为了研究从外部知识中获得方面感知单词时不同跳数的影响,将它们从1变化到8,并在图5中报告结果。请注意,当跳数从1增加到5时,所有数据集的性能都会稳步提高,当跳数大于5时,曲线会不稳定地波动。
这意味着方面感知图所带来的显著学习优势依赖于适当数量的方面感知词,而过度扩展搜索方面感知词的跳数可能会带来噪声。因此,模型中将跳数设为5。
为了分析GCN块的层数对模型性能的影响,通过将层从1改变到6进行实验,并将结果如图6所示。请注意,2层GCN块整体上表现更好,因此在实验中将GCN块的层数设置为2。相比之下,1层GCN块的表现并不令人满意,这可能表明1层GCN块不足以利用上下文中精确的与方面相关的情绪信息。此外,性能随GCN块层数的增加而波动,当层数大于4时,性能有明显下降的趋势。这意味着由于模型参数的急剧增加,增加GCN块的深度容易削减模型学习能力。
为了调查方面感知词在句子中的出现情况,在图7(a).中报告了不同数据集上的方面感知词的覆盖率。请注意,所有数据集中的特殊方面感知单词的覆盖率都超过了95%。也就是说,超过95%的句子包含方面感知单词。这验证了方面感知词通常作为句子中相应方面的情感描述的假设,并验证了我们所提出的方法在ACSA任务中的说服力和意义。此外,从REST15数据集中随机选择了50个句子,并在图7(b).中显示了方面感知词的分布。请注意,几乎所有的句子都包含了适量的有方面意识的单词。这表明,方面意识词汇通常是句子中的关键线索。图7©.中展示了一些典型的方面感知单词及其对方面单词“食物”的权重请注意,1)与“食物”高度相关的单词有很大的权重(红色的例子),2)常见的情感单词有平均权重(绿色的例子),3)不相关的单词有很小的权重(蓝色的例子)。这定性地验证了Beta分布来推导方面感知权重的方法在ACSA中是有效的。
为了定性地演示上下文方面方面感知单词如何在ACSA任务中工作,在图8中可视化了方面感知的权重。虽然示例(a)的方面(E和A)在句子中不存在,但通过方面感知词的帮助,可以很容易地学习该方面的情感线索。示例(b)和©是包含多个方面的两个实例,其中实体“食物”出现在示例(b)的句子中,而没有出现在示例©.中的句子中请注意,在方面感知词的帮助下,可以提取和区分与不同方面相关的重要语境词来学习与方面相关的情绪表达。
在本文中,作者从一个新的角度研究了方面类别情绪分析(ACSA)任务,即学习如何更好地找到与方面高度相关的方面感知词汇,并通过基于公共知识的Beta分布得出它们的权重。与权重配对的特殊词被部署来构建上下文的方面感知图,以学习具有图卷积结构的ACSA中的上下文情绪依赖关系。在6个基准数据集上的实验结果证明了该方法的有效性。
这里大体思路和细节再次理了一下:
文中先将一个aspect作为pivot,基于word和aspect之间的relation来确认aspect-aware words(也就是n-hop),然后利用beta分布来确定每个aspect-aware word的重要性作为权重构建图(包括attribute和entity graph),并结合基于LSTM得到的上下文表示的隐藏层,构建aspect-aware GCN,从而得到最后的结果。
这个工作的relation是0/1,在senticnet有联系就是1,否则0。