【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》

阅读笔记——《Task-orientedWord Embedding for Text Classification》

Liu et al. Coling2018关于词向量表示的论文,介绍了一种将上下文信息与任务信息相结合,联合学习词向量的方法。
原文地址:《Task-orientedWord Embedding for Text Classification》

1 摘要: 现有的word embedding方法主要是基于上下文语义信息,然而这样训练出来的词向量应用于不同任务时却不能发挥最好的效果,原因是没有将特定任务的信息融合进去。一个好的词嵌入方式应该能够同时捕捉到语义特征与特定任务的特征。本文提出了一种词嵌入方法(ToWE),对词的空间分布正则化,使不同类别的词在空间上有明确的界限。

2 介绍: 传统的词向量表示主要基于上下文信息,如Mikolov et al.的Word2Vec,根据向下文来预测中心词(CBOW)或通过中心词最大化上下文出现概率(skip-gram)。这样训练出来的词向量往往和同一窗口出现词有更高的相似度。在某些特定任务中,如分类任务,在W2V中相似的词并不一定代表着同一类别,我们希望属于同一类别的词相似度更高,不同类别的词相似度更低。
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第1张图片

图中标红的是文档对应类别的关键词,我们希望同类别的词分布上更加接近,而事实上在W2V中训练出的词向量如第二个分布所示。

作者提出一种结合了上下文信息与任务信息的联合word embedding方法——ToWE。在联合学习框架中,通过Mikolov et al.2013的上下文预测方法来提取上下文特征;然后正则化那些对任务有突出作用的词,使它们在空间分布上有更明确的分类边界,再相应地调整其他词的分布。

本文所做的两点工作:

  1. 提出一个以任务为导向(特别是分类任务)的word embedding方法,通过“功能感知模块”提高单词的功能特征(即任务特征),进而使词在嵌入空间中的分布有着更加明确地分类界限;
  2. 设计一个数据集——5AbstractsGroup,在该数据集上定量分析,对本文提出的方法在分类任务上的表现给出了直观的理解。同时在5个文本分类数据集的实验结果也证明了基于词功能特征的表示方法可以给出更好的结果。

3 方法

对于未标注的语料库C,有着g个文本类别的训练集D={D1, D2,…,Dg},我们的目标是训练以任务为导向的d维词向量wi∈Rd,其中wi表示词汇表V中的第i个词。

3.1 Context-aware Component —— 上下文感知模块

这里使用Word2Vec来获得上下文信息,通过逻辑回归来生成词向量。W2V有两个版本:CBOW和Skip-gram,一个是通过上下文来预测中心词,一个是通过中心词来预测上下文。我们将目标函数简化:
在这里插入图片描述在CBOW中,w是目标单词,c是上下文的词向量,在Skip-gram中,w是上下文,c是目标单词向量。

3.2 Function-aware Component ——功能感知模块

在功能感知模块中,我们定义那些可以区分出文本类别的词为“关键词”(salient word)。关键词会首先从训练集D中离线抽取,抽取的两条原则:

  1. 词w出现在第k类文档Dk的频率远高于在其他类别文档出现的频率;
  2. w在其他类别文档中的频率分布方差很小。

衡量词w对于类别k关键性的打分函数:
在这里插入图片描述其中tk表示词w在第k类文档中的词频,T-k(w)指词w在非k类文档的频率集合
(i.e.T-k(w) = { tj | 1≤ j ≤ g,j ≠ k } 。
通过打分函数我们可以得到每个类别的topN个关键词,记作Sk { wj | 1≤ j ≤ N },k∈[1,g],对于整个任务我们有关键词集合S = {S1, S2,…Sg}。

在训练学习中,如果输入单词w是S中的词,功能感知模块会被激活。我们希望学习到的词向量具备同类别词更加接近,不同类别词之间距离更大的性质,于是我们为每一个关键词w构建一系列词对P(w),其中每个词对包含一个同义词u和一个反义词v。u是从关键词集合S中随机的选出的一个与w来自同一个Si的同义词,v是从Si以外的S-i选出,作为w的“反义词”。我们通过最大化两者边距来训练S:

在这里插入图片描述
其中γ是边距的超参,n是P(w)中词对的个数,s(·,·)是相似度,这里使用余弦相似度。

3.3 联合学习

我们将上下文感知模块和功能感知模块一起进行优化,目标函数如下:
在这里插入图片描述
其中θ是Lcontext和Lfunction的所有参数,λ用作在训练中平衡两个模块。

训练的目标是在参数θ下最大化L,采用SGD随机梯度下降的优化方法。关于Lcontext的优化沿用Mikolov等的负采样方法。当预测词w为S中的词的时候,对于Lfunction优化被激活:
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第2张图片
w,u,v,对应于预测词,同义词和反义词。
关于余弦相似度的更新可以表示为:
在这里插入图片描述
其中Sa,b是余弦相似度。

算法流程:
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第3张图片
4. 实验

设计了一个数据集5AbstractsGroup,来自于Web of Science中经济、人工智能、社会学、交通和法律5个领域论文的摘要,将其作为数据集的文档。各数据集的实验结果:
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第4张图片5AbstractsGroup每个领域的前10个关键词:
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第5张图片和其他word embedding方法的比较:
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第6张图片对于λ和n的调整:
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第7张图片

将联合学习的ToWE和skip-gram比较:
【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》_第8张图片5 总结

本文在Mikolov等提出的W2V基础上增加了基于任务导向的功能感知模块,首先筛选出对文本中有着关键作用的词,对此类词在训练时先使用CBOW或Skip-gram,然后最大化其同义词与反义词的边距,使得训练出来的词向量在空间上有着更加清晰的分布界限,实验证明在多个数据集上都有着显著的效果。

开源代码:https://github.com/qianliu0708/ToWE

你可能感兴趣的:(文本分类)