【论文笔记】Key2Vec: 利用短语嵌入技术对从学术文章中提取的关键短语进行排序

本文中,作者提出了一种无监督的模型对学术文献中的关键短语进行排序,作者将这项技术称为“Key2Vec”。
原文链接:https://www.aclweb.org/anthology/N18-2100.pdf

1.介绍与背景

关键短语是有一个或者多个词组成的能表示文档中关键信息的语言学单位。
关键短语的抽取主要有两步,首先就是“候选短语”的抽取,然后是对抽取到的候选短语进行排序,根据排序结果确定最终的关键短语。
在本文中,作者受到文献[1-2]的启发,提出了面向特定领域短语嵌入的关键短语抽取方法。该方法首先利用特定领域的短语嵌入从文献中抽取候选的关键短语,然后再利用文献[3]中提出的“theme-weighted PageRank algorithm”对候选短语进行排序。

2.方法论

同其他的关键短语抽取方法类似,本文提出的方法主要分三步:候选短语的选取、候选短语的打分以及候选短语的排序。

2.1 文本处理

首先,作者将文章进行分句,然后利用Spacy来识别句子中的名词短语与命名实体。随后,作者分别剔除了所识别出短语中的纯数字短语、日期和时间等命名实体、停用词以及除“-”以外的标点符号,还对留下来的短语进行了清理,去掉了短语首尾的一些不影响短语含义的符号或者字词。最后,利用正则对数据进行了进一步的清理。本部分的详细内容可见论文原文。

2.2 训练短语嵌入模型

作者直接利用Fasttext来训练短语嵌入。作者不是先训练词向量,然后将训练出的词向量组合成多词短语,而是直接训练了短语向量。作者选用Fasttext的原因是其不仅能获取语义信息,还能获取词语之间的形态相似性[4]

数据集

作者从arxiv.org收集了11.47万属于不同领域的学术论文的摘要,其分布如下图所示。同时,作者也将benchmark数据集加入其中,是数据总量增加到了1149244条。

论文主题分布图

候选短语的选取

根据2.1中的步骤进行候选短语的选取。

候选短语评分

首先,给每篇文档制定一个主题向量,然后计算每个候选短语向量与主题向量的余弦相似度。

候选短语的排序

利用加权个性化PageRank算法对候选短语进行了排序。

3.实验与结果



参考文献

[1] Wang R, Liu W, McDonald C. Using word embeddings to enhance keyword identification for scientific publications[C]//Australasian Database Conference. Springer, Cham, 2015: 257-268.
[2] Wang R, Liu W, McDonald C. Corpus-independent generic keyphrase extraction using word embedding vectors[C]//Software Engineering Research Conference. 2014, 39.
[3] Langville A N, Meyer C D. Deeper inside pagerank[J]. Internet Mathematics, 2004, 1(3): 335-380.
[4] https://rare-technologies.com/fasttext-and-gensim-word-embeddings/

版权声明:本文为博主原创文章,遵循 CC 4.0 BY 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://ywsun.site/articles/4.html

你可能感兴趣的:(【论文笔记】Key2Vec: 利用短语嵌入技术对从学术文章中提取的关键短语进行排序)