论文阅读:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings

问题:
现有的关键词抽取系统普遍存在的问题包括:1)complex and slow 2)over-generation (i.e. extracting redundant keyphrases)

资源:
1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction

相关工作:
1. Unsupervised Keyphrase Extraction
Graph-based: TextRank (Mihalcea and Tarau, 2004); SingleRank (Wan and Xiao, 2008); WordAttractionRank (Rui Wang, Wei Liu, 2015)
Others: KeyCluster (Liu et al., 2009); TopicRank (Bougouin et al., 2013)
与上述工作不同,本文提出的EmbedRank使用当前表现最好的语义文档嵌入方法将文档和候选关键短语表示成高维空间的向量,而不是简单地使用词向量的平均,因此可以计算出一个文档和候选短语间比较有意义的距离(提高informativeness)和候选短语之间的语义距离(提高diversity)
2. Word and Sentence Embeddings
Words: Word2Vec (Mikolov et al., 2013)
Sentences: Skip-Thought (Kiros et al., 2015)
Paragraph: Paragraph Vector (Le et al., 2014); (Lau and Baldwin, 2016)
Sent2Vec生成word和n-gram向量,叠加形成句向量,比Paragraph Vector或Skip-Thought推理快。本文使用Sent2Vec作为文本表示的核心方法。

模型:
1. 基于词性序列抽取文章中的关键短语,准确地说,是只保留零个或多个形容词加一个或多个名词的组合的短语
2. Embedding the Phrases and the Document
使用了两种方式,Sent2vec和Doc2vec
https://github.com/epfml/sent2vec
https://github.com/jhlau/doc2vec
3. 在选择top candidates时暴露出的一个问题是抽取出的关键短语有很多冗余,这就需要在informativeness和diversity之间做一个权衡。
4. 提出EmbedRank++: Increasing Keyphrase Diversity with MMR
这里写图片描述
论文阅读:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings_第1张图片

你可能感兴趣的:(keyphrase,论文笔记)