关键词提取算法之RAKE

关键词提取算法之RAKE

RAKE(Rapid Automatic Keyword Extraction)算法,作者Alyona Medelyan,她的GitHub上有很多关键字提取的项目。

RAKE算法的亮点在于“R” : Rapid , 快速却能取得很不错的效果。

作者的思路大致是:
1).分词。在提取英文关键词中,给定一篇英文文档,以标点符号及停用词作为分词标准;
2).共现矩阵。 构建共现矩阵;
3).特征提取。包含词频freq、度deg 以及度与频率之比 deg/freq 三个特征;
4).定义score。score = deg/freq
5).降序输出。 按score大小降序输出1/3文档词汇量的关键词。

其中,提取特征后有个特殊处理,对于相邻的关键词,如果满足同一文档和相同顺序中至少两次相邻,则进行合并,成为新的候选关键词后,score 定义为合并前的候选关键词score之和。这样操作的原因是,这些相邻候选关键词相对较少,简单对score相加,增加了它们的重要性。

引用原论文的栗子:
关键词提取算法之RAKE_第1张图片

分词后
关键词提取算法之RAKE_第2张图片
共现矩阵
关键词提取算法之RAKE_第3张图片
提取特征
关键词提取算法之RAKE_第4张图片

降序输出
关键词提取算法之RAKE_第5张图片

从上面的思路可以看到,RAKE算法
1).算法简单而高效;
2).提取的关键词并不是单一的单词,也有可能是短语,能够提取一些较长的专业术语;

遗憾的是,在处理中文文本中,中文使用停用词来划分短语的效果远不及英文,一句话根本分不了几个关键词,几乎全部粘连在一起,因此效果不好。

原始的RAKE的GitHub地址:
https://github.com/zelandiya/RAKE-tutorial
论文链接下载:
https://www.researchgate.net/profile/Stuart_Rose/publication/227988510_Automatic_Keyword_Extraction_from_Individual_Documents/links/59edf51fa6fdccbbefd5434a/Automatic-Keyword-Extraction-from-Individual-Documents.pdf

你可能感兴趣的:(NLP)