关键词抽取NLP

1.什么是关键词抽取

将文本中具有代表性的词或者短语抽取出来,用来表示文章的关键内容。

2.方法

2.1无监督学习-统计类

【1】论文:YAKE! Collection-Independent Automatic Keyword Extractor
【2】代码地址:https://github.com/LIAAD/yake
yake是2018年的paper,是目前无监督关键词提取中效果比较好的(英文数据集上),还拿了ECIR’18 Best Short Paper

由于版权原因,网上能够下载到的只有yake的五页短文,短文里并没有对yake的计算原理进行详细介绍,所以我采用从源码出发,结合论文进行理解。详细可以参考知乎大佬的Yet Another Keyword Extractor (Yake)代码解读,我也是通过这位大佬的知乎认识了yake这个算法,感谢这位大佬!

yake的源码并不能直接作用于中文的关键词提取,我自己实验的时候对源码部分进行修改,使yake算法可以适用于中文,大家实验的时候可以参考Yet Another Keyword Extractor (Yake)代码解读进行修改。

你可能感兴趣的:(python,自然语言处理)