关键词提取

关键词提取算法

  • 有监督
  • 无监督

有监督

通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似标签的方式,达到关键词的提取效果。

优缺点

  • 能够获取到较高的精度
  • 需要大批量的标准数据,人工成本过高
  • 每天的信息量增加过多,会有大量的新信息出现,一旦固定的词表有时将很难将新信息的内容表达出来,但是要人工维护这个受控的词表却要很高的人力成本。

无监督

  • TFIDF算法

    • TFIDF-理论篇
  • TextRank 算法

    • TextRank-理论篇
  • 主题模型算法(LSA/LSI、LDA 等)

    • 主题模型-理论篇

你可能感兴趣的:(关键词提取)