5. 关键字提取算法

5.1 关键词提取技术概述

信息爆炸,提取有用的信息,利用关键词;关键词算法,可以分为有监督和无监督两类。

有监督主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,以类似打标签的方式,达到关键字提取的效果。缺点是:人工维护成本很高

无监督主要是:TF-IDF 算法、TextRank 算法和主题模型算法(LSA、LSI、LDA等)

5.2 关键词提取算法 TF/IDF 算法

基于统计的方法提取关键词,体现的是重要度

5.3 TextRank 算法

与其他算法不同的是,其他算法的关键词提取都要基于一个现成的语料库,TF-IDF 中需要统计逆文档频率主题模型的关键词提取算法则是要通过对大规模文档的学习来发现文档的隐含主题,而 TextRank 算法则是可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。

最早用于文档的自动摘要,基于句子维度的分析,利用 TextRank 对每个句子进行打分,挑选出分数最高的 n 个句子作为文档的关键句,以达到自动摘要的效果

TextRank 算法的基本思想来源于 PageRank 算法,PageRank 算法是构建早期搜索系统原型时提出的链接分析算法,用来评价搜所系统过覆盖网页重要性的一种重要方法。

PageRank 算法是一种网页排名算法,基本思想有两条:
链接数量,一个网页被越多的其他网页链接,说明这个网页越重要
链接质量:一个网页被一个越高权值的网页链接,说明这个网页越重要

5.4 LSA/LSI/LDA 算法

你可能感兴趣的:(自然语言处理)