分词与关键词提取(20190121)

1. 中文分词算法

  • 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
  • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
  • 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

1.1 工具

  • thulac - 综合性能评价可能是最好的
  • jieba - 第一印象
  • ltp - 支持分词模型的在线训练

2. TextRank关键词抽取

  • 将待抽取关键词的文本进行分词
  • 以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
  • 计算图中节点的PageRank,注意是无向带权图
  • 论文: TextRank: Bringing Order into Texts

2.1 工具

  • jieba - 中文
  • textrank4zh - 中文
  • spaCy - 英文
  • nltk - 英文

未完待续…

你可能感兴趣的:(NLP,NLP,分词,关键字提取,文本摘要)