LDA相关改进

在原始基础上,做了如下改进:

  1. tf-idf本来是自己根据公式编的算法,现在改成sklearn自带的tf-idf,但这个出来的效果是每篇文章根据得分从高到低排列,LDA准备tokens时,应该是所有文章的关键词排序;textrank用的是textrank4zh
  2. 在使用LDA之前,每篇文章的关键词利用tf-idf及textrank打分的方式,由高到低排列,剔除停用词及不显示主题意义的词性,由此产生的tokens文件,作为LDA的输入文件,从效果上来说比以往有较大改进,如篮球,男篮,女篮,羽毛球,足球有稳定显示
  3. 提供一个参考版本,LDA仅使用聚类功能,将文章单独使用tf-idf及textrank的方式,出来的关键词很不一样
  4. 分词库更新,将HanNLP词库作为自定义词典,分词更准确。
  5. 将一些不能体现主题意义(基于common sense)的词列入停用词,这样的话,感觉停用词需要积累,越后期主题关键词越优质。
  6. 手动调整了topic的数量,基本是以主题间的区分度明显同时能涵盖更多的新闻为标准,大部分都增多了,但有一些channel的话题比较集中设置的数量相对少一些,如cctv11
  7. 各主题关键词数量增加为30个
LDA相关改进_第1张图片
附代码:https://github.com/callmeivy/topic_tags_btv2/tree/master/before


你可能感兴趣的:(自然语言处理)