练习题︱基于今日头条开源数据的词共现、新热词发现、短语发现

最近笔者在做文本挖掘项目时候,写了一些小算法,不过写的比较重,没有进行效率优化,针对大数据集不是特别好用,不过在小数据集、不在意性能的情况下还是可以用用的。

本次练习题中可以实现的功能大致有三个:

  • 短语发现
  • 新词发现
  • 词共现

短语发现、新词发现跟词共现有些许区别:
[‘举’,‘个’,‘例子’,‘来说’]

  • 短语发现、新词发现,是词-词连续共现的频率,窗口范围为1,也就是:‘举’,‘例子’;‘个’,‘例子’;‘例子’,‘来说’,探究挨得很近的词之间的关系
  • 词共现是词-词离散出现,词共现包括了上面的内容,探究:‘举’,‘来说’,不用挨着的词出现的次数

code可见我的github:mattzheng/LangueOne


一、数据集介绍

练习数据来源:今日头条中文新闻(文本)分类数据集
今日头条是最近开源的数据集,38w,其中的数据格式为:

6552391948794069256_!_106_!_news_house_!_新手买房,去售楼部该如何咨询?_!_
6552263884172952072_!_106_!_news_house_!_南京90后这么有钱吗?南京百分之四五十都是小杆子买了_!_公积金,江宁,麒麟镇,南京90后,大数据
6552313685874835726_!_106_!_news_house_!_涨价之前买房的人,现在是什么心情?_!_
6552447172724392456_!_106_!_news_house_!_这种凸阳台房子万万不要买,若不是售楼闺蜜说,我家就吃大亏_!_凸

你可能感兴趣的:(NLP︱R+python,付费-智能写作专栏,词共现,新词发现,短语发现,热词发现)