微博舆情分析

微博是从13年暑假做的,前前后后经历了3个月,从需求分析到最终在学校上线,算是数据挖掘和大数据的启蒙项目了。记得当时Team所有人都处于理论学习刚出师的阶段,所以就选择了当时研究微博比较火的几个方向:热点话题发现、特定话题情感分析,社交网络发现 这几个功能,由于时间的问题,最终只完成了前面两个,但是其中在NLP、特征提取、数据挖掘算法和数据分析流程等方面确实学到了很多。借着这个机会,好好总结一下:

项目流程

首先讲一下整个项目的流程吧,大致分为下面几个步骤:

  1. 数据获取
  2. 语料库构建
  3. 自然语言处理
  4. 特征值计算
  5. 空间向量模型构建
  6. 热点话题发现 与 特定话题情感分析

核心技术点

下面再说说每一模块用到了一些技术点:

  • 自然语言处理
    • 分词
    • LTP语义分析
  • 特征值计算方法
    1. 文本频数DF
    2. 互信息 MI
    3. 信息增益 IG
    4. 卡方检验 CHI
    5. 文本证据权 WET
    6. 期望交叉熵 ECE
  • 热点话题发现
    • SinglePass
    • KNN
    • 话题热度计算
    • LDA主题模型
  • 特定话题情感分析
    • VSI极性调整
    • VBS分析主题词词性

后续会陆续更新文章具体介绍每个步骤是怎么做的。。

你可能感兴趣的:(项目总结)