用python对鹿晗微博进行数据分析

转载请注明地址:用python对鹿晗微博进行数据分析
这篇文章主要对数据进行简单的分析,代码在这里:
python利用pandas、matplotlib和wordcloud做数据分析

  • 准备分析的数据:
    |----评论者的微博昵称
    |----微博的评论
    |----评论者的性别
    |----评论者的所在地
    |----评论者的生日

这次的数据准备了30万+评论,其中不重复用户14万+。数据只是简单的进行了简单的去重和缺失值处理,感觉不用特别精确也能看出结果。这次的分析不是最终的结果,只是可以参考的一个趋势

用户分析

  • 首先来看看评论最多的前几名


    用python对鹿晗微博进行数据分析_第1张图片
  • 我的天,一个人一条微博评论800+,这是不用吃饭吗。。。

  • 不知道前三十里面是不是全是真爱啊!


  • 再来看看评论数的折线图


    用python对鹿晗微博进行数据分析_第2张图片
  • 感觉在平稳的折线取值分析比较靠谱,所以放大了看看。
  • 14万数据,出现一人几百条的也就那几个,所以把他们筛选掉。


    用python对鹿晗微博进行数据分析_第3张图片
  • 在1000左右,人均的评论数差不多在20左右,才感觉不会是刷出来的。

  • 再看看性别,毫无疑问的。


    用python对鹿晗微博进行数据分析_第4张图片
  • 感觉这个结果还算正常,比计算机专业男女比大一点。

  • 之后再来说年龄分布


    用python对鹿晗微博进行数据分析_第5张图片
  • 由于微博默认生日的原因,有好几个突出点,可以忽略,我也把范围截取到了1949年-2017年。
  • 90后的峰值我预料到了,但是没想到00后会降的这么明显。难道真的都喜欢TF?本来想在爬一下TF的看看,不过感觉大同小异就没有再做。
  • 之后看看具体排名吧:


    用python对鹿晗微博进行数据分析_第6张图片
  • 第一是98年的同学,不过前几名差距不是很大,可能跟采集的数据有关系。
  • 可以看出来00后只有 00、01、02在坚守阵地了。
  • 90后真的老了吗。。。。。

  • 最后来看看地区分析吧


    用python对鹿晗微博进行数据分析_第7张图片
  • 先来看看省份和四个直辖市分布,北京第一,有一点可能好多人都改成了和鹿晗一样的东城区。。。所以可能不是很准确。
  • 其次是广东,不知道为什么,好多刷量小号默认位置也是广东,不知是不是这个原因和北京并列。
  • 河北排在了第9。。。

再来看看城市分布

用python对鹿晗微博进行数据分析_第8张图片

  • 海淀区居然是第一,这个没有想到。
  • 基本上分三个梯队吧,石家庄在第三梯队。
  • 很尴尬的是,分词的时候把大连给分了?

最后看看整体城市分布比例吧,感觉石家庄有点小啊。


用python对鹿晗微博进行数据分析_第9张图片

评论分析

用python对鹿晗微博进行数据分析_第10张图片
  • 从词云上可以看出来,评论中出现最多的词是鹿晗,这点并不意外。
  • 其次,音乐,爱,零界点,棒棒糖等词也排在前面,我想是因为这次爬取得微博是棒棒糖那篇。
  • 另外中间右部,迪丽也出现了,可能八卦的网友也不少啊。
  • 整体感觉比较正能量,黑粉还是要少的多。

整体分析差不多就这样了,第一个项目做的有点慢,下次计划分析一下淘宝的商品信息,不过爬数据要花时间,可能会很久了。

你可能感兴趣的:(用python对鹿晗微博进行数据分析)