QQ文本分析—R语言

1、参考文献

设置超链接:时间分布和成员分析 ;QQ聊天内容 ;recharts安装包官方介绍 

2、读入QQ聊天记录

文本内容

QQ文本读入的形式从左到右分别为“时间”,“用户”,“聊天信息”

时间信息涉及年份,日期以及具体时间。可以根据时间信息分析群的活跃分布情况

特殊的第十行

可以发现第十行的时间,用户都为空格

文件上传分两行表示。第九行出现“[图片]郭樱分享文件”;第十行只出现文件名称

QQ文本分析—R语言_第1张图片
表1

3、时间分析

3.1、一星期分布

QQ 群的聊天兴致星期分布:周二,周六聊天最多;一般周一,周日很少聊天

想知道周二总共有过多少次发言吗?

把鼠标点在周二的“柱形”上就可以知道了

QQ文本分析—R语言_第2张图片
图2

3.2、24小时分布

聊天兴致在一天中的分布

交流高峰期一般在上班时间:上午9点到11点~下午14点到17点;夜间讲话不多

QQ文本分析—R语言_第3张图片
图3

3.3、每天的发言次数分布

如何知道“折线图”中,高峰期是哪一天呢?

把鼠标点在高峰期就可以知道了

点击右上角柱形图标,即可展示为柱形图

QQ文本分析—R语言_第4张图片
图4

每天的发言次数按从大到小排列,可以知道2016年11月24日是个重大的日子

其实是一个很普通的周四(不过节,不放假)

小技巧

想要在页面里展现更多行吗?

在show 10 entries里选择想要的页数吧

QQ文本分析—R语言_第5张图片
图5

4、聊天内容分析

4.1、初次分词结果

根据搜狗词库日常聊天用语词库对数据进行分词。

从分词结果可以发现“的”,“了”,“好”,“就”,“吗”等连接词,语气词高频度出现,所以需要对一些无用信息进行删除

QQ文本分析—R语言_第6张图片
图6

5.2、字符长度大于1的词汇

排列前三的为图片、表情、你们

“李主任”出现44次(search中输入李主任即可查询);“月报”出现43次。一看就是个正规的群

QQ文本分析—R语言_第7张图片
图7

5.3、删除初次分词中无意义信息

删除一些无意信息后,“图片”,“表情”仍为主要词汇

看来“吃”是群里的主要话题

QQ文本分析—R语言_第8张图片
图8

5.4、展示清除后,排名前1500的词

同时删除“图片”,“表情”两词

QQ文本分析—R语言_第9张图片
图9

你可能感兴趣的:(QQ文本分析—R语言)