2014春晚吐槽群

把这篇文章放上来是因为今年竟然有好几个人(有不认识的,认识的)问我今年还有没有春晚吐槽群。很是感概,于是把旧文放上来。

(原载于新浪博客)

除夕那天,心血来潮,建了个“2014春晚吐槽群”,那晚上就和基友们一起吐槽春晚。

2014春晚吐槽群_第1张图片

第二天,心血来潮,就做了个折线图,寻思着做个比较,看看群里的吐槽点是否和微博上的段子手们一样。

2014春晚吐槽群_第2张图片

笔者分析了一下爆发的时间点:

2014春晚吐槽群_第3张图片

那个时候发生了什么呢?

2014春晚吐槽群_第4张图片

对比一下和微博上的吐槽总结:

马年春晚微博吐槽合集,小伙伴们接招

其实对比起段子手们的吐槽,可以发现,群里的爆发点与总结里的并不大部分吻合。为什么会出现这样的状况呢?

我总结了几点:

1、噪音数据虽少,但是假如在具体的时间点爆发噪音数据,就容易导致数据失去真实性。这在群聊天中经常出现,因为会有一段时间大规模地爆发讨论,而其他时候就静悄悄的,并非一个持续的,连续的聊天过程。

2、另外一方面,受到了群人员人数的浮动,一开始人数比较少的时候,讨论不剧烈,往往会导致数据的偏差。加上群二维码宣传的不连续,导致后期群人员不足。

3、春晚后期也有一部分值得吐槽的点,但是由于有些人提前离开了电视机旁,就导致数据量明显下降。

4、相比于微博的信息开放,微信无论朋友圈还是聊天都是密闭的圈子。所以进行统计的时候,只能统计实时性的数据流,而并非转发数、评论数等。

5、的确是由于大家的笑点不同所导致的。

针对以上的问题,继续在不剔除数据的情况下,进行了以下的改变。

2014春晚吐槽群_第5张图片

这个图能够更加好的表达吐槽的集中点在21—23点这段时间。前面和后面都相对比较无聊。

不过以上还是不够的,在我的理想状态下的模型是:

1、剔除所有的噪音,如对话、聊天、哈哈党等。

2、时间范围更加精准,以节目名为横坐标,在节目时间段内,计算已经剔除了噪音数据的吐槽数量。假如希望更加精确的话,可以再在节目时间段内分出每一分钟的吐槽数量,三级分:每小时——每个节目——每分钟。

3、必须要计算有效的每人吐槽量,这个该怎么算?计算平均每人的吐槽数量,然后根据数据的分布采用不同的平均数计算方法,计算出一个相关度高的平均数。为什么要这样算?因为这个能够更加真实反应真实的吐槽度。为什么要计算每人的吐槽数量呢?因为没发言的人我们只能当作他暂时没有进群。而,另外一种极端是只有一个人吐槽大半天。必须要把两个极端考虑到。

4、究竟选择散点图、柱形图还是其他的呢?其实我觉得可以结合,即散点图,作为第三级(每分钟)的底层图标。第二级则用柱状图。第一级可以用折线图。即趋势——统计——实际数据的有机结合。

由于实际数据量比较大,就模拟了一个场景。

2014春晚吐槽群_第6张图片
2014春晚吐槽群_第7张图片
2014春晚吐槽群_第8张图片
2014春晚吐槽群_第9张图片

大概这就是我的想法。大家假如以后有兴趣的,可以尝试这样做。

由于想法比较浅薄,忘大家指正。


内个,你说你不会导出聊天记录?自己谷歌吧。

内个,你说你不会用EXECL的函数?那还是谷歌吧。

你可能感兴趣的:(2014春晚吐槽群)