全文共2179字,预计学习时长6分钟
图源:unsplash
很难想象没有聊天软件的一天要怎么度过。WhatsApp为我们与家人、朋友、同事交流相处提供了平台,这么多年来,我们在上面发送、阅读了无数条消息。这些消息记录了我们生活的点点滴滴。如果分析这些消息,你可能会得到非常惊人的结果,勘破生活中许多细节。
我在谷歌找到了一些供人们分析WhatsApp聊天记录的网站,试用过大部分应用程序之后,我还是想要构建一个简单的应用程序,能够提供更多的分析和细节:
· 应用程序要能够自动检测上传的聊天是群聊还是私聊,用户只需上传聊天,无需单击任何其他按钮,即可相应显示相关可视化内容。
· 从用户的角度来看,消息、表情、媒体等等的绝对数量没有什么意义。因此我把重点放在两人之间的统计数据,或者将其与平均值进行比较,这样更直观、更容易理解,也增加了使用这个分析仪的兴奋感。
· 在用户想要放大到某个特定时间段的情况下,可以指定要分析的聊天持续时间,例如了解新冠疫情对消息及其发送频率的影响。
· 能够下载一份分析和可视化报告,便于与他人分享。
基于这些因素,我用shiny和R-Markdown创建了一个仪表盘:https://reubenjoseph13.shinyapps.io/Whatsapp_Analyzer/
基本总和
这是一些有关聊天的非常基本数据统计,比如短信总数、笑脸总数等等,以及以之计算的平均值,例如可以使用含有消息的天数百分比来确定聊天有多频繁。如果是私聊,这个表会有一些变化,像活跃成员、更改群名的次数这些项目都是不适用的。
群聊汇总表
私聊汇总表
基本可视化
好友群在周末消息多还是工作日消息多?你更喜欢在一天的什么时候发送消息?谁是群聊里最活跃的人?以下可视化图表将帮助我们回答这些问题。
该图显示,星期六是消息发送数量最多的一天,而在这一天中,大多数消息发送于晚上10点左右。对于私聊,它还能进行词法分析,比较每个人使用特定单词的数量。你可以将这些数据给那些喜欢回复“mm”或“k”的人看。
“最常用表情”表和“常用词汇”表反映出群里最活跃的6人,后面还提供了可供个别成员查找最常用单词和表情的选项。
私聊和群聊(普通群聊和有一个特定人在的群聊)也能显示出“词云”,这可以描述正在发送的信息文本。在不同群聊和不同人之间,词云也有很大差别。
前文提到过,笔者曾试着对两个人聊天的各种统计数据进行大量比对。为此我做了两张表,一张用于比较琐碎的数据,另一张用于非常有洞察力、分析得更仔细的数据。
这张表很清楚。绿色表示高值,红色表示低值,黄色表示两人的值相同。下表有更深入的分析。
消息回复时间是我们很关注的点,也是衡量两人关系的一个重要指标,对不同人的回复时间会有很大的不同。这个值可能偏高一些,通常晚上发送的消息要到第二天才能收到回复。
想知道是否常常由自己先发消息开启一段对话,聊天数据可以告诉我们,谁是对话的发起者和结束者。为了找到答案,我们需要思考一下WhatsApp中的对话通常是如何发生的。
如果有人发起谈话,在接下来的两天里你们互相发送消息的可能性就会增加,但有时你们的对话也可能在互相发送几条消息之后就结束了,下一次对话要到几天甚至几周后。当两条连续消息之间的间隔超过2天时,一个新的对话就开始了,消息就是这样被分成了不同对话。
每天晚上和早上发送消息的平均时间可以大致反映出一个人的睡眠作息习惯。很明显,我一般比朋友更早醒(至少早上我比她先查看WhatsApp !)。
报告生成:还可以选择将分析结果导出为HTML文件,以便和朋友共享。
做这一项目让我对数据分析和可视化有了更多的了解,也帮助我了解到了很多复杂的细节。和朋友们比较各种统计数据、开开玩笑,看谁常常发起聊天、谁发的消息多,这是非常有趣的事情。
从一次聊天中可以挖掘出很多深层信息。通过分析一个人的几次聊天,可以从他早晚发消息时间判断其发消息的习惯、睡眠作息习惯,了解他是否是一个对话的发起者、他们在群聊中的活跃程度,还有很多其他的深层信息。这些都有助于勾画出一个人的本性。
尽管WhatsApp坚称自己无法“读取”用户信息,但他们很容易获取消息发送时间、发送对象、何时查看消息等数据,仅仅凭借这些数据就足以获得一份完整的个人资料了。
图源:unsplash
当你已经拥有关于极具代表性样本的大量数据时,就算无法获知消息内容也没关系了。这些信息肯定会被用于产品的开发,至于其他没有声明对消息进行端到端加密的通讯平台将可以获得更加丰富的数据集,天知道他们会用这些来做什么!
数据之下隐含的价值,比我想象中更加“暗潮涌动”
一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)