作者:窦英通
引子
笔者在2015年7月创建了一个以分享滴滴打车红包为主的微信群聊,创建的本意是为了方便大家在分享红包时不打扰别人,在乘车需要红包时能方便地领到红包。随着群人数和分享红包种类的增加,该群已成为一个各类 O2O 服务APP优惠券红包的集散地。从2015年8月到2017年8月,该群产生了约两万条红包分享记录,笔者最近将这些记录导出,通过数量,时间,语义等维度分析这些数据,下面将笔者自己的解读分享出来以供大家学习交流。
数量维度
本群主要成员为北京某大学的大学生。两年时间里本群共产生21477条聊天记录,其中有效的红包分享记录约为20000条,群成员在10个月内从几十人增长到500人满群。
聊天记录可导出为 Excel 表格格式,单条聊天记录的格式如图1所示。
图1
每一列的数据分别为微信群群号(没错,微信群也有群号)、消息发送时间,发送者微信昵称,发送者微信号,发送形式(接收或发送),消息类型(文本、网页、动画表情、照片壁纸)和消息内容。因为大部分红包都是以网页的形式分享,而且每种 APP 只使用各自固定的域名,例如滴滴打车使用 xiaojukeji.com ,饿了么使用 ele.me。通过对不同域名数量的统计,笔者分析出了红包数量最多的12个APP 以及他们的数量比例(图2),这12类 APP的红包数量占所有红包总量的95%。
图2
从图中可以看出外卖红包是所有红包种类中数量最多的,因为衣食住行中,“食”的频率最高。饿了么红包数量占所有红包数量的近一半,这与市场调查机构公布的2016和2017年外卖 APP 市场份额报告的结论(饿了么与美团外卖市场份额不相上下)不一致。这是因为微信群聊参与者身份和地域的局限性导致该统计结果只能反应小范围内外卖APP 的市场份额。
除了图中的 APP 之外,红包数量比较多的 APP 还有:去哪儿、由你单车、嘀嗒拼车、爱鲜蜂、一米鲜、携程、 每日优鲜、乐惠、优酷、开心消消乐、Airbnb、中国移动、触宝、有货。需要补充的是,图2中京东的红包包括了京东商城、京东到家和京东金融,网易的红包包括了网易严选,考拉海购和阴阳师。
以上 APP 基本上涵盖了中国大部分主流提供 O2O 服务的APP,同时也体现了大学生的消费特征。共享出行,外卖,生鲜配送,网购,娱乐休闲是当前大学生主要的消费形式。
从图1中可以看到每个红包在分享时都有一条相应的广告语,笔者分析了这些广告语的高频词汇,并将其做成词云图,如图3所示。
图3
细心的读者可能发现红包的广告语有几种类型,一种是宣传 APP (及其提供的服务)本身,一种是其他品牌的广告,常见的有影视剧和品牌促销活动等,还有一种类型是 APP 自身的明星代言,例如饿了么的王祖蓝和科比。我分析了2015年8月,2016年8月和2017年8月这三个月中这三类红包的比例,如图4所示。
图4
2015年夏天是O2O服务刚开始迅猛发展的时候,那个时候他们的市场份额还不高,所以红包主要还是以宣传自家服务为主,到了2016年夏天, O2O服务竞争到了火热阶段(外卖领域和出行领域),那个时候的红包折扣力度也比较大,分享人数较多,所以我们看到其他品牌广告占比明显上升,红包冠名广告可以作为O2O服务提供商的收入来源之一。笔者没有行业经验,但猜测红包冠名广告的曝光率和点击率要高于一些其他的广告形式。2017年夏天,这时外卖和出行市场格局已定,红包的折扣力度减小,分享人数下降,所以大部分广告是针对自己APP的宣传,常见的广告语是“第X个领到红包的金额最大”,以刺激大家点击链接进而产生消费。
数量维度
图5是红包数量前七名的APP红包数量两年间的变化趋势。
(建议横屏观看)
图5
从红包数量变化趋势中可以得到以下几点结论:首先,饿了么和美团外卖的红包是所有外卖红包中的主流。在2016年8月之前,美团外卖的红包数量要高于饿了么红包数量,之后饿了么红包数量一路反超,远远高于美团红包数量。造成变化的原因不是饿了么增加推广力度,而是因为大部分群成员(北京某高校学生)从一个校区整体迁往了另一个校区,而美团外卖在原校区的规模相对于饿了么要比新校区的规模大。同样,在2017年6月之后,红包数量的整体下跌是因为大部分群成员从大学毕业,对外卖的需求下降。这从另一个角度反映了小规模数据的不稳定性。
第二,同样是外卖红包,我们可以看到在2016年2月和2017年2月,也就是春节和寒假的时候,各类外卖 APP 的红包的数量都明显下跌,显而易见,大部分群成员都回家过年,对外卖的需求大大减少。有趣的是,滴滴红包数量并没有明显变化,一方面是春运的影响,另一方面说明滴滴对三四线城市的下沉做得比较好。
最后,我们看到滴滴红包的数量稳定增长一直到2016年7月达到最高峰,从2016年8月开始一路下跌。笔者认为造成下跌原因和群成员的关系不大,主要原因是2016年8月1日滴滴宣布收购优步中国,国内的共享出行领域滴滴一家独大,笔者清楚记得从那时起滴滴的红包优惠力度大打折扣,快车的价格也有了起步价。一方面是优惠力度的下降,另一方面部分摇摆乘客可能会选择别的出行方式,笔者认为这才是导致滴滴红包分享数量的下降的原因。
图6
图6将滴滴和ofo红包数量变化趋势专门列出来,这样可以更直观的看到其变化。之所以没有列出摩拜,是因为摩拜的分享次数较少,在图表上不明显。如果说2015年夏天是汽车共享出行开始迅猛发展的时候,那么从图中可以看出2016年夏天就是共享单车迅猛发展的时候。事实上滴滴从2012年就开始做出租车叫车业务,ofo早在2014年就开始在大学校园推广共享单车。随着4G网络的和智能手机的普及,微信使用人数越来越多,在多种因素的综合作用下,这些出行O2O服务在2015年后才开始迅速发展。
下面我们将时间维度缩小到一天内,看看一天内出行红包和外卖红包的分享数量和时间的关系(图7)。
图7
一般而言,一次线上的红包分享可以代表分享者同时在线下产生了相应的行为,通过变化红包分享数量变化趋势可以看到,在“食”和“行”方面,统计数据很好地体现了我们一般的认知。外卖集中在中午十二点和下午七点两个饭点之前,出行则在白天相对均匀地分布。
支付宝跨年红包
相信大部分读者都经历了支付宝跨年红包的洗礼,作为敏感的红包群群主,我发现支付宝的吱口令在十二月中旬开始在群里大量出现,到跨年时达到高峰,图8是群聊中从2017年12月10日到2018年1月10日支付宝跨年红包的分享数量变化。
图8
由于笔者在国外,并没有参与到瓜分红包的行动中,但笔者好奇的是:在2017年12月12日到2017年12月22 日,支付宝分享红包的吱口令中,“支付宝”三个字有大量变体字出现,让人一度以为是欺诈消息,我分析这十天所有的支付宝变体,将其做成图9的词云。
图9
支付宝一共产生了十种变体,起初笔者猜测支付宝是为了防止微信的追踪和屏蔽,但我想这样变体也不妨碍微信监测到消息,况且在这之前和之后红包都是正常的,所以我特别期待懂这个问题的朋友能够解答我的疑问。
总结
总而言之,这份两万条记录的数据集规模太小,所以很难得到宏观的结论,目前得到大部分结论也是显而易见的。利用该数据集进行进一步例如行为预测,用户画像,也是不现实的。另外,该数据集的特殊性在于它的独一无二,不同于微博等公开可获取的数据,这样的数据只能通过人为组织收集,所以即使此数据集的体量足够大,基于它训练出来的模型也难以有实用价值。
所以,假设我有足够多的群成员,我可以通过收集他们的性别,职业和收入的情况,结合他们线上分享红包的时间、种类、次数,可能会得到一些有趣的经济学结论。进一步,如果我们能获取到每个红包群成员点击的情况,这样又增加了一个数据维度,可以结合时间以及冠名广告和点击率做红包发送的优化,也可以结合群内其他数据维度来进行用户的画像,行为预测等等。当然,这一切都是基于群成员和红包数量足够多的前提。在这个前提下,我们可以对O2O行业的发展做一个宏观的分析,从全新的角度观察行业的发展。
不过以上所说的种种限制,对于微信官方来说都不是问题,微信利用自己的平台优势关联了无数的APP,利用不同的数据源,微信可以通过协同过滤(Collaborative Filtering)以及多视角学习(Multi-viewLearning)进行用户画像从而进行更精准的推荐。从另一个角度想,我们越来越多的行为都被 BAT 三家收集到,大家在互联网上越来越透明,所以对隐私的保护越来越重要,这不仅要靠企业自律,还要靠国家加强立法。
通过这次分析,笔者最主要的发现就是小数据集的片面性,并不是说如果数量到百万千万级就不是小数据了,而是说需要深刻认识到现有数据集的局限性,不能以偏概全,并且尽量尝试获取到全面宏观的数据。这对数据挖掘从业者有一定的启示。
微信群聊记录可以通过“同步助手”导出到电脑上,可以导出为文本文档、表格或者网页格式,结合 Excel 和相关 Python工具包,可以轻松实现对微信群聊数据的挖掘,各位读者可以自己动手挖掘感兴趣的微信聊天记录。我也把本文用到的数据集匿名化处理后发布在网上以供大家学习使用。
数据集下载地址:
http://ytongdou.com/wp-content/uploads/2018/01/W
【今日机器学习概念】
Have a Great Definition