从肖战专辑《光点》的销量谈起,简析完美数据中的bug

一张专辑,一首歌,四天不到,“一个亿的小目标”就这样轻松达成。
我恰柠檬了,作为一个酸精,今天就借这篇文章来挑一挑这“一个亿”的刺。

数据源自于【微博肖战数据站】,时间从2020/4/25 10:00:00到2020年4/26 22:30:00,大概每小时更新一次,累计销售额8000万+,可惜并没有更新到破亿,如果读者有相关数据资料,能提供就最好啦。整理后的销售量如下:
从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第1张图片
我要做的分析很简单,找bug,1.描述性分析:看趋势中的bug;2.模型拟合:看效果中的bug。

首先给大家明确两个问题:第一,数据的真实性,商务数据是由人真实的行为产生的,同时包含规律性与随机性,对这两者的把握是鉴别数据真伪的关键。第二,模型的拟合优度,拟合优度(R方)是一个统计学概念,用于度量模型与真实数据的接近程度,理论上越接近1模型拟合效果越好,实际中拟合优度过高过低都有问题(数据假、过拟合、模型差等)。

一、描述性分析(平台对比、销量趋势)
从【三大平台销售量变化】看,QQ、酷狗、酷我三个平台的数量级差别较大,但变动趋势基本一致。为了佐证这点,画出【平台销量倍数关系】,老大QQ永远是老二酷狗8.5-10.1倍,是三儿酷我的22.8-34.18倍(前期倍数在30-35,最后几个小时下降到20+)。
我合理怀疑,这仨背后有一个共同的爹,爹偏心且偏心程度不变,对儿子们始终按30:10:1分配资源,最后发现老幺明显少了,于是在最后一刻补偿了点。
在这里插入图片描述

从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第2张图片
从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第3张图片
上面“相对固定的比例关系”为接下来的内容带来了便利,既是大家长安排下的“行动一致”,抓老大QQ做个典型进行分析即可。
下面的【QQ累计销量瀑布图】描述了专辑销量每小时的增长量和累计量,总体来说速度增长量越来越慢,这还算符合常识,但请注意4月25日晚10点、11点和12点,销量反常增加。其实不限制购买时间的数字专辑,没必要非得三更半夜出来买吧?又不是夜间活动的虾。
从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第4张图片
二、模型拟合(分段多项式)
这份数据展现了不同寻常的规律性,用来做统计建模一定非常“完美”。其实之前就有用筒子用销售额的时间序列数据做过回归分析,即使是最糙的一元回归,拟合优度也能到84%。
这里我优化一下,建立一个更bug的模型,拟合优度能达到99%以上,这意味着什么呢?意味着销售量数据基本就是按此模型演化而来的。
下面是QQ音乐的累计销量图,很明显有一个折点,在4月26日的零时(前3个小时刚好是前面指出的销量异常增长),对此考虑建立分段多项式模型。

最后两张图即为拟合模型的预测值(红色虚线)与真实值(黑色实线)的对比结果,几乎是完全重合的。为25日建立的三阶多项式模型,拟合优度99.97%,为26日建立的两阶多项式模型,拟合优度为99.05%。
这种bug的模型以往只在我特意为之的时候出现过,如果自然形成,只能说粉丝的购买力太巧了,巧夺天工。
从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第5张图片

从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第6张图片
从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第7张图片
从肖战专辑《光点》的销量谈起,简析完美数据中的bug_第8张图片
虽然出发点是“挑刺”,但并非“杠”地无理由,这篇文章从平台对比、销量趋势和模型拟合3个角度来看这“一个亿”项目里掺杂的“偶然性”(水分),揭示了其中明显不合理的场景和不太高明的“人工痕迹”。“一个亿的小目标”不是那么好达成的,哪怕是在最容易割韭菜的流量圈呢。

你可能感兴趣的:(杂谈)