从喜马拉雅主播排行,看幂律分布

喜马拉雅电台是一个可以收听各种电台节目的音频分享平台,现在可能在用户数量,主播数量都是中国最大的平台。我在IT科技、与商业财经类会读一些书。
我在IT科技的排名,今天是160名。然后,第一天上传音频时的,在IT科技的排名是1353名。我把这个排名作为有效的起始排名(因为没有上传任何音频的主播可以看成无效的。)。又因为在我上传第一天,到今天,总的主播人数在增加,可以把这个排名在乘以平台主播的增长率。
现在已经知道的数据是:前50名的主播名称,与他们的分数。比如排在前十名的分别是:卓老板聊科技、原来是这样?!、进击的PM-充电时间、互联网热点、他用20年写下一亿行…、仰望星空:天文学史、虎嗅.商业的味道、时间的形状作者自己读、雷科技、锋言疯语。他们的分数是:76.5、75.3、75.0、74.0、73.6、73.4、73.5、72.8、68.4。我自己的分数是60.1。
先用R算一下一下前50名的平均值与标准差:
fenshu<-c(76.5,75.3,75.0,74.0,73.6,73.4,73.5,72.8,68.4……)
mean(fenshu)
[1] 69.61111
sd(fenshu)
[1] 2.267953

分数的结果不够直观,但还是可以看到一些东西:

  • IT科技的最高分相差商业财经排名第一的逻辑思维9.9分。可见不同板块的热度差并不小。
  • 用标准差除以均值,数值为不到三个百分点。不大。

下面我会做一件非常错误的事,因为我没有足够的数据,题目又叫这个(哎,写不下去了……),所以我假定万恶的喜马拉雅IT科技类的分数排名符合帕累托分布。
那么在帕累托分布中,如果X是一个随机变量, 则X的概率分布如下面的公式所示:

帕累托分布函数

其中x是任何一个大于xmin的数,xmin是X最小的可能值(正数),k是为正的参数。帕累托分布曲线族是由两个数量参数化的:xmin和k

我们经过计算,可以获得:

  • 该分布期望为:


  • 该分布标准差为

好吧,用下点估计。我解下方程,从我们知道的xmin 40.0分(就是1353名的分数),均值69.61,标准差2.27。
第一个解的k=2.35,不过k要为整数。
第二个解不出合理的k,因为k>=2,而大于等于2又解不出。
所以……

算了,我们用第一个k=2来作图,看看样子就好
x<-seq(40,80,length.out=10000)
y<-2402/x3*
setwd("~/tmp")
jpeg(file="zhubofenshu.jpeg")
plot(x,y)
dev.off()

从喜马拉雅主播排行,看幂律分布_第1张图片
注意:40分前的都是0

其实应该优先拿播放量来说,为什么使用播放量,因为主播的收入主要来自于两方面,听众的打赏与广告。因为打赏收入更随机一些,而播放量就和广告收入直接相关。拿排名第一的卓老板聊科技来说,它的播放量是5021.8万 次播放,第二名是671.7万次。有兴趣的写篇吧,我这个是乎写的……
写不下去了……

你可能感兴趣的:(从喜马拉雅主播排行,看幂律分布)