二项分布、泊松分布、指数分布、zlpf分布、多项式、狄利克雷分布

觉得有些东西还是不记不行,年纪大了,不能理解了就以为自己记住了,所以在这里记下关于泊松分布、二项分布、zlpf分布、狄利克雷分布的知识

 

研究这个的起因是研究退票的分布,即用户每天一次性退票1张、2张、3张……n张票的人数。

由于之前在这没有很深入的研究过,所以一开始认为会是正态分布(虽然这个“认为”很白痴),但是正态的对称轴找不到,如果真的要找,一定是一次性退票1张的时候是峰值,但是对应的曲线怎么看都不像是正态分布。

二项分布、泊松分布、指数分布、zlpf分布、多项式、狄利克雷分布_第1张图片

所以在接下来认为去尝试多项式分布和指数分布,多项式分布其实和正态分布一样,从曲线形态上就不符合图示曲线,所以稍作尝试就放弃了,指数分布倒是对于该曲线拟合的不错,但是我这人做事比较较真,首先想到的是为什么是指数分布,原理是什么,于是上网搜索相关资料,找到了如下两篇博客,来自同一位作者的:

https://blog.csdn.net/ccnt_2012/article/details/81114920

https://blog.csdn.net/ccnt_2012/article/details/89875865

这两篇博客写的非常好,深入浅出的讲了泊松分布和指数分布的背景和推导思路,有兴趣的同学可以查看这两篇博客,作者写的很清楚,具体我就不在这里赘述。

       但是这个问题并不适用与我提出来的问题,即这个退票量的分布并不服从泊松分布,而且也无法从原问题抽象到指数分布的场景,于是我继续探索,终于找到了zipf分布,即齐普夫定律,也叫长尾分布,齐普夫定律和前面泊松分布&&指数分布的推导不同,它是经验性的结论,来源于nlp问题,可以推广到其他的类似的问题,它描述的是在一个集合,比如词汇集合里,在样本集里出现的次数从高到低排序,那么序号乘以对应的值大约是一个常数,公式是P(r)=C/r^\alpha。对两边取对数,得到log(P(r))=log(C)-\alpha \cdot log(r),即对变量和目标分别做对数后,呈现的是线性关系。所以很多类似问题都可以假定其服从zipf分布,从而向前推进问题。

      这个疑问解决之后,举处理在研究这个问题里的一些衍生问题,比如共轭先验分布,本中将会在下一篇博客里介绍这个知识。

你可能感兴趣的:(二项分布、泊松分布、指数分布、zlpf分布、多项式、狄利克雷分布)