泊松回归

文章目录

    • 泊松分布
    • 泊松回归
    • 泊松回归求解及分析

泊松分布

当时学交通工程学的时候就看到书上讲,泊松分布是n趋向于无穷时的二项分布,书上还给出了推导公式,确实没毛病,但是还是没有明白两者之间有什么关联,这到底是为什么呢?最近需要做泊松回归模型,正好看到了知乎上一些答主的回答,恍然大悟,要是当时书上这样讲一下再推导就好了。
简而言之就是:把泊松分布里的单位时间或者空间划分为无穷多份,这样子每一份里事件的发生与不发生就是0-1分布(最简单的二项分布),即发生或不发生。而总体就是n趋近于无穷的二项分布,这个时候就是泊松分布。


泊松分布是二项分布n很大而p很小时的一种极限形式
二项分布是说,已知某件事情发生的概率是p,那么做n次试验,事情发生的次数就服从于二项分布。

泊松分布是指某段连续的时间内某件事情发生的次数,而且“某件事情”发生所用的时间是可以忽略的。

例如,在五分钟内,电子元件遭受脉冲的次数,就服从于泊松分布。假如你把“连续的时间”分割成无数小份,那么每个小份之间都是相互独立的。在每个很小的时间区间内,电子元件都有可能“遭受到脉冲”或者“没有遭受到脉冲”,这就可以被认为是一个p很小的二项分布。而因为“连续的时间”被分割成无穷多份,因此n(试验次数)很大。所以,泊松分布可以认为是二项分布的一种极限形式。

因为二项分布其实就是一个最最简单的**“发生”与“不发生”**的分布,它可以描述非常多的随机的自然界现象,因此其极限形式泊松分布自然也是非常有用的。

知乎用户ctian的回答


每个病人来看病都是随机并独立的概率,则该医院一天(或者其他特定时间段,一小时,一周等等)接纳的病人总数可以看做是一个服从poisson分布的随机变量。但是为什么可以这样处理呢?
我个人认为最好的解释方法是从poisson的两种不同定义上着手。
Poisson分布的第一个定义是一个随机变量X, 只能取值非负整数(x=0,1,2,…),且相应的概率为
在这里插入图片描述
则该变量称为服从poisson分布。 这个定义就是我们平时考试或者理论工作时用的poisson随机变量的定义。
注意Poisson还有一个知名度比较小的第二个定义,或者说是Poisson Process的定义:假定一个事件在一段时间内随机发生,且符合以下条件:
(1)将该时间段无限分隔成若干个小的时间段,在这个接近于零的小时间段里,该事件发生一次的概率与这个极小时间段的长度成正比。
(2)在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。
(3)该事件在不同的小时间段里,发生与否相互独立。 则该事件称为poisson process。
这个第二定义就更加利于大家理解了,回到医院的例子之中,如果我们把一天分成24个小时,或者24x60分钟,或者24x3600秒。时间分的越短,这个时间段里来病人的概率就越小(比如说医院在正午12点到正午12点又一毫秒之间来病人的概率是不是很接近于零?)。 条件一符合。另外如果我们把时间分的很细很细,是不是同时来两个病人(或者两个以上的病人)就是不可能的事件?即使两个病人同时来,也总有一个人先迈步子跨进医院大门吧。条件二也符合。倒是条件三的要求比较苛刻。应用到实际例子中就是说病人们来医院的概率必须是相互独立的,如果不是,则不能看作是poisson分布。
现在有了第二定义作为桥梁,应该就很容易理解了。现实生活中的例子中如果事件相互独立,那么它就是符合poisson分布的第二定义的。而从poisson第二定义到poisson第一定义之间是有严格的数学证明的。
知乎用户楚小鱼的回答

泊松回归

泊松回归(英语:Poisson regression)是用来为计数资料和列联表建模的一种回归分析。泊松回归假设反应变量Y服从泊松分布,并假设它期望值的对数可被未知参数的线性组合建模。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。百度百科
泊松回归表达形式为:
在这里插入图片描述

也可以写做
在这里插入图片描述
我们假设Y服从泊松分布,然后由极大似然估计(Maximum Likelihood estimation)的方法来估计参数***θ***
泊松分布也是一个很强的假设,他要求因变量的期望等于方差。好在即使因变量不服从泊松分布,只要样本数量足够大,并不会妨碍我们得到渐进一致的估计值。
估计出结果后,可以进行过度分散(overdispersion)检验来判断方差与期望的关系,如果不相等,说明更合适的模型是负二项分布模型,但是负二项模型在估计时经常会出现不收敛的情况。

泊松回归求解及分析

主要利用python的statsmodels库接口
statsmodels

from statsmodels.formula.api import poisson
# possion回归
model=poisson(formula="orders~avg_temp+C(is_weekday)+C(is_rain)",data=order_data)
results = model.fit()
print(results.summary())

C代表该变量为分类变量
结果如下:
泊松回归_第1张图片
所有变量均显著
我们可以自己计算IRR(incidence rate rations),即
IRR=exp(Coef)
代表该变量变化一个单位,因变量(期望)变化情况
如:下表中,若is_weekday由0变为1(由周末变成工作日),则按照这个模型因变量(订单量)会增加13%(1.1298-1)。

Possion Regression
Variable Coef P>|z| IRR
Is_weekday 0.1220 0.000 1.1298
Is_rain -0.2196 0.000 0.8028
Avg_temp 0.0298 0.000 1.0302
Constant 10.5643 0.000 -
Pseudo R-squ 0.6553

更多关于泊松回归的解读可以看这里
Bruin, J. 2006. newtest: command to compute new test. UCLA:
Statistical Consulting Group. https://stats.idre.ucla.edu/stata/ado/analysis/.

你可能感兴趣的:(交通)