零膨胀回归模型简介及其R语言实现

概念

  1. 零膨胀现象:在计数数据中,若0的个数明显多于泊松、负二项等标准离散分布随机产生的个数,称此现象为零过多现象(zero-inflated, ZI)
  2. 零膨胀模型:伯努利分布与普通计数分布(泊松等)的混合分布,分为零数据部分及非零计数部分。
  3. 结构零&抽样零:零膨胀模型零数据部分一部分来自于普通计数分布产生的抽样零,另一部分来自于额外得到的结构零。实际上,结构零可以看成由取值为零的退化总体产生,抽样零则是由非退化总体(Poisson分布等)产生。

例如:在调查一种药物的吸食状况数据时,且该药物吸食数据已经通过Poisson分布检验,则可以认为,抽样零表示Poisson分布中产生的零数据,结构零表示在调研过程中吸食过该类药物却表示从未吸食过的受访者所产生的额外零数据。

常用零膨胀回归模型

零膨胀泊松回归模型

Lambert(1992)描述了零膨胀泊松(ZIP)混合分布,
在这里插入图片描述记为Y~ZIP(Ф,λ)
当Ф=0时,ZIP分布退化为标准的Poisson分布;当0<Ф<1时,Ф越大,说明数据中的零膨胀现象越明显。
ZIP 数学期望与方差分别为:
在这里插入图片描述
在ZIP模型中,方差大于期望,这是由于模型中额外产生的结构零所致,从而可以解决事件发生数次零聚集所导致的过度离散现象。
为了讨论ZI数据中的因变量与自变量之间的关系,Lambert在ZI参数部分和泊松参数部分分别引入协变量,从而得到ZIP回归模型。
在这里插入图片描述
其中,X为非零计数部分协变量,W为零数据部分协变量,β为非零计数部分回归系数,γ为零数据部分回归系数。
R语言实现:

library(pscl)

az1<-zeroinfl(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12)

summary(az1)

运行结果会出现两个模块,“Count model”表示非零计数部分,“Zero-inflation model”表示零数据部分。

零膨胀负二项回归模型

将ZIP中涉及的Poisson分布改为负二项分布形式,即可得到零膨胀负二项分布模型,记为ZINB,其相应的混合分布为:
零膨胀回归模型简介及其R语言实现_第1张图片
其中, δ = 1 / κ δ=1/κ δ=1/κ 为散度参数。
当散度参数 δ → 0 δ→0 δ0时,ZINB模型退化为ZIP模型。于是ZINB混合分布的回归模型与ZIP回归模型一致,即为:

在这里插入图片描述
R语言实现代码:

library(pscl)
az2<-zeroinfl(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12,dist
= "negbin")
summary(az2)

实例分析

Y表示某类药物吸食状况数据,协变量有年龄、性别等12个指标。用ZIP进行模型拟合。
零膨胀回归模型简介及其R语言实现_第2张图片
模型结果为:
零膨胀回归模型简介及其R语言实现_第3张图片

在零数据部分,Ф表示的是零膨胀结构比例,在未吸食过该类药物的人群中,Ф越大,说明吸食该类药物的可能性越高。在非零计数部分,在已经吸食过该类药物的人群中,λ表示该类药物吸食频率均值,λ越大,说明吸食频率越高。

参考文献

  1. 解锋昌,韦博成,林金官.零过多数据的统计分析及其应用[M].科学出版社,2013
  2. 吴喜之.复杂数据统计方法–基于R的应用[M].中国人民大学出版社,2015

你可能感兴趣的:(统计学)