常见的概率质量函数:离散变量的概率分布
- 伯努利分布
两种可能结果的离散随机变量概率分布,失败是0,成功是1,p是成功的概率。
-
伯努利分布函数:
-
平均值和方差:
- 二项分布
n次伯努利试验中成功次数服从的分布。
-
二项分布函数:
-
平均值和方差:
dbinorm()
,pbinom()
,qbinom()
,rbinom()
dbinorm()
:提供任何有效x的概率质量函数
dbinom(x=5,size=8,prob=1/6) # 掷骰子8次,得到5次4点的结果的概率
X.prob <- dbinom(x=0:8,size=8,prob=1/6)# 掷骰子8次,得到0-8次4点的结果的概率
X.prob
sum(X.prob) # 所有可能结果概率的和为1
round(X.prob,3)
8/6 # 可能结果的平均值
8*(1/6)*(5/6) # 可能结果的方差
# 绘制相应的概率质量函数:
barplot(X.prob,names.arg=0:8,space=0,xlab="x",ylab="Pr(X = x)")
pbinom()
:提供累积概率分布,求结果成功q次及q次以下的累积概率,给定分位数值q,输出累积概率p
sum(dbinom(x=0:3,size=8,prob=1/6)) #
pbinom(q=3,size=8,prob=1/6)
#
1-pbinom(q=2,size=8,prob=1/6) # 因为总概率是1,所有这是求结果成功2次以上的概率
qbinom()
:累积概率分布的逆(pbinom()
的逆),给定累积概率p,输出分位数值q
qbinom(p=0.95,size=8,prob=1/6)
rbinom()
:产生n个服从二项分布的随机数
rbinom(n=1,size=8,prob=1/6)
rbinom(n=1,size=8,prob=1/6)
rbinom(n=1,size=8,prob=1/6)
rbinom(n=3,size=8,prob=1/6)
- 泊松分布
** 计数的实体、特征或事件在定义的时间间隔中以恒定的速率独立发生。
-
泊松分布函数
-
平均值和方差
3.dpois()
,ppois()
,qpois()
,rpois()
dpois(x=3,lambda=3.22) # 均值为3.22的泊松分布,取值为3时的概率
dpois(x=0,lambda=3.22) # 均值为3.22的泊松分布,取值为0时的概率
round(dpois(0:10,3.22),3) # 均值为3.22的泊松分布,取值为0-10时的概率
(3.22^3*exp(-3.22))/prod(3:1) # 手动计算均值为3.22的泊松分布,取值为3时的概率
barplot(dpois(x=0:10,lambda=3.22),ylim=c(0,0.25),space=0,names.arg=0:10,ylab="Pr(X=x)",xlab="x")
#画出均值为3.22的泊松分布的质量分布图
ppois(q=2,lambda=3.22) #取值为2的左侧累积概率
1-ppois(q=5,lambda=3.22) #取值为5的右侧累积概率
barplot(ppois(q=0:10,lambda=3.22),ylim=0:1,space=0,names.arg=0:10,ylab="Pr(X<=x)",xlab="x")
#画出均值为3.22的泊松分布的累积概率条形图
# qpois()是ppois()函数的逆
rpois(n=15,lambda=3.22) # 生成15个服从均值为3.22的泊松分布的随机数
- 其他质量函数
几何分布(geometric):dgeom()
,pgeom()
,qgeom()
,rgeom()
负二项分布(negative binominal):dnbiom()
,pnbiom()
,qnbiom()
,rnbiom()
超几何分布(hypergeometric):dhyper()
,phyper()
,qhyper()
,rhyper()
多项分布(multinominal):dmultinom()
,rmultinom()
常见的概率密度函数:连续变量的概率分布
- 均匀分布
取值范围内概率保持不变
-
均匀分布函数
-
均值和方差
dunif()
,punif()
,qunif()
,runif()
1/(0.41-0.223) # 手动计算取值范围为0.41-0.223之间的均匀分布的高度
#
dunif(x=c(-2,-0.33,0,0.5,1.05,1.2),min=-0.4,max=1.1) # 取值范围区间内的高度相同,区间之外是零
#
dunif(x=c(0.3,0,0.41),min=0.223,max=0.41) # 取值范围区间内的高度相同,区间之外是零
#
a1 <- -4/10
b1 <- 11/10
unif1 <- 1/(b1-a1)
plot(c(a1,b1),rep(unif1,2),type="o",pch=19,xlim=c(a1-1/10,b1+1/10),ylim=c(0,0.75),ylab="f(x)",xlab="x")
abline(h=0,lty=2)
segments(c(a1-2,b1+2,a1,b1),rep(0,4),rep(c(a1,b1),2),rep(c(0,unif1),each=2),lty=rep(1:2,each=2))
points(c(a1,b1),c(0,0))
#
segments(c(-0.21,0.6),c(0,0),c(-0.21,0.6),rep(unif1,2),lty=3)
#
polygon(rbind(c(a1,0),c(a1,unif1),c(-0.21,unif1),c(-0.21,0)),col="gray",border=NA)
#画出均匀分布密度函数图
punif(q=-0.21,min=a1,max=b1) # 取值为-0.21的左侧累积概率
#
1-punif(q=0.6,min=a1,max=b1)# 取值为0.6的右侧累积概率
#
punif(q=0.6,min=a1,max=b1) - punif(q=-0.21,min=a1,max=b1)# 取值为-0.21到0.6之间的概率
#
qunif(p=0.1266667,min=a1,max=b1) #累积概率为0.1266667的分位数值
qunif(p=1-1/3,min=a1,max=b1)# 累积概率为2/3的分位数值
#
runif(n=10,min=a1,max=b1) # 生成10个服从取值在a1到b1之间的均匀分布的随机数
- 正态分布
也称为高斯分布,钟形曲线为特征
-
正态分布密度函数
均值和方差
正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差,均值为0,标准差为1时为标准正态分布dnorm()
,pnorm()
,qnorm()
,rnorm()
- 学生t分布
t分布看起来很像标准正态分布,两者的区别在于正态分布通常用于处理总体,t分布用于处理来自总体的样本
随着自由度趋向无穷大,t密度将渐渐接近标准正态密度。自由度(df)是给定统计量的计算中自由改变的单个元素数量。
dt()
, pt()
, qt()
, rt()
- 指数分布
-
指数分布密度函数
-
均值和方差
dexp(), pexp(),qexp(), rexp()
xvals <- seq(0,10,length=200)
plot(xvals,dexp(x=xvals,rate=1.65),xlim=c(0,8),ylim=c(0,1.65),type="l",xlab="x",ylab="f(x)")
lines(xvals,dexp(x=xvals,rate=1),lty=2)
lines(xvals,dexp(x=xvals,rate=0.4),lty=3)
abline(v=0,col="gray")
abline(h=0,col="gray")
legend("topright",legend=c("EXP(1.65)","EXP(1)","EXP(0.4)"),lty=1:3)
lambda.e <- 107/120
lambda.e
1-pexp(q=2.5,rate=lambda.e)
pexp(25/60,lambda.e)
qexp(p=0.15,lambda.e)
- 其他密度函数
卡方分布:模拟正态变量平方和,dchisq()
,pchisq()
,qchisq()
,rchisq()
F分布:模拟两个卡方分布随机变量的比率,df()
,pf()
,qf()
,rf()
伽马分布:是指数分布和卡方分布的一般化,dgamma()
,pgamma()
,qgamma()
,rgamma()
贝塔分布:通常用于贝叶斯建模,dbeta()
,pbeta()
,qbeta()
,rbeta()