数据分布

随机变量分为离散型随机变量和连续型随机变量。
离散型随机变量的发生的概率可以用概率质量函数PMF计算,而连续型随机变量率密度函数PDF计算。

概率质量函数(PMF)——离散型随机变量
概率密度函数(Probability Density Function,PDF)——连续型随机变量

累积分布函数(Cumulative Distribution Function,CDF),又叫分布函数,是PDF的积分,或PMF的累加。

离散型概率分布

伯努利分布
又叫两点分布、0-1分布,是只进行1次伯努利实验,如果进行次伯努利试验就是二项分布。
进行1次伯努利试验,该事件发生的概率为,不发生的概率为。
伯努利分布的期望值
伯努利分布的方差分别为

二项分布(Binomial Distribution)
某一该事件发生的概率为,不发生的概率为,再在同样的条件下重复地、相互独立地进行次的试验,记为
二项分布的期望值
二项分布的方差分别为

二项分布的应用场景主要是,对于已知次数,关心发生次成功的概率。其概率质量函数为:

from scipy.stats import binom
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

## 设置属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

fig,ax = plt.subplots(1,1)
n = 1000
p = 0.5
#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = binom.stats(n,p,moments='mvsk')
print(mean,var,skew,kurt)
#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

几何分布
在次伯努利实验中,第次实验才得到第1次成功的概率分布,,记为,
几何分布的期望值
几何分布的方差分别为

均匀分布(Rectangular Distribution)
记为
概率质量函数为:

均匀分布的期望值
均匀分布的方差分别为

X 1 2 3 4 5 6
p(x) 1/6 1/6 1/6 1/6 1/6 1/6


泊松分布(Poisson Distribution)
泊松分布是用来描述在一定时间范围内或在指定面积或体积之内某一事件出现的次数 的分布。
泊松分布公式为:
其中 为给定的时间间隔内事件的平均数。
泊松分布的期望值和方差分别为 。

哪些地方用到泊松分布?
(1)在某企业中每月发生的事故的次数;
(2)某种一起每月出现故障的次数。

import numpy as np
x = np.random.poisson(lam=5, size=10000)

其中2出现了851次,那么2出现的概率为,通过公式计算;5出现了1701次,5出现的概率为,通过公式计算;如果将各个数字画出图,如下:


上图代码如下:

import numpy as np
import matplotlib.pyplot as plt
# Poisson分布
x = np.random.poisson(lam=5, size=10000)  # lam为λ size为k
pillar = 15
a = plt.hist(x, bins=pillar, range=[0, pillar], color='g', alpha=0.5)
plt.plot(a[1][0:pillar], a[0], 'r')
plt.grid()
plt.show()

泊松分布PMF和CDF图:

image.png

泊松分布不同 取值的影响:

上图代码如下:


import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import matplotlib.style as style

#PLOTTING CONFIG 绘图配置
style.use('fivethirtyeight')
plt.rcParams['figure.figsize']=(14,7)
plt.figure(dpi=100)
x = np.arange(20)

#PDF 绘制泊松分布的概率密度函数
plt.bar(x,height=(stats.poisson.pmf(x,mu=5)),width=0.75,alpha=0.75)

#CDF 绘制泊松分布的累计概率曲线
plt.plot(x,stats.poisson.cdf(x,mu=2),color="#fc4f30")

#LEGEND 图例
plt.text(x=8,y=0.45,s="pmf(poisson)",alpha=0.75,weight="bold",color="#008fd5")
plt.text(x=8.5,y=0.9,s="cdf",rotation=.75,weight="bold",color="#fc4f30")
plt.show()

plt.figure(dpi=100)
# PDF λ=1
plt.scatter(np.arange(20),stats.poisson.pmf(np.arange(20),mu=1),alpha=0.75,s=100)
plt.plot(np.arange(20),stats.poisson.pmf(np.arange(20),mu=1),alpha=0.75)

#PDF λ=5
plt.scatter(np.arange(20),stats.poisson.pmf(np.arange(20),mu=5),alpha=0.75,s=100)
plt.plot(np.arange(20),stats.poisson.pmf(np.arange(20),mu=5),alpha=0.75)

#PDF λ=10
plt.scatter(np.arange(20),stats.poisson.pmf(np.arange(20),mu=10),alpha=0.75,s=100)
plt.plot(np.arange(20),stats.poisson.pmf(np.arange(20),mu=10),alpha=0.75)

#LEGEND 图例
plt.text(x=3,y=0.1,s="$λ=1$",alpha=0.75,weight="bold",color="#008fd5")
plt.text(x=8.25,y=0.075,s="$λ=5$",rotation=.75,weight="bold",color="#fc4f30")
plt.text(x=14.5,y=0.06,s="$λ=10$",rotation=.75,weight="bold",color="#fc4f30")
plt.show()

指数分布
记为

指数分布的期望值
指数分布的方差分别为

连续型概率分布

正态分布
记为
概率密度函数:

正态分布的期望值
正态分布的方差分别为

from scipy.stats import norm
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

## 设置属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

fig, ax = plt.subplots(1, 1)

loc = 1
scale = 2.0
# 平均值, 方差, 偏度, 峰度
mean, var, skew, kurt = norm.stats(loc, scale, moments='mvsk')
print(mean, var, skew, kurt)

# ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

标准正态分布
记为
概率密度函数:

正态分布的期望值
正态分布的方差分别为

幂律分布

由正太分布导出的几个重要分布
https://blog.csdn.net/baishuiniyaonulia/article/details/84262272

分布

定义:设随机变量相互独立,其服从标准正太分布,则它们的平方和服从自由度为n的 分布.
记为:

概率密度函数:


分布的期望;
分布的方差。

分布(也称学生分布)

定义:设随机变量,,且与独立,则的分布就是t分布。
记为:

概率密度函数:


t分布图像的性质



F分布

定义:设随机变量和$Z相互独立,

且, ,则随机变量的分布为F分布。

概率密度函数:

F分布的期望;
F分布的方差。

Beta分布

你可能感兴趣的:(数据分布)