【分布函数】详解常用的分布函数(均匀分布、正态分布、泊松分布等)

  • 本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!
  • ​​个人主页:有梦想的程序星空
  • ​​个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰富的软件系统、人工智能算法服务的研究和开发经验。
  • ​​如果文章对你有帮助,欢迎​​关注​​点赞​​收藏​​订阅。

1、概率密度函数

概率密度函数(Probability Density Functions,简称PDF),概率密度函数是概率论里面最重要的概念之一。

定义:设X​为一随机变量,若存在非负实函数f(x) \ge 0​,使对任意实数a < b​,有:

P\{ a \le x < b\} = \int_a^b {f(x)dx}

则称X​为连续随机变量,f(x)​称为X​的概率密度函数,简称概率密度或密度函数。

概率密度函数具有如下性质

(1)非负性:f(x) \ge 0

(2)规范性:\int_{ - \infty }^{ + \infty } {f(x)dx} = 1

【分布函数】详解常用的分布函数(均匀分布、正态分布、泊松分布等)_第1张图片

条件概率密度函数:对于任意给定的y​,在给定区间(a,b)​内,条件概率密度函数p(x|y)​都有如下公式成立:

\int_a^b {f(x|y)dx} = 1

2、分布函数

连续型随机变量的分布函数:设X​为连续型随机变量,其密度函数为f(x)​,则有:

F(x) = P\{ X \le x\} = \int_{ - \infty }^x {f(x)dx}

对上式两端关于x​求导:

F'(x) = [\int_{ - \infty }^x {f(x)dx} ]' = f(x)

任何随机变量都有相应的分布函数。

f(x)​的几何意义如下:

【分布函数】详解常用的分布函数(均匀分布、正态分布、泊松分布等)_第2张图片

​密度函数与分布函数的关系:

(1)积分关系:F(x) = \int_{ - \infty }^x {f(x)dx}

(2)导数关系:若f(x)​在x​处连续,F'(x) = f(x)​。

3、常用的分布函数

(1)泊松分布

泊松分布是一个重要的离散概率分布,常用于描述一个时间或空间间隔内事件发生的次数。

P(x = k) = \frac{​{​{\lambda ^k}}}{​{k!}}{e^{ - \lambda }},k = 0,1, \cdots

该公式用于描述某个事件发生k​次的概率。只包含一个变量参数\lambda​,它表示事件发生的期望(方差),如:单位时间内某事件发生的平均次数。

该事件发生的期望和方差相同。

泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。比如:某一服务设施在一定时间内到达的人数;汽车站台的候客人数。

(2)二项分布

设随机变量X​只可能取0和1两个值,记:P(X = 1) = p,P(X = 0) = 1 - p​,将该实验重复独立进行n​次,设事件X=1​的次数为k​,则:

P(X = k) = C_n^k{p^k}{(1 - p)^{n - k}}(0 < p < 1)

二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布,用于描述:对病人治疗结果的有效与无效等。

当二项分布的实验次数n​很大而事件发生概率p​很小时,泊松分布可作为二项分布的近似,其中np = \lambda​。

(3)均匀分布

若连续型随机变量X​的概率密度为:

f(X) = \left\{ {\begin{array}{*{20}{c}} {\frac{1}{​{b - a}},a < x < b}\\ {0,other} \end{array}} \right.

则称X​在区间(a,b)​上服从均匀分布,记作X\sim U(a,b)​。

(4)指数分布

若连续型随机变量X​的概率密度为:

 f(X) = \left\{ {\begin{array}{*{20}{c}} {\lambda {e^{ - \lambda x}},\lambda > 0}\\ {0,other} \end{array}} \right.

则称X​服从参数\lambda​的指数分布,其中\lambda > 0​是分布的一个参数,\lambda​表示每单位时间内发生某事件的次数,指数分布可以用来表示独立随机事件发生的时间间隔,比如:旅客进机场的时间间隔等。

(5)高斯(正态)分布

若连续型随机变量X​的概率密度为:

【分布函数】详解常用的分布函数(均匀分布、正态分布、泊松分布等)_第3张图片

​称X​为正态分布函数。

用于描述:在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量等。

你可能感兴趣的:(深入浅出讲解自然语言处理,机器学习,概率论,机器学习,人工智能)