在上一篇博文中大体介绍了何为机器学习以及一些相关的概念。此篇介绍一些关于机器学习涉及到的一些数学相关的知识。
这里就指出一些比较重要的关于微积分相关的一些知识点:
1 夹逼准则:用来求极限的一种方法。
2 导数:一阶导数表示曲线变化的快慢,即斜率,二阶导数表示斜率变化的快慢,即凹凸性。
3 方向导数:标量;可以类比一阶导数理解,只不过不是对x方向的求导,而是对某一方向的求导。
4 梯度:矢量;模值表示方向导数的最大值,方向表示方向导数取最大值时的方向。
5 凸函数:Jensen不等式f[E(x)]<=E[f(x)]要理解。
着重学习一下夹逼准则,梯度以及凸函数
放缩的常用方法有:
导数/方向导数比较简单,就不在介绍了…
来源百度:梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
设二元函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在平面区域D上具有一阶连续偏导数,则对于每一个点都可定出一个向量
{ ∂ f ∂ x , ∂ f ∂ y } = f x ( x , y ) i ‾ + f y ( x , y ) j ‾ \left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}=f_{x}(x, y) \overline{i}+f_{y}(x, y) \overline{j} {∂x∂f,∂y∂f}=fx(x,y)i+fy(x,y)j
该函数就称为函数 在点 P ( x , y ) P(x,y) P(x,y)的梯度,记作 g r a d f ( x , y ) gradf(x,y) gradf(x,y)或 ∇ f ( x , y ) \nabla f(x, y) ∇f(x,y),即有:
gradf ( x , y ) = ∇ f ( x , y ) = { ∂ f ∂ x , ∂ f ∂ y } = f x ( x , y ) i ‾ + f y ( x , y ) j ‾ \operatorname{gradf}(x, y)=\nabla f(x, y)=\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}=f_{x}(x, y) \overline{i}+f_{y}(x, y) \overline{j} gradf(x,y)=∇f(x,y)={∂x∂f,∂y∂f}=fx(x,y)i+fy(x,y)j
其中 ∇ = ∂ ∂ x i ‾ + ∂ ∂ y j ‾ \nabla=\frac{\partial}{\partial x} \overline{i}+\frac{\partial}{\partial y} \overline{j} ∇=∂x∂i+∂y∂j称为(二维的)向量微分算子或Nabla算子, ∇ f = ∂ f ∂ x i ‾ + ∂ f ∂ y j ‾ \nabla f=\frac{\partial f}{\partial x} \overline{i}+\frac{\partial f}{\partial y} \overline{j} ∇f=∂x∂fi+∂y∂fj。设 e = { cos α , cos β } e=\{\cos \alpha, \cos \beta\} e={cosα,cosβ}是方向l上的单位向量,则:
∂ f ∂ l = ∂ f ∂ x cos α + ∂ f ∂ y cos β = { ∂ f ∂ x , ∂ f ∂ y } { cos α , cos β } = grad f ( x , y ) e = ∣ grad f ( x , y ) ∣ ∣ e ∣ cos [ grad f ( x , y ) , e ] \begin{array}{l}{\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x} \cos \alpha+\frac{\partial f}{\partial y} \cos \beta=\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}\{\cos \alpha, \cos \beta\}} \\ {=\operatorname{grad} f(x, y) e=|\operatorname{grad} f(x, y)||e| \cos [\operatorname{grad} f(x, y), e]}\end{array} ∂l∂f=∂x∂fcosα+∂y∂fcosβ={∂x∂f,∂y∂f}{cosα,cosβ}=gradf(x,y)e=∣gradf(x,y)∣∣e∣cos[gradf(x,y),e]
由于当方向l与梯度方向一致时,有:
cos [ grad f ( x , y ) , e ] = 1 \cos [\operatorname{grad} f(x, y), e]=1 cos[gradf(x,y),e]=1
所以当l与梯度方向一致时,方向导数 ∂ f ∂ l \frac{\partial f}{\partial l} ∂l∂f有最大值,且最大值为梯度的模,即:
∣ grad f ( x , y ) ∣ = ( ∂ f ∂ x ) 2 + ( ∂ f ∂ y ) 2 |\operatorname{grad} f(x, y)|=\sqrt{\left(\frac{\partial f}{\partial x}\right)^{2}+\left(\frac{\partial f}{\partial y}\right)^{2}} ∣gradf(x,y)∣=(∂x∂f)2+(∂y∂f)2
因此说,函数在一点沿梯度方向的变化率最大,最大值为该梯度的模。
如函数f的定义成domf为凸集,且满足:
∀ x , y ∈ dom f , 0 ≤ θ ≤ 1 , 有 f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \begin{array}{l}{\forall x, y \in \operatorname{dom} f, 0 \leq \theta \leq 1, 有} \\ {f(\theta x+(1-\theta) y) \leq \theta f(x)+(1-\theta) f(y)}\end{array} ∀x,y∈domf,0≤θ≤1,有f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
则称 f ( θ ) f(\theta) f(θ)为凸函数(convex function)。
为了节约时间,这里就不在多介绍了,以下链接可参考了解凸函数
凸函数相关介绍
条件概率:
P ( A ∣ B ) = P ( A B ) P ( B ) P(A | B)=\frac{P(A B)}{P(B)} P(A∣B)=P(B)P(AB)
全概率公式:
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i} P\left(A | B_{i}\right) P\left(B_{i}\right) P(A)=i∑P(A∣Bi)P(Bi)
贝叶斯(Bayes)公式
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j P ( A ∣ B j ) P ( B j ) P\left(B_{i} | A\right)=\frac{P\left(A | B_{i}\right) P\left(B_{i}\right)}{\sum_{j} P\left(A | B_{j}\right) P\left(B_{j}\right)} P(Bi∣A)=∑jP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
常见的概率分析:
例子:
概率 P 是对随机事件发生的可能性的度量。
例如,小明在期末考试前,统计了下自己在今年的数学考试成绩,结果显示得到80分以下的次数为2次,得80分~90分的次数为10次,得到90分以上次数为3次,那么小明得到 80分以下的概率为
P ( < 80 ) = 2 / ( 2 + 10 + 3 ) = 13.3 P( < 80 ) = 2/(2+10+3) = 13.3% P(<80)=2/(2+10+3)=13.3
80~90分的概率为:
P ( 80 90 ) = 10 / ( 2 + 10 + 3 ) = 66.7 P( 80 ~ 90) = 10/(2+10+3) = 66.7% P(80 90)=10/(2+10+3)=66.7
90分以上的概率:
P ( > 90 ) = 3 / ( 2 + 10 + 3 ) = 20 P( > 90) = 3/(2+10+3) = 20% P(>90)=3/(2+10+3)=201、均匀分布概率密度函数
f ( x ) = 1 b − a , a < x < b ; 否 则 f ( x ) = 0 f(x)=\frac{1}{b-a}, a<x<b ; 否则 f(x)=0 f(x)=b−a1,a<x<b;否则f(x)=0均值和方差:
u = a + b 2 ; var = b − a 12 u=\frac{a+b}{2} ; \operatorname{var}=\frac{b-a}{12} u=2a+b;var=12b−a
2、伯努利分布
逻辑回归二分类的结果就服从伯努利分布,因为逻辑回归二分类就给出两个结果正例负例。既然结果只有0-1两种,那么很显然它的概率分布就是离散型。
伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:
P r [ X = 1 ] = p P r [ X = 0 ] = 1 − p \begin{array}{l}{P_{r}[X=1]=p} \\ {P_{r}[X=0]=1-p}\end{array} Pr[X=1]=pPr[X=0]=1−p
努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗等等,如果试验 E E E是一个伯努利试验,将 E E E独立重复地进行 n n n次,则称这一串重复的独立试验为 n n n重伯努利试验。
进行一次伯努利试验,成功 ( X = 1 ) (X=1) (X=1)概率为 p ( 0 < = p < = 1 ) p(0<=p<=1) p(0<=p<=1),失败 ( X = 0 ) (X=0) (X=0)概率为 1 − p 1-p 1−p,则称随机变量 X X X服从伯努利分布。伯努利分布是离散型概率分布,其概率质量函数为:
f ( x ) = p x ( 1 − p ) 1 − x = { p if x = 1 1 − p if x = 0 0 otherwise f(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {1-p} & {\text { if } x=0} \\ {0} & {\text { otherwise }}\end{array}\right. f(x)=px(1−p)1−x=⎩⎨⎧p1−p0 if x=1 if x=0 otherwise
3、二项分布
二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。如果试验 E E E是一个 n n n重伯努利试验,每次伯努利试验的成功概率为 p p p, X X X代表成功的次数,则 X X X的概率分布是二项分布,记为 X B ( n , p ) X~B(n,p) X B(n,p),其概率质量函数为:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k ( k = 0 , 1 , ⋯   , n ) \begin{array}{c}{P(X=k)=\left (\begin{array}{c}{n} \\ ^{k} \end{array} \right )p^{k}(1-p)^{n-k}} \\ {(k=0,1, \cdots, n)}\end{array} P(X=k)=(nk)pk(1−p)n−k(k=0,1,⋯,n) ∑ k = 0 n P { X = k } = ∑ k = 0 n C n k p k ( 1 − p ) n − k = [ p + ( 1 − p ) ] n = 1 \sum_{k=0}^{n} P\{X=k\}=\sum_{k=0}^{n} C_{n}^{k} p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1 k=0∑nP{X=k}=k=0∑nCnkpk(1−p)n−k=[p+(1−p)]n=1从定义可以看出,伯努利分布是二项分布在n=1时的特例
二项分布名称的由来,是由于其概率质量函数中使用了二项系数 C n k C_{n}^{k} Cnk,该系数是二项式定理中的系数,二项式定理由牛顿提出:
( x + y ) n = C n k x k y n − k (x+y)^{n}=C_{n}^{k} x^{k} y^{n-k} (x+y)n=Cnkxkyn−k
二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。
如果实验满足以下两种条件:
在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立;
相互独立,与其它各次试验结果无关;
事件发生与否的概率在每一次独立试验中都保持不变。
则实验的结果对应的分布为二项分布。
当试验次数为1时,二项分布服从0-1分布。
例子:
例如,一堆苹果有好的,有坏的,从中取10次,定义随机变量:从中取得好苹果的个数 X X X,那么认为 X X X服从二项分布。
实验得到的结果:比如经过10次实验后分布结果为:7好,3坏;再经过10次实验后分布结果为:8好,2坏。经过这20次实验,可以根据最大似然估计求出我们可求出二项分布的参数:从这堆苹果中取到一个好苹果的概率。
因为在20次实验中,出现了15好,5坏,因此一次取到好苹果概率为:15/20 = 0.75,根据最大似然估计,认为从整个样本中取到一个好苹果的概率也为:0.75。
出现这种分布的概率有多大,由二项分布的概率计算公式:
P ( X = k ) = C m k p k ( 1 − p ) m − k P(X=k)=C_{m}^{k} p^{k}(1-p)^{m-k} P(X=k)=Cmkpk(1−p)m−k其中: k k k表示出现好苹果的个数, p p p表示一次实验出现好苹果的概率, k k k的取值范围为: 0 m 0~m 0 m,最小值为0个好苹果,最大值为 m m m个好苹果(所有的都是好苹果)。 P ( X = 15 ) = C 20 15 0.7 5 15 0.2 5 5 P(X=15)=C_{20}^{15} 0.75^{15} 0.25^{5} P(X=15)=C20150.75150.255
通过以上20次随机试验中,最终得到15个好苹果,如果一次看下好苹果的个数 k = 0 − 20 k=0-20 k=0−20,它们各自的分布概率,变化曲线如下通过python源码实现所示:
# 计算组合数
from scipy.special import comb,perm
import numpy as np
import matplotlib.pyplot as plt
# 二项分布概率计算公式
def getp(m,n,pa):
if m<n:
return 0.0
return comb(m,n)*(pa**n)*((1-pa)**(m-n))
# 获取画图数据
klist = np.arange(21)
plist = [getp(m=20,n=k,pa=0.75) for k in klist]
plt.plot(klist,plist) # klist:x轴,plist:y轴
plt.xlabel('number of good apples')
plt.ylabel('k-distribution proba')
plt.title('distribution proba')
plt.xticks(np.arange(0,22,1))
plt.grid()
plt.show()
如上图结果所示,当k=15时,取得的概率最大,也就是说明,期望值分布中最有可能发生:15个好果子,5个坏果子。二项分布是随机变量为离散型随机变量且当试验次数为1时服从0-1分布,它是重复n次的独立的伯努利试验。这种分布下,对个数的期望等于二项分布中概率发生最大的取值个数
4、泊松分布
假设我们一个产品,统计用户性别比例男性占60%,假设有100个注册新用户,这100个注册用户,有1个为男的概率是多少?有两个为2男的概率是多少?有3个为男的概率是多少?依次下去,显然泊松分布是连续型分布。
P ( x ) = e − λ ( λ x / x ! ) P(x)=e^{-\lambda}\left(\lambda^{x} / x !\right) P(x)=e−λ(λx/x!)有的书里面把 P ( x ; p = 0.6 ) P(x;p=0.6) P(x;p=0.6)为 P ( x ∣ p = 0.6 ) P(x|p=0.6) P(x∣p=0.6)看着还挺不舒服的,不知道以为是条件概率。条件概率的话,因为都为变量而不存在常量。
均值与方差: u = λ ; var = λ u=\lambda ; \operatorname{var}=\lambda u=λ;var=λ
5、指数分布
同样以app用户注册为例,一个小时注册100个,那么在单位时间为一个小时的前提下,一个男的都没有的概率是多少?把x=0带入泊松分布公式.
P ( x = 0 ) = e − λ P(x=0)=e^{-\lambda} P(x=0)=e−λ则有男性的概率为: P ( x ! = 0 ) = 1 − e − λ P(x !=0)=1-e^{-\lambda} P(x!=0)=1−e−λ则一般形式: P ( x ) = 1 − e − λ t P(x)=1-e^{-\lambda t} P(x)=1−e−λt指数分布的应用,如果让你求两个小时内有男人注册的概率你应该会求,对比泊松分布只关注有几个男人注册,而指数分布则只关注是否有男性用户注册。
均值与方差: u = 1 λ ; v a r = 1 λ 2 u=\frac{1}{\lambda} ; v a r=\frac{1}{\lambda^{2}} u=λ1;var=λ21
离散型
E ( X ) = ∑ i x i p i E(X)=\sum_{i} x_{i} p_{i} E(X)=i∑xipi
连续型
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infty}^{\infty} x f(x) d x E(X)=∫−∞∞xf(x)dx
例子:
期望值 E E E,在一个离散性随机变量实验中,重复很多次实验,每次实验的结果乘以其出现的概率的总和。
如上例中,小明在今年的期末考试,我们对他的期望值大约是多少呢?套用上面的公式,80分以下的值取一个代表性的分数:70分,80~90:85分,90分以上:95分,
E = 70 ∗ 0.133 + 85 ∗ 0.667 + 95 ∗ 0.2 E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2 E=70∗0.133+85∗0.667+95∗0.2
计算出的结果为 85,即期末考试我们对小明的合理期望是 85 分左右。
定义:
Var ( X ) = E { [ X − E ( X ) ] 2 } = E ( X 2 ) − E 2 ( X ) \left.\operatorname{Var}(X)=E{}\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-E^{2}(X) Var(X)=E{[X−E(X)]2}=E(X2)−E2(X)
无条件成立:
Var ( c ) = 0 Var ( X + c ) = Var ( X ) Var ( k X ) = k 2 Var ( X ) \begin{array}{l}{\operatorname{Var}(c)=0} \\ {\operatorname{Var}(X+c)=\operatorname{Var}(X)} \\ {\operatorname{Var}(k X)=k^{2} \operatorname{Var}(X)}\end{array} Var(c)=0Var(X+c)=Var(X)Var(kX)=k2Var(X)
X 和 Y 独 立 X和Y独立 X和Y独立
Var ( X + Y ) = Var ( X ) + Var ( Y ) \operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) Var(X+Y)=Var(X)+Var(Y)
除此之外,方差的平方根,称为标准差。
方差 σ 2 \sigma^{2} σ2,用来度量随机变量取值和其期望值之间的偏离程度:
σ 2 = ∑ ( X − μ ) 2 N \sigma^{2}=\frac{\sum(X-\mu)^{2}}{N} σ2=N∑(X−μ)2
其中:
X 表示小明的分数这个随机变量
N 表示样本的个数,即在此15个
已经知道小明的15次考试的分数,均值刚才计算出来了为 85分,带入到上面的公式中,便能得出偏离85分的程度大小。那么小明很可能期末考试分数在85分左右。方差开根号,得到标准差,即为 σ \sigma^{} σ。
定义:
Cov ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } \operatorname{Cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
性质:
Cov ( X , Y ) = Cov ( Y , X ) Cov ( a X + b , c Y + d ) = acCov ( X , Y ) Cov ( X 1 + X 2 , Y ) = Cov ( X 1 , Y ) + Cov ( X 2 , Y ) Cov ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) \begin{array}{c}{\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X)} \\ {\operatorname{Cov}(a X+b, c Y+d)=\operatorname{acCov}(X, Y)} \\ {\operatorname{Cov}\left(X_{1}+X_{2}, Y\right)=\operatorname{Cov}\left(X_{1}, Y\right)+\operatorname{Cov}\left(X_{2}, Y\right)} \\ {\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)}\end{array} Cov(X,Y)=Cov(Y,X)Cov(aX+b,cY+d)=acCov(X,Y)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X,Y)=E(XY)−E(X)E(Y)
其中:
X, Y 是两个随机变量
E ( X ) , E ( Y ) E(X),E(Y) E(X),E(Y) 是对应两个随机变量的均值
如果两个变量是高度同向的,即X变大,Y也变大,那么对应的协方差也就很大;如果每次X变大,Y就变小,那么X和Y的协方差可能就会为负数。
例如:经过观察,我们发现小明的数学成绩和物理成绩的分数分布情况高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那么我们就说小明的数学和物理成绩的协方差很大。
我们考虑具有一般性的公式,通常相关系数的定义如下:
r = Cov ( X , Y ) σ X σ Y r=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}} r=σXσYCov(X,Y)
发现这个相关系数与协方差紧密相关,只不过又除以了X的标准差和Y的标准差,也就是说,是一种剔除了X和Y这两个偏离程度量纲的影响,标准化后的特殊协方差。
除了以上的知识点之外还要好多,例如:极限、微分学、泰勒级数、Jensen不等式等等,具体看参考:
https://blog.csdn.net/qq_39975984/article/details/78950339
指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。
先说说独立这个概念。在预测昆明区域的房屋价值时,房屋样本 x 1 x1 x1和样本 x 2 x2 x2之间的预测是相互独立的,它们之间不存在任何关系,这也是接近实际的。
同分布是指预测的房屋都是来自于昆明这块区域的,你不能拿北京的某个小三居扔到这个模型中去做预测吧,如果非要这样,误差一定会很大。
高斯分布(Gaussian distribution), 又称为正态分布(Normal distribution),是一个非常重要在各个领域有广泛应用的概率分布
正态曲线的特点是中间高,两头低,左右对称,人们经常称之为钟形曲线。若随机变量 X X X服从一个数学期望为 μ μ μ、方差为 σ 2 σ^2 σ2的正态分布,记为 N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2)。其概率密度函数为正态分布的,期望值 μ μ μ决定了它的位置,标准差 σ 2 σ^2 σ2数据的偏离程度。当 μ = 0 , σ = 1 μ = 0,σ = 1 μ=0,σ=1时的高斯分布又称为标准正态分布。
若随机变量服从如下的概率密度函数,则表明是一维正态分布:
f ( x ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) f(x)=2πσ1exp(−2σ2(x−μ)2)
当然,还有多维正态分布,在此不做详述。
其中:exp,高等数学里以自然常数e为底的指数函数。
似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。
给定输出 x x x时,关于参数 θ θ θ的似然函数 L ( θ ∣ x ) L(θ|x) L(θ∣x),在数值上它等于给定参数 θ 后变量 X 的概率:
L ( θ ∣ x ) = P ( X = x ∣ θ ) L(\theta | x)=P(X=x | \theta) L(θ∣x)=P(X=x∣θ)
说白了就是一个条件概率,当然这个是非常重要的!。
举例说明:
举个例子,我们抛掷一枚硬币,这枚硬币不是理论上的一半一半的出现概率,而是动了手脚的,出现正面的概率是0.2,现在我们预测一下抛掷10次,出现正面的次数是多少,如果用 X X X表示出现正面的次数,那么
P ( X ) = 0.2 P(X) = 0.2 P(X)=0.2 E ( X ) = 0.2 ∗ 10 = 2 次 E(X) = 0.2 * 10 = 2 次 E(X)=0.2∗10=2次
现在我们抛掷10枚这个硬币,结果显示,有2次出现正面,现在预测下这枚硬币出现正面的概率到底有多大呢?这就是一个似然问题,求解模型本身的一些属性。求解它需要假定误差分布满足高斯分布,然后求出似然函数,因为既然已经发生了,就直接求概率发生的最大值吧,既然求最值,自然就能求出出现正面的概率参数来了。
概率与似然的不同
概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果。而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计:似然是在知道输出结果(比如,对应1万个样本结果),求事物的性质的参数,如线性回归的中的权重参数。
一堆苹果,数量一共有5个,有好的,有坏的,如果定义事件:从中取出一个苹果其好坏标签为 X X X,那么 X X X就是一个随机变量,且 X X X 的可能取值有两种: x 0 = 好 果 x0 = 好果 x0=好果, x 1 = 坏 果 x1 = 坏果 x1=坏果。明显地,这个随机变量 X X X取值是离散的,因为只有两种情况。并且, P ( X 0 ) + P ( X 1 ) = 1 P(X0) + P(X1) = 1 P(X0)+P(X1)=1,因为这个苹果要么是好的,要么是坏的。
然后,我们统计这5个苹果后,发现有2个是好果,3个是坏果,那么如果定义这种事件:从这5个苹果中任意取3个求取得的好苹果的个数 X X X,那么这个随机变量 X X X有什么特点呢? 它与上面定义的那个随机变量就不大一样了吧,此时, X X X仍然是离散型随机变量,但是它可能的取值为:取到0个好苹果,1个好苹果,2个好苹果,这三种取值可能吧。
接下来,分析下这个离散型随机变量 X X X的分布律,由古典概率的方法得出:
P { X = i } = C 2 i C 3 3 − i C 5 3 P\{X=i\}=\frac{C_{2}^{i} C_{3}^{3-i}}{C_{5}^{3}} P{X=i}=C53C2iC33−i其中, i = 0,1,2,可以得出:
可以看到三者的概率和为1,那么随机变量X的分布函数F(x)的图形显示如下:
这里顺便总结下离散型随机变量的分布函数:
分布函数:简单来说是对概率的定积分,是一个区间上的概率累加。
离散型分布函数:是离散变量的概率在有限个变量区间内的概率累加。
如上图所示, F ( 1 ) = P ( X < = 1 ) = P ( X = 0 ) + P ( X = 1 ) = 0.7 F(1) = P(X<=1) = P(X=0) + P(X = 1) = 0.7 F(1)=P(X<=1)=P(X=0)+P(X=1)=0.7, F ( 1.9 ) = P ( X < = 1.9 ) F(1.9) = P(X<=1.9) F(1.9)=P(X<=1.9),因为是离散的,直到 F ( 2 ) = P ( X < = 2 ) F(2) = P(X<=2) F(2)=P(X<=2)时, F ( 2 ) F(2) F(2)才取到1.0。由此可见,离散型随机变量的分布函数呈现阶梯型增长规律。
连续型随机变量,顾名思义,它的取值是连续的,而不是有限个,比如庆阳的苹果质量情况,表示为 X X X,那么 X = 0.4 , 0.7 , 0.91 X = 0.4, 0.7, 0.91 X=0.4,0.7,0.91等等这些值,并且越接近于1.0,这个苹果的质量越好。那么苹果质量情况 X X X,在 X = 0.75 X = 0.75 X=0.75时的概率是多大呢? 我们记为: P ( 0.75 ) P(0.75) P(0.75),在 X = 0.83 X = 0.83 X=0.83时的概率呢? P ( 0.83 ) P(0.83) P(0.83),我们称: P ( x ) P(x) P(x)为连续型随机变量X的概率密度,它刻画了 X = x X=x X=x时的取值的可能性大小,而不是取值的概率。那么我们统计下 P ( X < = 0.75 ) P(X<=0.75) P(X<=0.75)是多大呢?(质量情况不大于0.75的概率密度),此时我们将 F ( 0.75 ) = P ( X < = 0.75 ) F(0.75) = P(X<=0.75) F(0.75)=P(X<=0.75),那么 P ( X < = 0.5 ) P(X<=0.5) P(X<=0.5)呢?记为 F ( 0.5 ) = P ( X < = 0.5 ) F(0.5) = P(X<=0.5) F(0.5)=P(X<=0.5)。因此,归纳出一个公式为: F ( x ) = ∫ 0 x p ( t ) d t \mathrm{F}(\mathrm{x})=\int_{0}^{\mathrm{x}} p(t) d t F(x)=∫0xp(t)dt此处,质量情况不可能为负数,所以定积分的区间: [ 0 , x ] [0,x] [0,x]。称 F ( x ) F(x) F(x)为质量情况 X X X 的分布函数,可以看到分布函数是一个区间长度上概率密度的累计。
至于概率密度 P ( x ) P(x) P(x)和 F ( x ) F(x) F(x)的关系,一个是导数,一个是积分, F ( x ) F(x) F(x)在 x x x属于[负无穷,正无穷]是一定等于概率的总和:1。
在考察随机变量 X X X的取值 x x x的概率密度曲线: P ( x ) P(x) P(x),通过概率密度曲线,可以看出随机变量的取值与概率密度的关系。具体看参考如下所示的苹果质量情况 X X X满足高斯分布时的曲线。
例子
做出归纳假设:苹果质量情况 X 满足高斯分布。我们收集了20个苹果,每个苹果的质量情况现在出来报告了,如下所示:
data = np.array([ 0.79, 0.78, 0.8 , 0.79, 0.77, 0.81, 0.74, 0.85, 0.8 ,0.77, 0.81, 0.85, 0.85, 0.83, 0.83, 0.8 , 0.83, 0.71, 0.76, 0.8 ])
假定这20个苹果质量情况X符合高斯分布,则由一维高斯分布的概率密度公式:
f ( x ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) f(x)=2πσ1exp(−2σ2(x−μ)2)可以看到,在我们已知了20个样本,也就是 x x x,现在要反推高斯分布中的两个关键参数:均值和方差。
已知各个样本和假定模型后,去求解模型的参数,最常用的方法是最大似然估计。根据已有这20个样本和最大似然估计推导得出,均值和方差的公式如下:
μ = 1 20 ∑ i = 1 20 x i σ 2 = 1 20 ∑ i = 1 20 ( x i − μ ) 2 \begin{array}{l}{\mu=\frac{1}{20} \sum_{i=1}^{20} x_{i}} \\ {\sigma^{2}=\frac{1}{20} \sum_{i=1}^{20}\left(x_{i}-\mu\right)^{2}}\end{array} μ=201∑i=120xiσ2=201∑i=120(xi−μ)2有了这两个参数,就可得到每个 x x x对应的概率密度 f ( x ) f(x) f(x),这样根据20个样本,就可得到概率密度的分布图,具体如下所示:
"""
author:jjk
datetime:2019/5/2
coding:utf-8
project name:Pycharm_workstation
Program function:
"""
import numpy as np
import matplotlib.pyplot as plt
# 均值
def average(data):
return np.sum(data)/len(data)
# 标准差
def sigma(data,avg):
sigma_squ = np.sum(np.power((data-avg),2))/len(data)
return np.power(sigma_squ,0.5) # 数组元素求n次方
# 高斯概率分布-具体参考一维高斯分布的概率密度公式
def prob(data,avg,sig):
sqrt_2pi = np.power(2*np.pi,0.5)# 乘pi开根号
coef = 1/(sqrt_2pi*sig)
powcoef = -1/(2*np.power(sig,2))# sig表示分子
mypow = powcoef*(np.power((data-avg),2))# 数据减去均值
return coef*(np.exp(mypow)) # np.exp(mypow):e的次方那部分
# 样本数据
data = np.array([ 0.79, 0.78, 0.8 , 0.79, 0.77, 0.81, 0.74, 0.85, 0.8 ,
0.77, 0.81, 0.85, 0.85, 0.83, 0.83, 0.8 , 0.83, 0.71,
0.76, 0.8 ])
# 根据样本求高斯分布的平均数
ave = average(data)
# 根据样本求高斯分布的标准差
sig = sigma(data,ave)
# 获取数据
x = np.arange(0.5,1.0,0.01)
p = prob(x,ave,sig)
# 绘制
plt.plot(x,p)
plt.grid()
plt.xlabel('apple quality factor')
plt.ylabel('prob density')
plt.yticks(np.arange(0,12,1)) # y轴长度以及间隔
plt.title('Gaussian distribution')
plt.show()
求导公式在机器学习的梯度下降中经常使用,因为梯度就意味着要求导,所以将使用频率最高的几个公式罗列在下面,方便查阅。
y = x n , y ′ = n x n − 1 y = a x , y ′ = a x ln a y = e x , y ′ = e x y = ln x , y ′ = 1 x \begin{array}{l}{y=x^{n}, y^{\prime}=n x^{n-1}} \\ {y=a^{x}, y^{\prime}=a^{x} \ln a} \\ {y=e^{x}, y^{\prime}=e^{x}} \\ {y=\ln x, y^{\prime}=\frac{1}{x}}\end{array} y=xn,y′=nxn−1y=ax,y′=axlnay=ex,y′=exy=lnx,y′=x1
在求导这一块,在我们高等数学都学过了,都不难,不懂的直接百度查找:例如:高等数学-相关求导。