指数族分布、广义线性模型、逻辑回归前传

1、伯努利分布

伯努利分布(英语:Bernoulli distribution,又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)若伯努利试验成功,则伯努利随机变量取值为1。若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为 p(0p1)q=1p

  • 其概率密度函数为:

    fX(x)=px(1p)1x=pif x=1,q=1pif x=0,0otherwise(1.1)

  • 其期望值为

    E(X)=i=01xifX(x)=0q+1p=p(1.2)

  • 其方差为
    var(X)=i=01(xiE(x))2fX(x)=(0p)2(1p)+(1p)2p=pq(1.3)

2、二项分布

二项分布为进行n次独立伯努利试验中成功的次数的离散概率分布。

2.1概率密度和累计概率密度

XnpXb(n,p)XB(n,p)

  • n次试验中正好得到k次成功的概率由概率质量函数:

    f(k;n,p)=Pr(K=k)=(nk)pk(1p)nk=C(n,k)pk(1p)nk=n!k!(nk)!pk(1p)nk

  • 累积概率密度函数为:

    F(x;n,p)=Pr(X<x)=i=0x(ni)pi(1p)ni

2.2、期望和方差

  • 期望为:
    • E(X)=np
  • 方差为:
    • var(X)=np(1p)

3、指数族分布

3.1、指数族通式

指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布:

p(y;η)=b(y)exp(ηTT(y)a(η))

ηnatural parameterT(y)expa(η)

3.2、伯努利分布的指数形式

令伯努利分布的随机变量为y,发生的概率为p

y 1 0
p ϕ 1ϕ

则概率密度为:

p(y;ϕ)=ϕy(1ϕ)1y=exp(lnϕy(1ϕ)1y)=exp(ylnϕ1ϕ+ln(1ϕ))(3.2.1)

把伯努利分布写成指数族分布形式则:

T(y)=y(3.2.2)

η=lnϕ1ϕ(3.2.3)

a(η)=ln(1ϕ)=ln(1+eη)(3.2.4)

b(y)=1(3.2.5)

4、广义线性模型

4.1、广义线性模型假设条件

yy(feature)x广线:

  1. p(y|x;θ)
  2. x,T(y)=yxE[T(y)|x]T(y)=y,hθ(x)=E[y|x] .
  3. η x线:η=θTx .

4.2 逻辑回归

LRy0,1,p(y|x;θ) Bernoulli(ϕ),

hθ(x)=E(y|x;θ)(4.2.1)

因为伯努利分布期望性质,
E(y|x;θ)=ϕ(4.2.2)

并根据公式3.2.3可得:
ϕ=11+eη(4.2.3)

根据假设3 η=θTx,4.2.14.2.24.2.3
hθ(x)=11+eθTx

逻辑回归(LR)的 P(y=1|x)=11+eθTx ,它即是在伯努利分布和广义线性模型的假设下推导而来,逻辑回归也自然是一种广义线性模型。

你可能感兴趣的:(machineLearning)