PT_大数定律LLN

文章目录

  • 概率基础不等式
    • 马尔可夫不等式
      • 推导
    • 切比雪夫不等式
      • 推导
  • 依概率收敛
    • 定义
      • 直观解释
      • 特点
    • 服从大数定律
  • 大数定律
    • chebyshev LLN
      • 应用
    • bernoulli LLN
      • 意义
    • Khinchin LLN
  • 总结

概率基础不等式

马尔可夫不等式

  • Markov’s inequality - Wikipedia
  • 在概率论中,马尔可夫不等式(英语:Markov’s inequality)
    • 给出了随机变量的函数大于等于某正数概率上界
    • X为一非负随机变量
      • P ( X ⩾ a ) ⩽ E ( X ) a P(X\geqslant{a})\leqslant{\frac{E(X)}{a}} P(Xa)aE(X)
  • 马尔可夫不等式把概率关联到数学期望,给出了随机变量的累积分布函数一个宽泛但仍有用的
    • 马尔可夫不等式的一个应用是,不超过1/5的人口会有超过5倍于人均收入的收入

推导

  • 连续型随机变量(X为一非负随机变量)为例

  • E ( X ) = ∫ − ∞ ∞ x f ( x ) d x = ∫ 0 ∞ x f ( x ) d x ⩾ ∫ a ∞ x f ( x ) d x ⩾ ∫ a ∞ a f ( x ) d x = a ∫ a ∞ f ( x ) d x = a P ( X ⩾ a ) . ∴ P ( X ⩾ a ) ⩽ E ( X ) a { \begin{aligned}{\textrm {E}}(X) &=\int _{-\infty }^{\infty }xf(x)dx \\&=\int _{0}^{\infty }xf(x)dx \\[6pt]&\geqslant \int _{a}^{\infty }xf(x)dx \\[6pt]&\geqslant \int _{a}^{\infty }af(x)dx \\[6pt]&=a\int _{a}^{\infty }f(x)dx \\[6pt]&=a{\textrm {P}}(X\geqslant a). \end{aligned} } \\ \therefore \boxed{P(X\geqslant{a})\leqslant{\frac{E(X)}{a}}} E(X)=xf(x)dx=0xf(x)dxaxf(x)dxaaf(x)dx=aaf(x)dx=aP(Xa).P(Xa)aE(X)

  • 随机变量的由于非负性 ( X ⩾ 0 ) (X\geqslant{0}) (X0)

    • 也就是说,随机变量X的取值(观测值)落在概率密度函数f(x)的负半轴区间的概率为0

    • 因此

      • f ( x ) = 0 , x ⩽ 0 ∫ − ∞ 0 f ( x ) d x = 0 f(x)=0,x\leqslant{0} \\ \int_{-\infin}^{0}f(x)dx=0 f(x)=0,x00f(x)dx=0
  • F ( a ) = ∫ − ∞ a f ( x ) d x F ( + ∞ ) = ∫ − ∞ + ∞ f ( x ) d x = 1 1 − F ( a ) = ∫ a + ∞ f ( x ) d x F ( a ) = P ( X ⩽ a ) F(a)=\int_{-\infin}^{a}f(x)dx \\F(+\infin)=\int_{-\infin}^{+\infin}f(x)dx=1 \\1-F(a)=\int_{a}^{+\infin}f(x)dx \\ F(a)=P(X\leqslant{a}) F(a)=af(x)dxF(+)=+f(x)dx=11F(a)=a+f(x)dxF(a)=P(Xa)

  • 1 − F ( a ) = 1 − P ( X ⩽ a ) = P ( X > a ) P ( X = a ) = 0 ∴ P ( X ⩾ a ) = P ( X > a ) + P ( X = a ) = 1 − F ( a ) = ∫ a + ∞ f ( x ) d x ∫ a + ∞ f ( x ) d x = P ( X ⩾ a ) 1-F(a)=1-P(X\leqslant{a})=P(X>a) \\ P(X=a)=0 \\ \therefore P(X\geqslant{a})=P(X>a)+P(X=a)=1-F(a)=\int_{a}^{+\infin}f(x)dx \\\int_{a}^{+\infin}f(x)dx=P(X\geqslant{a}) 1F(a)=1P(Xa)=P(X>a)P(X=a)=0P(Xa)=P(X>a)+P(X=a)=1F(a)=a+f(x)dxa+f(x)dx=P(Xa)

切比雪夫不等式

  • chebyshev’s inequality

    • ref:Chebychev’s inequality and weak law of large numbers (CS 2800, Spring 2017) (cornell.edu)
    • Chebyshev’s inequality - Wikipedia
  • 通过方差来估计:

    • 随机变量的取值和期望之间的偏差大于某个正数 ε \varepsilon ε概率
      • P ( ∣ X − E ( X ) ∣ ⩾ ε ) P(|X-E(X)|\geqslant\varepsilon) P(XE(X)ε)
  • chebyshev不等式给出了这个概率的上界 U ( ε ) U(\varepsilon) U(ε)

    • D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2

    • U ( ε ) = D ( X ) ε 2 = σ 2 ε 2 U(\varepsilon)=\frac{D(X)}{\varepsilon^2}=\frac{\sigma^2}{\varepsilon^2} U(ε)=ε2D(X)=ε2σ2

  • 设随机变量X的方差存在:( D ( X ) 存在是 c h e b y s h e v 不等式作用的前提 D(X)存在是chebyshev不等式作用的前提 D(X)存在是chebyshev不等式作用的前提)

    • 根据概率的规范性,可写出chebyshev不等式的两种形式:

    • P ( ∣ X − E ( X ) ∣ ⩾ ε ) ⩽ D ( X ) ε 2 P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} P(XE(X)ε)ε2D(X)

      • 其中 , ε > 0 根据概率的规范性 : P ( ∣ X − E ( X ) ∣ < ε ) = 1 − P ( ∣ X − E ( X ) ∣ ⩾ ε ) , 可以写出另一形式 : 其中,\varepsilon>0 \\根据概率的规范性:P({|X-E(X)|}<\varepsilon)=1-P({|X-E(X)|\geqslant{\varepsilon}}), \\可以写出另一形式: 其中,ε>0根据概率的规范性:P(XE(X)<ε)=1P(XE(X)ε),可以写出另一形式:
  • P ( ∣ X − E ( X ) ∣ < ε ) ⩾ 1 − D ( X ) ε 2 P( |X-E(X)|<\varepsilon)\geqslant{1-\frac{D(X)}{ \varepsilon^2}} P(XE(X)<ε)1ε2D(X)

推导

  • 推导(连续型情况)

    • chebyshev inequality的推导

      • 在于利用事件 ∣ X − E ( X ) ∣ ⩾ ε > 0 |X-E(X)|\geqslant\varepsilon>0 XE(X)ε>0

        • ∣ X − E ( X ) ∣ ε ⩾ 1 \frac{|X-E(X)|}{\varepsilon}\geqslant{1} εXE(X)1
      • 也可以借助Markov不等式推导

      • 从而: ∣ X − E ( X ) ∣ ε ⩾ 1 |X-E(X)|{\varepsilon}\geqslant{1} XE(X)ε1,利用这个不等式进行放缩被积函数

      • ∣ X − E ( X ) ∣ ε ⩾ 1 ⇒ ∣ X − E ( X ) ∣ 2 ε 2 ⩾ 1 记 u = ∣ X − E ( X ) ∣ 2 ε 2 u f ( x ) ⩾ f ( x ) 将 E ( X ) 看作一个常数 , μ X = E ( X ) ( σ X 2 = D ( X ) = E ( X 2 ) − E 2 ( X ) 相对于自变量 x 可以视为常数 ) ; ( E ( X ) & D ( X ) 与随机变量 X 是函数关系 ) 积分变量设为 x 积分区间用不等式表示 : ∣ x − E ( X ) ∣ > ε \frac{|X-E(X)|}{\varepsilon}\geqslant{1} \\\Rightarrow \frac{{|X-E(X)|^2}}{\varepsilon^2}\geqslant{1} \\ 记u=\frac{{|X-E(X)|^2}}{\varepsilon^2} \\ uf(x) \geqslant{f(x)} \\ 将E(X)看作一个常数,\mu_X=E(X) \\(\sigma^2_{X}=D(X)=E(X^2)-E^2(X)相对于自变量x可以视为常数); \\(E(X)\&D(X)与随机变量X是函数关系) \\积分变量设为x \\积分区间用不等式表示:|x-E(X)|>\varepsilon εXE(X)1ε2XE(X)21u=ε2XE(X)2uf(x)f(x)E(X)看作一个常数,μX=E(X)(σX2=D(X)=E(X2)E2(X)相对于自变量x可以视为常数);(E(X)&D(X)与随机变量X是函数关系)积分变量设为x积分区间用不等式表示:xE(X)>ε

        P ( ∣ X − E ( X ) ∣ ⩾ ε ) = ∫ ∣ x − E ( X ) ∣ > ε f ( x ) d x ⩽ ∫ ∣ x − E ( X ) ∣ > ε ∣ x − E ( X ) ∣ 2 ε 2 f ( x ) d x ⩽ ∫ x ∈ R ( x − E ( X ) ) 2 ε 2 f ( x ) d x N o t e : ( 此处 , ∫ x ∈ R ⇔ ∫ − ∞ + ∞ ; ∫ x ∈ R f ( x ) d x = 1 ) = 1 ε 2 ∫ x ∈ R ( x − E ( X ) ) 2 f ( x ) d x = 1 ε 2 D ( X ) 上述证明中 , 对被积函数和被积分区域都进行了放缩 P({|X-E(X)|}\geqslant\varepsilon) =\int\limits_{|x-E(X)|>\varepsilon} f(x)\mathrm{d}x \\\LARGE\leqslant{} \normalsize \int\limits_{|x-E(X)|>\varepsilon} \frac{{|x-E(X)|^2}}{\varepsilon^2}f(x)\mathrm{d}x \\\LARGE\leqslant{} \normalsize \int\limits_{x\in{R}} \frac{{(x-E(X))^2}}{\varepsilon^2}f(x)\mathrm{d}x \\Note:(此处,\int\limits_{x\in{R}}\Leftrightarrow \int_{-\infin}^{+\infin};\int\limits_{x\in{R}} f(x)\mathrm{d}x=1) \\=\frac{1}{\varepsilon^2}\int\limits_{x\in{R}} {(x-E(X))^2}f(x)\mathrm{d}x \\=\frac{1}{\varepsilon^2}D(X) \\上述证明中,对被积函数和被积分区域都进行了放缩 P(XE(X)ε)=xE(X)>εf(x)dxxE(X)>εε2xE(X)2f(x)dxxRε2(xE(X))2f(x)dxNote:(此处,xR+;xRf(x)dx=1)=ε21xR(xE(X))2f(x)dx=ε21D(X)上述证明中,对被积函数和被积分区域都进行了放缩

      • 记 g ( X ) = ( X − E ( X ) ) 2 = ( X − μ X ) 2 , μ X = E ( X ) 是常数 则 g ( x ) = ( x − μ X ) 2 根据方差的展开公式 ( 连续型 ) D ( X ) = E ( g ( X ) ) = ∫ − ∞ + ∞ g ( x ) f ( x ) d x = ∫ − ∞ + ∞ ( x − E ( X ) ) 2 f ( x ) d x = ∫ − ∞ + ∞ ( x − μ X ) 2 f ( x ) d x = ∫ x ∈ R ( x − μ X ) 2 f ( x ) d x 记g(X)=(X-E(X))^2=(X-\mu_X)^2,\mu_X=E(X)是常数 \\则g(x)=(x-\mu_X)^2 \\根据方差的展开公式(连续型) \\D(X)=E(g(X)) =\int_{-\infin}^{+\infin}g(x)f(x)\mathrm{d}x \\=\int_{-\infin}^{+\infin}(x-E(X))^2f(x)\mathrm{d}x \\=\int_{-\infin}^{+\infin}(x-\mu_{X})^2f(x)\mathrm{d}x \\=\int_{x\in{R}}(x-\mu_{X})^2f(x)\mathrm{d}x g(X)=(XE(X))2=(XμX)2,μX=E(X)是常数g(x)=(xμX)2根据方差的展开公式(连续型)D(X)=E(g(X))=+g(x)f(x)dx=+(xE(X))2f(x)dx=+(xμX)2f(x)dx=xR(xμX)2f(x)dx

  • 设随机变量 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn独立同分布,且 X i X_i Xi的4阶矩存在

    • μ k = E ( X i k ) ( k = 1 , 2 , ⋯   , 4 ) \mu_k=E(X^k_i)(k=1,2,\cdots,4) μk=E(Xik)(k=1,2,,4)

    • 则由chebyshev不等式,对于 ∀ ϵ > 0 \forall \epsilon>0 ϵ>0, Q = P ( ∣ 1 n ∑ i = 1 n X i 2 − μ 2 ) ⩾ ϵ ⩽ S = ? Q=P(|\frac{1}{n}\sum\limits_{i=1}^{n}X_i^2-\mu_2)\geqslant{\epsilon}\leqslant{S=?} Q=P(n1i=1nXi2μ2)ϵS=?

    • c h e b y s h e v 不等式形式 : P ( ∣ X − E ( X ) ∣ ⩾ ϵ ) ⩽ D ( X ) ϵ 2 尝试令 X = X i 2 ‾ = 1 n ∑ i = 1 n X i 2 E ( X ) = E ( X i 2 ‾ ) = 1 n ∑ i = 1 n E ( X i 2 ) = 1 n ∑ i = 1 n μ 2 = 1 n ( n × μ 2 ) = μ 2 这恰好和 Q 的形式对应上了 D ( X ) = D ( X i 2 ‾ ) = 1 n 2 ∑ i = 1 n D ( X i 2 ) D ( X i 2 ) = E ( ( X i 2 ) 2 ) − E 2 ( X i 2 ) = μ 4 − μ 2 2 ( 或者另一条路 : D ( X ) = E ( X 2 ) − E 2 ( X ) = E ( ( X i ‾ 2 ) 2 ) ⋯   , 并不顺利 ) D ( X ) = 1 n 2 n ( μ 4 − μ 2 2 ) S = D ( X ) ϵ 2 = μ 4 − μ 2 2 n ϵ 2 chebyshev不等式形式: \\P(|X-E(X)|\geqslant{\epsilon})\leqslant{\frac{D(X)}{\epsilon^2}} \\尝试令X=\overline{X_i^2}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^2 \\E(X)=E(\overline{X_i^2})=\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i^2) =\frac{1}{n}\sum\limits_{i=1}^{n}\mu_2=\frac{1}{n}(n\times{\mu_2})=\mu_{2} \\这恰好和Q的形式对应上了 \\D(X)=D(\overline{X_i^2})=\frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i^2) \\D(X_i^2)=E((X_i^2)^2)-E^2(X_i^2)=\mu_4-\mu_2^2 \\(或者另一条路: D(X)=E(X^2)-E^2(X)=E((\overline{X_i}^2)^2)\cdots,并不顺利) \\D(X)=\frac{1}{n^2}n(\mu_4-\mu_2^2) \\S=\frac{D(X)}{\epsilon^2}=\frac{\mu_4-\mu_2^2}{n\epsilon^2} chebyshev不等式形式:P(XE(X)ϵ)ϵ2D(X)尝试令X=Xi2=n1i=1nXi2E(X)=E(Xi2)=n1i=1nE(Xi2)=n1i=1nμ2=n1(n×μ2)=μ2这恰好和Q的形式对应上了D(X)=D(Xi2)=n21i=1nD(Xi2)D(Xi2)=E((Xi2)2)E2(Xi2)=μ4μ22(或者另一条路:D(X)=E(X2)E2(X)=E((Xi2)2),并不顺利)D(X)=n21n(μ4μ22)S=ϵ2D(X)=nϵ2μ4μ22

依概率收敛

定义

  • 随机变量序列 {   X i   } , i = 1 , 2 , ⋯ 随机变量序列\set{X_i},i=1,2,\cdots 随机变量序列{Xi},i=1,2,

    • A是一个常数

    • ∀ ϵ > 0 \forall{\epsilon}>0 ϵ>0

    • lim ⁡ n → ∞ P ( ∣ X n − A ∣ < ϵ ) = 1 或 : lim ⁡ n → ∞ P ( ∣ X n − A ∣ ⩾ ϵ ) = 0 则称 {   X i   } 依赖概率收敛于常数 A 记为 : X n → P A 或 ( X n − A → P 0 ) \lim\limits_{n\to{\infin}}P(|X_n-A|<\epsilon)=1 \\或:\lim\limits_{n\to{\infin}}P(|X_n-A|\geqslant\epsilon)=0 \\则称\set{X_i}依赖概率收敛于常数A \\记为:X_n{\xrightarrow{P}}{A} \\或(X_n-A{\xrightarrow{P}}{0}) nlimP(XnA<ϵ)=1:nlimP(XnAϵ)=0则称{Xi}依赖概率收敛于常数A记为:XnP A(XnAP 0)

    • 特别的 , 当 A = 0 的时候 lim ⁡ n → ∞ P ( ∣ X n ∣ < ϵ ) = 1 或 lim ⁡ n → ∞ P ( ∣ X n ∣ ⩾ ϵ ) = 0 则称 {   X i   } 依赖概率收敛于 0 : X n → P 0 特别的,当A=0的时候 \\\lim\limits_{n\to{\infin}}P(|X_n|<\epsilon)=1 或\\ \lim\limits_{n\to{\infin}}P(|X_n|\geqslant\epsilon)=0 则称\set{X_i}依赖概率收敛于0: \\X_n\xrightarrow{P}0 特别的,A=0的时候nlimP(Xn<ϵ)=1nlimP(Xnϵ)=0则称{Xi}依赖概率收敛于0:XnP 0

      • 从极限的角度,也就是说符号 → P A 表示依概率收敛于 A ; P 表示概率 P r o b a b i l i t y \xrightarrow{P}{A}表示依概率收敛于A;P表示概率Probability P A表示依概率收敛于A;P表示概率Probability

直观解释

  • 以概率收敛的直观解释:
    • ∀ ϵ > 0 , n 充分大的时候 , X n 与 X 的偏差小于 ϵ \forall{\epsilon}>0,n充分大的时候,X_n与X的偏差小于\epsilon ϵ>0,n充分大的时候,XnX的偏差小于ϵ
    • 描述的是在概率意义下的收敛性
      • 当 n 很大的时候 , 我们有很大的把握可以保证 X n 与 X 很接近 ( 要多接近有多接近 ) 当n很大的时候,我们有很大的把握可以保证X_n与X很接近(要多接近有多接近) n很大的时候,我们有很大的把握可以保证XnX很接近(要多接近有多接近)

特点

  • 从形式上看,依概率收敛的定义中,被求极限的概率表达式部分: P ( ∣ X n − A ∣ ⩾ ϵ ) P(|X_n-A|\geqslant\epsilon) P(XnAϵ)很符合chebyshev不等式中的形式

    • P ( ∣ X − E ( X ) ∣ ⩾ ε ) ⩽ D ( X ) ε 2 lim ⁡ n → ∞ P ( ∣ X n − A ∣ ⩾ ϵ ) = 0 P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} \\ \lim\limits_{n\to{\infin}}P(|X_n-A|\geqslant\epsilon)=0 P(XE(X)ε)ε2D(X)nlimP(XnAϵ)=0

服从大数定律

  • 如果 {   X n ∣ n = 1 , 2 , ⋯   } 是一列随机变量序列 如果\set{X_n|n=1,2,\cdots}是一列随机变量序列 如果{Xnn=1,2,}是一列随机变量序列

    • {   a n   } 是一列实数序列 \set{a_n}是一列实数序列 {an}是一列实数序列

    • 如果存在某个 {   a n   } , 使得 : 如果存在某个\set{a_n},使得: 如果存在某个{an},使得:

      • S = S ( n , {   X n   } ) = 1 n ( ∑ i = 1 n X i ) − a n → P 0 lim ⁡ n → ∞ P ( S ) = lim ⁡ n → ∞ P ( ∣ ( 1 n ∑ i = 1 n X i ) − a n ∣ ⩾ ϵ ) = 0 S=S(n,\set{X_n})=\frac{1}{n}(\sum\limits_{i=1}^{n}X_i)-a_n \xrightarrow{P}0 \\ \lim\limits_{n\to{\infin}}P({S})=\lim\limits_{n\to{\infin}}P(|(\frac{1}{n}\sum\limits_{i=1}^{n}X_i)-a_n|\geqslant\epsilon)=0 S=S(n,{Xn})=n1(i=1nXi)anP 0nlimP(S)=nlimP((n1i=1nXi)anϵ)=0
    • 则称 {   X n   } \set{X_n} {Xn}服从大数定律

大数定律

  • Law of large numbers(LLN)

  • 事件A发生的频率具有稳定性:

    • 当试验次数n增大,频率将稳定于某一个常数(这个常数就A发生的概率:P(A))

    • 例如:做测量的时候,重复测量n次,得到的数值分别记为 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn

      • 可以将 {   X i   } , i = 1 , 2 , ⋯   , n 视为 n 个独立同分布的随机变量 可以将\set{X_i},i=1,2,\cdots,n视为n个独立同分布的随机变量 可以将{Xi},i=1,2,,n视为n个独立同分布的随机变量

        • 一般测量试验的随机变量服从正态分布:设为 X ∼ N ( μ , σ 2 ) X\sim{N(\mu,\sigma^2)} XN(μ,σ2)
        • X i 之间的的数学期望和方差都是一致的 , 分别为 μ , σ X_i之间的的数学期望和方差都是一致的,分别为\mu,\sigma Xi之间的的数学期望和方差都是一致的,分别为μ,σ
        • E ( X ‾ ) = E ( X i ) = μ E(\overline{X})=E(X_i)=\mu E(X)=E(Xi)=μ
        • D ( X ‾ ) = 1 n σ 2 D(\overline{X})=\frac{1}{n}\sigma^2 D(X)=n1σ2
          • 从这个角度上看,当n充分大的时候,方差趋近于0
          • 并且 X ‾ 会稳定于它的数学期望 μ 并且\overline{X}会稳定于它的数学期望\mu 并且X会稳定于它的数学期望μ,体现的是大量试验中平均结果的稳定性
      • 下面是推导过程:

        • 将这 n 个随机变量的算数平均值记为 X ‾ = 1 n ∑ i = 1 n X i 将这n个随机变量的算数平均值记为\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i 将这n个随机变量的算数平均值记为X=n1i=1nXi

        • X ‾ 也视为一个随机变量 \overline{X}也视为一个随机变量 X也视为一个随机变量

        • E ( X ‾ ) = 1 n E ( ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) = 1 n n μ = μ D ( X ‾ ) = E ( X ‾ 2 ) − E 2 ( X ‾ ) = E ( ( 1 n ∑ i = 1 n X i ) 2 ) − μ 2 = 1 n 2 E ( ( ∑ i = 1 n X i ) 2 ) − μ 2 E(\overline{X}) =\frac{1}{n}E(\sum\limits_{i=1}^{n}X_i) =\frac{1}{n}\sum_{i=1}^{n}E(X_i)=\frac{1}{n}n\mu =\mu \\ D(\overline{X})=E(\overline{X}^2)-E^2(\overline{X}) \\=E((\frac{1}{n}\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 \\=\frac{1}{n^2}E((\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 E(X)=n1E(i=1nXi)=n1i=1nE(Xi)=n1nμ=μD(X)=E(X2)E2(X)=E((n1i=1nXi)2)μ2=n21E((i=1nXi)2)μ2

        • ( ∑ i = 1 n X i ) 2 = ∑ i = 1 n ∑ j = 1 n X i X j = ∑ i = 1 n ∑ j = 1 j ≠ i n X i X j + ∑ i = 1 n X i 2 (\sum\limits_{i=1}^{n}X_i)^2 =\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}X_iX_j \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}X_iX_j +\sum\limits_{i=1}^{n}X_i^2 (i=1nXi)2=i=1nj=1nXiXj=i=1nj=1j=inXiXj+i=1nXi2

          • D ( X i ) = σ 2 = E ( X i 2 ) − E 2 ( X i ) = E ( X i 2 ) − μ 2 E ( X i 2 ) = σ 2 + μ 2 D(X_i)=\sigma^2=E(X_i^2)-E^2(X_i)=E(X_i^2)-\mu^2 \\E(X_i^2)=\sigma^2+\mu^2 D(Xi)=σ2=E(Xi2)E2(Xi)=E(Xi2)μ2E(Xi2)=σ2+μ2

          • E ( ∑ i = 1 n ∑ j = 1 j ≠ i n X i X j + ∑ i = 1 n X i 2 ) = ∑ i = 1 n ∑ j = 1 j ≠ i n E ( X i X j ) + ∑ i = 1 n E ( X i 2 ) = ∑ i = 1 n ∑ j = 1 j ≠ i n E ( X i ) E ( X j ) + ∑ i = 1 n E ( X i 2 ) = ∑ i = 1 n ∑ j = 1 j ≠ i n μ 2 + n ( μ 2 + σ 2 ) = n 2 ( μ 2 ) + n σ 2 E(\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}X_iX_j +\sum\limits_{i=1}^{n}X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}E(X_iX_j) +\sum\limits_{i=1}^{n}E(X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}E(X_i)E(X_j) +\sum\limits_{i=1}^{n}E(X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}\mu^2 +n(\mu^2+\sigma^2) \\=n^2(\mu^2)+n\sigma^2 E(i=1nj=1j=inXiXj+i=1nXi2)=i=1nj=1j=inE(XiXj)+i=1nE(Xi2)=i=1nj=1j=inE(Xi)E(Xj)+i=1nE(Xi2)=i=1nj=1j=inμ2+n(μ2+σ2)=n2(μ2)+nσ2

        • E ( X ‾ ) = 1 n 2 E ( ( ∑ i = 1 n X i ) 2 ) − μ 2 = 1 n 2 ( n 2 μ 2 + n σ 2 ) − μ 2 = μ 2 + 1 n σ − μ 2 = 1 n σ 2 E(\overline{X}) =\frac{1}{n^2}E((\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 \\=\frac{1}{n^2}(n^2\mu^2+n\sigma^2)-\mu^2 \\=\mu^2+\frac{1}{n}\sigma-\mu^2 \\=\frac{1}{n}\sigma^2 E(X)=n21E((i=1nXi)2)μ2=n21(n2μ2+nσ2)μ2=μ2+n1σμ2=n1σ2

    • 前面说到的大量试验中平均结果的稳定性,

      • 用大数定律,以严格的数学语言表达了随机现象在大量试验中所呈现出的统计规律性
        • 频率的稳定性
        • 平均结果的稳定性

chebyshev LLN

  • 记 X ‾ = 1 n ∑ i = 1 n X i ; E ( X ‾ ) = E ( 1 n ∑ i = 1 n X i ) = 1 n E ( ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) E ( X ) ‾ = 1 n ∑ i = 1 n E ( X i ) E ( X ‾ ) = E ( X ) ‾ 记\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i; \\E(\overline{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_i) =\frac{1}{n}E(\sum_{i=1}^{n}X_i)=\frac{1}{n}\sum_{i=1}^{n}E(X_i) \\ \overline{E(X)}=\frac{1}{n}\sum_{i=1}^{n}E(X_i) \\E(\overline{X})=\overline{E(X)} X=n1i=1nXi;E(X)=E(n1i=1nXi)=n1E(i=1nXi)=n1i=1nE(Xi)E(X)=n1i=1nE(Xi)E(X)=E(X)

  • chebyshevLLN可以描述为:

    • {   X n ∣ n = 1 , 2 , ⋯   } , 是一列 相互独立 ‾ 的随机变量序列 if  ∃ C > 0 , s.t. ∀ i , D ( X i ) ⩽ C , 即 ( m a x ( D ( X i ) ) ⩽ C ) ⇒ ∀ ϵ > 0 : \set{X_n|n=1,2,\cdots},是一列\underline{相互独立}的随机变量序列 \\\text{if }\exist{C>0},\text{s.t.}\forall{i},D(X_i)\leqslant{C}, \\即(max(D(X_i))\leqslant{C}) \\\Rightarrow\forall \epsilon>0: \\ {Xnn=1,2,},是一列相互独立的随机变量序列if C>0,s.t.i,D(Xi)C,(max(D(Xi))C)ϵ>0:

    • lim ⁡ n → ∞ P ( ∣ X ‾ − E ( X ) ‾ ∣ ⩾ ϵ ) = 0 即 : X ‾ − E ( X ) ‾ = X ‾ − E ( X ‾ ) ⩾ ϵ → P 0 X ‾ → P E ( X ) ‾ \lim_{n\to{\infin}}P(|\overline{X}-\overline{E(X)}|\geqslant{\epsilon})=0 \\即:\overline{X}-\overline{E(X)} =\overline{X}-E(\overline{X}) \geqslant{\epsilon}\xrightarrow{P}{0} \\ \overline{X}\xrightarrow{P}\overline{E(X)} nlimP(XE(X)ϵ)=0:XE(X)=XE(X)ϵP 0XP E(X)

  • 推导:(可以由chebyshev不等式进行推导)

    • 由独立性可知 : D ( X ‾ ) = 1 n 2 D ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D ( X i ) ⩽ 1 n 2 n C = C n 由独立性可知: \\D(\overline{X})=\frac{1}{n^2}D(\sum_{i=1}^nX_i) =\frac{1}{n^2}\sum_{i=1}^nD(X_i) \leqslant{\frac{1}{n^2}nC=\frac{C}{n}} 由独立性可知:D(X)=n21D(i=1nXi)=n21i=1nD(Xi)n21nC=nC

    • 由 c h e b y s h e v 不等式 : P ( ∣ X − E ( X ) ∣ ⩾ ε ) ⩽ D ( X ) ε 2 P ( ∣ X ‾ − E ( X ‾ ) ∣ ⩾ ε ) ⩽ D ( X ‾ ) ε 2 ⩽ 1 ϵ 2 C n → n → ∞ 0 经过上面的放缩从而得到证明 lim ⁡ n → ∞ P ( ∣ X ‾ − E ( X ‾ ) ∣ ⩾ ε ) = 0 由chebyshev不等式: \\P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} \\P(|\overline{X}-E(\overline{X})|\geqslant\varepsilon) \leqslant\frac{D(\overline{X})}{\varepsilon^2} \leqslant\frac{1}{\epsilon^2}\frac{C}{n} \xrightarrow{n\to{\infin}}{0} \\经过上面的放缩从而得到证明 \\ \lim_{n\to{\infin}}P(|\overline{X}-E(\overline{X})|\geqslant\varepsilon) =0 chebyshev不等式:P(XE(X)ε)ε2D(X)P(XE(X)ε)ε2D(X)ϵ21nCn 0经过上面的放缩从而得到证明nlimP(XE(X)ε)=0

应用

  • 回到前面提到的多次测量取平均值的期望和方差问题:

    • X i 独立同分布 E ( X i ) = μ ; D ( X i ) = σ 2 E ( X ) ‾ = 1 n ∑ i = 1 n E ( X i ) = 1 n n ( μ ) = μ X_i独立同分布 \\ E(X_i)=\mu; \\D(X_i)=\sigma^2 \\\overline{E(X)}=\frac{1}{n}\sum_{i=1}^{n}E(X_i)=\frac{1}{n}n(\mu)=\mu Xi独立同分布E(Xi)=μ;D(Xi)=σ2E(X)=n1i=1nE(Xi)=n1n(μ)=μ

      • n 个观察值的算数平均值 : X ‾ = 1 n ∑ i = 1 n X i μ 作为被测物的指标真值 , 每次测量 ( X i ) 的最理想值是同一个真值 n个观察值的算数平均值:\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i \\\mu作为被测物的指标真值,每次测量(X_i)的最理想值是同一个真值 n个观察值的算数平均值:X=n1i=1nXiμ作为被测物的指标真值,每次测量(Xi)的最理想值是同一个真值
  • 当试验次数n趋于无穷大的时候,实际测量值的算数平均值 X ‾ \overline{X} X依概率收敛于真值 μ \mu μ

    • 揭示了平均结果具有稳定性
    • 测量中,常用多次重复测量所得到的观测值的算数平均值作为被测量值的近似值

bernoulli LLN

  • 和chebyshevLLN的区别

    • bernoulliLLN主要针对n重bernoulli试验的
    • chebyshevLLN的使用范围更广泛,但是精度有限
    • khinchinLLN试图进一步削弱定理运用条件
  • 设 X n 是 n 次独立试验中事件 A 发生的次数 设X_n是n次独立试验中事件A发生的次数 Xnn次独立试验中事件A发生的次数

    • 在每次试验中,事件A发生的概率是 p , p ∈ ( 0 , 1 ) p,p\in(0,1) p,p(0,1)

      • 则 : X n ∼ B ( n , p ) 则:X_n\sim{B(n,p)} :XnB(n,p)

      • E ( X n ) = n p , D ( X n ) = n p ( 1 − q ) E(X_n)=np,D(X_n)=np(1-q) E(Xn)=np,D(Xn)=np(1q)

    • ∀ ϵ > 0 : \forall \epsilon>0: ϵ>0:

      • lim ⁡ n → ∞ P ( ∣ X n n − p ∣ ⩾ ϵ ) = 0 即 1 n X n → p \lim_{n\to{\infin}}P(|\frac{X_n}{n}-p|\geqslant{\epsilon})=0 \\即\frac{1}{n}X_n\to{p} nlimP(nXnpϵ)=0n1Xnp
    • 推导:

      • 由 c h e b y s h e v 不等式 : P ( ∣ X − E ( X ) ∣ ⩾ ϵ ) ⩽ 1 ϵ 2 D ( X ) P ( ∣ 1 n X n − E ( 1 n X n ) ∣ ⩾ ϵ ) ⩽ 1 ϵ 2 D ( 1 n X n ) P ( ∣ 1 n X n − 1 n E ( X n ) ∣ ⩾ ϵ ) ⩽ 1 ϵ 2 1 n 2 D ( X n ) P ( ∣ 1 n X n − 1 n n p ∣ ⩾ ϵ ) ⩽ 1 ϵ 2 1 n 2 n p ( 1 − p ) P ( ∣ 1 n X n − p ∣ ⩾ ϵ ) ⩽ 1 ϵ 2 1 n p ( 1 − p ) → n → ∞ 0 即 lim ⁡ n → ∞ P ( ∣ 1 n X n − p ∣ ⩾ ϵ ) = 0 1 n X n → P p ( n → ∞ ) 由chebyshev 不等式: \\P(|X-E(X)|\geqslant{\epsilon})\leqslant{\frac{1}{\epsilon^2}{D(X)}} \\P(|\frac{1}{n}X_n-E(\frac{1}{n}X_n)|\geqslant{\epsilon})\leqslant{\frac{1}{\epsilon^2}{D(\frac{1}{n}X_n)}} \\P(|\frac{1}{n}X_n-\frac{1}{n}E(X_n)|\geqslant{\epsilon})\leqslant{\frac{1}{\epsilon^2}{\frac{1}{n^2}D(X_n)}} \\P(|\frac{1}{n}X_n-\frac{1}{n}np|\geqslant{\epsilon})\leqslant{\frac{1}{\epsilon^2}{\frac{1}{n^2}np(1-p)}} \\P(|\frac{1}{n}X_n- p|\geqslant{\epsilon})\leqslant{\frac{1}{\epsilon^2}{\frac{1}{n}p(1-p)}} \xrightarrow{n\to{\infin}}{0} \\即\lim_{n\to{\infin}}P(|\frac{1}{n}X_n- p|\geqslant{\epsilon})=0 \\\frac{1}{n}X_n\xrightarrow{P}p\quad (n\to{\infin}) chebyshev不等式:P(XE(X)ϵ)ϵ21D(X)P(n1XnE(n1Xn)ϵ)ϵ21D(n1Xn)P(n1Xnn1E(Xn)ϵ)ϵ21n21D(Xn)P(n1Xnn1npϵ)ϵ21n21np(1p)P(n1Xnpϵ)ϵ21n1p(1p)n 0nlimP(n1Xnpϵ)=0n1XnP p(n)

意义

  • bernoulli LLN揭示了频率与概率之间的关系
    • 推导过程中的 X n X_n Xn就表示的频率
    • 当试验条件不变的时候,多次重复试验中,随机事件出现的频率 1 n X n \frac{1}{n}{X_n} n1Xn将依概率收敛于随机事件的概率p
    • 从而,以频率估计(接近)概率的这一直观经验有了严格的数学意义
    • 也就是频率的稳定性在理论上得到证明
    • 是实践中,用频率估计概率的依据

Khinchin LLN

  • 辛钦大数定律告诉我们,chebyshev LLN中要求的随机变量序列 {   X n ∣ n = 1 , 2 , ⋯   } \set{X_n|n=1,2,\cdots} {Xnn=1,2,}相互独立这条件在某些情况下是多余的

  • 样本数量越多,则其算术平均值就有越高的概率接近期望值。

  • 相比于chebyshev大数定律,具有更广的使用范围(证明需要专业知识)

    • {   X n ∣ n = 1 , 2 , ⋯   } \set{X_n|n=1,2,\cdots} {Xnn=1,2,}是独立同分布的随机变量序列

      • 记 : X ‾ = 1 n ∑ i = 1 n X i 记:\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i :X=n1i=1nXi

      • E ( X n ) = μ 存在 E(X_n)=\mu存在 E(Xn)=μ存在

      • ∀ ϵ > 0 : \forall{\epsilon}>0: ϵ>0:

      • lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ ⩾ ϵ ) = 0 lim ⁡ n → ∞ P ( ∣ X ‾ − μ ∣ ⩾ ϵ ) = 0 X ‾ → P μ ( n → ∞ ) \lim_{n\to{\infin}}P(|\frac{1}n\sum_{i=1}^{n}X_i-\mu|\geqslant{\epsilon})=0 \\ \lim_{n\to{\infin}} P(|\overline{X} -\mu|\geqslant{\epsilon})=0 \\\overline{X}\xrightarrow{P}\mu\quad(n\to\infin) nlimP(n1i=1nXiμϵ)=0nlimP(Xμϵ)=0XP μ(n)

  • 揭示了n足够大的时候,可以用各次试验结果对应的随机变量 X n , n = 1 , 2 , ⋯ X_n,n=1,2,\cdots Xn,n=1,2,的均值 X ‾ \overline{X} X估计期望 μ \mu μ

总结

  • 弱大数定律 弱大数定律 ( W L L N ) 也称为辛钦定理,陈述为:样本均值依概率收敛于期望值 X ‾ n   → P   μ as n → ∞ 也就是说对于任意正数 ε , lim ⁡ n → ∞ P (   ∣ X ‾ n − μ ∣ > ε   ) = 0 弱大数定律 \\ 弱大数定律(WLLN) 也称为辛钦定理,陈述为:样本均值依概率收敛于期望值 \\ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \quad {\textrm {as}}\quad n\to \infty } \\也就是说对于任意正数 ε, \\ {\displaystyle \lim _{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0} 弱大数定律弱大数定律(WLLN)也称为辛钦定理,陈述为:样本均值依概率收敛于期望值Xn P  μasn也就是说对于任意正数ε,nlimP(Xnμ>ε)=0

  • 强大数定律 强大数定律 ( S L L N ) 指出,样本均值以概率 1 收敛于期望值。 X ‾ n   → a.s.   μ as n → ∞ 即 P ( lim ⁡ n → ∞ X ‾ n = μ ) = 1 强大数定律 \\ 强大数定律(SLLN)指出,样本均值以概率1收敛于期望值。 \\ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {\text{a.s.}}}\ \mu \quad {\textrm {as}}\quad n\to \infty } 即 \\ {\displaystyle P\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1 } 强大数定律强大数定律(SLLN)指出,样本均值以概率1收敛于期望值。Xn a.s.  μasnP(nlimXn=μ)=1

  • 切比雪夫定理的特殊情况设 a 1 ,   a 2 ,   …   ,   a n ,   … 为相互独立的随机变量, 其数学期望为: E ⁡ ( a i ) = μ ( i = 1 ,   2 ,   …   ) , 方差为: Var ⁡ ( a i ) = σ 2 ( i = 1 ,   2 ,   …   ) 则序列 a ‾ = 1 n ∑ i = 1 n a i 依概率收敛于 μ (即收敛于此数列的数学期望 E ( a i ) 。 换言之,在定理条件下,当 n 无限变大时, n 个随机变量的算术平均将变成一个常数。 切比雪夫定理的特殊情况 设 {\displaystyle a_{1},\ a_{2},\ \dots \ ,\ a_{n},\ \dots } 为相互独立的随机变量, \\其数学期望为: {\displaystyle \operatorname {E} (a_{i})=\mu \quad (i=1,\ 2,\ \dots )}, \\方差为: {\displaystyle \operatorname {Var} (a_{i})=\sigma ^{2}\quad (i=1,\ 2,\ \dots )} \\ 则序列{\displaystyle {\overline {a}}={\frac {1}{n}}\sum _{i=1}^{n}a_{i}} 依概率收敛于 \mu \\(即收敛于此数列的数学期望E(a_{i})。 \\ 换言之,在定理条件下,当 n无限变大时, n个随机变量的算术平均将变成一个常数。 \\ 切比雪夫定理的特殊情况设a1, a2,  , an, 为相互独立的随机变量,其数学期望为:E(ai)=μ(i=1, 2, )方差为:Var(ai)=σ2(i=1, 2, )则序列a=n1i=1nai依概率收敛于μ(即收敛于此数列的数学期望E(ai)换言之,在定理条件下,当n无限变大时,n个随机变量的算术平均将变成一个常数。

  • 伯努利大数定律设在 n 次独立重复伯努利试验中, 事件 X 发生的次数为 n x ,事件 X 在每次试验中发生的总体概率为 p , n x n 代表样本发生事件 X 的频率。 则对任意正数 ε > 0 ,伯努利大数定律表明: lim ⁡ n → ∞ P { ∣ n x n − p ∣ < ε } = 1 伯努利大数定律 设在{\displaystyle n}次独立重复伯努利试验中, \\事件{\displaystyle X}发生的次数为 n_{x},事件{\displaystyle X}在每次试验中发生的总体概率为 p, \\{\displaystyle {\frac {n_{x}}{n}}} 代表样本发生事件 X的频率。 \\ 则对任意正数 \varepsilon >0,伯努利大数定律表明: \\ {\displaystyle \lim _{n\to \infty }{P{\left\{\left|{\frac {n_{x}}{n}}-p\right|<\varepsilon \right\}}}=1} 伯努利大数定律设在n次独立重复伯努利试验中,事件X发生的次数为nx,事件X在每次试验中发生的总体概率为pnnx代表样本发生事件X的频率。则对任意正数ε>0,伯努利大数定律表明:nlimP{ nnxp <ε}=1

    • 换言之,事件发生的频率依概率收敛于事件的总体概率。
      该定理以严格的数学形式表达了频率的稳定性,也就是说当 n {\displaystyle n} n很大时,事件发生的频率于总体概率有较大偏差的可能性很小

你可能感兴趣的:(概率论)