连续型随机变量(X为一非负随机变量)为例
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x = ∫ 0 ∞ x f ( x ) d x ⩾ ∫ a ∞ x f ( x ) d x ⩾ ∫ a ∞ a f ( x ) d x = a ∫ a ∞ f ( x ) d x = a P ( X ⩾ a ) . ∴ P ( X ⩾ a ) ⩽ E ( X ) a { \begin{aligned}{\textrm {E}}(X) &=\int _{-\infty }^{\infty }xf(x)dx \\&=\int _{0}^{\infty }xf(x)dx \\[6pt]&\geqslant \int _{a}^{\infty }xf(x)dx \\[6pt]&\geqslant \int _{a}^{\infty }af(x)dx \\[6pt]&=a\int _{a}^{\infty }f(x)dx \\[6pt]&=a{\textrm {P}}(X\geqslant a). \end{aligned} } \\ \therefore \boxed{P(X\geqslant{a})\leqslant{\frac{E(X)}{a}}} E(X)=∫−∞∞xf(x)dx=∫0∞xf(x)dx⩾∫a∞xf(x)dx⩾∫a∞af(x)dx=a∫a∞f(x)dx=aP(X⩾a).∴P(X⩾a)⩽aE(X)
随机变量的由于非负性 ( X ⩾ 0 ) (X\geqslant{0}) (X⩾0)
也就是说,随机变量X的取值(观测值)落在概率密度函数f(x)的负半轴区间的概率为0
因此
F ( a ) = ∫ − ∞ a f ( x ) d x F ( + ∞ ) = ∫ − ∞ + ∞ f ( x ) d x = 1 1 − F ( a ) = ∫ a + ∞ f ( x ) d x F ( a ) = P ( X ⩽ a ) F(a)=\int_{-\infin}^{a}f(x)dx \\F(+\infin)=\int_{-\infin}^{+\infin}f(x)dx=1 \\1-F(a)=\int_{a}^{+\infin}f(x)dx \\ F(a)=P(X\leqslant{a}) F(a)=∫−∞af(x)dxF(+∞)=∫−∞+∞f(x)dx=11−F(a)=∫a+∞f(x)dxF(a)=P(X⩽a)
1 − F ( a ) = 1 − P ( X ⩽ a ) = P ( X > a ) P ( X = a ) = 0 ∴ P ( X ⩾ a ) = P ( X > a ) + P ( X = a ) = 1 − F ( a ) = ∫ a + ∞ f ( x ) d x ∫ a + ∞ f ( x ) d x = P ( X ⩾ a ) 1-F(a)=1-P(X\leqslant{a})=P(X>a) \\ P(X=a)=0 \\ \therefore P(X\geqslant{a})=P(X>a)+P(X=a)=1-F(a)=\int_{a}^{+\infin}f(x)dx \\\int_{a}^{+\infin}f(x)dx=P(X\geqslant{a}) 1−F(a)=1−P(X⩽a)=P(X>a)P(X=a)=0∴P(X⩾a)=P(X>a)+P(X=a)=1−F(a)=∫a+∞f(x)dx∫a+∞f(x)dx=P(X⩾a)
chebyshev’s inequality
通过方差来估计:
chebyshev不等式给出了这个概率的上界 U ( ε ) U(\varepsilon) U(ε)
记 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2
U ( ε ) = D ( X ) ε 2 = σ 2 ε 2 U(\varepsilon)=\frac{D(X)}{\varepsilon^2}=\frac{\sigma^2}{\varepsilon^2} U(ε)=ε2D(X)=ε2σ2
设随机变量X的方差存在:( D ( X ) 存在是 c h e b y s h e v 不等式作用的前提 D(X)存在是chebyshev不等式作用的前提 D(X)存在是chebyshev不等式作用的前提)
根据概率的规范性,可写出chebyshev不等式的两种形式:
P ( ∣ X − E ( X ) ∣ ⩾ ε ) ⩽ D ( X ) ε 2 P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} P(∣X−E(X)∣⩾ε)⩽ε2D(X)
P ( ∣ X − E ( X ) ∣ < ε ) ⩾ 1 − D ( X ) ε 2 P( |X-E(X)|<\varepsilon)\geqslant{1-\frac{D(X)}{ \varepsilon^2}} P(∣X−E(X)∣<ε)⩾1−ε2D(X)
推导(连续型情况)
chebyshev inequality的推导
在于利用事件 ∣ X − E ( X ) ∣ ⩾ ε > 0 |X-E(X)|\geqslant\varepsilon>0 ∣X−E(X)∣⩾ε>0
也可以借助Markov不等式推导
从而: ∣ X − E ( X ) ∣ ε ⩾ 1 |X-E(X)|{\varepsilon}\geqslant{1} ∣X−E(X)∣ε⩾1,利用这个不等式进行放缩被积函数
∣ X − E ( X ) ∣ ε ⩾ 1 ⇒ ∣ X − E ( X ) ∣ 2 ε 2 ⩾ 1 记 u = ∣ X − E ( X ) ∣ 2 ε 2 u f ( x ) ⩾ f ( x ) 将 E ( X ) 看作一个常数 , μ X = E ( X ) ( σ X 2 = D ( X ) = E ( X 2 ) − E 2 ( X ) 相对于自变量 x 可以视为常数 ) ; ( E ( X ) & D ( X ) 与随机变量 X 是函数关系 ) 积分变量设为 x 积分区间用不等式表示 : ∣ x − E ( X ) ∣ > ε \frac{|X-E(X)|}{\varepsilon}\geqslant{1} \\\Rightarrow \frac{{|X-E(X)|^2}}{\varepsilon^2}\geqslant{1} \\ 记u=\frac{{|X-E(X)|^2}}{\varepsilon^2} \\ uf(x) \geqslant{f(x)} \\ 将E(X)看作一个常数,\mu_X=E(X) \\(\sigma^2_{X}=D(X)=E(X^2)-E^2(X)相对于自变量x可以视为常数); \\(E(X)\&D(X)与随机变量X是函数关系) \\积分变量设为x \\积分区间用不等式表示:|x-E(X)|>\varepsilon ε∣X−E(X)∣⩾1⇒ε2∣X−E(X)∣2⩾1记u=ε2∣X−E(X)∣2uf(x)⩾f(x)将E(X)看作一个常数,μX=E(X)(σX2=D(X)=E(X2)−E2(X)相对于自变量x可以视为常数);(E(X)&D(X)与随机变量X是函数关系)积分变量设为x积分区间用不等式表示:∣x−E(X)∣>ε
P ( ∣ X − E ( X ) ∣ ⩾ ε ) = ∫ ∣ x − E ( X ) ∣ > ε f ( x ) d x ⩽ ∫ ∣ x − E ( X ) ∣ > ε ∣ x − E ( X ) ∣ 2 ε 2 f ( x ) d x ⩽ ∫ x ∈ R ( x − E ( X ) ) 2 ε 2 f ( x ) d x N o t e : ( 此处 , ∫ x ∈ R ⇔ ∫ − ∞ + ∞ ; ∫ x ∈ R f ( x ) d x = 1 ) = 1 ε 2 ∫ x ∈ R ( x − E ( X ) ) 2 f ( x ) d x = 1 ε 2 D ( X ) 上述证明中 , 对被积函数和被积分区域都进行了放缩 P({|X-E(X)|}\geqslant\varepsilon) =\int\limits_{|x-E(X)|>\varepsilon} f(x)\mathrm{d}x \\\LARGE\leqslant{} \normalsize \int\limits_{|x-E(X)|>\varepsilon} \frac{{|x-E(X)|^2}}{\varepsilon^2}f(x)\mathrm{d}x \\\LARGE\leqslant{} \normalsize \int\limits_{x\in{R}} \frac{{(x-E(X))^2}}{\varepsilon^2}f(x)\mathrm{d}x \\Note:(此处,\int\limits_{x\in{R}}\Leftrightarrow \int_{-\infin}^{+\infin};\int\limits_{x\in{R}} f(x)\mathrm{d}x=1) \\=\frac{1}{\varepsilon^2}\int\limits_{x\in{R}} {(x-E(X))^2}f(x)\mathrm{d}x \\=\frac{1}{\varepsilon^2}D(X) \\上述证明中,对被积函数和被积分区域都进行了放缩 P(∣X−E(X)∣⩾ε)=∣x−E(X)∣>ε∫f(x)dx⩽∣x−E(X)∣>ε∫ε2∣x−E(X)∣2f(x)dx⩽x∈R∫ε2(x−E(X))2f(x)dxNote:(此处,x∈R∫⇔∫−∞+∞;x∈R∫f(x)dx=1)=ε21x∈R∫(x−E(X))2f(x)dx=ε21D(X)上述证明中,对被积函数和被积分区域都进行了放缩
记 g ( X ) = ( X − E ( X ) ) 2 = ( X − μ X ) 2 , μ X = E ( X ) 是常数 则 g ( x ) = ( x − μ X ) 2 根据方差的展开公式 ( 连续型 ) D ( X ) = E ( g ( X ) ) = ∫ − ∞ + ∞ g ( x ) f ( x ) d x = ∫ − ∞ + ∞ ( x − E ( X ) ) 2 f ( x ) d x = ∫ − ∞ + ∞ ( x − μ X ) 2 f ( x ) d x = ∫ x ∈ R ( x − μ X ) 2 f ( x ) d x 记g(X)=(X-E(X))^2=(X-\mu_X)^2,\mu_X=E(X)是常数 \\则g(x)=(x-\mu_X)^2 \\根据方差的展开公式(连续型) \\D(X)=E(g(X)) =\int_{-\infin}^{+\infin}g(x)f(x)\mathrm{d}x \\=\int_{-\infin}^{+\infin}(x-E(X))^2f(x)\mathrm{d}x \\=\int_{-\infin}^{+\infin}(x-\mu_{X})^2f(x)\mathrm{d}x \\=\int_{x\in{R}}(x-\mu_{X})^2f(x)\mathrm{d}x 记g(X)=(X−E(X))2=(X−μX)2,μX=E(X)是常数则g(x)=(x−μX)2根据方差的展开公式(连续型)D(X)=E(g(X))=∫−∞+∞g(x)f(x)dx=∫−∞+∞(x−E(X))2f(x)dx=∫−∞+∞(x−μX)2f(x)dx=∫x∈R(x−μX)2f(x)dx
设随机变量 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn独立同分布,且 X i X_i Xi的4阶矩存在
设 μ k = E ( X i k ) ( k = 1 , 2 , ⋯ , 4 ) \mu_k=E(X^k_i)(k=1,2,\cdots,4) μk=E(Xik)(k=1,2,⋯,4)
则由chebyshev不等式,对于 ∀ ϵ > 0 \forall \epsilon>0 ∀ϵ>0, Q = P ( ∣ 1 n ∑ i = 1 n X i 2 − μ 2 ) ⩾ ϵ ⩽ S = ? Q=P(|\frac{1}{n}\sum\limits_{i=1}^{n}X_i^2-\mu_2)\geqslant{\epsilon}\leqslant{S=?} Q=P(∣n1i=1∑nXi2−μ2)⩾ϵ⩽S=?
c h e b y s h e v 不等式形式 : P ( ∣ X − E ( X ) ∣ ⩾ ϵ ) ⩽ D ( X ) ϵ 2 尝试令 X = X i 2 ‾ = 1 n ∑ i = 1 n X i 2 E ( X ) = E ( X i 2 ‾ ) = 1 n ∑ i = 1 n E ( X i 2 ) = 1 n ∑ i = 1 n μ 2 = 1 n ( n × μ 2 ) = μ 2 这恰好和 Q 的形式对应上了 D ( X ) = D ( X i 2 ‾ ) = 1 n 2 ∑ i = 1 n D ( X i 2 ) D ( X i 2 ) = E ( ( X i 2 ) 2 ) − E 2 ( X i 2 ) = μ 4 − μ 2 2 ( 或者另一条路 : D ( X ) = E ( X 2 ) − E 2 ( X ) = E ( ( X i ‾ 2 ) 2 ) ⋯ , 并不顺利 ) D ( X ) = 1 n 2 n ( μ 4 − μ 2 2 ) S = D ( X ) ϵ 2 = μ 4 − μ 2 2 n ϵ 2 chebyshev不等式形式: \\P(|X-E(X)|\geqslant{\epsilon})\leqslant{\frac{D(X)}{\epsilon^2}} \\尝试令X=\overline{X_i^2}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^2 \\E(X)=E(\overline{X_i^2})=\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i^2) =\frac{1}{n}\sum\limits_{i=1}^{n}\mu_2=\frac{1}{n}(n\times{\mu_2})=\mu_{2} \\这恰好和Q的形式对应上了 \\D(X)=D(\overline{X_i^2})=\frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i^2) \\D(X_i^2)=E((X_i^2)^2)-E^2(X_i^2)=\mu_4-\mu_2^2 \\(或者另一条路: D(X)=E(X^2)-E^2(X)=E((\overline{X_i}^2)^2)\cdots,并不顺利) \\D(X)=\frac{1}{n^2}n(\mu_4-\mu_2^2) \\S=\frac{D(X)}{\epsilon^2}=\frac{\mu_4-\mu_2^2}{n\epsilon^2} chebyshev不等式形式:P(∣X−E(X)∣⩾ϵ)⩽ϵ2D(X)尝试令X=Xi2=n1i=1∑nXi2E(X)=E(Xi2)=n1i=1∑nE(Xi2)=n1i=1∑nμ2=n1(n×μ2)=μ2这恰好和Q的形式对应上了D(X)=D(Xi2)=n21i=1∑nD(Xi2)D(Xi2)=E((Xi2)2)−E2(Xi2)=μ4−μ22(或者另一条路:D(X)=E(X2)−E2(X)=E((Xi2)2)⋯,并不顺利)D(X)=n21n(μ4−μ22)S=ϵ2D(X)=nϵ2μ4−μ22
随机变量序列 { X i } , i = 1 , 2 , ⋯ 随机变量序列\set{X_i},i=1,2,\cdots 随机变量序列{Xi},i=1,2,⋯
A是一个常数
∀ ϵ > 0 \forall{\epsilon}>0 ∀ϵ>0
lim n → ∞ P ( ∣ X n − A ∣ < ϵ ) = 1 或 : lim n → ∞ P ( ∣ X n − A ∣ ⩾ ϵ ) = 0 则称 { X i } 依赖概率收敛于常数 A 记为 : X n → P A 或 ( X n − A → P 0 ) \lim\limits_{n\to{\infin}}P(|X_n-A|<\epsilon)=1 \\或:\lim\limits_{n\to{\infin}}P(|X_n-A|\geqslant\epsilon)=0 \\则称\set{X_i}依赖概率收敛于常数A \\记为:X_n{\xrightarrow{P}}{A} \\或(X_n-A{\xrightarrow{P}}{0}) n→∞limP(∣Xn−A∣<ϵ)=1或:n→∞limP(∣Xn−A∣⩾ϵ)=0则称{Xi}依赖概率收敛于常数A记为:XnPA或(Xn−AP0)
特别的 , 当 A = 0 的时候 lim n → ∞ P ( ∣ X n ∣ < ϵ ) = 1 或 lim n → ∞ P ( ∣ X n ∣ ⩾ ϵ ) = 0 则称 { X i } 依赖概率收敛于 0 : X n → P 0 特别的,当A=0的时候 \\\lim\limits_{n\to{\infin}}P(|X_n|<\epsilon)=1 或\\ \lim\limits_{n\to{\infin}}P(|X_n|\geqslant\epsilon)=0 则称\set{X_i}依赖概率收敛于0: \\X_n\xrightarrow{P}0 特别的,当A=0的时候n→∞limP(∣Xn∣<ϵ)=1或n→∞limP(∣Xn∣⩾ϵ)=0则称{Xi}依赖概率收敛于0:XnP0
从形式上看,依概率收敛的定义中,被求极限的概率表达式部分: P ( ∣ X n − A ∣ ⩾ ϵ ) P(|X_n-A|\geqslant\epsilon) P(∣Xn−A∣⩾ϵ)很符合chebyshev不等式中的形式
如果 { X n ∣ n = 1 , 2 , ⋯ } 是一列随机变量序列 如果\set{X_n|n=1,2,\cdots}是一列随机变量序列 如果{Xn∣n=1,2,⋯}是一列随机变量序列
{ a n } 是一列实数序列 \set{a_n}是一列实数序列 {an}是一列实数序列
如果存在某个 { a n } , 使得 : 如果存在某个\set{a_n},使得: 如果存在某个{an},使得:
则称 { X n } \set{X_n} {Xn}服从大数定律
Law of large numbers(LLN)
事件A发生的频率具有稳定性:
当试验次数n增大,频率将稳定于某一个常数(这个常数就A发生的概率:P(A))
例如:做测量的时候,重复测量n次,得到的数值分别记为 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn
可以将 { X i } , i = 1 , 2 , ⋯ , n 视为 n 个独立同分布的随机变量 可以将\set{X_i},i=1,2,\cdots,n视为n个独立同分布的随机变量 可以将{Xi},i=1,2,⋯,n视为n个独立同分布的随机变量
下面是推导过程:
将这 n 个随机变量的算数平均值记为 X ‾ = 1 n ∑ i = 1 n X i 将这n个随机变量的算数平均值记为\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i 将这n个随机变量的算数平均值记为X=n1i=1∑nXi
X ‾ 也视为一个随机变量 \overline{X}也视为一个随机变量 X也视为一个随机变量
E ( X ‾ ) = 1 n E ( ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) = 1 n n μ = μ D ( X ‾ ) = E ( X ‾ 2 ) − E 2 ( X ‾ ) = E ( ( 1 n ∑ i = 1 n X i ) 2 ) − μ 2 = 1 n 2 E ( ( ∑ i = 1 n X i ) 2 ) − μ 2 E(\overline{X}) =\frac{1}{n}E(\sum\limits_{i=1}^{n}X_i) =\frac{1}{n}\sum_{i=1}^{n}E(X_i)=\frac{1}{n}n\mu =\mu \\ D(\overline{X})=E(\overline{X}^2)-E^2(\overline{X}) \\=E((\frac{1}{n}\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 \\=\frac{1}{n^2}E((\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 E(X)=n1E(i=1∑nXi)=n1i=1∑nE(Xi)=n1nμ=μD(X)=E(X2)−E2(X)=E((n1i=1∑nXi)2)−μ2=n21E((i=1∑nXi)2)−μ2
( ∑ i = 1 n X i ) 2 = ∑ i = 1 n ∑ j = 1 n X i X j = ∑ i = 1 n ∑ j = 1 j ≠ i n X i X j + ∑ i = 1 n X i 2 (\sum\limits_{i=1}^{n}X_i)^2 =\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}X_iX_j \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}X_iX_j +\sum\limits_{i=1}^{n}X_i^2 (i=1∑nXi)2=i=1∑nj=1∑nXiXj=i=1∑nj=1j=i∑nXiXj+i=1∑nXi2
D ( X i ) = σ 2 = E ( X i 2 ) − E 2 ( X i ) = E ( X i 2 ) − μ 2 E ( X i 2 ) = σ 2 + μ 2 D(X_i)=\sigma^2=E(X_i^2)-E^2(X_i)=E(X_i^2)-\mu^2 \\E(X_i^2)=\sigma^2+\mu^2 D(Xi)=σ2=E(Xi2)−E2(Xi)=E(Xi2)−μ2E(Xi2)=σ2+μ2
E ( ∑ i = 1 n ∑ j = 1 j ≠ i n X i X j + ∑ i = 1 n X i 2 ) = ∑ i = 1 n ∑ j = 1 j ≠ i n E ( X i X j ) + ∑ i = 1 n E ( X i 2 ) = ∑ i = 1 n ∑ j = 1 j ≠ i n E ( X i ) E ( X j ) + ∑ i = 1 n E ( X i 2 ) = ∑ i = 1 n ∑ j = 1 j ≠ i n μ 2 + n ( μ 2 + σ 2 ) = n 2 ( μ 2 ) + n σ 2 E(\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}X_iX_j +\sum\limits_{i=1}^{n}X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}E(X_iX_j) +\sum\limits_{i=1}^{n}E(X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}E(X_i)E(X_j) +\sum\limits_{i=1}^{n}E(X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}\mu^2 +n(\mu^2+\sigma^2) \\=n^2(\mu^2)+n\sigma^2 E(i=1∑nj=1j=i∑nXiXj+i=1∑nXi2)=i=1∑nj=1j=i∑nE(XiXj)+i=1∑nE(Xi2)=i=1∑nj=1j=i∑nE(Xi)E(Xj)+i=1∑nE(Xi2)=i=1∑nj=1j=i∑nμ2+n(μ2+σ2)=n2(μ2)+nσ2
E ( X ‾ ) = 1 n 2 E ( ( ∑ i = 1 n X i ) 2 ) − μ 2 = 1 n 2 ( n 2 μ 2 + n σ 2 ) − μ 2 = μ 2 + 1 n σ − μ 2 = 1 n σ 2 E(\overline{X}) =\frac{1}{n^2}E((\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 \\=\frac{1}{n^2}(n^2\mu^2+n\sigma^2)-\mu^2 \\=\mu^2+\frac{1}{n}\sigma-\mu^2 \\=\frac{1}{n}\sigma^2 E(X)=n21E((i=1∑nXi)2)−μ2=n21(n2μ2+nσ2)−μ2=μ2+n1σ−μ2=n1σ2
前面说到的大量试验中平均结果的稳定性,
记 X ‾ = 1 n ∑ i = 1 n X i ; E ( X ‾ ) = E ( 1 n ∑ i = 1 n X i ) = 1 n E ( ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) E ( X ) ‾ = 1 n ∑ i = 1 n E ( X i ) E ( X ‾ ) = E ( X ) ‾ 记\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i; \\E(\overline{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_i) =\frac{1}{n}E(\sum_{i=1}^{n}X_i)=\frac{1}{n}\sum_{i=1}^{n}E(X_i) \\ \overline{E(X)}=\frac{1}{n}\sum_{i=1}^{n}E(X_i) \\E(\overline{X})=\overline{E(X)} 记X=n1i=1∑nXi;E(X)=E(n1i=1∑nXi)=n1E(i=1∑nXi)=n1i=1∑nE(Xi)E(X)=n1i=1∑nE(Xi)E(X)=E(X)
chebyshevLLN可以描述为:
{ X n ∣ n = 1 , 2 , ⋯ } , 是一列 相互独立 ‾ 的随机变量序列 if ∃ C > 0 , s.t. ∀ i , D ( X i ) ⩽ C , 即 ( m a x ( D ( X i ) ) ⩽ C ) ⇒ ∀ ϵ > 0 : \set{X_n|n=1,2,\cdots},是一列\underline{相互独立}的随机变量序列 \\\text{if }\exist{C>0},\text{s.t.}\forall{i},D(X_i)\leqslant{C}, \\即(max(D(X_i))\leqslant{C}) \\\Rightarrow\forall \epsilon>0: \\ {Xn∣n=1,2,⋯},是一列相互独立的随机变量序列if ∃C>0,s.t.∀i,D(Xi)⩽C,即(max(D(Xi))⩽C)⇒∀ϵ>0:
lim n → ∞ P ( ∣ X ‾ − E ( X ) ‾ ∣ ⩾ ϵ ) = 0 即 : X ‾ − E ( X ) ‾ = X ‾ − E ( X ‾ ) ⩾ ϵ → P 0 X ‾ → P E ( X ) ‾ \lim_{n\to{\infin}}P(|\overline{X}-\overline{E(X)}|\geqslant{\epsilon})=0 \\即:\overline{X}-\overline{E(X)} =\overline{X}-E(\overline{X}) \geqslant{\epsilon}\xrightarrow{P}{0} \\ \overline{X}\xrightarrow{P}\overline{E(X)} n→∞limP(∣X−E(X)∣⩾ϵ)=0即:X−E(X)=X−E(X)⩾ϵP0XPE(X)
推导:(可以由chebyshev不等式进行推导)
由独立性可知 : D ( X ‾ ) = 1 n 2 D ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D ( X i ) ⩽ 1 n 2 n C = C n 由独立性可知: \\D(\overline{X})=\frac{1}{n^2}D(\sum_{i=1}^nX_i) =\frac{1}{n^2}\sum_{i=1}^nD(X_i) \leqslant{\frac{1}{n^2}nC=\frac{C}{n}} 由独立性可知:D(X)=n21D(i=1∑nXi)=n21i=1∑nD(Xi)⩽n21nC=nC
由 c h e b y s h e v 不等式 : P ( ∣ X − E ( X ) ∣ ⩾ ε ) ⩽ D ( X ) ε 2 P ( ∣ X ‾ − E ( X ‾ ) ∣ ⩾ ε ) ⩽ D ( X ‾ ) ε 2 ⩽ 1 ϵ 2 C n → n → ∞ 0 经过上面的放缩从而得到证明 lim n → ∞ P ( ∣ X ‾ − E ( X ‾ ) ∣ ⩾ ε ) = 0 由chebyshev不等式: \\P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} \\P(|\overline{X}-E(\overline{X})|\geqslant\varepsilon) \leqslant\frac{D(\overline{X})}{\varepsilon^2} \leqslant\frac{1}{\epsilon^2}\frac{C}{n} \xrightarrow{n\to{\infin}}{0} \\经过上面的放缩从而得到证明 \\ \lim_{n\to{\infin}}P(|\overline{X}-E(\overline{X})|\geqslant\varepsilon) =0 由chebyshev不等式:P(∣X−E(X)∣⩾ε)⩽ε2D(X)P(∣X−E(X)∣⩾ε)⩽ε2D(X)⩽ϵ21nCn→∞0经过上面的放缩从而得到证明n→∞limP(∣X−E(X)∣⩾ε)=0
回到前面提到的多次测量取平均值的期望和方差问题:
X i 独立同分布 E ( X i ) = μ ; D ( X i ) = σ 2 E ( X ) ‾ = 1 n ∑ i = 1 n E ( X i ) = 1 n n ( μ ) = μ X_i独立同分布 \\ E(X_i)=\mu; \\D(X_i)=\sigma^2 \\\overline{E(X)}=\frac{1}{n}\sum_{i=1}^{n}E(X_i)=\frac{1}{n}n(\mu)=\mu Xi独立同分布E(Xi)=μ;D(Xi)=σ2E(X)=n1i=1∑nE(Xi)=n1n(μ)=μ
当试验次数n趋于无穷大的时候,实际测量值的算数平均值 X ‾ \overline{X} X依概率收敛于真值 μ \mu μ
和chebyshevLLN的区别
设 X n 是 n 次独立试验中事件 A 发生的次数 设X_n是n次独立试验中事件A发生的次数 设Xn是n次独立试验中事件A发生的次数
在每次试验中,事件A发生的概率是 p , p ∈ ( 0 , 1 ) p,p\in(0,1) p,p∈(0,1)
则 : X n ∼ B ( n , p ) 则:X_n\sim{B(n,p)} 则:Xn∼B(n,p)
E ( X n ) = n p , D ( X n ) = n p ( 1 − q ) E(X_n)=np,D(X_n)=np(1-q) E(Xn)=np,D(Xn)=np(1−q)
∀ ϵ > 0 : \forall \epsilon>0: ∀ϵ>0:
推导:
辛钦大数定律告诉我们,chebyshev LLN中要求的随机变量序列 { X n ∣ n = 1 , 2 , ⋯ } \set{X_n|n=1,2,\cdots} {Xn∣n=1,2,⋯}相互独立这条件在某些情况下是多余的
样本数量越多,则其算术平均值就有越高的概率接近期望值。
相比于chebyshev大数定律,具有更广的使用范围(证明需要专业知识)
设 { X n ∣ n = 1 , 2 , ⋯ } \set{X_n|n=1,2,\cdots} {Xn∣n=1,2,⋯}是独立同分布的随机变量序列
记 : X ‾ = 1 n ∑ i = 1 n X i 记:\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i 记:X=n1i=1∑nXi
E ( X n ) = μ 存在 E(X_n)=\mu存在 E(Xn)=μ存在
∀ ϵ > 0 : \forall{\epsilon}>0: ∀ϵ>0:
lim n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ ⩾ ϵ ) = 0 lim n → ∞ P ( ∣ X ‾ − μ ∣ ⩾ ϵ ) = 0 X ‾ → P μ ( n → ∞ ) \lim_{n\to{\infin}}P(|\frac{1}n\sum_{i=1}^{n}X_i-\mu|\geqslant{\epsilon})=0 \\ \lim_{n\to{\infin}} P(|\overline{X} -\mu|\geqslant{\epsilon})=0 \\\overline{X}\xrightarrow{P}\mu\quad(n\to\infin) n→∞limP(∣n1i=1∑nXi−μ∣⩾ϵ)=0n→∞limP(∣X−μ∣⩾ϵ)=0XPμ(n→∞)
揭示了n足够大的时候,可以用各次试验结果对应的随机变量 X n , n = 1 , 2 , ⋯ X_n,n=1,2,\cdots Xn,n=1,2,⋯的均值 X ‾ \overline{X} X估计期望 μ \mu μ
弱大数定律 弱大数定律 ( W L L N ) 也称为辛钦定理,陈述为:样本均值依概率收敛于期望值 X ‾ n → P μ as n → ∞ 也就是说对于任意正数 ε , lim n → ∞ P ( ∣ X ‾ n − μ ∣ > ε ) = 0 弱大数定律 \\ 弱大数定律(WLLN) 也称为辛钦定理,陈述为:样本均值依概率收敛于期望值 \\ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \quad {\textrm {as}}\quad n\to \infty } \\也就是说对于任意正数 ε, \\ {\displaystyle \lim _{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0} 弱大数定律弱大数定律(WLLN)也称为辛钦定理,陈述为:样本均值依概率收敛于期望值Xn P μasn→∞也就是说对于任意正数ε,n→∞limP(∣Xn−μ∣>ε)=0
强大数定律 强大数定律 ( S L L N ) 指出,样本均值以概率 1 收敛于期望值。 X ‾ n → a.s. μ as n → ∞ 即 P ( lim n → ∞ X ‾ n = μ ) = 1 强大数定律 \\ 强大数定律(SLLN)指出,样本均值以概率1收敛于期望值。 \\ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {\text{a.s.}}}\ \mu \quad {\textrm {as}}\quad n\to \infty } 即 \\ {\displaystyle P\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1 } 强大数定律强大数定律(SLLN)指出,样本均值以概率1收敛于期望值。Xn a.s. μasn→∞即P(n→∞limXn=μ)=1
切比雪夫定理的特殊情况设 a 1 , a 2 , … , a n , … 为相互独立的随机变量, 其数学期望为: E ( a i ) = μ ( i = 1 , 2 , … ) , 方差为: Var ( a i ) = σ 2 ( i = 1 , 2 , … ) 则序列 a ‾ = 1 n ∑ i = 1 n a i 依概率收敛于 μ (即收敛于此数列的数学期望 E ( a i ) 。 换言之,在定理条件下,当 n 无限变大时, n 个随机变量的算术平均将变成一个常数。 切比雪夫定理的特殊情况 设 {\displaystyle a_{1},\ a_{2},\ \dots \ ,\ a_{n},\ \dots } 为相互独立的随机变量, \\其数学期望为: {\displaystyle \operatorname {E} (a_{i})=\mu \quad (i=1,\ 2,\ \dots )}, \\方差为: {\displaystyle \operatorname {Var} (a_{i})=\sigma ^{2}\quad (i=1,\ 2,\ \dots )} \\ 则序列{\displaystyle {\overline {a}}={\frac {1}{n}}\sum _{i=1}^{n}a_{i}} 依概率收敛于 \mu \\(即收敛于此数列的数学期望E(a_{i})。 \\ 换言之,在定理条件下,当 n无限变大时, n个随机变量的算术平均将变成一个常数。 \\ 切比雪夫定理的特殊情况设a1, a2, … , an, …为相互独立的随机变量,其数学期望为:E(ai)=μ(i=1, 2, …),方差为:Var(ai)=σ2(i=1, 2, …)则序列a=n1i=1∑nai依概率收敛于μ(即收敛于此数列的数学期望E(ai)。换言之,在定理条件下,当n无限变大时,n个随机变量的算术平均将变成一个常数。
伯努利大数定律设在 n 次独立重复伯努利试验中, 事件 X 发生的次数为 n x ,事件 X 在每次试验中发生的总体概率为 p , n x n 代表样本发生事件 X 的频率。 则对任意正数 ε > 0 ,伯努利大数定律表明: lim n → ∞ P { ∣ n x n − p ∣ < ε } = 1 伯努利大数定律 设在{\displaystyle n}次独立重复伯努利试验中, \\事件{\displaystyle X}发生的次数为 n_{x},事件{\displaystyle X}在每次试验中发生的总体概率为 p, \\{\displaystyle {\frac {n_{x}}{n}}} 代表样本发生事件 X的频率。 \\ 则对任意正数 \varepsilon >0,伯努利大数定律表明: \\ {\displaystyle \lim _{n\to \infty }{P{\left\{\left|{\frac {n_{x}}{n}}-p\right|<\varepsilon \right\}}}=1} 伯努利大数定律设在n次独立重复伯努利试验中,事件X发生的次数为nx,事件X在每次试验中发生的总体概率为p,nnx代表样本发生事件X的频率。则对任意正数ε>0,伯努利大数定律表明:n→∞limP{ nnx−p <ε}=1