[EE261学习笔记] 7.卷积与中心极限定理

本文的最重要的一个定理,中心极限定理Central limit theorem(CLT):

任何函数多次与自身进行卷积运算之后,都会逼近某高斯分布,即

lim ⁡ n → ∞ f ( x ) ∗ . . . ∗ f ( x ) = lim ⁡ n → ∞ f ∗ n ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 \huge\lim_{n\to \infty} f(x)*...*f(x) = \lim_{n\to \infty}f^{*n}(x) =\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} nlimf(x)...f(x)=nlimfn(x)=2π σ1e2σ2(xμ)2

为了方便起见,我们将标准正态分布的情况,更一般的证明可以通过本文证明的标准正态分布通过缩放、位移得到。


我们回忆一下概率论几个定义或定理:
p ( x ) p(x) p(x)为概率密度分布, P ( a ≤ x ≤ b ) P(a\leq x\leq b) P(axb) X X X [ a , b ] [a,b] [a,b]内的概率,则
p ( x ) ≥ 0 p(x)\geq 0 p(x)0
P ( a ≤ x ≤ b ) = ∫ a b p ( x ) d x P(a\leq x\leq b)=\int_{a}^{b}p(x)dx P(axb)=abp(x)dx
F ( x ) = P ( X ≤ x ) = ∫ − ∞ x p ( x ) d x F(x)=P(X\leq x)=\int_{-\infty}^{x}p(x)dx F(x)=P(Xx)=xp(x)dx
P ( − ∞ ≤ x ≤ + ∞ ) = 1 P(-\infty\leq x \leq +\infty) = 1 P(x+)=1
平 均 值 x ‾ = ∫ − ∞ ∞ x p ( x ) d x 平均值\overline{x} = \int_{-\infty}^{\infty}xp(x)dx x=xp(x)dx 标 准 差 s = ∫ − ∞ ∞ x 2 p ( x ) d x 标准差s= \int_{-\infty}^{\infty}x^2p(x)dx s=x2p(x)dx

X X X的概率密度为 f ( X ) f(X) f(X),则 a X aX aX的概率密度为KaTeX parse error: \tag works only in display equations

简单证明一下最后一条:
X X X的概率密度为 f ( X ) f(X) f(X),则对于 Y = k X , k > 0 Y=kX,k>0 Y=kX,k>0

F ( y ) = P ( Y ≤ y ) = P ( k X ≤ y ) = P ( X ≤ y k ) = ∫ − ∞ y k p ( x ) d x F(y)=P(Y\leq y)=P(kX\leq y)=P(X\leq \frac{y}{k})=\int_{-\infty}^{ \frac{y}{k}}p(x)dx F(y)=P(Yy)=P(kXy)=P(Xky)=kyp(x)dx

对其求导,利用定积分求导公式可得:

f ( y ) = d F ( y ) d y = p ( y k ) d ( y k ) d y − lim ⁡ c → − ∞ p ( c ) d c d y = 1 k p ( y k ) \begin{aligned} f(y)=\frac{dF(y)}{dy}&=p\left(\frac{y}{k} \right )\frac{d\left(\frac{y}{k}\right)}{dy} -\lim_{c\to -\infty} p(c)\frac{dc}{dy}\\ &=\frac{1}{k}p\left(\frac{y}{k} \right ) \end{aligned} f(y)=dydF(y)=p(ky)dyd(ky)climp(c)dydc=k1p(ky)

将变量 y y y用变量 x x x替换即得证


X 1 X_1 X1 X 2 X_2 X2为独立的随机变量,那么

P ( X 1 + X 2 ≤ t ) = ∬ X 1 + X 2 ≤ t p 1 ( X 1 ) p 2 ( X 2 ) d X 1 d X 2 P(X_1+X_2\leq t) = \iint_{X_1+X_2\leq t} p_1(X_1)p_2(X_2)dX_1dX_2 P(X1+X2t)=X1+X2tp1(X1)p2(X2)dX1dX2

u = X 1 , v = X 1 + X 2 u=X_1, v=X_1+X_2 u=X1,v=X1+X2,则 X 1 = u , X 2 = v − u X_1=u, X_2=v-u X1=u,X2=vu,运用雅可比变换,有:

P ( X 1 + X 2 ≤ t ) = ∬ v ≤ t p 1 ( u ) p 2 ( v − u ) ∣ ∂ X 1 ∂ u ∂ X 1 ∂ v ∂ X 2 ∂ u ∂ X 2 ∂ v ∣ d u d v = ∫ − ∞ t ∫ − ∞ + ∞ p 1 ( u ) p 2 ( v − u ) d u d v = ∫ − ∞ t ( p 1 ∗ p 2 ) ( v ) d v \begin{aligned} P(X_1+X_2\leq t) &=\iint_{v\leq t} p_1(u)p_2(v-u)\begin{vmatrix} \frac{\partial X_1}{\partial u} & \frac{\partial X_1}{\partial v} \\ \frac{\partial X_2}{\partial u} & \frac{\partial X_2}{\partial v} \\ \end{vmatrix}dudv\\ &=\int_{-\infty}^{t}\int_{-\infty}^{+\infty}p_1(u)p_2(v-u)dudv\\ &=\int_{-\infty}^{t}(p_1*p_2)(v)dv \end{aligned} P(X1+X2t)=vtp1(u)p2(vu)uX1uX2vX1vX2dudv=t+p1(u)p2(vu)dudv=t(p1p2)(v)dv

因此, X 1 + X 2 X_1+X_2 X1+X2的概率密度,就是 p 1 p_1 p1 p 2 p_2 p2的卷积
不难证明, X 1 + ⋯ + X n X_1+\dots+X_n X1++Xn的概率密度,可以由 p 1 ∗ ⋯ ∗ p n p_1*\dots*p_n p1pn来表示,即

p ( X 1 + ⋯ + X n ) = p 1 ∗ ⋯ ∗ p n (2) \huge p(X_1+\dots+X_n)=p_1*\dots*p_n\tag2 p(X1++Xn)=p1pn(2)


我们设 X 1 + ⋯ + X n X_1+\dots+X_n X1++Xn 有相同的概率分布 p ( x ) p(x) p(x)(即独立同分布IID)。方便起见,设他们分别的平均值为 0 0 0,标准差为 1 1 1,即:
x ‾ = ∫ − ∞ ∞ x p ( x ) d x = 0 \overline{x} = \int_{-\infty}^{\infty}xp(x)dx=0 x=xp(x)dx=0
s = ∫ − ∞ ∞ x 2 p ( x ) d x = 1 s= \int_{-\infty}^{\infty}x^2p(x)dx=1 s=x2p(x)dx=1

S = X 1 + ⋯ + X n \mathscr{S}=X_1+\dots+X_n S=X1++Xn,则 S \mathscr{S} S 的平均值为 0 0 0,方差为 1 1 1,标准差为 n \sqrt n n

接下来我们证明中心极限定理(CLT):

p n ( x ) p_n(x) pn(x) S n \frac{\mathscr{S}}{\sqrt{n}} n S 的概率密度(这样标准差就为 1 1 1),则

lim ⁡ n → ∞ p n ( x ) = 1 2 π e − x 2 2 \lim_{n\to \infty} p_n(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} nlimpn(x)=2π 1e2x2

证明如下:

( 2 ) (2) (2) 式可知, p ( S ) = p 1 ∗ ⋯ ∗ p n p(\mathscr{S})=p_1*\dots*p_n p(S)=p1pn,而 p n ( x ) p_n(x) pn(x) 相当于 p ( S ) p(\mathscr{S}) p(S) 的缩放,根据 ( 1 ) (1) (1) 知,

p n ( x ) = n p ( n S ) = n p ∗ n ( n x ) p_n(x) = \sqrt{n}p\left(\sqrt{n} \mathscr{S} \right) = \sqrt{n}p^{*n}(\sqrt{n} x) pn(x)=n p(n S)=n pn(n x)

对进行傅里叶变换,并根据傅里叶变换的拉伸性,有:

F ( p n ( x ) ) = n F ( p ∗ n ( n x ) ) = n ( 1 n ( F ( p ∗ n ) ) ( s n ) ) = ( F ( p ∗ n ) ) ( s n ) = ( F p ) n ( s n ) = ( F p ( s n ) ) n (3) \begin{aligned} \mathscr{F}(p_n(x)) &= \sqrt{n}\mathscr{F}(p^{*n}(\sqrt{n} x))\\ &=\sqrt{n}(\frac{1}{\sqrt{n}}(\mathscr{F}(p^{*n}))(\frac{s}{\sqrt{n}}))\\ &=(\mathscr{F}(p^{*n}))(\frac{s}{\sqrt{n}})\\ &=(\mathscr{F}p)^{n}(\frac{s}{\sqrt{n}})\\ &=(\mathscr{F}p(\frac{s}{\sqrt{n}}))^{n}\tag 3 \end{aligned} F(pn(x))=n F(pn(n x))=n (n 1(F(pn))(n s))=(F(pn))(n s)=(Fp)n(n s)=(Fp(n s))n(3)

我们将 F p ( s n ) \mathscr{F}p(\frac{s}{\sqrt{n}}) Fp(n s) 展开,有:

F p ( s n ) = ∫ − ∞ + ∞ e − 2 π i ( s n ) x p ( x ) d x \mathscr{F}p(\frac{s}{\sqrt{n}})=\int_{-\infty}^{+\infty}e^{-2\pi i (\frac{s}{\sqrt n})x} p(x)dx Fp(n s)=+e2πi(n s)xp(x)dx

e − 2 π i ( s n ) x e^{-2\pi i (\frac{s}{\sqrt n})x} e2πi(n s)x 用泰勒展开,有:

F p ( s n ) = ∫ − ∞ + ∞ [ 1 − 2 π i s x n − 1 2 ( 2 π s x π ) 2 + …   ] p ( x ) d x = ∫ − ∞ + ∞ p ( x ) d x − 2 π i s n ∫ − ∞ + ∞ x p ( x ) d x − = 1 − 0 − 2 π 2 s 2 n + o ( 1 n 3 ) \begin{aligned} \mathscr{F}p(\frac{s}{\sqrt{n}})&=\int_{-\infty}^{+\infty}\left [ 1-\frac{2\pi i sx}{\sqrt{n}} - \frac{1}{2}\left(\frac{2\pi s x}{\sqrt \pi} \right)^2 + \dots \right] p(x)dx\\ &=\int_{-\infty}^{+\infty}p(x)dx - \frac{2\pi i s}{\sqrt{n}}\int_{-\infty}^{+\infty}xp(x)dx-\\ &=1-0-\frac{2\pi ^2 s^2}{n}+o\left(\frac{1}{\sqrt n}^3 \right) \end{aligned} Fp(n s)=+[1n 2πisx21(π 2πsx)2+]p(x)dx=+p(x)dxn 2πis+xp(x)dx=10n2π2s2+o(n 13)

显然,当 n → ∞ n\to \infty n 时, F p ( s n ) ≈ 1 − 2 π 2 s 2 n \mathscr{F}p(\frac{s}{\sqrt{n}})\approx 1-\frac{2\pi ^2 s^2}{n} Fp(n s)1n2π2s2,将其带入 ( 3 ) (3) (3) 式,可得

( F p ( s n ) ) n ≈ ( 1 − 2 π 2 s 2 n ) n = ( ( 1 + − 2 π 2 s 2 n ) n − 2 π 2 s 2 ) − 2 π 2 s 2 = e − 2 π 2 s 2 (\mathscr{F}p(\frac{s}{\sqrt{n}}))^{n} \approx \left(1-\frac{2\pi ^2 s^2}{n} \right)^n=\left(\left(1+\frac{-2\pi ^2 s^2}{n} \right)^{\frac{n}{-2\pi ^2 s^2}} \right)^{-2\pi ^2 s^2}=e^{-2\pi ^2 s^2} (Fp(n s))n(1n2π2s2)n=((1+n2π2s2)2π2s2n)2π2s2=e2π2s2

对其进行傅里叶逆变换,运用傅里叶变换的拉伸性对高斯函数进行拉伸可得:

lim ⁡ n → ∞ p n ( x ) = 1 2 π e − x 2 2 \lim_{n\to \infty} p_n(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} nlimpn(x)=2π 1e2x2

得证。

你可能感兴趣的:(学习笔记-傅里叶变换)