正态分布是一个在数学、物理学、天文学、社会统计学、生物学、工程实践中都有很广泛应用的概率分布。一些概率分布的极限分布为正态分布,许多误差的分布服从正态分布,许多随机变量的叠加也服从正态分布。正态分布有着相当好的稳定性,只要数据中正态分布的形式已经形成,累加其他小的扰动,均比较容易继续保持正态分布。正态分布具有十分优美的性质和公式,总是在生活中或理论中自然而然地出现。
下面给出正态分布的密度函数,并且推导出正态分布矩母函数、特征函数、期望及方差:
若 X 服 从 正 态 分 布 N ( μ , σ 2 ) , 则 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 若X服从正态分布N(\mu,\sigma^2),则f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} 若X服从正态分布N(μ,σ2),则f(x)=2πσ1e−2σ2(x−μ)2
引 理 1.1 : ∫ − ∞ + ∞ e − t 2 2 d t = 2 π 引理1.1:\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi} 引理1.1:∫−∞+∞e−2t2dt=2π
证 明 : ( ∫ − ∞ + ∞ e − t 2 2 d t ) 2 = ∫ − ∞ + ∞ ∫ − ∞ + ∞ e − x 2 + y 2 2 d x d y 证明:(\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt)^2=\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}e^{-\frac{x^2+y^2}{2}}dxdy 证明:(∫−∞+∞e−2t2dt)2=∫−∞+∞∫−∞+∞e−2x2+y2dxdy
= ∫ 0 2 π d θ ∫ 0 + ∞ e − r 2 2 r d r =\int_{0}^{2\pi}d\theta \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr =∫02πdθ∫0+∞e−2r2rdr
= 2 π ∫ 0 + ∞ e − r 2 2 r d r =2\pi \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr =2π∫0+∞e−2r2rdr
= 2 π ( − e − r 2 2 ∣ 0 + ∞ ) =2\pi (-e^{-\frac{r^2}{2}}\mid_{0}^{+\infin}) =2π(−e−2r2∣0+∞)
= 2 π =2\pi =2π
因 此 ∫ − ∞ + ∞ e − t 2 2 d t = 2 π 因此\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi} 因此∫−∞+∞e−2t2dt=2π
定 理 1.2 : M ( t ) = e μ t + t 2 σ 2 2 定理1.2:M(t)=e^{\mu t+\frac{t^2\sigma^2}{2}} 定理1.2:M(t)=eμt+2t2σ2
证 明 : M ( t ) = ∫ − ∞ + ∞ 1 2 π σ e − ( x − μ ) 2 2 σ 2 e t x d x 证明:M(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{tx}dx 证明:M(t)=∫−∞+∞2πσ1e−2σ2(x−μ)2etxdx
= 1 2 π σ ∫ − ∞ + ∞ e − ( x − μ ) 2 2 σ 2 + t x d x =\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+tx}dx =2πσ1∫−∞+∞e−2σ2(x−μ)2+txdx
令 w = x − μ σ 令w=\frac{x-\mu}{\sigma} 令w=σx−μ
原 式 = 1 2 π ∫ − ∞ + ∞ e − w 2 2 + t ( w σ + μ ) d w 原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t(w\sigma+\mu)}dw 原式=2π1∫−∞+∞e−2w2+t(wσ+μ)dw
= e μ t 1 2 π ∫ − ∞ + ∞ e − w 2 2 + t σ w d w =e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t\sigma w}dw =eμt2π1∫−∞+∞e−2w2+tσwdw
= e μ t 1 2 π ∫ − ∞ + ∞ e − ( w − t σ ) 2 − t 2 σ 2 2 d w =e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2-t^2\sigma^2}{2}}dw =eμt2π1∫−∞+∞e−2(w−tσ)2−t2σ2dw
= e μ t + t 2 σ 2 2 1 2 π ∫ − ∞ + ∞ e − ( w − t σ ) 2 2 d w =e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2}{2}}dw =eμt+2t2σ22π1∫−∞+∞e−2(w−tσ)2dw
= e μ t + t 2 σ 2 2 1 2 π 2 π =e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi} =eμt+2t2σ22π12π
= e μ t + t 2 σ 2 2 =e^{\mu t+\frac{t^2\sigma^2}{2}} =eμt+2t2σ2
定 理 1.3 : φ ( t ) = e i μ t − t 2 σ 2 2 定理1.3:\varphi(t)=e^{i\mu t-\frac{t^2\sigma^2}{2}} 定理1.3:φ(t)=eiμt−2t2σ2
φ ( t ) = ∫ − ∞ + ∞ 1 2 π σ e − ( x − μ ) 2 2 σ 2 e i t x d x \varphi(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{itx}dx φ(t)=∫−∞+∞2πσ1e−2σ2(x−μ)2eitxdx
= 1 2 π σ ∫ − ∞ + ∞ e − ( x − μ ) 2 2 σ 2 + i t x d x =\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+itx}dx =2πσ1∫−∞+∞e−2σ2(x−μ)2+itxdx
令 w = x − μ σ 令w=\frac{x-\mu}{\sigma} 令w=σx−μ
原 式 = 1 2 π ∫ − ∞ + ∞ e − w 2 2 + i t ( w σ + μ ) d w 原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it(w\sigma+\mu)}dw 原式=2π1∫−∞+∞e−2w2+it(wσ+μ)dw
= e i μ t 1 2 π ∫ − ∞ + ∞ e − w 2 2 + i t σ w d w =e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it\sigma w}dw =eiμt2π1∫−∞+∞e−2w2+itσwdw
= e i μ t 1 2 π ∫ − ∞ + ∞ e − ( w − i t σ ) 2 + t 2 σ 2 2 d w =e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2+t^2\sigma^2}{2}}dw =eiμt2π1∫−∞+∞e−2(w−itσ)2+t2σ2dw
= e i μ t − t 2 σ 2 2 1 2 π ∫ − ∞ + ∞ e − ( w − i t σ ) 2 2 d w =e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2}{2}}dw =eiμt−2t2σ22π1∫−∞+∞e−2(w−itσ)2dw
= e i μ t − t 2 σ 2 2 1 2 π 2 π =e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi} =eiμt−2t2σ22π12π
= e i μ t − t 2 σ 2 2 =e^{i\mu t-\frac{t^2\sigma^2}{2}} =eiμt−2t2σ2
M ′ ( t ) = e μ t + t 2 σ 2 2 ( μ + σ 2 t ) M'(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t) M′(t)=eμt+2t2σ2(μ+σ2t)
性 质 1.1 : E X = M ′ ( 0 ) = μ 性质1.1:EX=M'(0)=\mu 性质1.1:EX=M′(0)=μ
M ′ ′ ( t ) = e μ t + t 2 σ 2 2 ( μ + σ 2 t ) 2 + e μ t + t 2 σ 2 2 σ 2 M''(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t)^2+e^{\mu t+\frac{t^2\sigma^2}{2}}\sigma^2 M′′(t)=eμt+2t2σ2(μ+σ2t)2+eμt+2t2σ2σ2
E X 2 = M ′ ′ ( 0 ) = μ 2 + σ 2 EX^2=M''(0)=\mu^2+\sigma^2 EX2=M′′(0)=μ2+σ2
性 质 1.2 : D X = E X 2 − ( E X ) 2 = σ 2 性质1.2:DX=EX^2-(EX)^2=\sigma^2 性质1.2:DX=EX2−(EX)2=σ2
特 别 地 , X 服 从 标 准 正 态 分 布 N ( 0 , 1 ) 时 特别地,X服从标准正态分布N(0,1)时 特别地,X服从标准正态分布N(0,1)时
M ( t ) = e t 2 2 M(t)=e^{\frac{t^2}{2}} M(t)=e2t2
φ ( t ) = e − t 2 2 \varphi(t)=e^{-\frac{t^2}{2}} φ(t)=e−2t2
E X = 0 , D X = 1 EX=0,DX=1 EX=0,DX=1
独立的重复n次的伯努利实验,每次实验只有成功和失败两种结果,每次实验成功的概率为p,n次实验的成功总次数称为二项分布B(n,p)。二项分布在应用数学中有极其重要的作用
根据组合数学的知识,可以得出二项分布的概率分布
B ( n , p ; i ) = ( n i ) p i ( 1 − p ) n − i B(n,p;i)=\binom{n}{i}p^i(1-p)^{n-i} B(n,p;i)=(in)pi(1−p)n−i
由于二项式系数的计算比较复杂,在n很大的时候采用这个公式计算比较繁琐,而求解 ∑ i = a b B ( n , p ; i ) \sum_{i=a}^{b} B(n,p;i) ∑i=abB(n,p;i)则更为麻烦,数学家们考虑如何近似计算这个概率。
运用斯特林公式
定 理 2.1 : n ! ≈ 2 π n ( n e ) n 定理2.1:n!≈ \sqrt{2\pi n}(\frac{n}{e})^n 定理2.1:n!≈2πn(en)n
可以简化单个B(n,p;i)二项式系数的近似计算,但是多个B(n,p;i)的计算还是需要更有效的近似计算方法
不妨设n为偶数,令n=2m,在n趋于无穷大的情况下,考虑 B ( n , m + d , 1 2 ) B(n,m+d,\frac{1}{2}) B(n,m+d,21)如何计算
定 理 2.2 : B ( n , m + d , 1 2 ) ≈ B ( 2 m , m , 1 2 ) e − d 2 m 定理2.2:B(n,m+d,\frac{1}{2})≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}} 定理2.2:B(n,m+d,21)≈B(2m,m,21)e−md2
证 明 : B ( n , m + d , 1 2 ) = B ( 2 m , m + d , 1 2 ) 证明:B(n,m+d,\frac{1}{2})=B(2m,m+d,\frac{1}{2}) 证明:B(n,m+d,21)=B(2m,m+d,21)
= B ( 2 m , m , 1 2 ) Π i = 1 d ( m − i + 1 ) Π i = 1 d ( m + i ) =B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(m-i+1)}{\Pi_{i=1}^{d}(m+i)} =B(2m,m,21)Πi=1d(m+i)Πi=1d(m−i+1)
= B ( 2 m , m , 1 2 ) Π i = 1 d ( 1 + − i + 1 m ) Π i = 1 d ( 1 + i m ) =B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(1+\frac{-i+1}{m})}{\Pi_{i=1}^{d}(1+\frac{i}{m})} =B(2m,m,21)Πi=1d(1+mi)Πi=1d(1+m−i+1)
由 于 l n ( 1 + x ) = x + o ( x ) 由于ln(1+x)=x+o(x) 由于ln(1+x)=x+o(x)
因 此 1 + x = e x + o ( x ) 因此1+x=e^{x+o(x)} 因此1+x=ex+o(x)
因 此 B ( n , m + d , 1 2 ) = B ( 2 m , m , 1 2 ) e ∑ i = − d + 1 − 1 i m + ∑ i = − d − 1 i m + o ( d m ) 因此B(n,m+d,\frac{1}{2})=B(2m,m,\frac{1}{2})e^{\sum_{i=-d+1}^{-1}\frac{i}{m}+\sum_{i=-d}^{-1}\frac{i}{m}+o(\frac{d}{m})} 因此B(n,m+d,21)=B(2m,m,21)e∑i=−d+1−1mi+∑i=−d−1mi+o(md)
= B ( 2 m , m , 1 2 ) e − d 2 m + o ( d m ) =B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}+o(\frac{d}{m})} =B(2m,m,21)e−md2+o(md)
≈ B ( 2 m , m , 1 2 ) e − d 2 m ≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}} ≈B(2m,m,21)e−md2
将 斯 特 林 公 式 ( 2.1 ) 代 入 ( 2.2 ) 式 , 得 到 将斯特林公式(2.1)代入(2.2)式,得到 将斯特林公式(2.1)代入(2.2)式,得到
B ( n , m + d , 1 2 ) ≈ 1 π m e − d 2 m B(n,m+d,\frac{1}{2})≈\frac{1}{\sqrt{\pi m}}e^{-\frac{d^2}{m}} B(n,m+d,21)≈πm1e−md2
即 B ( n , n 2 + d , 1 2 ) ≈ 2 π n e − 2 d 2 n 即B(n,\frac{n}{2}+d,\frac{1}{2})≈\frac{\sqrt{2}}{\sqrt{\pi n}}e^{-\frac{2d^2}{n}} 即B(n,2n+d,21)≈πn2e−n2d2
因 此 说 明 了 , p = 1 2 时 , 二 项 分 布 的 极 限 分 布 是 正 态 分 布 。 因此说明了,p=\frac{1}{2}时,二项分布的极限分布是正态分布。 因此说明了,p=21时,二项分布的极限分布是正态分布。
数 学 史 上 正 态 分 布 的 发 展 就 源 于 二 项 分 布 的 近 似 计 算 逼 近 。 数学史上正态分布的发展就源于二项分布的近似计算逼近。 数学史上正态分布的发展就源于二项分布的近似计算逼近。
对 于 p 不 等 于 1 2 的 一 般 情 况 , 则 可 用 稍 微 复 杂 的 类 似 方 法 推 导 , 可 以 得 到 如 下 定 理 对于p不等于\frac{1}{2}的一般情况,则可用稍微复杂的类似方法推导,可以得到如下定理 对于p不等于21的一般情况,则可用稍微复杂的类似方法推导,可以得到如下定理
设 S n 服 从 二 项 分 布 B ( n , p ) , q = 1 − p , 则 对 任 意 实 数 x 有 , 设S_{n}服从二项分布B(n,p),q=1-p,则对任意实数x有, 设Sn服从二项分布B(n,p),q=1−p,则对任意实数x有,
定 理 3.1 : lim n → ∞ P ( S n − n p n p q ⩽ x ) = 1 2 π ∫ − ∞ x e − t 2 2 d t = Φ ( x ) 定理3.1:\lim_{n \rightarrow \infin}P(\frac{S_{n}-np}{\sqrt{npq}}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x) 定理3.1:n→∞limP(npqSn−np⩽x)=2π1∫−∞xe−2t2dt=Φ(x)
其 中 Φ ( x ) 是 标 准 正 态 分 布 的 分 布 函 数 其中\Phi(x)是标准正态分布的分布函数 其中Φ(x)是标准正态分布的分布函数
下 面 再 用 矩 母 函 数 的 方 法 证 明 上 述 定 理 : 下面再用矩母函数的方法证明上述定理: 下面再用矩母函数的方法证明上述定理:
设 Z n = S n − n p n p q 设Z_{n}=\frac{S_{n}-np}{\sqrt{npq}} 设Zn=npqSn−np
由 于 B ( 1 , p ) 的 矩 母 函 数 为 p e t + q 由于B(1,p)的矩母函数为pe^t+q 由于B(1,p)的矩母函数为pet+q
根 据 和 的 分 布 的 矩 母 函 数 性 质 , B ( n , p ) 的 矩 母 函 数 为 ( p e t + q ) n 根据和的分布的矩母函数性质,B(n,p)的矩母函数为(pe^t+q)^n 根据和的分布的矩母函数性质,B(n,p)的矩母函数为(pet+q)n
因 此 , Z n 的 矩 母 函 数 为 ( p e q t n p q + q e − p t n p q ) n 因此,Z_{n}的矩母函数为(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n} 因此,Zn的矩母函数为(penpqqt+qenpq−pt)n
由 于 e x = 1 + x + x 2 2 ! + x 3 3 ! + o ( x 3 ) 由于e^{x}=1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+o(x^3) 由于ex=1+x+2!x2+3!x3+o(x3)
p e q t n p q + q e − p t n p q pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}} penpqqt+qenpq−pt
= p ( 1 + q t n p q + ( q t n p q ) 2 2 ! + ( q t n p q ) 3 3 ! + o ( ( q t n p q ) 3 ) ) + q ( 1 + − p t n p q + ( − p t n p q ) 2 2 ! + ( − p t n p q ) 3 3 ! + o ( ( − p t n p q ) 3 ) ) =p(1+\frac{qt}{\sqrt{npq}}+\frac{(\frac{qt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{qt}{\sqrt{npq}})^3}{3!}+o((\frac{qt}{\sqrt{npq}})^3))+q(1+\frac{-pt}{\sqrt{npq}}+\frac{(\frac{-pt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{-pt}{\sqrt{npq}})^3}{3!}+o((\frac{-pt}{\sqrt{npq}})^3)) =p(1+npqqt+2!(npqqt)2+3!(npqqt)3+o((npqqt)3))+q(1+npq−pt+2!(npq−pt)2+3!(npq−pt)3+o((npq−pt)3))
= 1 + t 2 2 n + o ( t 3 n 3 2 ) n =1+\frac{t^2}{2n}+\frac{o(\frac{t^3}{n^{\frac{3}{2}}})}{n} =1+2nt2+no(n23t3)
因 此 lim n → ∞ M Z n = lim n → ∞ ( p e q t n p q + q e − p t n p q ) n = e t 2 2 因此\lim_{n \rightarrow \infin}M_{Z_{n}}=\lim_{n \rightarrow \infin}(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n}=e^{\frac{t^2}{2}} 因此n→∞limMZn=n→∞lim(penpqqt+qenpq−pt)n=e2t2
根 据 定 理 1.2 , M Z n 的 极 限 与 标 准 正 态 分 布 的 矩 母 函 数 相 同 根据定理1.2,M_{Z_{n}}的极限与标准正态分布的矩母函数相同 根据定理1.2,MZn的极限与标准正态分布的矩母函数相同
因 此 Z n 依 概 率 收 敛 于 标 准 正 态 分 布 , 定 理 3.1 成 立 因此Z_{n}依概率收敛于标准正态分布,定理3.1成立 因此Zn依概率收敛于标准正态分布,定理3.1成立
日常生活中经常会遇到曲线拟合问题,也就是给定若干组观测数据,需要找到一个函数,对这些观测数据进行拟合。
为了比较拟合方法的优劣,我们需要找到一种方法度量拟合的优良性。
有如下几种度量方法:
( 1 ) max i = 1 n ∣ f ( x i ) − y i ∣ (1)\max_{i=1}^{n} |f(x_{i})-y_{i}| (1)i=1maxn∣f(xi)−yi∣
( 2 ) ∑ i = 1 n ∣ f ( x i ) − y i ∣ (2)\sum_{i=1}^{n} |f(x_{i})-y_{i}| (2)i=1∑n∣f(xi)−yi∣
( 2 ) ∑ i = 1 n ( f ( x i ) − y i ) 2 (2)\sum_{i=1}^{n} (f(x_{i})-y_{i})^2 (2)i=1∑n(f(xi)−yi)2
第一种度量方法有比较复杂的逻辑比较关系,不能用普通的初等分析方法来分析,而且误差分析结果会完全被误差最大的点主导
第二种度量方法依然含有绝对值函数,绝对值函数是不可导的,需要很多种分类讨论的情况
第三种度量方法是初等函数,可以用求导等方法来分析。在各组数据误差间建立了平衡,能充分地考虑所有数据的信息。
第三种方法就是最小二乘法,在曲线拟合优良性评估中有广泛应用。
最小二乘法可以导出测量值的最优估计值是算术平均值。
L ( θ ) = ∑ i = 1 n ( θ − x i ) 2 L(\theta)=\sum_{i=1}^{n} (\theta-x_{i})^2 L(θ)=i=1∑n(θ−xi)2
∂ L ( θ ) ∂ θ = ∑ i = 1 n 2 ( θ − x i ) \frac{\partial L(\theta)}{\partial \theta}=\sum_{i=1}^{n}2(\theta-x_{i}) ∂θ∂L(θ)=i=1∑n2(θ−xi)
∂ L ( θ ) ∂ θ = 0 时 \frac{\partial L(\theta)}{\partial \theta}=0时 ∂θ∂L(θ)=0时
L ( θ ) 最 小 , 此 时 θ ^ = ∑ i = 1 n x i n = x ˉ L(\theta)最小,此时\hat{\theta}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\bar{x} L(θ)最小,此时θ^=n∑i=1nxi=xˉ
算术平均值非常优美简洁,等权重地考虑了所有独立重复测量值的情况。而高斯在研究误差分布函数时,假定误差分布导出的极大似然估计=算数平均值,然后作出了如下推导
记 误 差 为 e , 则 误 差 的 密 度 函 数 为 f ( e ) 记误差为e,则误差的密度函数为f(e) 记误差为e,则误差的密度函数为f(e)
L ( θ ) = Π i = 1 n f ( e i ) = Π i = 1 n f ( x i − θ ) L(\theta)=\Pi_{i=1}^{n}f(e_i)=\Pi_{i=1}^{n}f(x_i-\theta) L(θ)=Πi=1nf(ei)=Πi=1nf(xi−θ)
求 极 大 似 然 估 计 , 令 ∂ l n ( L ( θ ) ) ∂ θ = 0 , 则 有 求极大似然估计,令\frac{\partial ln(L(\theta))}{\partial \theta}=0,则有 求极大似然估计,令∂θ∂ln(L(θ))=0,则有
∑ i = 1 n f ′ ( x i − θ ) f ( x i − θ ) = 0 \sum_{i=1}^{n}\frac{f'(x_i-\theta)}{f(x_i-\theta)}=0 i=1∑nf(xi−θ)f′(xi−θ)=0
令 g ( x i − θ ) = f ′ ( x i − θ ) f ( x i − θ ) 令g(x_i-\theta)=\frac{f'(x_i-\theta)}{f(x_i-\theta)} 令g(xi−θ)=f(xi−θ)f′(xi−θ)
则 ∑ i = 1 n g ( x i − θ ) = 0 则\sum_{i=1}^{n}g(x_i-\theta)=0 则i=1∑ng(xi−θ)=0
将 θ ^ = x ˉ 代 入 上 式 , 则 有 将\hat{\theta}=\bar{x}代入上式,则有 将θ^=xˉ代入上式,则有
式 4.1 : ∑ i = 1 n g ( x i − x ˉ ) = 0 式4.1:\sum_{i=1}^{n}g(x_i-\bar{x})=0 式4.1:i=1∑ng(xi−xˉ)=0
在 式 4.1 中 取 n = 2 在式4.1中取n=2 在式4.1中取n=2
g ( x 1 − x ˉ ) + g ( x 2 − x ˉ ) = 0 g(x_1-\bar{x})+g(x_2-\bar{x})=0 g(x1−xˉ)+g(x2−xˉ)=0
由 于 x 1 − x ˉ = − ( x 2 − x ˉ ) 由于x_1-\bar{x}=-(x_2-\bar{x}) 由于x1−xˉ=−(x2−xˉ)
因 此 g ( x ) + g ( − x ) = 0 , g ( x ) 为 奇 函 数 因此g(x)+g(-x)=0,g(x)为奇函数 因此g(x)+g(−x)=0,g(x)为奇函数
在 令 式 4.1 中 n = m + 1 , 令 x 1 = x 2 = . . . = x m = − x , x m + 1 = m x , 则 在令式4.1中n=m+1,令x_1=x_2=...=x_m=-x,x_{m+1}=mx,则 在令式4.1中n=m+1,令x1=x2=...=xm=−x,xm+1=mx,则
m g ( − x ) + g ( m x ) = 0 mg(-x)+g(mx)=0 mg(−x)+g(mx)=0
因 此 , 有 式 4.2 : g ( m x ) = m g ( x ) 因此,有式4.2:g(mx)=mg(x) 因此,有式4.2:g(mx)=mg(x)
唯 一 满 足 式 4.2 的 连 续 函 数 是 g ( x ) = c x 唯一满足式4.2的连续函数是g(x)=cx 唯一满足式4.2的连续函数是g(x)=cx
因 此 f ′ ( x ) f ( x ) = c x 因此\frac{f'(x)}{f(x)}=cx 因此f(x)f′(x)=cx
( l n f ( x ) ) ′ = c x (ln f(x))'=cx (lnf(x))′=cx
两 边 进 行 积 分 , 得 两边进行积分,得 两边进行积分,得
l n f ( x ) = c x 2 + t ln f(x)=cx^2+t lnf(x)=cx2+t
f ( x ) = t e c x 2 f(x)=te^{cx^2} f(x)=tecx2
由 于 f ( x ) 满 足 规 范 性 , 因 此 f ( x ) 规 范 化 后 就 是 正 态 分 布 N ( 0 , σ 2 ) 的 密 度 函 数 由于f(x)满足规范性,因此f(x)规范化后就是正态分布N(0,\sigma^2)的密度函数 由于f(x)满足规范性,因此f(x)规范化后就是正态分布N(0,σ2)的密度函数
天文学家John Hershcel和物理学家麦克斯韦(Maxwell)考虑二维的误差分布时,考虑了两个准则:
( 5.1 ) : 两 个 坐 标 轴 x 轴 和 y 轴 的 误 差 是 相 互 独 立 的 (5.1):两个坐标轴x轴和y轴的误差是相互独立的 (5.1):两个坐标轴x轴和y轴的误差是相互独立的
( 5.2 ) : 误 差 的 分 布 在 空 间 上 具 有 旋 转 对 称 性 , 即 误 差 的 分 布 与 空 间 中 的 方 位 没 有 关 系 (5.2):误差的分布在空间上具有旋转对称性,即误差的分布与空间中的方位没有关系 (5.2):误差的分布在空间上具有旋转对称性,即误差的分布与空间中的方位没有关系
由 ( 5.1 ) 得 , f ( x , y ) = f ( x ) f ( y ) 由(5.1)得,f(x,y)=f(x)f(y) 由(5.1)得,f(x,y)=f(x)f(y)
在 极 坐 标 表 示 下 , f ( x , y ) = f ( r c o s θ , r s i n θ ) = g ( r , θ ) 在极坐标表示下,f(x,y)=f(rcos\theta,rsin\theta)=g(r,\theta) 在极坐标表示下,f(x,y)=f(rcosθ,rsinθ)=g(r,θ)
由 ( 5.2 ) 得 , g ( r , θ ) = g ( r ) 由(5.2)得,g(r,\theta)=g(r) 由(5.2)得,g(r,θ)=g(r)
因 此 f ( x , y ) = f ( x ) f ( y ) = g ( r ) = g ( x 2 + y 2 ) 因此f(x,y)=f(x)f(y)=g(r)=g(\sqrt{x^2+y^2}) 因此f(x,y)=f(x)f(y)=g(r)=g(x2+y2)
令 y = 0 , 则 有 f ( x ) f ( 0 ) = g ( x ) 令y=0,则有f(x)f(0)=g(x) 令y=0,则有f(x)f(0)=g(x)
因 此 f ( x ) f ( y ) = f ( x 2 + y 2 ) f ( 0 ) 因此f(x)f(y)=f(\sqrt{x^2+y^2})f(0) 因此f(x)f(y)=f(x2+y2)f(0)
因 此 f ( x ) f ( 0 ) f ( y ) f ( 0 ) = f ( x 2 + y 2 ) f ( 0 ) 因此\frac{f(x)}{f(0)}\frac{f(y)}{f(0)}=\frac{f(\sqrt{x^2+y^2})}{f(0)} 因此f(0)f(x)f(0)f(y)=f(0)f(x2+y2)
因 此 l n ( f ( x ) f ( 0 ) ) + l n ( f ( y ) f ( 0 ) ) = l n ( f ( x 2 + y 2 ) f ( 0 ) ) 因此ln(\frac{f(x)}{f(0)})+ln(\frac{f(y)}{f(0)})=ln(\frac{f(\sqrt{x^2+y^2})}{f(0)}) 因此ln(f(0)f(x))+ln(f(0)f(y))=ln(f(0)f(x2+y2))
令 h ( x ) = l n ( f ( x ) f ( 0 ) ) 令h(x)=ln(\frac{f(x)}{f(0)}) 令h(x)=ln(f(0)f(x))
所 以 h ( x ) + h ( y ) = h ( x 2 + y 2 ) 所以h(x)+h(y)=h(\sqrt{x^2+y^2}) 所以h(x)+h(y)=h(x2+y2)
这 个 方 程 满 足 两 个 维 度 距 离 合 成 的 公 式 这个方程满足两个维度距离合成的公式 这个方程满足两个维度距离合成的公式
可 以 得 到 一 个 可 行 解 h ( x ) = a x 2 可以得到一个可行解h(x)=ax^2 可以得到一个可行解h(x)=ax2
因 此 f ( x ) f ( 0 ) = e a x 2 因此\frac{f(x)}{f(0)}=e^{ax^2} 因此f(0)f(x)=eax2
由 于 f ( 0 ) ∫ − ∞ + ∞ e a x 2 d x = 1 由于f(0)\int_{-\infin}^{+\infin}e^{ax^2}dx=1 由于f(0)∫−∞+∞eax2dx=1
解 得 f ( x ) = a π e − a x 2 解得f(x)=\sqrt{\frac{a}{\pi}}e^{-ax^2} 解得f(x)=πae−ax2
而 f ( x ) 就 是 正 态 分 布 N ( 0 , 1 2 a ) 的 概 率 密 度 函 数 , f ( x , y ) 则 是 二 维 标 准 正 态 分 布 函 数 而f(x)就是正态分布N(0,\frac{1}{\sqrt{2a}})的概率密度函数,f(x,y)则是二维标准正态分布函数 而f(x)就是正态分布N(0,2a1)的概率密度函数,f(x,y)则是二维标准正态分布函数
定 理 6.1 ( L i n d e b e r g − L e ˊ v y 中 心 极 限 定 理 ) : 定理6.1(Lindeberg-Lévy中心极限定理): 定理6.1(Lindeberg−Leˊvy中心极限定理):
记 X 1 , X 2 . . . X n 是 相 互 独 立 同 分 布 的 随 机 变 量 序 列 , 且 存 在 均 值 μ 和 方 差 σ 2 记X_1,X_2...X_n是相互独立同分布的随机变量序列,且存在均值\mu和方差\sigma^2 记X1,X2...Xn是相互独立同分布的随机变量序列,且存在均值μ和方差σ2
S n = ∑ 1 n X i , 则 对 于 任 意 的 实 数 x 有 , S_n=\sum_{1}^{n}X_i,则对于任意的实数x有, Sn=1∑nXi,则对于任意的实数x有,
lim n → ∞ P ( S n − n μ n σ ⩽ x ) = 1 2 π ∫ − ∞ x e − t 2 2 d t = Φ ( x ) \lim_{n \rightarrow \infin}P(\frac{S_{n}-n\mu}{\sqrt{n}\sigma}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x) n→∞limP(nσSn−nμ⩽x)=2π1∫−∞xe−2t2dt=Φ(x)
可 以 用 特 征 函 数 证 明 这 个 定 理 : 可以用特征函数证明这个定理: 可以用特征函数证明这个定理:
对 于 k = 1 , 2.. n , 令 Y k = X k − μ σ 对于k=1,2..n,令Y_k=\frac{X_k-\mu}{\sigma} 对于k=1,2..n,令Yk=σXk−μ
则 Y k 独 立 同 分 布 , 记 为 f ( t ) , E Y = 0 , D Y = 1 则Y_k独立同分布,记为f(t),EY=0,DY=1 则Yk独立同分布,记为f(t),EY=0,DY=1
则 f ′ ( 0 ) = i E Y = 0 , f ′ ′ ( 0 ) = i 2 E Y 2 = − ( D X + ( E X ) 2 ) = − 1 则f'(0)=iEY=0,f''(0)=i^2EY^2=-(DX+(EX)^2)=-1 则f′(0)=iEY=0,f′′(0)=i2EY2=−(DX+(EX)2)=−1
由 泰 勒 公 式 得 f ( t ) = 1 − t 2 2 + o ( t 2 ) 由泰勒公式得f(t)=1-\frac{t^2}{2}+o(t^2) 由泰勒公式得f(t)=1−2t2+o(t2)
Z n = S n − n μ n σ = ∑ i = 1 n Y i n Z_n=\frac{S_{n}-n\mu}{\sqrt{n}\sigma}=\frac{\sum_{i=1}^{n}Y_i}{\sqrt{n}} Zn=nσSn−nμ=n∑i=1nYi
f Z n ( t ) = ( f ( t n ) ) n f_{Z_n}(t)=(f(\frac{t}{\sqrt{n}}))^n fZn(t)=(f(nt))n
= ( 1 − t 2 2 n + o ( t 2 ) n ) n =(1-\frac{t^2}{2n}+\frac{o(t^2)}{n})^n =(1−2nt2+no(t2))n
因 此 得 到 lim n → ∞ f Z n ( t ) = e − t 2 2 , 为 正 态 分 布 的 特 征 函 数 因此得到\lim_{n \rightarrow \infin}f_{Z_n}(t)=e^{-\frac{t^2}{2}},为正态分布的特征函数 因此得到n→∞limfZn(t)=e−2t2,为正态分布的特征函数
这个定理揭示出了正态分布超乎寻常的稳定性,任意同分布随机变量求和之后极限分布就是正态分布。
定 理 7.1 : 若 X ∼ N ( μ , σ 2 ) , 且 a 和 b 为 实 数 , 则 a X + b ∼ N ( a μ + b , a 2 σ 2 ) 定理7.1:若X \sim N(\mu,\sigma^2),且a和b为实数,则aX+b \sim N(a\mu+b,a^2\sigma^2) 定理7.1:若X∼N(μ,σ2),且a和b为实数,则aX+b∼N(aμ+b,a2σ2)
证 明 : M X ( t ) = e μ t + t 2 σ 2 2 证明:M_X(t)=e^{\mu t+\frac{t^2\sigma^2}{2}} 证明:MX(t)=eμt+2t2σ2
则 M a X + b ( t ) = E ( e t ( a X + b ) ) = e b t E ( e ( t a ) X ) ) 则M_{aX+b}(t)=E(e^{t(aX+b)})=e^{bt}E(e^{(ta)X})) 则MaX+b(t)=E(et(aX+b))=ebtE(e(ta)X))
= e b t e a μ t + a 2 t 2 σ 2 2 =e^{bt}e^{a\mu t+\frac{a^2t^2\sigma^2}{2}} =ebteaμt+2a2t2σ2
= e ( a μ + b ) t + t 2 ( a σ ) 2 2 , 为 N ( a μ + b , a 2 σ 2 ) 的 矩 母 函 数 =e^{(a\mu+b) t+\frac{t^2(a\sigma)^2}{2}},为N(a\mu+b,a^2\sigma^2)的矩母函数 =e(aμ+b)t+2t2(aσ)2,为N(aμ+b,a2σ2)的矩母函数
可 见 正 态 分 布 在 线 性 变 换 后 仍 为 正 态 分 布 可见正态分布在线性变换后仍为正态分布 可见正态分布在线性变换后仍为正态分布
因 此 所 有 正 态 分 布 和 退 化 分 布 ( 0 ) 构 成 一 个 向 量 空 间 。 因此所有正态分布和退化分布(0)构成一个向量空间。 因此所有正态分布和退化分布(0)构成一个向量空间。
定 理 7.2 ( 正 态 分 布 的 加 法 定 理 ) : 若 X 与 Y 相 互 独 立 , 且 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) , 则 有 定理7.2(正态分布的加法定理):若X与Y相互独立,且X \sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2}),则有 定理7.2(正态分布的加法定理):若X与Y相互独立,且X∼N(μ1,σ12),Y∼N(μ2,σ22),则有
X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X+Y \sim N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2}) X+Y∼N(μ1+μ2,σ12+σ22)
证 明 : M X + Y ( t ) = M X ( t ) M Y ( t ) = e μ 1 t + t 2 σ 1 2 2 e μ 2 t + t 2 σ 2 2 2 证明:M_{X+Y}(t)=M_X(t)M_Y(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{\mu_2 t+\frac{t^2\sigma_2^2}{2}} 证明:MX+Y(t)=MX(t)MY(t)=eμ1t+2t2σ12eμ2t+2t2σ22
= e ( μ 1 + μ 2 ) t + t 2 ( σ 1 2 + σ 2 2 ) 2 , 为 正 态 分 布 N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) 的 矩 母 函 数 =e^{(\mu_1+\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数 =e(μ1+μ2)t+2t2(σ12+σ22),为正态分布N(μ1+μ2,σ12+σ22)的矩母函数
定 理 7.3 : 若 X 与 Y 相 互 独 立 , 且 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) , 则 有 定理7.3:若X与Y相互独立,且X \sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2}),则有 定理7.3:若X与Y相互独立,且X∼N(μ1,σ12),Y∼N(μ2,σ22),则有
X − Y ∼ N ( μ 1 − μ 2 , σ 1 2 + σ 2 2 ) X-Y \sim N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2}) X−Y∼N(μ1−μ2,σ12+σ22)
证 明 : M X − Y ( t ) = M X + ( − Y ) ( t ) = M X ( t ) M − Y ( t ) = e μ 1 t + t 2 σ 1 2 2 e − μ 2 t + t 2 σ 2 2 2 证明:M_{X-Y}(t)=M_{X+(-Y)}(t)=M_X(t)M_{-Y}(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{-\mu_2 t+\frac{t^2\sigma_2^2}{2}} 证明:MX−Y(t)=MX+(−Y)(t)=MX(t)M−Y(t)=eμ1t+2t2σ12e−μ2t+2t2σ22
= e ( μ 1 − μ 2 ) t + t 2 ( σ 1 2 + σ 2 2 ) 2 , 为 正 态 分 布 N ( μ 1 − μ 2 , σ 1 2 + σ 2 2 ) 的 矩 母 函 数 =e^{(\mu_1-\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数 =e(μ1−μ2)t+2t2(σ12+σ22),为正态分布N(μ1−μ2,σ12+σ22)的矩母函数