数理统计_笔记

目录

文章目录

      • 目录
  • ch1 统计学前言
    • 01 数据
    • 02 统计指标
      • 平均数
      • 中位数
      • 众数
    • 03 采样
      • 01简单随机抽样
        • 01 要求
        • 02 方法
        • 03 样本条件
        • 04 统计量
        • 05 样本数字特征
      • 02分层抽样
      • 03 整体抽样
      • 04 非随机的等距抽样
      • 05系统抽样
    • 04 概率的基本概念
    • 05 大数定律与中心极限定理
      • 01 切比雪夫不等式
      • 02相关性分析
      • 03 回归分析
      • 04 区间估计
  • ch3 概率与抽样分布
    • 条件概率
    • 事件独立性
      • 不相容性与独立性
      • 多个事件的独立
    • 离散型
      • **二项分布**
      • 几何分布
      • Poisson 分布
    • 连续型
      • 分布函数
      • 概率密度
        • **性质**:
        • **计算**
        • **数字特征**
      • 正态分布
        • 定义
        • 标准正态分布
      • 指数分布
      • 均匀分布
    • 多元随机变量
      • 联合分布列
      • 边缘分布列
      • 条件分布列
      • 独立与相关
        • 独立性
        • 条件独立
        • 期望和方差
        • 协方差协方差矩阵
        • 随机变量的相关系数
      • 多元正态分布
          • 均匀分布
          • 二元正态分布
          • 二次型
          • n元正态分布
        • 相关系数
        • 统计量
          • 常用统计量
        • 抽样分布
          • 卡方分布
          • t分布
          • F分布
      • 大数定律
  • ch4参数估计
    • 参数的点估计
      • 矩估计
      • 极大似然法
    • 估计量的评选标准
      • 无偏估计
      • 有效性
      • 一致性
    • 区间估计
    • 一致最小方差无偏估计
      • 最小均方误差准则
    • Cramer-Rao公式
      • CR正则分布族
      • C- R不等式
      • 有效估计
  • Ch5 贝叶斯估计
    • 贝叶斯方法
      • 贝叶斯公式
      • 先验分布
      • 后验分布
    • 共轭先验分布
    • 贝叶斯估计
  • ch6假设检验

ch1 统计学前言

01 数据

定类数据 定序数据 定量数据
分类 ✔️ ✔️ ✔️
排序 ✔️ ✔️
间距 ✔️
比值 ✔️

02 统计指标

平均数

  1. 算术平均数

    性质:各变量值与算术平均数的差值1范数和二范数最小

 算术平均数  =  总体标志值总数   总体单位数  \text { 算术平均数 }=\frac{\text { 总体标志值总数 }}{\text { 总体单位数 }}  算术平均数 = 总体单位数  总体标志值总数 

  1. 加权算术平均数

x ˉ = x 1 f 1 + x 2 f 2 + … . . + x n f n f 1 + f 2 + … … + f n = ∑ x f ∑ f \bar{x}=\frac{x_{1} f_{1}+x_{2} f_{2}+\ldots . .+x_{n} f_{n}}{f_{1}+f_{2}+\ldots \ldots+f_{n}}=\frac{\sum x f}{\sum f} xˉ=f1+f2++fnx1f1+x2f2+..+xnfn=fxf

  1. 调和平均数/倒数平均数:倒数算术平均数的倒数

x ˉ H = 1 1 x 1   m 1 + 1 x 2 m 2 + ⋯ + 1 x n m n m 1 + m 2 + ⋯ + m n = m 1 + m 2 + ⋯ + m n 1 x 1 m 1 + 1 x 2 m 2 + ⋯ + 1 x n m n = ∑ m ∑ 1 x m \bar{x}_{H}=\frac{1}{\frac{\frac{1}{x_{1}} \mathrm{~m}_{1}+\frac{1}{x_{2}} m_{2}+\cdots+\frac{1}{x_{n}} m_{n}}{m_{1}+m_{2}+\cdots+m_{n}}}=\frac{m_{1}+m_{2}+\cdots+m_{n}}{\frac{1}{x_{1}} m_{1}+\frac{1}{x_{2}} m_{2}+\cdots+\frac{1}{x_{n}} m_{n}}=\frac{\sum m}{\sum \frac{1}{x} m} xˉH=m1+m2++mnx11 m1+x21m2++xn1mn1=x11m1+x21m2++xn1mnm1+m2++mn=x1mm

  1. 几何平均数

    应用:增长率

x ˉ G = x 1 ⋅ x 2 ⋅ … . ⋅ ⋅ x n n = ∏ x n \bar{x}_{G}=\sqrt[n]{x_{1} \cdot x_{2} \cdot \ldots . \cdot \cdot x_{n}}=\sqrt[n]{\prod^{x}} xˉG=nx1x2.xn =nx

  1. 加权几何平均数

x ˉ G = x 1 f 1 ⋅ x 2 f 2 ⋯ ⋅ x n f n 2 f = ∏ 1 x f 2 f \bar{x}_{G}=\sqrt[2 f]{x_{1}^{f_{1}} \cdot x_{2}^{f_{2}} \cdots \cdot x_{n}^{f_{n}}}=\sqrt[2 f]{\prod_{1} x^{f}} xˉG=2fx1f1x2f2xnfn =2f1xf

中位数

M e M_e Me:总体中各单位标志值按照大小顺序排列,处于中间位置的数

众数

M o M_o Mo
M o = L m + Δ 1 Δ 1 + Δ 2 × d m (  下限公式  ) M o = U m − Δ 2 Δ 1 + Δ 2 × d m  (上限公式)  ) M o=L_{m}+\frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}} \times d_{m}(\text { 下限公式 }) \\ \left.M o=U_{m}-\frac{\Delta_{2}}{\Delta_{1}+\Delta_{2}} \times d_{m} \text { (上限公式) }\right) Mo=Lm+Δ1+Δ2Δ1×dm( 下限公式 )Mo=UmΔ1+Δ2Δ2×dm (上限公式)

03 采样

01简单随机抽样

01 要求

  1. 要求总体个数有限
  2. 从总体中逐个进行抽取
  3. 不放回抽样
  4. 总体中每一个个体被抽去的可能性相等

02 方法

  1. 抽签法
  2. 随机数法

03 样本条件

  1. 独立性:相互独立
  2. 代表性:每一个与总体有相同的分布

04 统计量

05 样本数字特征

  1. 样本均值
    X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} Xˉ=n1i=1nXi

  2. 样本方差
    S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} S2=n11i=1n(XiXˉ)2

  3. 样本矩
    K  阶原点矩:  α n k = 1 n ∑ i = 1 n X i k ( k = 1 , 2 , … ) α n 1 = X ˉ K  阶中心矩:  m n k = 1 n ∑ i = 1 n ( X i − X ˉ ) k ( k = 1 , 2 , ⋯   ) m n 2 = n − 1 n s 2 \begin{array}{ll}K \text { 阶原点矩: } \alpha_{n k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \quad & (k=1,2, \ldots) \quad \alpha_{n 1}=\bar{X} \\ K\text { 阶中心矩: } m_{n k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k} & (k=1,2, \cdots) \quad m_{n 2}=\frac{n-1}{n} s^{2}\end{array} K 阶原点矩αnk=n1i=1nXikK 阶中心矩mnk=n1i=1n(XiXˉ)k(k=1,2,)αn1=Xˉ(k=1,2,)mn2=nn1s2
    一阶原点矩是样本均值

02分层抽样

差异明显

每层样本数量与每层

03 整体抽样

整群抽样: 将总体分成若干群,以群为抽样单位,对抽中的群所有基本单位调查

应用:质量检测

多阶段抽样:对抽中的群继续抽样

04 非随机的等距抽样

05系统抽样

04 概率的基本概念

  1. 频率与概率

    频率

f n ( A ) ≜ n A / n f_{n}(A) \triangleq n_{A} / n fn(A)nA/n

  1. Laplace概率

  2. 概率的公理化定义

    非负性

    规范性

    可列可加性:对两两不相容事件

05 大数定律与中心极限定理

01 切比雪夫不等式

随机变量X的数学期望 E X = μ E X=\mu EX=μ,方差 D X = σ 2 DX = \sigma^2 DX=σ2,则对任意
P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2  或  P { ∣ X − μ ∣ < ε } ≥ 1 − σ 2 ε 2 P\{|X-\mu| \geq \varepsilon\} \leq \frac{\sigma^{2}}{\varepsilon^{2}} \text { 或 } P\{|X-\mu|<\varepsilon\} \geq 1-\frac{\sigma^{2}}{\varepsilon^{2}} P{ Xμε}ε2σ2  P{ Xμ<ε}1ε2σ2

02相关性分析

相关系数
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n x i y i − n x ˉ y ˉ ( ∑ i = 1 n x i 2 − n ( x ˉ ) 2 ) ( ∑ i = 1 n y i 2 − n ( y ˉ ) 2 ) \begin{array}{l}r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} \\{=} \frac{\sum_{i=1}^{n} x_{i} y_{i}-n \bar{x} \bar{y}}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-n(\bar{x})^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-n(\bar{y})^{2}\right)}}\end{array} r=i=1n(xixˉ)2i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)=(i=1nxi2n(xˉ)2)(i=1nyi2n(yˉ)2) i=1nxiyinxˉyˉ
r > 0 正相关

r < 0 负相关

r的绝对值越接近1,表明两个变量的线形相关性越强

03 回归分析

04 区间估计

ch3 概率与抽样分布

条件概率

  1. 定义

P ( A ∣ B ) = P ( A B ) P ( B ) \mathrm{P}(\mathrm{A} \mid \mathrm{B})=\frac{P(A B)}{P(B)} P(AB)=P(B)P(AB)

  1. 乘法定理

P ( A B ) = P ( A ) P ( A ∣ B ) P ( A B ) = P ( B ) P ( B ∣ A ) P(AB) = P(A)P(A|B) \\P(AB) = P(B)P(B|A) P(AB)=P(A)P(AB)P(AB)=P(B)P(BA)

  1. 事件独立性

相互独立:设A, B为两个事件,如果 P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B),则称事件A与事件B相互独立。

  1. 全概率公式
    P ( A ) = P ( B 1 ) P ( A ∣ B 1 ) + ⋯ + P ( B n ) P ( A ∣ B n ) P(A)=P\left(B_{1}\right) P\left(A \mid B_{1}\right)+\cdots+P\left(B_{n}\right) P\left(A \mid B_{n}\right) P(A)=P(B1)P(AB1)++P(Bn)P(ABn)

  2. 贝叶斯公式
    P ( B i ∣ A ) = P ( A B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P\left(B_{i} \mid A\right)=\frac{P\left(A B_{i}\right)}{P(A)}=\frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A \mid B_{j}\right)} P(BiA)=P(A)P(ABi)=j=1nP(Bj)P(ABj)P(Bi)P(ABi)

事件独立性

事件A、B独立的充要条件是
P ( A ∣ B ) = P ( A ) , P ( B ) > 0 P ( B ∣ A ) = P ( B ) , P ( A ) > 0 \begin{array}{l}P(A \mid B)=P(A), P(B)>0 \\ P(B \mid A)=P(B), P(A)>0\end{array} P(AB)=P(A),P(B)>0P(BA)=P(B),P(A)>0
推倒:

P ( A B ) = P ( A ) P ( B ) \mathbf{P}(A B)=P(A) P(B) P(AB)=P(A)P(B)

P ( A B ) = P ( A ∣ B ) P ( B ) P(A B)=P(A \mid B) P(B) P(AB)=P(AB)P(B)

=> P ( A ) P ( B ) = P ( A ∣ B ) P ( B ) P(A) P(B)=P(A \mid B) P(B) P(A)P(B)=P(AB)P(B)

=> P ( A ) = P ( A ∣ B ) P(A)=P(A \mid B) P(A)=P(AB)

不相容性与独立性

结论:互不相容与相互独立不能同时独立。

证明: A ∩ B = ϕ ⟹ P ( A B ) = 0 A \cap B=\phi \Longrightarrow P(A B)=0 AB=ϕP(AB)=0

P ( A ) ≠ 0 , P ( B ) ≠ 0 P(A) \neq 0, P(B) \neq 0 P(A)=0,P(B)=0

P ( A B ) ≠ P ( A ) P ( B ) P(A B) \neq P(A) P(B) P(AB)=P(A)P(B)

so AB不独立

特例: S 和 ϕ S 和 \phi Sϕ

多个事件的独立

三个事件的独立

  1. ABC 两两独立

{ P ( A B ) = P ( A ) P ( B ) P ( A C ) = P ( A ) P ( C P ( B C ) = P ( B ) P ( C ) \left\{\begin{array}{l}P(A B)=P(A) P(B) \\ P(A C)=P(A) P\left(C\right. \\ P(B C)=P(B) P(C)\end{array}\right. P(AB)=P(A)P(B)P(AC)=P(A)P(CP(BC)=P(B)P(C)

  1. ABC 相互独立

{ P ( A B ) = P ( A ) P ( B ) P ( A C ) = P ( A ) P ( C ) P ( B C ) = P ( B ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) \left\{\begin{array}{l}P(A B)=P(A) P(B) \\ P(A C)=P(A) P(C) \\ P(B C)=P(B) P(C) \\ P(A B C)=P(A) P(B) P(C)\end{array}\right. P(AB)=P(A)P(B)P(AC)=P(A)P(C)P(BC)=P(B)P(C)P(ABC)=P(A)P(B)P(C)

n个事件的独立性
 定义 设  A 1 , A 2 , … , A n  为  n  个事件,如果对于任意   的  k ( 1 < k ≤ n ) ,  和任意的  1 ≤ i 1 ≤ i 2 ≤ … ≤ i k ≤ n  有等式  P ( A i 1 A i 2 … A i k ) = P ( A i 1 ) P ( A i 2 ) … P ( A i k )  则称  A 1 , A 2 , … , A n  为相互独立的事件.  \begin{array}{l}\text { 定义 设 } A_{1}, A_{2}, \ldots, A_{n} \text { 为 } n \text { 个事件,如果对于任意 } \\ \text { 的 } k(1 定义  A1,A2,,An  n 个事件,如果对于任意   k(1<kn), 和任意的 1i1i2ikn 有等式 P(Ai1Ai2Aik)=P(Ai1)P(Ai2)P(Aik) 则称 A1,A2,,An 为相互独立的事件

 性质:   (1)若事件  A 1 , A 2 , ⋯   , A n ( n ≥ 2 )  相互独立,   则其中的任意  k ( 2 ≤ k ≤ n )  个事件也相互独立   (2) 若事件  A 1 , A 2 , ⋯   , A n ( n ≥ 2 )  相互独立,   则将  A 1 , A 2 , ⋯   , A n ( n ≥ 2 )  中任意多个   事件换成其对立事件, 所得新的  n  个事件   仍相互独立   (3) 若  A 1 , A 2 , ⋯ A n  是相互独立的事件, 则  P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ) = 1 − P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ‾ ) = 1 − P ( A 1 ‾ A 2 ‾ ⋯ A n ‾ ) = 1 − P ( A 1 ‾ ) P ( A 2 ‾ ) ⋯ P ( A n ‾ ) \begin{array}{l}\text { 性质: } \\ \text { (1)若事件 } A_{1}, A_{2}, \cdots, A_{n}(n \geq 2) \text { 相互独立, } \\ \text { 则其中的任意 } k(2 \leq k \leq n) \text { 个事件也相互独立 } \\ \text { (2) 若事件 } A_{1}, A_{2}, \cdots, A_{n}(n \geq 2) \text { 相互独立, } \\ \text { 则将 } A_{1}, A_{2}, \cdots, A_{n}(n \geq 2) \text { 中任意多个 } \\ \text { 事件换成其对立事件, 所得新的 } \boldsymbol{n} \text { 个事件 } \\ \text { 仍相互独立 } \\ \text { (3) 若 } A_{1}, A_{2}, \cdots A_{n} \text { 是相互独立的事件, 则 } \\ \quad P\left(A_{1} \cup A_{2} \cup \cdots \cup A_{n}\right)=1-P\left(\overline{A_{1} \cup A_{2} \cup \cdots \cup A_{n}}\right) \\ =1-P\left(\overline{A_{1}} \overline{A_{2}} \cdots \overline{A_{n}}\right)=1-P\left(\overline{A_{1}}\right) P\left(\overline{A_{2}}\right) \cdots P\left(\overline{A_{n}}\right)\end{array}  性质 (1)若事件 A1,A2,,An(n2) 相互独立 则其中的任意 k(2kn) 个事件也相互独立  (2) 若事件 A1,A2,,An(n2) 相互独立 则将 A1,A2,,An(n2) 中任意多个  事件换成其对立事件所得新的 n 个事件  仍相互独立  (3)  A1,A2,An 是相互独立的事件 P(A1A2An)=1P(A1A2An)=1P(A1A2An)=1P(A1)P(A2)P(An)

小概率事件
特 别 的 , 如 果 有   P ( A 1 ) = P ( A 2 ) = ⋯ = P ( A n ) = p 特别的,如果有\space P\left(A_{1}\right)=P\left(A_{2}\right)=\cdots=P\left(A_{n}\right)=p  P(A1)=P(A2)==P(An)=p

则 有   P ( ⋃ i = 1 n A i ) = 1 − ( 1 − p ) n 则有 \space P\left(\bigcup_{i=1}^{n} A_{i}\right)=1-(1-p)^{n}  P(i=1nAi)=1(1p)n

 当  n → ∞  时,  P ( n ⋃ i = 1 A i ) = 1 − ( 1 − p ) n → 1 \text { 当 } n \rightarrow \infty \text { 时, } P\left(\begin{array}{l}n \\ \bigcup_{i=1} & A_{i}\end{array}\right)=1-(1-p)^{n} \rightarrow 1   n P(ni=1Ai)=1(1p)n1

结论:小概率事件虽然在一次实验中几乎不可能发生,但是迟早要发生

离散型

分布与数字特征

概率质量函数:离散型随机变量

概率密度函数:连续型随机变量

二项分布

n  重Bernoulli 试验中,  X  是事件  A  在  n  次试   验中发生的次数  , P ( A ) = p ,若  P n ( k ) = P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯   , n  则称  X  服从参数为  n , p  的二项分布, 记作  X ∼ ( n , p ) 0 − 1  分布是  n = 1  的二项分布  \begin{array}{l}n \text { 重Bernoulli 试验中, } X \text { 是事件 } A \text { 在 } n \text { 次试 } \\ \text { 验中发生的次数 }, P(A)=p \text {,若 } \\ P_{n}(k)=P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k}, \quad k=0,1, \cdots, n \\ \text { 则称 } X \text { 服从参数为 } n, p \text { 的二项分布, 记作 } \\ \qquad X \sim(n, p) \\ 0-1 \text { 分布是 } n=1 \text { 的二项分布 }\end{array} n Bernoulli 试验中X 是事件 A  n 次试  验中发生的次数 ,P(A)=p, Pn(k)=P(X=k)=Cnkpk(1p)nk,k=0,1,,n 则称 X 服从参数为 n,p 的二项分布记作 X(n,p)01 分布是 n=1 的二项分布 

二项分布中最可能出现的次数与推倒

P ( X = k ) ≥ P ( X = j ) , j = X P(X=k) \geq P(X=j), j=X P(X=k)P(X=j),j=X 可取的一切值则称为k为最有可能出现的次数:
p k = P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯   , n p_{k}=P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k}, \quad k=0,1, \cdots, n pk=P(X=k)=Cnkpk(1p)nk,k=0,1,,n

p k − 1 p k = ( 1 − p ) k p ( n − k − 1 ) ≤ 1 p k p k + 1 = ( 1 − p ) ( k + 1 ) p ( n − k ) ≥ 1 } \left.\begin{array}{l}\frac{p_{k-1}}{p_{k}}=\frac{(1-p) k}{p(n-k-1)} \leq 1 \\ \frac{p_{k}}{p_{k+1}}=\frac{(1-p)(k+1)}{p(n-k)} \geq 1\end{array}\right\} pkpk1=p(nk1)(1p)k1pk+1pk=p(nk)(1p)(k+1)1}

⟹ ( n + 1 ) p − 1 ≤ k ≤ ( n + 1 ) p \Longrightarrow(n+1) p-1 \leq k \leq(n+1) p (n+1)p1k(n+1)p

( n + 1 ) p = Z (n+1)p = Z (n+1)p=Z时,在 k = ( n + 1 ) p k=(n+1)p k=(n+1)p 和$k=(n+1)p-1 $ 处取的最大值

( n + 1 ) p ≠ Z (n+1)p \neq Z (n+1)p=Z时,在 k = [ ( n + 1 ) p ] k=[(n+1)p] k=[(n+1)p] 处的概率取得最大值

几何分布

X ∼ G ( p ) X \sim G(p) XG(p)
P ( X = k ) = p q k − 1 P(X=k)=p q^{k-1} P(X=k)=pqk1
X表示贝努力实验中首次成功事件出现所要进行的试验次数

Poisson 分布

X ∼ ( λ ) X\sim(\lambda) X(λ)
P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , ⋯ \boldsymbol{P}\{\boldsymbol{X}=\boldsymbol{k}\}=\frac{\lambda^{\boldsymbol{k}} \boldsymbol{e}^{-\lambda}}{\boldsymbol{k} !}, \quad \boldsymbol{k}=0,1,2, \cdots P{ X=k}=k!λkeλ,k=0,1,2,

B ( n , p n )  中, 如果  lim ⁡ n p n = λ ( λ > 0  是常数), 则成立  lim ⁡ n → ∞ C n k p n k ( 1 − p n ) n − k = λ k k ! e − λ ( k = 0 , 1 , ⋯   ) . \begin{array}{c}\text B\left(n, p_{n}\right) \text { 中, 如果 } \\ \lim n p_{n}=\lambda(\lambda>0 \text { 是常数), 则成立 } \\ \lim _{n \rightarrow \infty} C_{n}^{k} p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{k}}{k !} e^{-\lambda} \quad(k=0,1, \cdots) .\end{array} B(n,pn) 如果 limnpn=λ(λ>0 是常数)则成立 limnCnkpnk(1pn)nk=k!λkeλ(k=0,1,).

泊松定理

在二项分布 B ( n , p n ) B(n, p_n) B(n,pn)中,如果 l i m n p n = λ limnp_n = \lambda limnpn=λ则成立:
lim ⁡ n → ∞ C n k p n k ( 1 − p n ) n − k = λ 2 k ! e − λ ( k = 0 , 1 , ⋯   ) \lim _{n \rightarrow \infty} C_{n}^{k} p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{2}}{k !} e^{-\lambda} \quad(k=0,1, \cdots) nlimCnkpnk(1pn)nk=k!λ2eλ(k=0,1,)

连续型

分布函数

F ( x ) = P ( X ≤ x ) F(x)=P(X \leq x) F(x)=P(Xx)

性质:

  1. 单调增
  2. F ( − ∞ ) = 0 , F ( + ∞ ) = 1 F(-\infty) = 0, F(+\infty) = 1 F()=0,F(+)=1
  3. 右连续,即 F ( x + 0 ) = F ( x ) F(x+0) = F(x) F(x+0)=F(x)

常用公式:

P ( X ≤ b ) = F ( b ) P ( a < X ≤ b ) = F ( b ) − F ( a ) P ( X > b ) = 1 − F ( b ) P ( X < b ) = F ( b − 0 ) \begin{array}{l}P(X \leq b)=F(b) \\ P(ab)=1-F(b) \\ P(XP(Xb)=F(b)P(a<Xb)=F(b)F(a)P(X>b)=1F(b)P(X<b)=F(b0)

概率密度

概率密度函数probability density function PDF

分布函数与概率密度函数的关系
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^{x} f(t) d t F(x)=xf(t)dt
f ( x ) f(x) f(x)就称为概率密度函数

性质

  1. f ( x ) ≥ 0 f(x) \geq 0 f(x)0
  2. ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx = 1 +f(x)dx=1
  3. F ( x ) F(x) F(x)是连续函数
  4. f ( x ) f(x) f(x)在x处连续,则 F ′ ( x ) = f ( x ) F^{'}(x) = f(x) F(x)=f(x)
  5. 连续型随机变量X在一个点上的取值概率恒为0
  6. P ( X ∈ I ) = ∫ I f ( x ) d x , I = ( a , b ) o r ( a , b ] , o r [ a , b ) o r [ a , b ] P(X \in I) = \int_If(x)dx, I = (a,b) or (a,b],or [a,b) or [a,b] P(XI)=If(x)dx,I=(a,b)or(a,b],or[a,b)or[a,b]

注意:一般的,同一个连续型随机变量X的概率密度函数可以有很多个,但它们只在有限个点和可数个点的取值不同。所以连续型随机变量X的概率密度函数"几乎处处"唯一的。

计算

  1. 分布函数F(x)是f(x)的变上限积分函数

  2. F ′ ( x ) = f ( x ) F^{'}(x) = f(x) F(x)=f(x)

  3. ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx = 1 +f(x)dx=1

  4. P ( a ≤ X ≤ b ) = F ( b ) − F ( a ) = ∫ a b f ( x ) d x P(a \leq X \leq b)=F(b)-F(a)=\int_{a}^{b} f(x) d x P(aXb)=F(b)F(a)=abf(x)dx

  5. 连续型随机变量X任取一实数的概率值为0

    P ( X = a ) = 0 P(X=a) = 0 P(X=a)=0
    P ( a < X < b ) = P ( a < X ≤ b ) = P ( a ≤ X ≤ b ) P(aP(a<X<b)=P(a<Xb)=P(aXb)

数字特征

  1. 数学期望

    定义:
    E ( X ) = x 1 p 1 + x 2 p 2 + ⋯ + x k p k + ⋯ E(X)=x_{1} p_{1}+x_{2} p_{2}+\cdots+x_{k} p_{k}+\cdots E(X)=x1p1+x2p2++xkpk+
    性质:
     (1)  E ( a X + b ) = a E ( X ) + b  (2)  E ( a X ) = a E ( X )  (3)  E ( X + b ) = E ( X ) + b  (4)  E ( b ) = b  (5)  E ( X + Y ) = E ( X ) + E ( Y )  (6)  E ( f ( ξ ) ) = ∑ k f ( x k ) P K \begin{array}{l}\text { (1) } E(a X+b)=a E(X)+b \\ \text { (2) } E(a X)=a E(X) \\ \text { (3) } E(X+b)=E(X)+b \\ \text { (4) } E(b)=b \\ \text { (5) } E(X+Y)=E(X)+E(Y) \\ \text { (6) } E(f(\xi))=\sum_{k} f\left(x_{k}\right) P_{K}\end{array}  (1) E(aX+b)=aE(X)+b (2) E(aX)=aE(X) (3) E(X+b)=E(X)+b (4) E(b)=b (5) E(X+Y)=E(X)+E(Y) (6) E(f(ξ))=kf(xk)PK

  2. 方差

    定义
    D ( ξ ) = E [ ξ − E ( ξ ) ] 2 D(\xi)=E[\xi-E(\xi)]^{2} D(ξ)=E[ξE(ξ)]2

    性质
     (1)  D ( c ) = 0  (2)  D ( k ξ ) = k 2 D ( ξ )  (3)  D ( ξ + b ) = D ( ξ ) ( 4 ) D ( k ξ + b ) = k 2 D ( ξ ) \begin{array}{l}\text { (1) } D(c)=0 \\ \text { (2) } D(k \xi)=k^{2} D(\xi) \quad \\ \text { (3) } D(\xi+b)=D(\xi) \\ (4) D(k \xi+b)=k^{2} D(\xi)\end{array}  (1) D(c)=0 (2) D(kξ)=k2D(ξ) (3) D(ξ+b)=D(ξ)(4)D(kξ+b)=k2D(ξ)

正态分布

定义

标准正态分布

指数分布

均匀分布

多元随机变量

联合,边缘,条件

联合分布列

边缘分布列

条件分布列

独立与相关

独立性

条件独立

期望和方差

协方差协方差矩阵

随机变量的相关系数

多元正态分布

常用二维连续型分布

  1. 均匀分布
  2. 二元正态分布
  3. 二次型
  4. n元正态分布

    性质

相关系数

相关系数公式
R ( X , Y ) = E ( X − E ( X ) σ ( X ) ⋅ Y − E ( Y ) σ ( Y ) ) R(X, Y)=E\left(\frac{X-E(X)}{\sigma(X)} \cdot \frac{Y-E(Y)}{\sigma(Y)}\right) R(X,Y)=E(σ(X)XE(X)σ(Y)YE(Y))

二维正态分布中X和Y的相关系数 R ( X , Y ) R(X, Y) R(X,Y)
R ( X , Y ) = 1 2 π σ x σ y 1 − r 2 ∫ − ∞ + ∞ ∫ − ∞ + ∞ ( x − μ x ) σ x ⋅ ( y − μ y ) σ y e − u ( x , y ) d x d y R(X, Y)=\frac{1}{2 \pi \sigma_{x} \sigma_{y} \sqrt{1-r^{2}}} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \frac{\left(x-\mu_{x}\right)}{\sigma_{x}} \cdot \frac{\left(y-\mu_{y}\right)}{\sigma_{y}} e^{-u(x, y)} d x d y R(X,Y)=2πσxσy1r2 1++σx(xμx)σy(yμy)eu(x,y)dxdy

u ( x , y ) = ( x − μ x ) 2 2 σ x 2 + 1 2 ( 1 − r 2 ) [ ( y − μ y ) σ y + r ( x − μ x ) σ x ] 2 u(x, y)=\frac{\left(x-\mu_{x}\right)^{2}}{2 \sigma_{x}^{2}}+\frac{1}{2\left(1-r^{2}\right)}\left[\frac{\left(y-\mu_{y}\right)}{\sigma_{y}}+\frac{r\left(x-\mu_{x}\right)}{\sigma_{x}}\right]^{2} u(x,y)=2σx2(xμx)2+2(1r2)1[σy(yμy)+σxr(xμx)]2

统计量

$g(X_1, X_2, X_3, …,X_n) $ 不含未知参数

常用统计量
  1. 样本均值: X ˉ = 1 n ∑ i = 1 n X i \bar X = \frac{1}{n}\sum_{i=1}^{n}X_i Xˉ=n1i=1nXi

    观察值:$ \bar x = \frac{1}{n}\sum_{i=1}^nX_i$

  2. 样本方差
    S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\frac{1}{n-1}\left(\sum_{i=1}^{n} X_{i}^{2}-n \bar{X}^{2}\right) S2=n11i=1n(XiXˉ)2=n11(i=1nXi2nXˉ2)

  3. 样本标准差
    S = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S=\sqrt{S^{2}}=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} S=S2 =n11i=1n(XiXˉ)2
    观察值:X->x

  4. 样本k阶(原点)矩
    A k = 1 n ∑ i = 1 n X i k , k = 1 , 2 , ⋯ A_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}, k=1,2, \cdots Ak=n1i=1nXik,k=1,2,
    观察值:X->x

  5. 样本k阶中心距
    B k = 1 n ∑ i = 1 n ( X i − X ˉ ) k , k = 2 , 3 , ⋯ B_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k}, k=2,3, \cdots Bk=n1i=1n(XiXˉ)k,k=2,3,

抽样分布

卡方分布

由正态分布衍生

X k 2 = ∑ i = 1 k Z i 2 X_k^2 = \sum_{i=1}^k{Z_i}^2 Xk2=i=1kZi2

推倒

Z 1 : X ∼ N ( 0 , 1 ) ⟶ X 1 2 ∼ Q 1 Z_1: X\sim N(0,1) \longrightarrow X_1^2\sim Q_1 Z1XN(0,1)X12Q1

Z 2 : X ∼ N ( 0 , 1 ) ⟶ X 1 2 + X 2 2 ∼ Q 2 Z_2: X\sim N(0,1) \longrightarrow X_1^2+X_2^2\sim Q_2 Z2XN(0,1)X12+X22Q2
 (1)设  X ∼ N ( μ , σ 2 ) ,  则  z = X − μ σ ∼ N ( 0 , 1 )  (2)构造  Y i = z i 2 ( i = 1 , 2 , … , n )  则  Y i  服从自由度为  1  的  χ 2  分布,   即  Y i ∼ χ 2 ( 1 ) , ∑ Y i ∼ χ 2 ( n )  (3)当总体  X ∼ N ( μ , σ 2 ) ,  从中抽取容量为  n  的样本, 则  ∑ i = 1 n ( x i − x ˉ ) 2 σ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \begin{array}{l}\text { (1)设 } X \sim N\left(\mu, \sigma^{2}\right), \text { 则 } z=\frac{X-\mu}{\sigma} \sim N(0,1) \\ \text { (2)构造 } Y_{i}=z_{i}^{2}(i=1,2, \ldots, n) \text { 则 } Y_{i} \text { 服从自由度为 } 1 \text { 的 } \chi^{2} \text { 分布, } \\ \text { 即 } \quad Y_{i} \sim \chi^{2}(1), \sum Y_{i} \sim \chi^{2}(n) \\ \text { (3)当总体 } X \sim N\left(\mu, \sigma^{2}\right), \text { 从中抽取容量为 } n \text { 的样本, 则 } \\ \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{\sigma^{2}}=\frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)\end{array}  (1) XN(μ,σ2),  z=σXμN(0,1) (2)构造 Yi=zi2(i=1,2,,n)  Yi 服从自由度为 1  χ2 分布  Yiχ2(1),Yiχ2(n) (3)当总体 XN(μ,σ2), 从中抽取容量为 n 的样本 σ2i=1n(xixˉ)2=σ2(n1)S2χ2(n1)

χ 2 分 布  期望为  E ( χ 2 ) = n , 方差为  D ( χ 2 ) = 2 n ( n  为自由度)  \chi^2分布\text { 期望为 } E\left(\chi^{2}\right)=n \text {, 方差为 } \mathrm{D}\left(\chi^{2}\right)=2 \mathrm{n}(\mathrm{n} \text { 为自由度) } χ2 期望为 E(χ2)=n方差为 D(χ2)=2n(n 为自由度

分位点

χ 2 分 布 的 上 α 分 位 点 \chi^2分布的上\alpha分位点 χ2α
P { X ≥ χ α 2 ( n ) } = α P\left\{X \geq \chi_{\alpha}^{2}(n)\right\}=\alpha P{ Xχα2(n)}=α
则称 χ α 2 ( n ) \chi_{\alpha}^{2}(n) χα2(n) χ 2 ( n ) \chi^{2}(n) χ2(n)分布的 上 α 分 位 点 上\alpha分位点 α

t分布
F分布

其他分布

Gamma分布

Beta分布

Fisher Z分布

指数结构

大数定律

由相本推断总体的依据

ch4参数估计

参数的点估计

矩估计

极大似然法

极大似然函数

设总体X的分布类型已知,但是含有参数 θ \theta θ

设离散型总体X的概率分布为 p ( x , θ ) p(x, \theta) p(x,θ),则样本 ( X 1 , X 2 , . . . X n ) (X_1, X_2,...X_n) (X1,X2,...Xn)的联合概率密度函数称为似然函数
L ( θ ) = f ( x 1 ; θ ) f ( x 2 ; θ ) ⋯ f ( x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta) = f\left(x_{1} ; \theta\right) f\left(x_{2} ; \theta\right) \cdots f\left(x_{n} ; \theta\right)=\prod_{i=1}^{n} f\left(x_{i} ; \theta\right) L(θ)=f(x1;θ)f(x2;θ)f(xn;θ)=i=1nf(xi;θ)
极大似然参数估计值

L ( θ ) L(\theta) L(θ) θ ^ = θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^=θ^(x1,x2,,xn) 处取到极大值,则称 θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^(x1,x2,,xn) θ \theta θ 的极大似然估计值。

参数求法

KaTeX parse error: Got function '\hskip' with no arguments as argument to '\text' at position 1: \̲h̲s̲k̲i̲p̲1em\relax

解得

估计量的评选标准

 常用   标准  {  (1) 无偏性 (Unbiased Estimator)   (2) 有效性   (3) 一致性(consistency)  \begin{array}{l}\text { 常用 } \\ \text { 标准 }\end{array}\left\{\begin{array}{l}\text { (1) 无偏性 (Unbiased Estimator) } \\ \text { (2) 有效性 } \\ \text { (3) 一致性(consistency) }\end{array}\right.  常用  标准  (1) 无偏性 (Unbiased Estimator)  (2) 有效性  (3) 一致性(consistency) 

无偏估计

参数等于均值
 定义: 设  θ ^ ( X 1 , X 2 , … , X n )  为  θ ∈ Θ  的估计量, 若  E [ θ ^ ( X 1 , X 2 , … , X n ) ] = θ , ∀ θ ∈ Θ ,  则称  θ ^ ( X 1 , X 2 , … , X n )  为  θ  的无偏估计; 否则称为有偏的。  \begin{array}{c}\text { 定义: 设 } \hat{\theta}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 为 } \theta \in \Theta \text { 的估计量, 若 } \\ E\left[\hat{\theta}\left(X_{1}, X_{2}, \ldots, X_{n}\right)\right]=\theta, \quad \forall \theta \in \Theta, \text { 则称 } \\ \hat{\theta}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 为 } \theta \text { 的无偏估计; 否则称为有偏的。 }\end{array}  定义 θ^(X1,X2,,Xn)  θΘ 的估计量 E[θ^(X1,X2,,Xn)]=θ,θΘ, 则称 θ^(X1,X2,,Xn)  θ 的无偏估计否则称为有偏的。 

有效性

方差更小
 设  θ ^ 1 = θ ^ 1 ( X 1 , X 2 , … , X n )  与  θ ^ 2 = θ 2 ( X 1 , X 2 , … , X n )  都是  θ  的无偏估计量, 若对  ∀ θ ∈ Θ  有  D ( θ ^ 1 ) ≤ D ( θ ^ 2 ) ,  且至少有   一个  θ ∈ Θ  使不等式成立, 则称  θ ^ 1  比  θ ^ 2  有较高的效率,   简称  θ ^ 1  比  θ ^ 2  有效。  \begin{array}{l}\text { 设 } \hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 与 } \hat{\theta}_{2}=\theta_{2}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 都是 } \\ \theta \text { 的无偏估计量, 若对 } \forall \theta \in \Theta \text { 有 } D\left(\hat{\theta}_{1}\right) \leq D\left(\hat{\theta}_{2}\right), \text { 且至少有 } \\ \text { 一个 } \theta \in \Theta \text { 使不等式成立, 则称 } \hat{\theta}_{1} \text { 比 } \hat{\theta}_{2} \text { 有较高的效率, } \\ \text { 简称 } \hat{\theta}_{1} \text { 比 } \hat{\theta}_{2} \text { 有效。 }\end{array}   θ^1=θ^1(X1,X2,,Xn)  θ^2=θ2(X1,X2,,Xn) 都是 θ 的无偏估计量若对 θΘ  D(θ^1)D(θ^2), 且至少有  一个 θΘ 使不等式成立则称 θ^1  θ^2 有较高的效率 简称 θ^1  θ^2 有效。 

一致性

一致估计量的意义在于:只要样本容量足够大, 就可以使一致估计量与参数真实值之间的差异大于 ε的概率足够地小,也就是估计量可以用任意接近 于1的概率把参数真实值估计到任意的精度。

这种 性质是针对样本容量 b → + ∞ b \rightarrow + \infty b+而言,对于一个固定的 样本容量 n,一致性是无意义的

区间估计

置信区间

  1. 精度:区间长度
  2. 置信度 1 − α 1-\alpha 1α

求置信区间的步骤:

方差已知时,均值的区间估计

方差未知时,均值的区间估计
T = X ˉ − μ S / n ∼ t ( n − 1 ) T=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1) T=S/n Xˉμt(n1)

S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} S2=n11i=1n(XiXˉ)2

对给定的置信度1-a,由t分布表查出

一致最小方差无偏估计

最小均方误差准则

M S E θ ( θ ) = E ( θ ^ − θ ) 2 M S E_{\theta}(\theta)=E(\hat{\theta}-\theta)^{2} MSEθ(θ)=E(θ^θ)2

如果 M S E θ ( θ ) < + ∞ M S E_{\theta}(\theta)<+\infty MSEθ(θ)<+
M S E θ ( θ ) = = Var ⁡ θ ( θ ) + b 2 ( θ , θ ) b ( θ , θ ) = E θ ( θ − θ ) \begin{array}{l} M S E_{\theta}(\theta)==\operatorname{Var}_{\theta}(\theta)+b^{2}(\theta, \theta) \\ b(\theta, \theta)=E_{\theta}(\theta-\theta)\end{array} MSEθ(θ)==Varθ(θ)+b2(θ,θ)b(θ,θ)=Eθ(θθ)

E [ g ∗ ( X ~ ) − g ( θ ) ] 2 ≤ E [ g ^ ( X ~ ) − g ( θ ) ] 2 E\left[g^{*}(\tilde{X})-g(\theta)\right]^{2} \leq E[\hat{g}(\widetilde{X})-g(\theta)]^{2} E[g(X~)g(θ)]2E[g^(X )g(θ)]2

一致最小方差无偏估计(UMVUE)

是在无偏估计类中,使均方误差达到最小的估计量

Cramer-Rao公式

CR正则分布族

单参数密度函数满足以下五个条件为CR正则分布族

  1. 参数空间是直线上的某个开区间
  2. 导数存在
  3. p ( x , θ ) p(x, \theta) p(x,θ)不依赖于参数
  4. 对概率密度函数p的积分与微分运算可以交换
  5. 下列数学期望存在

0 < I ( θ ) = E θ { ∂ ∂ θ ln ⁡ p ( X ; θ ) } 2 < + ∞ 00<I(θ)=Eθ{ θlnp(X;θ)}2<+

C- R不等式

定理:正则分布族无偏估计的下界,也称作C-R下界
D θ [ g ^ ( X ~ ) ] ≥ [ g ′ ( θ ) ] 2 n I ( θ ) , θ ∈ Θ D_{\theta}[\hat{g}(\tilde{X})] \geq \frac{\left[g^{\prime}(\theta)\right]^{2}}{n I(\theta)}, \theta \in \Theta Dθ[g^(X~)]nI(θ)[g(θ)]2,θΘ
证明:
∂ ∂ θ ln ⁡ p ( x 1 , ⋯   , x n ; θ ) = ∑ i = 1 n ∂ ∂ θ ln ⁡ p ( x i ; θ ) S ( X ~ ; θ ) = ∂ ∂ θ ln ⁡ p ( X 1 , ⋯   , X n ; θ ) E θ { ∂ ∂ θ ln ⁡ p ( X i ; θ ) } = ∫ ∂ ∂ θ ln ⁡ p ( x i , θ ) p ( x i , θ ) d x i = ∫ ∂ ∂ θ p ( x i , θ ) d x i = d d θ ∫ p ( x i , θ ) d x i = d d θ 1 = 0 \begin{array}{l}\frac{\partial}{\partial \theta} \ln p\left(x_{1}, \cdots, x_{n} ; \theta\right)=\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln p\left(x_{i} ; \theta\right) \\ S(\tilde{X} ; \theta)=\frac{\partial}{\partial \theta} \ln p\left(X_{1}, \cdots, X_{n} ; \theta\right) \\ E_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i} ; \theta\right)\right\}=\int \frac{\partial}{\partial \theta} \ln p\left(x_{i}, \theta\right) p\left(x_{i}, \theta\right) d x_{i} \\ =\int \frac{\partial}{\partial \theta} p\left(x_{i}, \theta\right) d x_{i}=\frac{d}{d \theta} \int p\left(x_{i}, \theta\right) d x_{i}=\frac{d}{d \theta}1=0\end{array} θlnp(x1,,xn;θ)=i=1nθlnp(xi;θ)S(X~;θ)=θlnp(X1,,Xn;θ)Eθ{ θlnp(Xi;θ)}=θlnp(xi,θ)p(xi,θ)dxi=θp(xi,θ)dxi=dθdp(xi,θ)dxi=dθd1=0

E θ { S ( X ~ , θ ) } = ∑ i = 1 n E θ { ∂ ∂ θ ln ⁡ p ( X i , θ ) } D θ { S ( X ~ , θ ) } = D θ { ∑ i = 1 n ∂ ∂ θ ln ⁡ p ( X i , θ ) } = ∑ i = 1 n D θ { ∂ ∂ θ ln ⁡ p ( X i , θ ) } = ∑ i = 1 n E θ { ∂ ∂ θ ln ⁡ p ( X i , θ ) } 2 = n I ( θ ) \begin{array}{l}E_{\theta}\{S(\widetilde{X}, \theta)\}=\sum_{i=1}^{n} E_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\} \\ D_{\theta}\{S(\widetilde{X}, \theta)\}=D_{\theta}\left\{\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\} \\ =\sum_{i=1}^{n} D_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\} \\ =\sum_{i=1}^{n} E_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\}^{2}=n I(\theta)\end{array} Eθ{ S(X ,θ)}=i=1nEθ{ θlnp(Xi,θ)}Dθ{ S(X ,θ)}=Dθ{ i=1nθlnp(Xi,θ)}=i=1nDθ{ θlnp(Xi,θ)}=i=1nEθ{ θlnp(Xi,θ)}2=nI(θ)

可以看到C-R不等式的右端与参数g(θ)的变化率的平方成正比, 与总体所在分布族的Fisher信息 量的n倍成反比.

有效估计

无偏估计的效率:
e n = [ g ′ ( θ ) ] 2 / n I ( θ ) D θ ( g ^ ( X ~ ) ) e_{n}=\frac{\left[g^{\prime}(\theta)\right]^{2} / n I(\theta)}{D_{\theta}(\hat{g}(\widetilde{X}))} en=Dθ(g^(X ))[g(θ)]2/nI(θ)
e n = 1 e_n=1 en=1 有效无偏估计
lim ⁡ n → ∞ e n = 1 \lim _{n \rightarrow \infty} e_{n}=1 limnen=1 渐进有效(无偏)估计

结论:

有效估计一定是UMVUE,但很多 UMVUE不是有效估计,这是因为C-R下届偏小,在很多场合达不到.

等式成立的充要条件:
S ( X ~ , θ ) − E S ( X ~ , θ ) = t ( g ^ ( X ~ ) − g ( θ ) ) S(\tilde{X}, \theta)-E S(\tilde{X}, \theta)=t(\hat{g}(\tilde{X})-g(\theta)) S(X~,θ)ES(X~,θ)=t(g^(X~)g(θ))

I ( θ ) = − E [ ∂ 2 ∂ θ 2 ln ⁡ f ( x , θ ) ] I(\theta)=-E\left[\frac{\partial^{2}}{\partial \theta^{2}} \ln f(x, \theta)\right] I(θ)=E[θ22lnf(x,θ)]

推论:

  1. 条件:求s,可表示为

S ( X ~ , θ ) = ∂ ∂ θ ln ⁡ f ( x 1 , x 2 , ⋯ x n , θ ) = c ( θ ) ( g ^ ( X ~ ) − g ( θ ) ) E ( g ^ ( X ~ ) ) = g ( θ ) \begin{aligned} S(\tilde{X}, \theta)=& \frac{\partial}{\partial \theta} \ln f\left(x_{1}, x_{2}, \cdots x_{n}, \theta\right)=c(\theta)(\hat{g}(\tilde{X})-g(\theta)) \\ & E(\hat{g}(\widetilde{X}))=g(\theta) \end{aligned} S(X~,θ)=θlnf(x1,x2,xn,θ)=c(θ)(g^(X~)g(θ))E(g^(X ))=g(θ)

  1. 若上式成立
    I ( θ ) = c ( θ ) g ′ ( θ ) n I(\theta)=\frac{c(\theta) g^{\prime}(\theta)}{n} I(θ)=nc(θ)g(θ)

判断方法:

  1. 求I 主定理
  2. 求S 用推论

例题

  1. X ∼ B ( 1 , p ) X\sim B(1,p) XB(1,p),求p的有效估计量
  2. X ∼ π ( 1 , λ ) X\sim \pi(1,\lambda) Xπ(1,λ),求 λ \lambda λ的有效估计量
  3. X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) XN(μ,σ2),求参数的有效估计量
  4. X ∼ U ( 0 , θ ) X \sim U(0, \theta) XU(0,θ),讨论参数的有效估计量

Ch5 贝叶斯估计

贝叶斯方法

  1. 选择先验分布对参数的信念
  2. 在给定参数情况下对x的信念
  3. 得到数据后更新我们的信念,计算后验分布
  4. 从后验分布中得到点估计和区间估计

贝叶斯公式

贝叶斯推理就是在不完全情报下, 对部分未知的状态用主观概率估计,然 后用贝叶斯公式对先验概率进行修正, 最后再利用修正概率做出最优决策。

贝叶斯决策理论方法是统计决策中 的一个基本方法,其基本思想是:

1、已知条件概率密度参数表达式和先验概率。

2、利用贝叶斯公式转换成后验概 率。

3、根据后验概率大小进行决策分
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(A_{i} | B) =\frac{P\left(B |A_{i}\right) P\left(A_{i}\right)}{\sum_{i=1}^{n} P\left(B | A_{i}\right) P\left(A_{i}\right)} P(AiB)=i=1nP(BAi)P(Ai)P(BAi)P(Ai)

其 中 ∑ i = 1 n P ( A i ) = 1 ∑ i = 1 n P ( B ∣ A i ) P ( A i ) = P ( B ) 其中 \sum_{i=1}^{n} P\left(A_{i}\right)=1 \quad \sum_{i=1}^{n} P\left(B | A_{i}\right) P\left(A_{i}\right)=P(B) i=1nP(Ai)=1i=1nP(BAi)P(Ai)=P(B)

先验分布

对未知参数的先验信息用一个分布 形式来表示,此分布称为未知参数 的先验分布.

后验分布

在抽取样本之前,人们对未知参数有 个了解,即先验分布。抽取样本之后,由 于样本中包含未知参数的信息,而这些关 于未知参数新的信息可以帮助人们修正抽样之前的先验信息
q ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n p ( x i , θ ) q\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\prod_{i=1}^{n} p\left(x_{i}, \theta\right) q(x1,x2,,xn)=i=1np(xi,θ)
而样本值是在知道参数的先验分布的前提下得到的,因而上述分布可以改写为
q ( x ∣ θ ) = q ( x 1 , x 2 , ⋯   , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) q(x \mid \theta)=q\left(x_{1}, x_{2}, \cdots, x_{n} \mid \theta\right)=\prod_{i=1}^{n} p\left(x_{i} \mid \theta\right) q(xθ)=q(x1,x2,,xnθ)=i=1np(xiθ)
又由于参数和样本x的联合分布可以表示为
f ( x , θ ) = q ( x ∣ θ ) π ( θ ) = m ( x ) h ( θ ∣ x ) \boldsymbol{f}(\boldsymbol{x}, \theta)=\boldsymbol{q}(\boldsymbol{x} \mid \theta) \pi(\theta)=\boldsymbol{m}(\boldsymbol{x}) \boldsymbol{h}(\theta \mid \boldsymbol{x}) f(x,θ)=q(xθ)π(θ)=m(x)h(θx)

⟹ h ( θ ∣ x ) = q ( x ∣ θ ) π ( θ ) m ( x ) , ( m ( x ) = ∫ Θ q ( x ∣ θ ) π ( θ ) d θ ) \Longrightarrow h(\theta \mid x)=\frac{q(x \mid \theta) \pi(\theta)}{m(x)}, \quad\left(m(x)=\int_{\Theta} q(x \mid \theta) \pi(\theta) \mathbf{d} \theta\right) h(θx)=m(x)q(xθ)π(θ),(m(x)=Θq(xθ)π(θ)dθ)

可以根据数据量的增加一直修正参数

必考题:

为了提高某产品的质量,公司经理考虑增加投资来改进生产设备,预计需投资90万元, 但从投资效果来看,顾问们提出两种不同的意见:

共轭先验分布

​ 样本X的分布为二项分布b(n,θ)时,假如θ的先验分布为β分布,则用贝叶斯估计算得的后验分布仍然是β分布,只是其中的参数不同。这样的先验分布(β分布)称为参数θ的共轭先验分布。

贝叶斯估计

使后验密度 π ( θ ∣ x ) \pi (\theta|x) π(θx) 达到最大的值 θ M D \theta_{MD} θMD 称为最大后验估计;后验分布的中位数 θ ^ M e \hat \theta_{Me} θ^Me称为后验中位数估计;

后验分布的期望值 θ ^ E \hat \theta_{E} θ^E 称为$\theta $ 的后验期望值估计,这三个估计都称为贝叶斯估计, 记为 θ ^ B \hat \theta_{B} θ^B

必考题:

设一批产品的不合格率为  ,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第 一个不合格品时已检查的产品数,则X服从几何分布,其分布列为

ch6假设检验

原假设

备择假设

三种形式:

  1. 双侧检验
  2. 左侧检验
  3. 右侧检验

步骤:

  1. 根据样本观测结果计算得到的,并据以对原假设和备择假 设作出决策的某个样本统计量
  2. 标准化检验统计量
  3. 拒绝域和接受域的确定

你可能感兴趣的:(数理统计_笔记,概率论,统计学)