定类数据 | 定序数据 | 定量数据 | |
---|---|---|---|
分类 | ✔️ | ✔️ | ✔️ |
排序 | ✔️ | ✔️ | |
间距 | ✔️ | ||
比值 | ✔️ |
算术平均数
性质:各变量值与算术平均数的差值1范数和二范数最小
算术平均数 = 总体标志值总数 总体单位数 \text { 算术平均数 }=\frac{\text { 总体标志值总数 }}{\text { 总体单位数 }} 算术平均数 = 总体单位数 总体标志值总数
x ˉ = x 1 f 1 + x 2 f 2 + … . . + x n f n f 1 + f 2 + … … + f n = ∑ x f ∑ f \bar{x}=\frac{x_{1} f_{1}+x_{2} f_{2}+\ldots . .+x_{n} f_{n}}{f_{1}+f_{2}+\ldots \ldots+f_{n}}=\frac{\sum x f}{\sum f} xˉ=f1+f2+……+fnx1f1+x2f2+…..+xnfn=∑f∑xf
x ˉ H = 1 1 x 1 m 1 + 1 x 2 m 2 + ⋯ + 1 x n m n m 1 + m 2 + ⋯ + m n = m 1 + m 2 + ⋯ + m n 1 x 1 m 1 + 1 x 2 m 2 + ⋯ + 1 x n m n = ∑ m ∑ 1 x m \bar{x}_{H}=\frac{1}{\frac{\frac{1}{x_{1}} \mathrm{~m}_{1}+\frac{1}{x_{2}} m_{2}+\cdots+\frac{1}{x_{n}} m_{n}}{m_{1}+m_{2}+\cdots+m_{n}}}=\frac{m_{1}+m_{2}+\cdots+m_{n}}{\frac{1}{x_{1}} m_{1}+\frac{1}{x_{2}} m_{2}+\cdots+\frac{1}{x_{n}} m_{n}}=\frac{\sum m}{\sum \frac{1}{x} m} xˉH=m1+m2+⋯+mnx11 m1+x21m2+⋯+xn1mn1=x11m1+x21m2+⋯+xn1mnm1+m2+⋯+mn=∑x1m∑m
几何平均数
应用:增长率
x ˉ G = x 1 ⋅ x 2 ⋅ … . ⋅ ⋅ x n n = ∏ x n \bar{x}_{G}=\sqrt[n]{x_{1} \cdot x_{2} \cdot \ldots . \cdot \cdot x_{n}}=\sqrt[n]{\prod^{x}} xˉG=nx1⋅x2⋅….⋅⋅xn=n∏x
x ˉ G = x 1 f 1 ⋅ x 2 f 2 ⋯ ⋅ x n f n 2 f = ∏ 1 x f 2 f \bar{x}_{G}=\sqrt[2 f]{x_{1}^{f_{1}} \cdot x_{2}^{f_{2}} \cdots \cdot x_{n}^{f_{n}}}=\sqrt[2 f]{\prod_{1} x^{f}} xˉG=2fx1f1⋅x2f2⋯⋅xnfn=2f1∏xf
M e M_e Me:总体中各单位标志值按照大小顺序排列,处于中间位置的数
M o M_o Mo:
M o = L m + Δ 1 Δ 1 + Δ 2 × d m ( 下限公式 ) M o = U m − Δ 2 Δ 1 + Δ 2 × d m (上限公式) ) M o=L_{m}+\frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}} \times d_{m}(\text { 下限公式 }) \\ \left.M o=U_{m}-\frac{\Delta_{2}}{\Delta_{1}+\Delta_{2}} \times d_{m} \text { (上限公式) }\right) Mo=Lm+Δ1+Δ2Δ1×dm( 下限公式 )Mo=Um−Δ1+Δ2Δ2×dm (上限公式) )
样本均值
X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} Xˉ=n1i=1∑nXi
样本方差
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} S2=n−11i=1∑n(Xi−Xˉ)2
样本矩
K 阶原点矩: α n k = 1 n ∑ i = 1 n X i k ( k = 1 , 2 , … ) α n 1 = X ˉ K 阶中心矩: m n k = 1 n ∑ i = 1 n ( X i − X ˉ ) k ( k = 1 , 2 , ⋯ ) m n 2 = n − 1 n s 2 \begin{array}{ll}K \text { 阶原点矩: } \alpha_{n k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \quad & (k=1,2, \ldots) \quad \alpha_{n 1}=\bar{X} \\ K\text { 阶中心矩: } m_{n k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k} & (k=1,2, \cdots) \quad m_{n 2}=\frac{n-1}{n} s^{2}\end{array} K 阶原点矩: αnk=n1∑i=1nXikK 阶中心矩: mnk=n1∑i=1n(Xi−Xˉ)k(k=1,2,…)αn1=Xˉ(k=1,2,⋯)mn2=nn−1s2
一阶原点矩是样本均值
差异明显
每层样本数量与每层
整群抽样: 将总体分成若干群,以群为抽样单位,对抽中的群所有基本单位调查
应用:质量检测
多阶段抽样:对抽中的群继续抽样
频率与概率
频率
f n ( A ) ≜ n A / n f_{n}(A) \triangleq n_{A} / n fn(A)≜nA/n
Laplace概率
概率的公理化定义
非负性
规范性
可列可加性:对两两不相容事件
随机变量X的数学期望 E X = μ E X=\mu EX=μ,方差 D X = σ 2 DX = \sigma^2 DX=σ2,则对任意
P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2 或 P { ∣ X − μ ∣ < ε } ≥ 1 − σ 2 ε 2 P\{|X-\mu| \geq \varepsilon\} \leq \frac{\sigma^{2}}{\varepsilon^{2}} \text { 或 } P\{|X-\mu|<\varepsilon\} \geq 1-\frac{\sigma^{2}}{\varepsilon^{2}} P{ ∣X−μ∣≥ε}≤ε2σ2 或 P{ ∣X−μ∣<ε}≥1−ε2σ2
相关系数
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n x i y i − n x ˉ y ˉ ( ∑ i = 1 n x i 2 − n ( x ˉ ) 2 ) ( ∑ i = 1 n y i 2 − n ( y ˉ ) 2 ) \begin{array}{l}r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} \\{=} \frac{\sum_{i=1}^{n} x_{i} y_{i}-n \bar{x} \bar{y}}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-n(\bar{x})^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-n(\bar{y})^{2}\right)}}\end{array} r=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=(∑i=1nxi2−n(xˉ)2)(∑i=1nyi2−n(yˉ)2)∑i=1nxiyi−nxˉyˉ
r > 0 正相关
r < 0 负相关
r的绝对值越接近1,表明两个变量的线形相关性越强
P ( A ∣ B ) = P ( A B ) P ( B ) \mathrm{P}(\mathrm{A} \mid \mathrm{B})=\frac{P(A B)}{P(B)} P(A∣B)=P(B)P(AB)
P ( A B ) = P ( A ) P ( A ∣ B ) P ( A B ) = P ( B ) P ( B ∣ A ) P(AB) = P(A)P(A|B) \\P(AB) = P(B)P(B|A) P(AB)=P(A)P(A∣B)P(AB)=P(B)P(B∣A)
相互独立:设A, B为两个事件,如果 P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B),则称事件A与事件B相互独立。
全概率公式
P ( A ) = P ( B 1 ) P ( A ∣ B 1 ) + ⋯ + P ( B n ) P ( A ∣ B n ) P(A)=P\left(B_{1}\right) P\left(A \mid B_{1}\right)+\cdots+P\left(B_{n}\right) P\left(A \mid B_{n}\right) P(A)=P(B1)P(A∣B1)+⋯+P(Bn)P(A∣Bn)
贝叶斯公式
P ( B i ∣ A ) = P ( A B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P\left(B_{i} \mid A\right)=\frac{P\left(A B_{i}\right)}{P(A)}=\frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A \mid B_{j}\right)} P(Bi∣A)=P(A)P(ABi)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
事件A、B独立的充要条件是
P ( A ∣ B ) = P ( A ) , P ( B ) > 0 P ( B ∣ A ) = P ( B ) , P ( A ) > 0 \begin{array}{l}P(A \mid B)=P(A), P(B)>0 \\ P(B \mid A)=P(B), P(A)>0\end{array} P(A∣B)=P(A),P(B)>0P(B∣A)=P(B),P(A)>0
推倒:
P ( A B ) = P ( A ) P ( B ) \mathbf{P}(A B)=P(A) P(B) P(AB)=P(A)P(B)
P ( A B ) = P ( A ∣ B ) P ( B ) P(A B)=P(A \mid B) P(B) P(AB)=P(A∣B)P(B)
=> P ( A ) P ( B ) = P ( A ∣ B ) P ( B ) P(A) P(B)=P(A \mid B) P(B) P(A)P(B)=P(A∣B)P(B)
=> P ( A ) = P ( A ∣ B ) P(A)=P(A \mid B) P(A)=P(A∣B)
结论:互不相容与相互独立不能同时独立。
证明: A ∩ B = ϕ ⟹ P ( A B ) = 0 A \cap B=\phi \Longrightarrow P(A B)=0 A∩B=ϕ⟹P(AB)=0
P ( A ) ≠ 0 , P ( B ) ≠ 0 P(A) \neq 0, P(B) \neq 0 P(A)=0,P(B)=0
P ( A B ) ≠ P ( A ) P ( B ) P(A B) \neq P(A) P(B) P(AB)=P(A)P(B)
so AB不独立
特例: S 和 ϕ S 和 \phi S和ϕ
三个事件的独立
{ P ( A B ) = P ( A ) P ( B ) P ( A C ) = P ( A ) P ( C P ( B C ) = P ( B ) P ( C ) \left\{\begin{array}{l}P(A B)=P(A) P(B) \\ P(A C)=P(A) P\left(C\right. \\ P(B C)=P(B) P(C)\end{array}\right. ⎩⎨⎧P(AB)=P(A)P(B)P(AC)=P(A)P(CP(BC)=P(B)P(C)
{ P ( A B ) = P ( A ) P ( B ) P ( A C ) = P ( A ) P ( C ) P ( B C ) = P ( B ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) \left\{\begin{array}{l}P(A B)=P(A) P(B) \\ P(A C)=P(A) P(C) \\ P(B C)=P(B) P(C) \\ P(A B C)=P(A) P(B) P(C)\end{array}\right. ⎩⎪⎪⎨⎪⎪⎧P(AB)=P(A)P(B)P(AC)=P(A)P(C)P(BC)=P(B)P(C)P(ABC)=P(A)P(B)P(C)
n个事件的独立性
定义 设 A 1 , A 2 , … , A n 为 n 个事件,如果对于任意 的 k ( 1 < k ≤ n ) , 和任意的 1 ≤ i 1 ≤ i 2 ≤ … ≤ i k ≤ n 有等式 P ( A i 1 A i 2 … A i k ) = P ( A i 1 ) P ( A i 2 ) … P ( A i k ) 则称 A 1 , A 2 , … , A n 为相互独立的事件. \begin{array}{l}\text { 定义 设 } A_{1}, A_{2}, \ldots, A_{n} \text { 为 } n \text { 个事件,如果对于任意 } \\ \text { 的 } k(1
性质: (1)若事件 A 1 , A 2 , ⋯ , A n ( n ≥ 2 ) 相互独立, 则其中的任意 k ( 2 ≤ k ≤ n ) 个事件也相互独立 (2) 若事件 A 1 , A 2 , ⋯ , A n ( n ≥ 2 ) 相互独立, 则将 A 1 , A 2 , ⋯ , A n ( n ≥ 2 ) 中任意多个 事件换成其对立事件, 所得新的 n 个事件 仍相互独立 (3) 若 A 1 , A 2 , ⋯ A n 是相互独立的事件, 则 P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ) = 1 − P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ‾ ) = 1 − P ( A 1 ‾ A 2 ‾ ⋯ A n ‾ ) = 1 − P ( A 1 ‾ ) P ( A 2 ‾ ) ⋯ P ( A n ‾ ) \begin{array}{l}\text { 性质: } \\ \text { (1)若事件 } A_{1}, A_{2}, \cdots, A_{n}(n \geq 2) \text { 相互独立, } \\ \text { 则其中的任意 } k(2 \leq k \leq n) \text { 个事件也相互独立 } \\ \text { (2) 若事件 } A_{1}, A_{2}, \cdots, A_{n}(n \geq 2) \text { 相互独立, } \\ \text { 则将 } A_{1}, A_{2}, \cdots, A_{n}(n \geq 2) \text { 中任意多个 } \\ \text { 事件换成其对立事件, 所得新的 } \boldsymbol{n} \text { 个事件 } \\ \text { 仍相互独立 } \\ \text { (3) 若 } A_{1}, A_{2}, \cdots A_{n} \text { 是相互独立的事件, 则 } \\ \quad P\left(A_{1} \cup A_{2} \cup \cdots \cup A_{n}\right)=1-P\left(\overline{A_{1} \cup A_{2} \cup \cdots \cup A_{n}}\right) \\ =1-P\left(\overline{A_{1}} \overline{A_{2}} \cdots \overline{A_{n}}\right)=1-P\left(\overline{A_{1}}\right) P\left(\overline{A_{2}}\right) \cdots P\left(\overline{A_{n}}\right)\end{array} 性质: (1)若事件 A1,A2,⋯,An(n≥2) 相互独立, 则其中的任意 k(2≤k≤n) 个事件也相互独立 (2) 若事件 A1,A2,⋯,An(n≥2) 相互独立, 则将 A1,A2,⋯,An(n≥2) 中任意多个 事件换成其对立事件, 所得新的 n 个事件 仍相互独立 (3) 若 A1,A2,⋯An 是相互独立的事件, 则 P(A1∪A2∪⋯∪An)=1−P(A1∪A2∪⋯∪An)=1−P(A1A2⋯An)=1−P(A1)P(A2)⋯P(An)
小概率事件
特 别 的 , 如 果 有 P ( A 1 ) = P ( A 2 ) = ⋯ = P ( A n ) = p 特别的,如果有\space P\left(A_{1}\right)=P\left(A_{2}\right)=\cdots=P\left(A_{n}\right)=p 特别的,如果有 P(A1)=P(A2)=⋯=P(An)=p
则 有 P ( ⋃ i = 1 n A i ) = 1 − ( 1 − p ) n 则有 \space P\left(\bigcup_{i=1}^{n} A_{i}\right)=1-(1-p)^{n} 则有 P(i=1⋃nAi)=1−(1−p)n
当 n → ∞ 时, P ( n ⋃ i = 1 A i ) = 1 − ( 1 − p ) n → 1 \text { 当 } n \rightarrow \infty \text { 时, } P\left(\begin{array}{l}n \\ \bigcup_{i=1} & A_{i}\end{array}\right)=1-(1-p)^{n} \rightarrow 1 当 n→∞ 时, P(n⋃i=1Ai)=1−(1−p)n→1
结论:小概率事件虽然在一次实验中几乎不可能发生,但是迟早要发生
分布与数字特征
概率质量函数:离散型随机变量
概率密度函数:连续型随机变量
n 重Bernoulli 试验中, X 是事件 A 在 n 次试 验中发生的次数 , P ( A ) = p ,若 P n ( k ) = P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯ , n 则称 X 服从参数为 n , p 的二项分布, 记作 X ∼ ( n , p ) 0 − 1 分布是 n = 1 的二项分布 \begin{array}{l}n \text { 重Bernoulli 试验中, } X \text { 是事件 } A \text { 在 } n \text { 次试 } \\ \text { 验中发生的次数 }, P(A)=p \text {,若 } \\ P_{n}(k)=P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k}, \quad k=0,1, \cdots, n \\ \text { 则称 } X \text { 服从参数为 } n, p \text { 的二项分布, 记作 } \\ \qquad X \sim(n, p) \\ 0-1 \text { 分布是 } n=1 \text { 的二项分布 }\end{array} n 重Bernoulli 试验中, X 是事件 A 在 n 次试 验中发生的次数 ,P(A)=p,若 Pn(k)=P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n 则称 X 服从参数为 n,p 的二项分布, 记作 X∼(n,p)0−1 分布是 n=1 的二项分布
二项分布中最可能出现的次数与推倒
若 P ( X = k ) ≥ P ( X = j ) , j = X P(X=k) \geq P(X=j), j=X P(X=k)≥P(X=j),j=X 可取的一切值则称为k为最有可能出现的次数:
p k = P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯ , n p_{k}=P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k}, \quad k=0,1, \cdots, n pk=P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n
p k − 1 p k = ( 1 − p ) k p ( n − k − 1 ) ≤ 1 p k p k + 1 = ( 1 − p ) ( k + 1 ) p ( n − k ) ≥ 1 } \left.\begin{array}{l}\frac{p_{k-1}}{p_{k}}=\frac{(1-p) k}{p(n-k-1)} \leq 1 \\ \frac{p_{k}}{p_{k+1}}=\frac{(1-p)(k+1)}{p(n-k)} \geq 1\end{array}\right\} pkpk−1=p(n−k−1)(1−p)k≤1pk+1pk=p(n−k)(1−p)(k+1)≥1}
⟹ ( n + 1 ) p − 1 ≤ k ≤ ( n + 1 ) p \Longrightarrow(n+1) p-1 \leq k \leq(n+1) p ⟹(n+1)p−1≤k≤(n+1)p
当 ( n + 1 ) p = Z (n+1)p = Z (n+1)p=Z时,在 k = ( n + 1 ) p k=(n+1)p k=(n+1)p 和$k=(n+1)p-1 $ 处取的最大值
当 ( n + 1 ) p ≠ Z (n+1)p \neq Z (n+1)p=Z时,在 k = [ ( n + 1 ) p ] k=[(n+1)p] k=[(n+1)p] 处的概率取得最大值
X ∼ G ( p ) X \sim G(p) X∼G(p)
P ( X = k ) = p q k − 1 P(X=k)=p q^{k-1} P(X=k)=pqk−1
X表示贝努力实验中首次成功事件出现所要进行的试验次数
X ∼ ( λ ) X\sim(\lambda) X∼(λ)
P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , ⋯ \boldsymbol{P}\{\boldsymbol{X}=\boldsymbol{k}\}=\frac{\lambda^{\boldsymbol{k}} \boldsymbol{e}^{-\lambda}}{\boldsymbol{k} !}, \quad \boldsymbol{k}=0,1,2, \cdots P{ X=k}=k!λke−λ,k=0,1,2,⋯
B ( n , p n ) 中, 如果 lim n p n = λ ( λ > 0 是常数), 则成立 lim n → ∞ C n k p n k ( 1 − p n ) n − k = λ k k ! e − λ ( k = 0 , 1 , ⋯ ) . \begin{array}{c}\text B\left(n, p_{n}\right) \text { 中, 如果 } \\ \lim n p_{n}=\lambda(\lambda>0 \text { 是常数), 则成立 } \\ \lim _{n \rightarrow \infty} C_{n}^{k} p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{k}}{k !} e^{-\lambda} \quad(k=0,1, \cdots) .\end{array} B(n,pn) 中, 如果 limnpn=λ(λ>0 是常数), 则成立 limn→∞Cnkpnk(1−pn)n−k=k!λke−λ(k=0,1,⋯).
泊松定理
在二项分布 B ( n , p n ) B(n, p_n) B(n,pn)中,如果 l i m n p n = λ limnp_n = \lambda limnpn=λ则成立:
lim n → ∞ C n k p n k ( 1 − p n ) n − k = λ 2 k ! e − λ ( k = 0 , 1 , ⋯ ) \lim _{n \rightarrow \infty} C_{n}^{k} p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{2}}{k !} e^{-\lambda} \quad(k=0,1, \cdots) n→∞limCnkpnk(1−pn)n−k=k!λ2e−λ(k=0,1,⋯)
F ( x ) = P ( X ≤ x ) F(x)=P(X \leq x) F(x)=P(X≤x)
性质:
常用公式:
P ( X ≤ b ) = F ( b ) P ( a < X ≤ b ) = F ( b ) − F ( a ) P ( X > b ) = 1 − F ( b ) P ( X < b ) = F ( b − 0 ) \begin{array}{l}P(X \leq b)=F(b) \\ P(a
概率密度函数probability density function PDF
分布函数与概率密度函数的关系
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^{x} f(t) d t F(x)=∫−∞xf(t)dt
f ( x ) f(x) f(x)就称为概率密度函数
注意:一般的,同一个连续型随机变量X的概率密度函数可以有很多个,但它们只在有限个点和可数个点的取值不同。所以连续型随机变量X的概率密度函数"几乎处处"唯一的。
分布函数F(x)是f(x)的变上限积分函数
F ′ ( x ) = f ( x ) F^{'}(x) = f(x) F′(x)=f(x)
∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx = 1 ∫−∞+∞f(x)dx=1
P ( a ≤ X ≤ b ) = F ( b ) − F ( a ) = ∫ a b f ( x ) d x P(a \leq X \leq b)=F(b)-F(a)=\int_{a}^{b} f(x) d x P(a≤X≤b)=F(b)−F(a)=∫abf(x)dx
连续型随机变量X任取一实数的概率值为0
P ( X = a ) = 0 P(X=a) = 0 P(X=a)=0
P ( a < X < b ) = P ( a < X ≤ b ) = P ( a ≤ X ≤ b ) P(a
数学期望
定义:
E ( X ) = x 1 p 1 + x 2 p 2 + ⋯ + x k p k + ⋯ E(X)=x_{1} p_{1}+x_{2} p_{2}+\cdots+x_{k} p_{k}+\cdots E(X)=x1p1+x2p2+⋯+xkpk+⋯
性质:
(1) E ( a X + b ) = a E ( X ) + b (2) E ( a X ) = a E ( X ) (3) E ( X + b ) = E ( X ) + b (4) E ( b ) = b (5) E ( X + Y ) = E ( X ) + E ( Y ) (6) E ( f ( ξ ) ) = ∑ k f ( x k ) P K \begin{array}{l}\text { (1) } E(a X+b)=a E(X)+b \\ \text { (2) } E(a X)=a E(X) \\ \text { (3) } E(X+b)=E(X)+b \\ \text { (4) } E(b)=b \\ \text { (5) } E(X+Y)=E(X)+E(Y) \\ \text { (6) } E(f(\xi))=\sum_{k} f\left(x_{k}\right) P_{K}\end{array} (1) E(aX+b)=aE(X)+b (2) E(aX)=aE(X) (3) E(X+b)=E(X)+b (4) E(b)=b (5) E(X+Y)=E(X)+E(Y) (6) E(f(ξ))=∑kf(xk)PK
方差
定义
D ( ξ ) = E [ ξ − E ( ξ ) ] 2 D(\xi)=E[\xi-E(\xi)]^{2} D(ξ)=E[ξ−E(ξ)]2
性质
(1) D ( c ) = 0 (2) D ( k ξ ) = k 2 D ( ξ ) (3) D ( ξ + b ) = D ( ξ ) ( 4 ) D ( k ξ + b ) = k 2 D ( ξ ) \begin{array}{l}\text { (1) } D(c)=0 \\ \text { (2) } D(k \xi)=k^{2} D(\xi) \quad \\ \text { (3) } D(\xi+b)=D(\xi) \\ (4) D(k \xi+b)=k^{2} D(\xi)\end{array} (1) D(c)=0 (2) D(kξ)=k2D(ξ) (3) D(ξ+b)=D(ξ)(4)D(kξ+b)=k2D(ξ)
联合,边缘,条件
常用二维连续型分布
性质
相关系数公式
R ( X , Y ) = E ( X − E ( X ) σ ( X ) ⋅ Y − E ( Y ) σ ( Y ) ) R(X, Y)=E\left(\frac{X-E(X)}{\sigma(X)} \cdot \frac{Y-E(Y)}{\sigma(Y)}\right) R(X,Y)=E(σ(X)X−E(X)⋅σ(Y)Y−E(Y))
二维正态分布中X和Y的相关系数 R ( X , Y ) R(X, Y) R(X,Y)
R ( X , Y ) = 1 2 π σ x σ y 1 − r 2 ∫ − ∞ + ∞ ∫ − ∞ + ∞ ( x − μ x ) σ x ⋅ ( y − μ y ) σ y e − u ( x , y ) d x d y R(X, Y)=\frac{1}{2 \pi \sigma_{x} \sigma_{y} \sqrt{1-r^{2}}} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \frac{\left(x-\mu_{x}\right)}{\sigma_{x}} \cdot \frac{\left(y-\mu_{y}\right)}{\sigma_{y}} e^{-u(x, y)} d x d y R(X,Y)=2πσxσy1−r21∫−∞+∞∫−∞+∞σx(x−μx)⋅σy(y−μy)e−u(x,y)dxdy
u ( x , y ) = ( x − μ x ) 2 2 σ x 2 + 1 2 ( 1 − r 2 ) [ ( y − μ y ) σ y + r ( x − μ x ) σ x ] 2 u(x, y)=\frac{\left(x-\mu_{x}\right)^{2}}{2 \sigma_{x}^{2}}+\frac{1}{2\left(1-r^{2}\right)}\left[\frac{\left(y-\mu_{y}\right)}{\sigma_{y}}+\frac{r\left(x-\mu_{x}\right)}{\sigma_{x}}\right]^{2} u(x,y)=2σx2(x−μx)2+2(1−r2)1[σy(y−μy)+σxr(x−μx)]2
$g(X_1, X_2, X_3, …,X_n) $ 不含未知参数
样本均值: X ˉ = 1 n ∑ i = 1 n X i \bar X = \frac{1}{n}\sum_{i=1}^{n}X_i Xˉ=n1∑i=1nXi
观察值:$ \bar x = \frac{1}{n}\sum_{i=1}^nX_i$
样本方差
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\frac{1}{n-1}\left(\sum_{i=1}^{n} X_{i}^{2}-n \bar{X}^{2}\right) S2=n−11i=1∑n(Xi−Xˉ)2=n−11(i=1∑nXi2−nXˉ2)
样本标准差
S = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S=\sqrt{S^{2}}=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} S=S2=n−11i=1∑n(Xi−Xˉ)2
观察值:X->x
样本k阶(原点)矩
A k = 1 n ∑ i = 1 n X i k , k = 1 , 2 , ⋯ A_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}, k=1,2, \cdots Ak=n1i=1∑nXik,k=1,2,⋯
观察值:X->x
样本k阶中心距
B k = 1 n ∑ i = 1 n ( X i − X ˉ ) k , k = 2 , 3 , ⋯ B_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k}, k=2,3, \cdots Bk=n1i=1∑n(Xi−Xˉ)k,k=2,3,⋯
由正态分布衍生
X k 2 = ∑ i = 1 k Z i 2 X_k^2 = \sum_{i=1}^k{Z_i}^2 Xk2=∑i=1kZi2
推倒
Z 1 : X ∼ N ( 0 , 1 ) ⟶ X 1 2 ∼ Q 1 Z_1: X\sim N(0,1) \longrightarrow X_1^2\sim Q_1 Z1:X∼N(0,1)⟶X12∼Q1
Z 2 : X ∼ N ( 0 , 1 ) ⟶ X 1 2 + X 2 2 ∼ Q 2 Z_2: X\sim N(0,1) \longrightarrow X_1^2+X_2^2\sim Q_2 Z2:X∼N(0,1)⟶X12+X22∼Q2
(1)设 X ∼ N ( μ , σ 2 ) , 则 z = X − μ σ ∼ N ( 0 , 1 ) (2)构造 Y i = z i 2 ( i = 1 , 2 , … , n ) 则 Y i 服从自由度为 1 的 χ 2 分布, 即 Y i ∼ χ 2 ( 1 ) , ∑ Y i ∼ χ 2 ( n ) (3)当总体 X ∼ N ( μ , σ 2 ) , 从中抽取容量为 n 的样本, 则 ∑ i = 1 n ( x i − x ˉ ) 2 σ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \begin{array}{l}\text { (1)设 } X \sim N\left(\mu, \sigma^{2}\right), \text { 则 } z=\frac{X-\mu}{\sigma} \sim N(0,1) \\ \text { (2)构造 } Y_{i}=z_{i}^{2}(i=1,2, \ldots, n) \text { 则 } Y_{i} \text { 服从自由度为 } 1 \text { 的 } \chi^{2} \text { 分布, } \\ \text { 即 } \quad Y_{i} \sim \chi^{2}(1), \sum Y_{i} \sim \chi^{2}(n) \\ \text { (3)当总体 } X \sim N\left(\mu, \sigma^{2}\right), \text { 从中抽取容量为 } n \text { 的样本, 则 } \\ \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{\sigma^{2}}=\frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)\end{array} (1)设 X∼N(μ,σ2), 则 z=σX−μ∼N(0,1) (2)构造 Yi=zi2(i=1,2,…,n) 则 Yi 服从自由度为 1 的 χ2 分布, 即 Yi∼χ2(1),∑Yi∼χ2(n) (3)当总体 X∼N(μ,σ2), 从中抽取容量为 n 的样本, 则 σ2∑i=1n(xi−xˉ)2=σ2(n−1)S2∼χ2(n−1)
χ 2 分 布 期望为 E ( χ 2 ) = n , 方差为 D ( χ 2 ) = 2 n ( n 为自由度) \chi^2分布\text { 期望为 } E\left(\chi^{2}\right)=n \text {, 方差为 } \mathrm{D}\left(\chi^{2}\right)=2 \mathrm{n}(\mathrm{n} \text { 为自由度) } χ2分布 期望为 E(χ2)=n, 方差为 D(χ2)=2n(n 为自由度)
分位点
χ 2 分 布 的 上 α 分 位 点 \chi^2分布的上\alpha分位点 χ2分布的上α分位点
P { X ≥ χ α 2 ( n ) } = α P\left\{X \geq \chi_{\alpha}^{2}(n)\right\}=\alpha P{ X≥χα2(n)}=α
则称 χ α 2 ( n ) \chi_{\alpha}^{2}(n) χα2(n)为 χ 2 ( n ) \chi^{2}(n) χ2(n)分布的 上 α 分 位 点 上\alpha分位点 上α分位点
其他分布
Gamma分布
Beta分布
Fisher Z分布
指数结构
由相本推断总体的依据
极大似然函数
设总体X的分布类型已知,但是含有参数 θ \theta θ
设离散型总体X的概率分布为 p ( x , θ ) p(x, \theta) p(x,θ),则样本 ( X 1 , X 2 , . . . X n ) (X_1, X_2,...X_n) (X1,X2,...Xn)的联合概率密度函数称为似然函数
L ( θ ) = f ( x 1 ; θ ) f ( x 2 ; θ ) ⋯ f ( x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta) = f\left(x_{1} ; \theta\right) f\left(x_{2} ; \theta\right) \cdots f\left(x_{n} ; \theta\right)=\prod_{i=1}^{n} f\left(x_{i} ; \theta\right) L(θ)=f(x1;θ)f(x2;θ)⋯f(xn;θ)=i=1∏nf(xi;θ)
极大似然参数估计值
若 L ( θ ) L(\theta) L(θ) 在 θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^=θ^(x1,x2,⋯,xn) 处取到极大值,则称 θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^(x1,x2,⋯,xn) 为 θ \theta θ 的极大似然估计值。
参数求法
令KaTeX parse error: Got function '\hskip' with no arguments as argument to '\text' at position 1: \̲h̲s̲k̲i̲p̲1em\relax
解得
常用 标准 { (1) 无偏性 (Unbiased Estimator) (2) 有效性 (3) 一致性(consistency) \begin{array}{l}\text { 常用 } \\ \text { 标准 }\end{array}\left\{\begin{array}{l}\text { (1) 无偏性 (Unbiased Estimator) } \\ \text { (2) 有效性 } \\ \text { (3) 一致性(consistency) }\end{array}\right. 常用 标准 ⎩⎨⎧ (1) 无偏性 (Unbiased Estimator) (2) 有效性 (3) 一致性(consistency)
参数等于均值
定义: 设 θ ^ ( X 1 , X 2 , … , X n ) 为 θ ∈ Θ 的估计量, 若 E [ θ ^ ( X 1 , X 2 , … , X n ) ] = θ , ∀ θ ∈ Θ , 则称 θ ^ ( X 1 , X 2 , … , X n ) 为 θ 的无偏估计; 否则称为有偏的。 \begin{array}{c}\text { 定义: 设 } \hat{\theta}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 为 } \theta \in \Theta \text { 的估计量, 若 } \\ E\left[\hat{\theta}\left(X_{1}, X_{2}, \ldots, X_{n}\right)\right]=\theta, \quad \forall \theta \in \Theta, \text { 则称 } \\ \hat{\theta}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 为 } \theta \text { 的无偏估计; 否则称为有偏的。 }\end{array} 定义: 设 θ^(X1,X2,…,Xn) 为 θ∈Θ 的估计量, 若 E[θ^(X1,X2,…,Xn)]=θ,∀θ∈Θ, 则称 θ^(X1,X2,…,Xn) 为 θ 的无偏估计; 否则称为有偏的。
方差更小
设 θ ^ 1 = θ ^ 1 ( X 1 , X 2 , … , X n ) 与 θ ^ 2 = θ 2 ( X 1 , X 2 , … , X n ) 都是 θ 的无偏估计量, 若对 ∀ θ ∈ Θ 有 D ( θ ^ 1 ) ≤ D ( θ ^ 2 ) , 且至少有 一个 θ ∈ Θ 使不等式成立, 则称 θ ^ 1 比 θ ^ 2 有较高的效率, 简称 θ ^ 1 比 θ ^ 2 有效。 \begin{array}{l}\text { 设 } \hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 与 } \hat{\theta}_{2}=\theta_{2}\left(X_{1}, X_{2}, \ldots, X_{n}\right) \text { 都是 } \\ \theta \text { 的无偏估计量, 若对 } \forall \theta \in \Theta \text { 有 } D\left(\hat{\theta}_{1}\right) \leq D\left(\hat{\theta}_{2}\right), \text { 且至少有 } \\ \text { 一个 } \theta \in \Theta \text { 使不等式成立, 则称 } \hat{\theta}_{1} \text { 比 } \hat{\theta}_{2} \text { 有较高的效率, } \\ \text { 简称 } \hat{\theta}_{1} \text { 比 } \hat{\theta}_{2} \text { 有效。 }\end{array} 设 θ^1=θ^1(X1,X2,…,Xn) 与 θ^2=θ2(X1,X2,…,Xn) 都是 θ 的无偏估计量, 若对 ∀θ∈Θ 有 D(θ^1)≤D(θ^2), 且至少有 一个 θ∈Θ 使不等式成立, 则称 θ^1 比 θ^2 有较高的效率, 简称 θ^1 比 θ^2 有效。
一致估计量的意义在于:只要样本容量足够大, 就可以使一致估计量与参数真实值之间的差异大于 ε的概率足够地小,也就是估计量可以用任意接近 于1的概率把参数真实值估计到任意的精度。
这种 性质是针对样本容量 b → + ∞ b \rightarrow + \infty b→+∞而言,对于一个固定的 样本容量 n,一致性是无意义的
置信区间
求置信区间的步骤:
方差已知时,均值的区间估计
方差未知时,均值的区间估计
T = X ˉ − μ S / n ∼ t ( n − 1 ) T=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1) T=S/nXˉ−μ∼t(n−1)
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} S2=n−11i=1∑n(Xi−Xˉ)2
对给定的置信度1-a,由t分布表查出
M S E θ ( θ ) = E ( θ ^ − θ ) 2 M S E_{\theta}(\theta)=E(\hat{\theta}-\theta)^{2} MSEθ(θ)=E(θ^−θ)2
如果 M S E θ ( θ ) < + ∞ M S E_{\theta}(\theta)<+\infty MSEθ(θ)<+∞
M S E θ ( θ ) = = Var θ ( θ ) + b 2 ( θ , θ ) b ( θ , θ ) = E θ ( θ − θ ) \begin{array}{l} M S E_{\theta}(\theta)==\operatorname{Var}_{\theta}(\theta)+b^{2}(\theta, \theta) \\ b(\theta, \theta)=E_{\theta}(\theta-\theta)\end{array} MSEθ(θ)==Varθ(θ)+b2(θ,θ)b(θ,θ)=Eθ(θ−θ)
E [ g ∗ ( X ~ ) − g ( θ ) ] 2 ≤ E [ g ^ ( X ~ ) − g ( θ ) ] 2 E\left[g^{*}(\tilde{X})-g(\theta)\right]^{2} \leq E[\hat{g}(\widetilde{X})-g(\theta)]^{2} E[g∗(X~)−g(θ)]2≤E[g^(X )−g(θ)]2
一致最小方差无偏估计(UMVUE)
是在无偏估计类中,使均方误差达到最小的估计量
单参数密度函数满足以下五个条件为CR正则分布族
0 < I ( θ ) = E θ { ∂ ∂ θ ln p ( X ; θ ) } 2 < + ∞ 00<I(θ)=Eθ{ ∂θ∂lnp(X;θ)}2<+∞
定理:正则分布族无偏估计的下界,也称作C-R下界
D θ [ g ^ ( X ~ ) ] ≥ [ g ′ ( θ ) ] 2 n I ( θ ) , θ ∈ Θ D_{\theta}[\hat{g}(\tilde{X})] \geq \frac{\left[g^{\prime}(\theta)\right]^{2}}{n I(\theta)}, \theta \in \Theta Dθ[g^(X~)]≥nI(θ)[g′(θ)]2,θ∈Θ
证明:
∂ ∂ θ ln p ( x 1 , ⋯ , x n ; θ ) = ∑ i = 1 n ∂ ∂ θ ln p ( x i ; θ ) S ( X ~ ; θ ) = ∂ ∂ θ ln p ( X 1 , ⋯ , X n ; θ ) E θ { ∂ ∂ θ ln p ( X i ; θ ) } = ∫ ∂ ∂ θ ln p ( x i , θ ) p ( x i , θ ) d x i = ∫ ∂ ∂ θ p ( x i , θ ) d x i = d d θ ∫ p ( x i , θ ) d x i = d d θ 1 = 0 \begin{array}{l}\frac{\partial}{\partial \theta} \ln p\left(x_{1}, \cdots, x_{n} ; \theta\right)=\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln p\left(x_{i} ; \theta\right) \\ S(\tilde{X} ; \theta)=\frac{\partial}{\partial \theta} \ln p\left(X_{1}, \cdots, X_{n} ; \theta\right) \\ E_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i} ; \theta\right)\right\}=\int \frac{\partial}{\partial \theta} \ln p\left(x_{i}, \theta\right) p\left(x_{i}, \theta\right) d x_{i} \\ =\int \frac{\partial}{\partial \theta} p\left(x_{i}, \theta\right) d x_{i}=\frac{d}{d \theta} \int p\left(x_{i}, \theta\right) d x_{i}=\frac{d}{d \theta}1=0\end{array} ∂θ∂lnp(x1,⋯,xn;θ)=∑i=1n∂θ∂lnp(xi;θ)S(X~;θ)=∂θ∂lnp(X1,⋯,Xn;θ)Eθ{ ∂θ∂lnp(Xi;θ)}=∫∂θ∂lnp(xi,θ)p(xi,θ)dxi=∫∂θ∂p(xi,θ)dxi=dθd∫p(xi,θ)dxi=dθd1=0
E θ { S ( X ~ , θ ) } = ∑ i = 1 n E θ { ∂ ∂ θ ln p ( X i , θ ) } D θ { S ( X ~ , θ ) } = D θ { ∑ i = 1 n ∂ ∂ θ ln p ( X i , θ ) } = ∑ i = 1 n D θ { ∂ ∂ θ ln p ( X i , θ ) } = ∑ i = 1 n E θ { ∂ ∂ θ ln p ( X i , θ ) } 2 = n I ( θ ) \begin{array}{l}E_{\theta}\{S(\widetilde{X}, \theta)\}=\sum_{i=1}^{n} E_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\} \\ D_{\theta}\{S(\widetilde{X}, \theta)\}=D_{\theta}\left\{\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\} \\ =\sum_{i=1}^{n} D_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\} \\ =\sum_{i=1}^{n} E_{\theta}\left\{\frac{\partial}{\partial \theta} \ln p\left(X_{i}, \theta\right)\right\}^{2}=n I(\theta)\end{array} Eθ{ S(X ,θ)}=∑i=1nEθ{ ∂θ∂lnp(Xi,θ)}Dθ{ S(X ,θ)}=Dθ{ ∑i=1n∂θ∂lnp(Xi,θ)}=∑i=1nDθ{ ∂θ∂lnp(Xi,θ)}=∑i=1nEθ{ ∂θ∂lnp(Xi,θ)}2=nI(θ)
可以看到C-R不等式的右端与参数g(θ)的变化率的平方成正比, 与总体所在分布族的Fisher信息 量的n倍成反比.
无偏估计的效率:
e n = [ g ′ ( θ ) ] 2 / n I ( θ ) D θ ( g ^ ( X ~ ) ) e_{n}=\frac{\left[g^{\prime}(\theta)\right]^{2} / n I(\theta)}{D_{\theta}(\hat{g}(\widetilde{X}))} en=Dθ(g^(X ))[g′(θ)]2/nI(θ)
e n = 1 e_n=1 en=1 有效无偏估计
lim n → ∞ e n = 1 \lim _{n \rightarrow \infty} e_{n}=1 limn→∞en=1 渐进有效(无偏)估计
结论:
有效估计一定是UMVUE,但很多 UMVUE不是有效估计,这是因为C-R下届偏小,在很多场合达不到.
等式成立的充要条件:
S ( X ~ , θ ) − E S ( X ~ , θ ) = t ( g ^ ( X ~ ) − g ( θ ) ) S(\tilde{X}, \theta)-E S(\tilde{X}, \theta)=t(\hat{g}(\tilde{X})-g(\theta)) S(X~,θ)−ES(X~,θ)=t(g^(X~)−g(θ))
I ( θ ) = − E [ ∂ 2 ∂ θ 2 ln f ( x , θ ) ] I(\theta)=-E\left[\frac{\partial^{2}}{\partial \theta^{2}} \ln f(x, \theta)\right] I(θ)=−E[∂θ2∂2lnf(x,θ)]
推论:
S ( X ~ , θ ) = ∂ ∂ θ ln f ( x 1 , x 2 , ⋯ x n , θ ) = c ( θ ) ( g ^ ( X ~ ) − g ( θ ) ) E ( g ^ ( X ~ ) ) = g ( θ ) \begin{aligned} S(\tilde{X}, \theta)=& \frac{\partial}{\partial \theta} \ln f\left(x_{1}, x_{2}, \cdots x_{n}, \theta\right)=c(\theta)(\hat{g}(\tilde{X})-g(\theta)) \\ & E(\hat{g}(\widetilde{X}))=g(\theta) \end{aligned} S(X~,θ)=∂θ∂lnf(x1,x2,⋯xn,θ)=c(θ)(g^(X~)−g(θ))E(g^(X ))=g(θ)
判断方法:
例题
贝叶斯推理就是在不完全情报下, 对部分未知的状态用主观概率估计,然 后用贝叶斯公式对先验概率进行修正, 最后再利用修正概率做出最优决策。
贝叶斯决策理论方法是统计决策中 的一个基本方法,其基本思想是:
1、已知条件概率密度参数表达式和先验概率。
2、利用贝叶斯公式转换成后验概 率。
3、根据后验概率大小进行决策分
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(A_{i} | B) =\frac{P\left(B |A_{i}\right) P\left(A_{i}\right)}{\sum_{i=1}^{n} P\left(B | A_{i}\right) P\left(A_{i}\right)} P(Ai∣B)=∑i=1nP(B∣Ai)P(Ai)P(B∣Ai)P(Ai)
其 中 ∑ i = 1 n P ( A i ) = 1 ∑ i = 1 n P ( B ∣ A i ) P ( A i ) = P ( B ) 其中 \sum_{i=1}^{n} P\left(A_{i}\right)=1 \quad \sum_{i=1}^{n} P\left(B | A_{i}\right) P\left(A_{i}\right)=P(B) 其中i=1∑nP(Ai)=1i=1∑nP(B∣Ai)P(Ai)=P(B)
对未知参数的先验信息用一个分布 形式来表示,此分布称为未知参数 的先验分布.
在抽取样本之前,人们对未知参数有 个了解,即先验分布。抽取样本之后,由 于样本中包含未知参数的信息,而这些关 于未知参数新的信息可以帮助人们修正抽样之前的先验信息
q ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n p ( x i , θ ) q\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\prod_{i=1}^{n} p\left(x_{i}, \theta\right) q(x1,x2,⋯,xn)=i=1∏np(xi,θ)
而样本值是在知道参数的先验分布的前提下得到的,因而上述分布可以改写为
q ( x ∣ θ ) = q ( x 1 , x 2 , ⋯ , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) q(x \mid \theta)=q\left(x_{1}, x_{2}, \cdots, x_{n} \mid \theta\right)=\prod_{i=1}^{n} p\left(x_{i} \mid \theta\right) q(x∣θ)=q(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
又由于参数和样本x的联合分布可以表示为
f ( x , θ ) = q ( x ∣ θ ) π ( θ ) = m ( x ) h ( θ ∣ x ) \boldsymbol{f}(\boldsymbol{x}, \theta)=\boldsymbol{q}(\boldsymbol{x} \mid \theta) \pi(\theta)=\boldsymbol{m}(\boldsymbol{x}) \boldsymbol{h}(\theta \mid \boldsymbol{x}) f(x,θ)=q(x∣θ)π(θ)=m(x)h(θ∣x)
⟹ h ( θ ∣ x ) = q ( x ∣ θ ) π ( θ ) m ( x ) , ( m ( x ) = ∫ Θ q ( x ∣ θ ) π ( θ ) d θ ) \Longrightarrow h(\theta \mid x)=\frac{q(x \mid \theta) \pi(\theta)}{m(x)}, \quad\left(m(x)=\int_{\Theta} q(x \mid \theta) \pi(\theta) \mathbf{d} \theta\right) ⟹h(θ∣x)=m(x)q(x∣θ)π(θ),(m(x)=∫Θq(x∣θ)π(θ)dθ)
可以根据数据量的增加一直修正参数
必考题:
为了提高某产品的质量,公司经理考虑增加投资来改进生产设备,预计需投资90万元, 但从投资效果来看,顾问们提出两种不同的意见:
样本X的分布为二项分布b(n,θ)时,假如θ的先验分布为β分布,则用贝叶斯估计算得的后验分布仍然是β分布,只是其中的参数不同。这样的先验分布(β分布)称为参数θ的共轭先验分布。
使后验密度 π ( θ ∣ x ) \pi (\theta|x) π(θ∣x) 达到最大的值 θ M D \theta_{MD} θMD 称为最大后验估计;后验分布的中位数 θ ^ M e \hat \theta_{Me} θ^Me称为后验中位数估计;
后验分布的期望值 θ ^ E \hat \theta_{E} θ^E 称为$\theta $ 的后验期望值估计,这三个估计都称为贝叶斯估计, 记为 θ ^ B \hat \theta_{B} θ^B。
必考题:
设一批产品的不合格率为 ,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第 一个不合格品时已检查的产品数,则X服从几何分布,其分布列为
原假设
备择假设
三种形式:
步骤: