每个事件的概率是一样的,例如骰子的六面,每一面的概率都是 1 / 6 1/6 1/6
给定样本空间 ( S , F ) (S,{\mathbb {F}}) (S,F),如果其上的实值函数 X : S → R X:S\to {\mathbb {R}} X:S→R 是 F \mathbb{F} F (实值)可测函数,则称 X X X 为(实值)随机变量。
随机变量实质上是函数,称其为变量是指可作为因变量。
如果随机变量 X X X 的取值是有限的或者是可数无穷尽的值
X = { x 1 , x 2 , x 3 , … , } X=\lbrace x_{1},x_{2},x_{3},\ldots ,\rbrace X={x1,x2,x3,…,}
则称 X X X 为离散随机变量。
如投骰子时,当 P ( X 1 ) = 1 6 P(X_1)=\frac{1}{6} P(X1)=61,此时 x = 1 x=1 x=1 为离散随机变量。
随机变量具有可加性: P ( X = 1 ) P(X=1) P(X=1)和 P ( X = 2 ) P(X=2) P(X=2)不会同时出现,可求 P ( X = 1 , 2 ) P(X=1,2) P(X=1,2)
如果 X X X 由全部实数或者由一部分区间组成,
X = { x ∣ a ≤ x ≤ b } , − ∞ < a < b < ∞ X=\lbrace x|a\leq x\leq b\rbrace, \ -\infty X={x∣a≤x≤b}, −∞<a<b<∞
则称 X X X 为连续随机变量。
概率密度函数(probability density function), 连续型随机变量的概率密度函数是一个描述某个确定的取值点附近的可能性的函数。
为了便于概率的计算,我们引入了 CDF 的概念。是概率密度函数的积分,能完整描述一个实随机变量 X X X 的概率分布。
https://zhuanlan.zhihu.com/p/35669044
参考牛顿莱布尼茨公式:https://zh.m.wikipedia.org/zh-hans/%E5%BE%AE%E7%A7%AF%E5%88%86%E5%9F%BA%E6%9C%AC%E5%AE%9A%E7%90%86
对离散随机变量而言,联合分布概率质量函数为 P r ( X = x & Y = y ) Pr(X = x \ \& \ Y = y) Pr(X=x & Y=y),即
P ( X = x a n d Y = y ) = P ( Y = y ∣ X = x ) P ( X = x ) = P ( X = x ∣ Y = y ) P ( Y = y ) . P(X=x\;\mathrm{and}\;Y=y)\;=\;P(Y=y|X=x)P(X=x)= P(X=x|Y=y)P(Y=y).\; P(X=xandY=y)=P(Y=y∣X=x)P(X=x)=P(X=x∣Y=y)P(Y=y).
因为是概率分布函数,所以必须有
∑ x ∑ y P ( X = x a n d Y = y ) = 1. \sum_x \sum_y P(X=x\ \mathrm{and}\ Y=y) = 1.\; x∑y∑P(X=x and Y=y)=1.
独立性是概率论所独有的一个重要概念。设 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,…,xn 是 n n n 个随机变量,如果对任何 n n n 个实数 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,…,xn 都有
F ( x 1 , x 2 , … , x n ) = F 1 ( x 1 ) , F 2 ( x 2 ) , … , F n ( x n ) F(x_1,x_2,…,x_n) = F_1(x_1),F_2(x_2),…,F_n(x_n) F(x1,x2,…,xn)=F1(x1),F2(x2),…,Fn(xn)
即它们的联合分布函数 F F F, 等于它们各自的分布函数的乘积。则称 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,…,xn 是独立的。
伯努利分布(Bernoulli Distribution),是一种离散分布,又称为 “0-1 分布” 或 “两点分布”。只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。若伯努利试验成功,则伯努利随机变量取值为 1 1 1。若伯努利试验失败,则伯努利随机变量取值为 0 0 0。记其成功概率为 p ( 0 ≤ p ≤ 1 ) p (0{\le}p{\le}1) p(0≤p≤1),失败概率为 q = 1 − p q=1-p q=1−p。
其概率质量函数为:
f X ( x ∣ p ) = p x ( 1 − p ) 1 − x = { p i f x = 1 , q i f x = 0. {\displaystyle f_{X}(x|p)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p & if \ x=1,\\q\ & if \ x=0.\\\end{matrix}}\right.} fX(x∣p)=px(1−p)1−x={pq if x=1,if x=0.
二项分布(Binomial Distribution)也是一种离散型概率分布,又称为「n 重伯努利分布」。
可见, n n n 重伯努利试验需满足下列条件:
p(0<p<1)
和 q = 1 − p q=1-p q=1−p那么成功的次数 Y Y Y 就是一个参数为 n n n 和 p p p 的二项随机变量,即满足下述公式:
P ( Y = k ) = C ( n , k ) p k ( 1 − p ) n − k P(Y=k) = C(n, k) p^k (1-p)^{n-k} P(Y=k)=C(n,k)pk(1−p)n−k
写作 Y ∼ B ( n , p ) Y \sim B(n, p) Y∼B(n,p)(也就是说, Y Y Y 是服从二项分布的随机变量)
https://www.cnblogs.com/jmilkfan-fanguiju/p/10589773.html
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。
泊松分布的概率质量函数为:
P ( X = k ) = e − λ λ k k ! P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!} P(X=k)=k!e−λλk
泊松分布的参数 λ λ λ 是随机事件发生次数的数学期望值。
若 X X X 服从参数为 λ \lambda λ 的泊松分布,记为 X ∼ π ( λ ) X \sim \pi(\lambda) X∼π(λ),或记为 X ∼ P o i s ( λ ) {\displaystyle X\sim Pois(\lambda )} X∼Pois(λ).
在二项分布的伯努利试验中,如果试验次数 n n n 很大,二项分布的概率 p p p 很小,且乘积 λ = n p λ= np λ=np 比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。
更多参考:
泊松过程、指数分布:https://zh.m.wikipedia.org/zh-cn/%E6%8C%87%E6%95%B0%E5%88%86%E5%B8%83
多项分布:https://en.wikipedia.org/wiki/Multinomial_distribution
若随机变量 X X X 服从一个位置参数为 μ \mu μ 、尺度参数为 σ \sigma σ 的正态分布,记为:
X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2)
则其概率密度函数为 f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 {\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}\!} f(x)=σ2π1e−2σ2(x−μ)2
我们通常所说的标准正态分布是位置参数 μ = 0 \mu =0 μ=0,尺度参数 σ 2 = 1 \sigma^2 = 1 σ2=1 的正态分布
在介绍贝叶斯定理之前,先简单地介绍一下条件概率,描述的是事件 A A A 在另一个事件 B B B 已经发生条件下的概率,记作 P ( A ∣ B ) P(A|B) P(A∣B) , A A A 和 B B B 可能是相互独立的两个事件,也可能不是:
P ( A ∣ B ) = P ( A ⋂ B ) P ( B ) P(A|B) = \frac{P(A \bigcap B)}{P(B)} P(A∣B)=P(B)P(A⋂B)
P ( A ⋂ B ) P(A \bigcap B) P(A⋂B) 表示 A,B 事件同时发生的概率
https://zhuanlan.zhihu.com/p/22467549
贝叶斯定理是关于随机事件 A A A 和 B B B 的条件概率的一则定理。
P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) {\displaystyle P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}} P(A∣B)=P(B)P(A)P(B∣A)
其中 A A A 以及 B B B 为随机事件,且 P ( B ) P(B) P(B) 不为零。 P ( A ∣ B ) {\displaystyle P(A\mid B)} P(A∣B) 是指在事件 B B B 发生的情况下事件 A A A 发生的概率。
在贝叶斯定理中,每个名词都有约定俗成的名称:
根据全概率公式,在更一般化的情况,假设 ${A_i}, 1 \leq i \leq $ 是事件集合里的部分集合,对于任意的 A i A_i Ai,贝叶斯理论可用下式表示:
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ j = 1 n P ( B ∣ A j ) P ( A j ) {\displaystyle P(A_{i}|B)={\frac {P(B|A_{i})\,P(A_{i})}{\displaystyle\sum_{j=1}^{n} P(B|A_{j})\,P(A_{j})}}\!} P(Ai∣B)=j=1∑nP(B∣Aj)P(Aj)P(B∣Ai)P(Ai)
其中 P ( B ∣ A i ) P(B|A_i) P(B∣Ai) 是 P ( A i ∣ B ) P(A_i|B) P(Ai∣B) 的逆概率
https://blog.csdn.net/WslWslYYX/article/details/120188632
https://zhuanlan.zhihu.com/p/159355780
某疾病未生病概率 P ( A 1 ) = 99.9 % P(A_1)=99.9\% P(A1)=99.9%,则生病概率 P ( A 2 ) = 0.1 % P(A_2)=0.1\% P(A2)=0.1%,化验手段为病的正确概率 P ( B ∣ A 2 ) = 90 % P(B|A_2)=90\% P(B∣A2)=90%,则失败概率为 P ( B ∣ A 1 ) = 10 % P(B|A_1)=10\% P(B∣A1)=10%,求:
P ( B ) P(B) P(B) P ( B ′ ) P(B^\prime) P(B′) 表示化验结果准确。
from decimal import Decimal, getcontext
getcontext().prec = 500
pa1 = Decimal(99.9 / 100)
pa2 = 1 - pa1
pb_a2 = Decimal(90 / 100)
pb_a1 = 1 - pb_a2
# 第一次检测
pa2_b = pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2)
print("pa2_b:", pa2_b)
# 第二次检测,化简后代入
pa2_b_simp = pb_a2 * pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2) / (pb_a1 * 1 - pb_a1 * pb_a2 * pa2 /
(pb_a1 * pa1 + pb_a2 * pa2)
+ pb_a2 * pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2))
print("pa2_b_simp:", pa2_b_simp)
# 第二次检测,直接代入
pa1 = 1 - pa2_b
pa2 = pa2_b
pa2_b = pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2)
print("pa2_b:", pa2_b)
out:
pa2_b: 0.0089285714285704552184795621734431990228295869184551309227437083422694837649230399481520372071322287645937454795543702141374816275772559051676054449074470890496141257461410931477625780651803786510057311359712064259897806888017596341306968782579824444580391186910612649213343761046921967825307967252779549804233018264767846324568029866636133532378377609530302498116737468000438556193157008358323999387196374820413862845848921364157260993408107566688572442896941731490508911890765119439685681948244775513
pa2_b_simp: 0.074999999999992386028818063687234055650264676838666153856895966794058655373197753207740963980543837860810445058250110555484410209293415947509455008257814523212200521165915297701498559953889726448042203903565435046740939430222922520442923489544019091303266234096871506457355956083239284162330060008486612776158863878112308234899817199628856859126371681557721167085486165045757630600454951136425032431939080310545257362589704437331953969969349477368665951931968875855192769127010257688987623983372269080
pa2_b: 0.074999999999992386028818063687234055650264676838666153856895966794058655373197753207740963980543837860810445058250110555484410209293415947509455008257814523212200521165915297701498559953889726448042203903565435046740939430222922520442923489544019091303266234096871506457355956083239284162330060008486612776158863878112308234899817199628856859126371681557721167085486165045757630600454951136425032431939080310545257362589704437331953969969349477368665951931968875855192769127010257688987623983372269080
在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。
如果 X X X 是离散的随机变量,输出值为 x 1 , x 2 , … x_{1},x_{2},\ldots x1,x2,…,和输出值相应的概率为 $p_{1},p_{2},\ldots $(概率和为1)。
若级数 ∑ i p i x i {\displaystyle \sum _{i}p_{i}x_{i}} i∑pixi 绝对收敛,那么期望值 E ( X ) {\displaystyle \operatorname {E} (X)} E(X) 是一个无限数列的和。
E ( X ) = ∑ i p i x i {\displaystyle \operatorname {E} (X)=\sum _{i}p_{i}x_{i}} E(X)=i∑pixi
如果 X X X 是连续的随机变量,存在一个相应的概率密度函数 f ( x ) f(x) f(x),若积分 ∫ − ∞ ∞ x f ( x ) d x {\displaystyle \int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x} ∫−∞∞xf(x)dx 绝对收敛,那么 X X X 的期望值可以计算为:
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x 。 {\displaystyle \operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x}。 E(X)=∫−∞∞xf(x)dx。
标准差,又称标准偏差、均方差 (英语:Standard Deviation,缩写SD,符号 σ σ σ ),在概率统计中最常使用作为测量一组数值的离散程度之用。
基本定义
σ = 1 N ∑ i = 1 N ( x i − x ‾ ) 2 {\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}}} σ=N1i=1∑N(xi−x)2
x ‾ {\overline {x}} x 为平均值。
一随机变量 X X X 的标准差定义为:
σ = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − ( E ( X ) ) 2 \sigma = \sqrt{\operatorname{E}((X-\operatorname{E}(X))^2)} = \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2} σ=E((X−E(X))2)=E(X2)−(E(X))2
既:
σ 2 = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − ( E ( X ) ) 2 \sigma^2 = \operatorname{E}((X-\operatorname{E}(X))^2) = \operatorname{E}(X^2) - (\operatorname{E}(X))^2 σ2=E((X−E(X))2)=E(X2)−(E(X))2
一般关于 x x x 的方差写作 σ x 2 \sigma_x^2 σx2。
期望值分别为 E ( X ) = μ X E(X)=\mu_X E(X)=μX 与 E ( Y ) = μ Y E(Y)=\mu_Y E(Y)=μY 的两个具有有限二阶矩的实数随机变量 X X X 与 Y Y Y 之间的协方差定义为:
cov ( X , Y ) = E ( ( X − μ X ) ( Y − μ Y ) ) = E ( X ⋅ Y ) − μ X μ Y {\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu_X )(Y-\mu_Y ))=\operatorname {E} (X\cdot Y)-\mu_X \mu_Y } cov(X,Y)=E((X−μX)(Y−μY))=E(X⋅Y)−μXμY
两个独立变量的协方差为 0 0 0。
推导:https://blog.csdn.net/WslWslYYX/article/details/120194906
两个变量之间的皮尔逊相关系数定义为两个变量的协方差除以它们标准差的乘积:
ρ X , Y = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y {\displaystyle \rho _{X,Y}={\mathrm {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={E[(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}}} ρX,Y=σXσYcov(X,Y)=σXσYE[(X−μX)(Y−μY)]
上式定义了总体相关系数,常用希腊小写字母 ρ (rho) 作为代表符号。
设 X X X 和 Y Y Y 是离散随机变量,则 X X X 在给定事件 Y = y {\displaystyle Y=y} Y=y 条件时的条件期望是 x x x 的在 Y Y Y 的值域的函数
E ( X ∣ Y = y ) = ∑ x ∈ X x P ( X = x ∣ Y = y ) = ∑ x ∈ X x P ( X = x , Y = y ) P ( Y = y ) , \operatorname {E}(X|Y=y)=\sum _{{x\in {\mathcal {X}}}}x\ \operatorname {P}(X=x|Y=y)=\sum _{{x\in {\mathcal {X}}}}x\ {\frac {\operatorname {P}(X=x,Y=y)}{\operatorname {P}(Y=y)}}, E(X∣Y=y)=x∈X∑x P(X=x∣Y=y)=x∈X∑x P(Y=y)P(X=x,Y=y),
其中, X {\mathcal {X}} X 是处于 X X X 的值域。
如果现在 X X X 是一个连续随机变量,而 Y Y Y 仍然是一个离散变量,条件期望是:
E ( X ∣ Y = y ) = ∫ X x f X ( x ∣ Y = y ) d x \operatorname {E}(X|Y=y)=\int _{{{\mathcal {X}}}}xf_{X}(x|Y=y)dx E(X∣Y=y)=∫XxfX(x∣Y=y)dx
其中, f X ( ⋅ ∣ Y = y ) f_{X}(\,\cdot \,|Y=y) fX(⋅∣Y=y) 是在给定 Y = y Y=y Y=y 下 X X X 的条件概率密度函数。
设 X , Y , Z X,Y,Z X,Y,Z 为随机变量,下列期望和条件期望均存在,则
E ( X ) = E ( E ( X ∣ Y ) ) ; \operatorname {E}(X)=\operatorname {E}(\operatorname {E}(X\mid Y)); E(X)=E(E(X∣Y));
其中 E ( X ∣ Y = y ) \operatorname {E}(X\mid Y = y) E(X∣Y=y) 是 y y y 的函数,可以看做随机变量。
https://zhuanlan.zhihu.com/p/93938795
大数定律(英语:Law of large numbers)又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其算术平均值就有越高的概率接近期望值。
对于独立同分布的无穷长度随机序列 { X i } \{X_i\} {Xi} ,期望为 E ( X i ) = μ E(X_i) = \mu E(Xi)=μ 。
X ‾ n = 1 n ( X 1 + X 2 + . . . + X n ) → μ f o r n → ∞ {\overline {X}}_{n} = \frac{1}{n} (X_1 + X_2 + ... + X_n) \rightarrow \mu \ \ \ \ for \ n \rightarrow \infty Xn=n1(X1+X2+...+Xn)→μ for n→∞
弱大数定律 (WLLN) 也称为辛钦定理,陈述为:样本均值 X ‾ n {\overline {X}}_{n} Xn 依概率 P P P 收敛于期望值 μ \mu μ。接近期望的可能越来越大。
X ‾ n → P μ as n → ∞ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \quad {\textrm {as}}\quad n\to \infty } Xn P μasn→∞
也就是
∀ ϵ > 0 , lim n → ∞ P ( ∣ X ‾ n − μ ∣ > ε ) = 0 \forall \epsilon > 0, \ {\displaystyle \lim _{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0} ∀ϵ>0, n→∞limP(∣Xn−μ∣>ε)=0
设 a 1 , a 2 , … , a n , … {\displaystyle a_{1},\ a_{2},\ \dots \ ,\ a_{n},\ \dots } a1, a2, … , an, … 为相互独立的随机变量
在定理条件下,当 n n n 无限变大时, n n n 个随机变量的算术平均将变成一个常数。
定理:https://zh.wikipedia.org/zh-cn/%E5%A4%A7%E6%95%B8%E6%B3%95%E5%89%87#%E5%BC%B1%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B
强大数定律 (SLLN) 指出,样本均值以概率 1 1 1 收敛于期望值。平均值越来越接近期望值。
X ‾ n → a.s. μ as n → ∞ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {\text{a.s.}}}\ \mu \quad {\textrm {as}}\quad n\to \infty } Xn a.s. μasn→∞
a . s a.s a.s = almost sure
即
P ( lim n → ∞ X ‾ n = μ ) = 1 {\displaystyle P\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1} P(n→∞limXn=μ)=1
也就是
∀ ϵ > 0 , P ( lim n → ∞ ∣ X ‾ n − μ ∣ > ε ) = 0 \forall \epsilon > 0, \ {\displaystyle P\left(\lim _{n\to \infty }\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0} ∀ϵ>0, P(n→∞lim∣Xn−μ∣>ε)=0
从形式上来看似乎只是把极限和概率交换了一下位置,但是这个交换就导致了本质的区别,后面会解释。
https://glooow1024.github.io/2020/05/30/probability/law%20of%20large%20numbers/
https://blog.51cto.com/u_15366127/5623693#Bernoulli_100
设随机变量 X 1 , X 2 , ⋯ , X n X_{1},X_{2},\cdots ,X_{n} X1,X2,⋯,Xn 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ , D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯ , n ) E(X_{i})=\mu ,D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n) E(Xi)=μ,D(Xi)=σ2=0(i=1,2,⋯,n)。记
独立同分布(英語:Independent and identically distributed,或稱獨立同分配,缩写为iid、 i.i.d.、IID)
则 lim n → ∞ P ( ζ n ≤ z ) = Φ ( z ) \lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right) limn→∞P(ζn≤z)=Φ(z)
其中 Φ ( z ) \Phi (z) Φ(z) 是标准正态分布的分布函数。既:
∑ i = 1 n X i ∼ N ( n μ , σ 2 n ) \sum _{i=1}^{n}X_{i} \sim N(n\mu, \frac{\sigma^2}{\sqrt{n}} ) i=1∑nXi∼N(nμ,nσ2)
在概率论中,任何随机变量的特征函数(缩写:ch.f,复数形式:ch.f’s)完全定义了它的概率分布。在实直线上,它由以下公式给出,其中 X X X 是任何具有该分布的随机变量:
φ X ( t ) = E ( e i t X ) , \varphi _{X}(t)=\operatorname {E}\left(e^{{itX}}\right), φX(t)=E(eitX),
其中 t t t 是一个实数, i i i 是虚数单位, E E E 表示期望值。
附:
e x = lim n → ∞ ( 1 + x n ) n e^x = \lim _{n\to \infty} {(1 + \frac{x}{n})}^n ex=n→∞lim(1+nx)n
正态分布特征函数推导:https://zhuanlan.zhihu.com/p/14383762
https://zh.wikipedia.org/zh-cn/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86
https://zhuanlan.zhihu.com/p/93738110
https://zhuanlan.zhihu.com/p/85233692
参考书籍:《概率与统计》陈家鼎
https://www.zhihu.com/question/26736727
p p p 值(p value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
P P P 值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率,或者当原假设为真时所得到的统计数据(如两组样本数据平均值差)会大于或等于实际观察到的结果的概率。
https://martechcareer.com/advice/2020/6/10/-p-value-mmm
零假设(英语:Null hypothesis,又译虚无假设、原假设,符号: H 0 H_0 H0)是做统计检验时的一类假说。
零假设的内容一般是希望能证明为错误的假设。
备择假设(英语:Alternative hypothesis,记作 H a H_{a} Ha 或 H 1 H_1 H1),是做统计检验时的一类假说。
而站在零假设立场对立面的即为备择假设,需要透过统计检验来证明备择假设为真,当有充足证据拒绝零假设时,即可接受备择假设,而若无充足证据证明备择假设为真时,则“不拒绝”零假设。
显著性水平(significance level,符号: α α α)常用于假设检验中检验假设和实验结果是否一致,它代表在零假设(记作 H 0 H_0 H0)为真时,错误地拒绝 H 0 H_0 H0 的概率,即发生第一类错误(弃真错误、α错误)的概率。
定义:拒绝域是由显著性水平围成的区域
拒绝域的功能主要用来判断假设检验是否拒绝原假设的。如果样本观测计算出来的检验统计量的具体数值落在拒绝域内,就拒绝原假设,否则不拒绝原假设。给定显著性水平 α α α 后,查表就可以得到具体临界值,将检验统计量与临界值进行比较,判断是否拒绝原假设。
https://zhuanlan.zhihu.com/p/86178674
假设检验:H0(原假设),H1(备择假设)
数学上,设 ( X 1 , … , X e ) (X₁, …,Xₑ) (X1,…,Xe) 是来自总体 X X X 的一个随机样本, T = T ( X 1 , … , X e ) T=T(X₁, …,Xₑ) T=T(X1,…,Xe) 是一统计量。若在 T = t T=t T=t 的条件下,样本的条件分布与未知参数 θ θ θ$ 无关,则称统计量 T T T 是 θ θ θ 的充分统计量。
P(precosion)-R(recall) 曲线:
TPR(真阳率(True postive rate))-FPR(假阳率(False positive rate))
被定义为ROC曲线下的面积,因为ROC曲线一般都处于y=x这条直线的上方,所以取值范围在0.5和1之间,使用AUC作为评价指标是因为ROC曲线在很多时候并不能清晰地说明哪个分类器的效果更好,而AUC作为一个数值,其值越大代表分类器效果更好。
https://blog.csdn.net/yinyu19950811/article/details/81288287
最大似然估计(英语:Maximum Likelihood Estimation,简作MLE),也称极大似然估计。
给定一个概率分布 D D D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 f D f_D fD,以及一个分布参数 θ \theta θ ,我们可以从这个分布中抽出一个具有 n n n 个值的采样 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,…,Xn,利用 f D f_D fD 计算出其似然函数:
L ( θ ∣ x 1 , … , x n ) = f θ ( x 1 , … , x n ) . {\displaystyle {L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).} L(θ∣x1,…,xn)=fθ(x1,…,xn).
若 D D D 是离散分布, f θ {\displaystyle f_{\theta }} fθ 即是在参数为 θ \theta θ 时观测到这一采样的概率。
若其是连续分布, f θ {\displaystyle f_{\theta }} fθ 则为 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,…,Xn 联合分布的概率密度函数在观测值处的取值。
一旦我们获得 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,…,Xn,我们就能求得一个关于 θ \theta θ 的估计。最大似然估计会寻找关于 θ \theta θ 的最可能的值(即,在所有可能的 θ \theta θ 取值中,寻找一个值使这个采样的“可能性”最大化)。
从数学上来说,我们可以在 θ \theta θ 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 θ ^ \widehat{\theta} θ 值即称为 θ \theta θ 的最大似然估计。由定义,最大似然估计是样本的函数。
在线性回归中,若误差服从正态分布(或 ϵ \epsilon ϵ 服从正态分布),则最小二乘法就是极大似然估计!
https://zhuanlan.zhihu.com/p/55793850
Maximum A Posteriori, MAP 是贝叶斯学派常用的估计方法!
在贝叶斯统计学中,“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。
假设:
公式:
MLE:
θ ^ M L E ( x ) = arg max θ f ( x ∣ θ ) {\hat {\theta }}_{{{\mathrm {MLE}}}}(x)=\arg \max _{{\theta }}f(x|\theta )\! θ^MLE(x)=argθmaxf(x∣θ)
MAP:
θ ^ M A P ( x ) = arg max θ f ( θ ∣ x ) = arg max θ f ( x ∣ θ ) g ( θ ) ∫ Θ f ( x ∣ θ ′ ) g ( θ ′ ) d θ ′ = arg max θ f ( x ∣ θ ) g ( θ ) {\hat {\theta }}_{{{\mathrm {MAP}}}}(x)= \arg \max _{{\theta }}f(\theta |x) \\ = \arg \max _{{\theta }}{\frac {f(x|\theta )\,g(\theta )}{\int _{{\Theta }}f(x|\theta ')\,g(\theta ')\,d\theta '}}=\arg \max _{{\theta }}f(x|\theta )\,g(\theta )\! θ^MAP(x)=argθmaxf(θ∣x)=argθmax∫Θf(x∣θ′)g(θ′)dθ′f(x∣θ)g(θ)=argθmaxf(x∣θ)g(θ)
其中假设 θ \theta θ 存在一个先验分布 g ( θ ) g(\theta) g(θ),这就允许我们将 θ \theta θ 作为 贝叶斯统计中的随机变量。
https://zh.m.wikipedia.org/zh-cn/%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87
随机变量 X X X 的费希尔讯息定义为
I ( θ ) = E [ ( ∂ L ∂ θ ) 2 ∣ θ ] = − E [ ∂ 2 L ∂ θ 2 ∣ θ ] {\displaystyle {\mathcal {I}}(\theta )=\operatorname {E} \left[\left.\left({\frac {\partial {\mathcal {L}}}{\partial \theta }}\right)^{2}\right|\theta \right]=-\operatorname {E} \left[\left.{\frac {\partial ^{2}{\mathcal {L}}}{\partial \theta ^{2}}}\right|\theta \right]} I(θ)=E[(∂θ∂L)2∣ ∣θ]=−E[∂θ2∂2L∣ ∣θ]
L ( X ; θ ) {\displaystyle {\mathcal {L}}(X;\theta )} L(X;θ) 是 X X X 关于母数 θ \theta θ 的对数似然函数,当 X X X 的概率密度函数 f ( X ; θ ) {\displaystyle f(X;\theta )} f(X;θ) 已知时
L ( X ; θ ) = ln f ( X ; θ ) {\displaystyle {\mathcal {L}}(X;\theta )=\ln f(X;\theta )} L(X;θ)=lnf(X;θ)
https://zh.m.wikipedia.org/zh-hans/%E8%B4%B9%E5%B8%8C%E5%B0%94%E4%BF%A1%E6%81%AF
附:分号 P ( x ; θ ) P(x;\theta) P(x;θ) 可以看作变量 θ \theta θ 的函数, x x x 代表确定的采样值,加一个 θ \theta θ 是代表待估参数。
https://blog.csdn.net/DD_PP_JJ/article/details/109722504#:~:text=%E8%80%8C%E4%B8%80%E8%88%AC%E5%9C%B0%EF%BC%8C%E5%86%99%E7%AB%96,%E5%8F%98%E9%87%8FX%3Dx%E7%9A%84%E6%A6%82%E7%8E%87%E3%80%82
参数 θ \theta θ 的 Jeffreys Prior 为以下形式:
p j ( θ ) ∝ I ( θ ) p_j(\theta) \propto \sqrt{\mathcal {I}(\theta)} pj(θ)∝I(θ)
a ∝ b a \propto b a∝b 则 a is proportional to b ($a=kb, k \isin Z^+ $)
均匀分布在随机变量进行变换时不能保持相对不变。 为了解决这个问题,Jeffreys Prior 应运而生。
均匀分布作为无信息先验的缺陷例子,如令上文 g ( θ ) = 1 g(\theta)=1 g(θ)=1, η = θ 2 \eta = \theta^2 η=θ2,则可推导出 η \eta η 先验证概率分布函数 g η ( η ) = 1 2 η g_\eta(\eta) = \frac{1}{2\sqrt{\eta}} gη(η)=2η1 显然不是常数,不是均匀分布。
在这里,一个对于理解 Jeffreys Prior 很重要又很有趣的问题来了:Jeffreys Prior明显不是我们原来所想象的那种无信息先验(即,我们对参数的取值没有任何偏好),那么Jeffreys Prior到底为什么可以作为无信息先验分布呢?在这里,引用一段[2]中的话,我认为其非常深刻:
The Jeffreys prior is indeed the uniform prior over the parameter space , but not under the Euclidean geometry (pdfs depend on the geometry, as they give limits of probability of a set over the volume of the set, and volume calculation depends on geometry).
我认为可以这样理解这句话:实际上,我们如何参数化一个模型也是一种主观的决策(例如上边例子中的 与 ),而 Jeffreys Prior 作为无信息先验,能够保证不论我们采取什么样的参数化方法,它们的先验分布终归是互通的,从而后验分布也是互通的。这就保证了我们在不同参数化方法的情况下,都能够在最后推出同样的结论。
https://www.zgbk.com/ecph/words?SiteID=1&ID=238159&Type=bkzyb
https://zhuanlan.zhihu.com/p/428896725
是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。通常蒙特卡罗方法可以粗略地分成两类:
通常蒙特卡罗方法透过构造符合一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题,蒙特卡罗方法是一种有效的求出数值解的方法。一般蒙特卡罗方法在数学中最常见的应用就是蒙特卡罗积分。如求积分、圆周率等。
https://zh.wikipedia.org/zh-cn/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85%E6%96%B9%E6%B3%95
也可以用来简化用 MAP 逼近先验函数 g i ( θ ) g_i(\theta) gi(θ) 的迭代,如:
g 1 ( θ ) = f ( x 1 ∣ θ ) g 0 ( θ ) g 2 ( θ ) = f ( x 2 ∣ θ ) g 1 ( θ ) g_1(\theta) = f(x_1|\theta)g_0(\theta) \\ g_2(\theta) = f(x_2|\theta)g_1(\theta) g1(θ)=f(x1∣θ)g0(θ)g2(θ)=f(x2∣θ)g1(θ)
传统算法需要一直乘,用蒙特卡洛法可以抽样代替乘积运算。
马尔可夫链是满足马尔可夫性质的随机变量序列 X 1 , X 2 , X 3 , . . . X1, X2, X3, ... X1,X2,X3,...,即给出当前状态,将来状态和过去状态是相互独立的。从形式上看,
它将来的状态分布只取决于现在,跟过去无关!
https://zhuanlan.zhihu.com/p/26453269
马尔可夫链蒙特卡洛(英語:Markov chain Monte Carlo,MCMC)方法(含随机游走蒙特卡洛方法)是一组用马氏链从随机分布取样的算法,之前步骤的作为底本。步数越多,结果越好。
Gibbs抽样是MCMC的一个特例,它交替的固定某一维度,然后通过其他维度的值来抽样该维度的值,注意,gibbs采样只对z是高维(2维以上)(Gibbs sampling is applicable in situations where Z has at least two dimensions)情况有效。
通过这已知的条件分布 f ( x i ∣ x 1 , x i − 1 , x i + 1 , . . . , x n ) f(x_i | x_1, x_{i-1}, x_{i+1},...,x_n) f(xi∣x1,xi−1,xi+1,...,xn),再用 gibbs sampling 的方法,可得到联合分布 f ( x 1 , . . . , x n ) f(x_1,...,x_n) f(x1,...,xn)。
https://blog.csdn.net/wydbyxr/article/details/83212740
更多:https://zh.m.wikipedia.org/zh/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B
在统计学中,自助法(Bootstrap Method,Bootstrapping,或自助抽样法、拔靴法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
对比:
https://zhuanlan.zhihu.com/p/24851814
刀切法推导:https://blog.csdn.net/taoqick/article/details/121179427
更多参考 bias 定义
全称 Expectation Maximization Algorithm。期望最大算法是一种迭代算法,用于含有隐变量(Hidden Variable)的概率参数模型的最大似然估计或极大后验概率估计。
EM 算法不一定收敛。
对于真实数据 x , z x, z x,z 概率 P ( x , z ∣ θ ) P(x, z | \theta) P(x,z∣θ) 服从分布 L ( θ ; x , z ) L(\theta; x, z) L(θ;x,z),求:
θ ^ M L E ( x ) = arg max θ L ( θ ; x ) = P ( X ∣ θ ) {\hat {\theta }}_{{{\mathrm {MLE}}}}(x) = \arg \max _{{\theta }}L(\theta; x) = P(X|\theta) θ^MLE(x)=argθmaxL(θ;x)=P(X∣θ)
算法流程+推导:https://zhuanlan.zhihu.com/p/78311644