#1.基本概念
X | P_k |
---|---|
0 | 0.3 |
1 | 0.3 |
2 | 0.4 |
浙大出版的 <<概率论与数理统计>> 中说标准差也叫均方差(Page 98 附近). 但从维基百科上看, 均方差主要用于估计问题, 并且是类似方差的不带根号的, 所以我个人更倾向于用标准差.
协方差 与 相关系数
对于二维随机变量(X,Y), 我们除了讨论X与Y的数学期望和 方差以外, 还需要描述X与Y之间的相互关系.
协方差
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
求期望的部分为X与X均值的差 乘以 Y与Y均值的差. 所以它描述的是X与Y两个变量的变化是否协同以及协同的程度.
相关系数
ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)} } ρXY=D(X)D(Y)Cov(X,Y)
相当于对协方差做归一化.
例子对比见 数据探索.
其他
回归问题中的误差分析, 可以点击这里.
figure An example power-law graph, being used to demonstrate ranking of popularity.
f ( x ) = a x − k { f(x)=ax^{-k}} f(x)=ax−k
where a , k a,k a,k 是常数.
一个通俗的名字是’二八分布’. 比如横轴是粉丝数m, 纵轴是拥有m个粉丝的人数.
Bernoulli distribution.
一种随机变量取值为 { 0 , 1 } \{0,1\} {0,1}的离散分布. 分布律为: P { X = 1 } = p , P { X = 0 } = 1 − p P\{X=1\}=p,P\{X=0\}=1-p P{X=1}=p,P{X=0}=1−p.
与之对应的实验(如抛硬币的正反面等)就是伯努利实验.
Binomial distribution.
n次独立伯努利实验中, 随机变量X代表成功的次数, 即随机变量X有分布律 P { X = k } = C n k p k q n − k , k = 0 , 1 , . . . , n , q = 1 − p P\{X=k\}=C_n^kp^kq^{n-k},k=0,1,...,n,q=1-p P{X=k}=Cnkpkqn−k,k=0,1,...,n,q=1−p
则称X服从参数为 n , p n,p n,p的二项分布,记作 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)
若每次试验成功的概率为p,则n次独立重复试验中,成功的总次数X服从二项分布.
如果随机变量X有分布律 P { X = k } = p q k − 1 P\{X=k\}=pq^{k-1} P{X=k}=pqk−1
则称X服从参数为 p p p的几何分布.
若每次试验成功的概率为p,则n次独立重复试验中,第k次实验才首次成功的概率服从二项分布.
如果随机变量X有分布律 P { X = k } = λ k k ! e − λ P\{X=k\}=\frac{\lambda ^k}{k!}e^{-\lambda} P{X=k}=k!λke−λ
则称X服从参数为 λ \lambda λ的泊松分布.记为 X ∼ P ( λ ) X\sim P(\lambda) X∼P(λ)
一段时间内候车的旅客数,电话总机接到的呼叫次数等都服从泊松分布.
X在区间[a,b]上服从均匀分布,记作 X ∼ U [ a , b ] X\sim U[a,b] X∼U[a,b]
也叫高斯分布, Gaussian distribution.
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2πσ1e−2σ2(x−μ)2
其中 μ , σ \mu,\sigma μ,σ为常数且 σ > 0 \sigma>0 σ>0,则称X服从参数为 μ , σ \mu,\sigma μ,σ的正态分布,记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)
正态分布的期望为 μ \mu μ, 方差为 σ 2 \sigma^2 σ2.
在正态分布中,当 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1时,即 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1),称X服从标准正态分布,此时的概率密度为 f ( x ) = 1 2 π e − x 2 2 f(x)=\frac{1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}} f(x)=2π1e−2x2
出现频率
就等于它的出现概率
.