参考书籍:概率论与数理统计教程第三版 茆诗松 程依明 濮晓龙 编著
文章声明:如有错误还望批评指正
一些概念: 总体;个体;总体就是一个分布,从总体中抽样=从分布中抽样;本书主要研究一维总体涉及二维总体;本书主要研究无限总体涉及有限总体;样本;样本容量或样本量;样品;完全样本与不完全样本;分组样本,分组样本是不完全样本;样本具有代表性,样本具有独立性;简单随机样本简称样本;除非特别说明本书中的样本具有IID(independent(独立) and(和) identically distributed(同分布))性。总体X的分布函数为 F ( x 1 , x 2 , … , x n ) = ∏ i = 1 n F ( x i ) F(x_1,x_2,\dots,x_n)=\prod\limits_{i=1}^nF(x_i) F(x1,x2,…,xn)=i=1∏nF(xi)
PS:关于习题:做完之后我的感觉是没有必要做。考试应该不会考吧。
一些概念: 有序样本;经验分布函数(这个得记一下));定理5.2.1:设 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn是取自总体分布函数为 F ( x ) F(x) F(x)的样本, F n ( x ) F_n(x) Fn(x)是其经验分布函数,当 n → ∞ n\rightarrow\infty n→∞时,有 P ( sup − ∞ < x < ∞ ∣ F n ( x ) − F ( x ) ∣ → 0 ) = 1 P(\sup\limits_{-\infty
data=[4,8,5,2,1]
import matplotlib.pyplot as plt;import seaborn as sns
plt.figure(figsize=(16,9));sns.set_style("darkgrid");plt.rcParams['font.family']='SimHei';plt.rcParams['font.sans-serif']=['SimHei']
for i in range(len(data)):
#参数依次:组中值,频数,直方图直方的宽度(左右各位5,共计10),直方图直方的标签,边框颜色
plt.bar(147+(i+1)*5,data[i],width=5,label="分组区间({},{}]".format(147+i*10,147+(i+1)*10),edgecolor='black')
#参数依次:组中值,频数,内容
plt.text(147+(i+1)*5,data[i],"{}".format(data[i]),size=20)
plt.title("Python绘制直方图",size=15);plt.xlabel("数量",size=15);plt.ylabel("频数",size=15);plt.legend();plt.show()
data=[ 64, 67, 70, 72, 74, 76, 76, 79, 80, 81,
82, 82, 83, 85, 86, 88, 91, 91, 92, 93,
93, 93, 95, 96, 96, 97, 97, 99,100,100,
116,118,119,119,122,123,125,126,128,133]
zd={}
for i in data:
if i//10 not in zd:
zd[i//10]=[i%10]
else:
zd[i//10].append(i%10)
lt1,lt2=list(zd.keys()),list(zd.values())
import matplotlib.pyplot as plt
plt.figure(figsize=(16,9),facecolor="pink");plt.rcParams['font.family']='SimHei';plt.rcParams['font.sans-serif']=['SimHei']
plt.xlim(0,2+2+2*max([len(_) for _ in lt2])+1);plt.ylim(0,len(lt1)+1);plt.axis("off")
for i in range(len(lt1)):
plt.text(1,len(lt1)-i,"{:>2}".format(lt1[i]),size=20)
for j in range(len(lt2[i])):
plt.text(6+j*2,len(lt1)-i,"{}".format(lt2[i][j]),size=20)
plt.title("Python绘制茎叶图",size=25);plt.axvline(4,color="black");plt.show()
PS:关于习题:做完之后我的感觉是没有必要做。考试应该都不会考吧。
一些概念: 统计量,统计量的分布称为抽样分布;样本均值(记一下分组场合的公式: x ˉ = ∑ i = 1 n x i f i ∑ i = 1 k f i \bar{x}=\frac{\sum\limits^n_{i=1}x_if_i}{\sum\limits_{i=1}^kf_i} xˉ=i=1∑kfii=1∑nxifi, x i x_i xi第i组的组中值, f i f_i fi第i组的频数);偏差之和为0;偏差平方和最小;定理5.3.1:设 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn是来自某个总体的样本, x ˉ \bar x xˉ为样本均值.(1)若总体分布为 N ( u , σ 2 ) N(u,\sigma^2) N(u,σ2),则 x ˉ \bar x xˉ的精确分布为 N ( u , σ 2 / n ) N(u,\sigma^2/n) N(u,σ2/n)。(2)若总体分布未知或不是正态分布, E ( X ) = u E(X)=u E(X)=u, V a r ( X ) = σ 2 Var(X)=\sigma^2 Var(X)=σ2存在,则 n n n较大时 x ˉ \bar x xˉ的渐近分布为 N ( u , σ 2 / n ) N(u,\sigma^2/n) N(u,σ2/n)。 常记为 x ˉ ∼ N ( u , σ 2 / n ) \bar x\sim N(u,\sigma^2/n) xˉ∼N(u,σ2/n)。(卷积公式以及中心极限定理可以证明)(十分重要,做题要用); s n 2 s_n^2 sn2,样本方差, s n s_n sn,样本标准差; s 2 s^2 s2,样本方差, s s s,样本标准差;定理5.3.2 设总体具有二阶矩,即 E ( X ) = u E(X)=u E(X)=u, V a r ( X ) = σ 2 < ∞ Var(X)=\sigma^2<\infty Var(X)=σ2<∞, x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn为从该总体得到的样本, x ˉ \bar x xˉ和 s 2 s^2 s2分别是样本均值和样本方差,则 E ( x ˉ ) = u E(\bar x)=u E(xˉ)=u, V a r ( x ˉ ) = σ 2 / n Var(\bar x)=\sigma^2/n Var(xˉ)=σ2/n, E ( s 2 ) = σ 2 E(s^2)=\sigma^2 E(s2)=σ2。(十分重要,做题要用);k阶原点矩 a k = 1 n ∑ i = 1 n x i k a_k=\frac{1}{n}\sum\limits_{i=1}^{n}x_i^k ak=n1i=1∑nxik,k阶中心矩 b k = 1 n ∑ i = 1 n ( x i − x ˉ ) k b_k=\frac{1}{n}\sum\limits_{i=1}^n(x_i-\bar x)^k bk=n1i=1∑n(xi−xˉ)k。样本偏度 β ^ s = b 3 / b 2 3 / 2 \hat \beta_s=b_3/b_2^{3/2} β^s=b3/b23/2,样本峰度 β ^ k = b 4 / b 2 2 − 3 \hat \beta_k=b_4/b_2^2-3 β^k=b4/b22−3;次序统计量;定理5.3.3,定理5.3.4(感觉不是特别重要但是后面做题也有,可以推推不是很难)(记一下这个 p k ( x ) = lim Δ x → 0 F k ( x + Δ x ) − F k ( x ) Δ x = lim Δ x → 0 C n k − 1 ( F ( x ) ) k − 1 C n − k + 1 1 ( F ( x + Δ x ) − F ( x ) ) ( 1 − F ( x + Δ x ) ) n − k = n ! ( k − 1 ) ! ( n − k ) ! ( F ( x ) ) k − 1 p ( x ) ( 1 − F ( x ) ) n − k p_k(x)=\lim\limits_{\Delta x\rightarrow0}\frac{F_k(x+\Delta x)-F_k(x)}{\Delta x}=\lim\limits_{\Delta x\rightarrow0}C_n^{k-1}(F(x))^{k-1}C_{n-k+1}^1(F(x+\Delta x)-F(x))(1-F(x+\Delta x))^{n-k}=\frac{n!}{(k-1)!(n-k)!}(F(x))^{k-1}p(x)(1-F(x))^{n-k} pk(x)=Δx→0limΔxFk(x+Δx)−Fk(x)=Δx→0limCnk−1(F(x))k−1Cn−k+11(F(x+Δx)−F(x))(1−F(x+Δx))n−k=(k−1)!(n−k)!n!(F(x))k−1p(x)(1−F(x))n−k,常用 p 1 ( x ) = n ( 1 − F ( x ) ) n − 1 p ( x ) p_1(x)=n(1-F(x))^{n-1}p(x) p1(x)=n(1−F(x))n−1p(x), p n ( x ) = n ( F ( x ) ) n − 1 p ( x ) p_n(x)=n(F(x))^{n-1}p(x) pn(x)=n(F(x))n−1p(x));样本分位数 m p m_p mp;定理5.3.5:设总体密度函数为 p ( x ) p(x) p(x), x p x_p xp为其 p p p分位数, p ( x ) p(x) p(x)在 x p x_p xp处连续且 p ( x p ) > 0 p(x_p)>0 p(xp)>0,则当 n → ∞ n\rightarrow\infty n→∞时样本 p p p分位数 m p m_p mp的渐近分布为 m p ∼ N ( x p , p ( 1 − p ) n p 2 ( x p ) ) m_p\sim N(x_p,\frac{p(1-p)}{np^2(x_p)}) mp∼N(xp,np2(xp)p(1−p));五数概括与箱线图。
from random import random
lt=[(int((random()-0.5)*100)) for i in range(100)]
import scipy.stats as ss
import numpy as np
"""
均值,标准差,方差,偏度,峰度
"""
print("{:.4f},{:.4f},{:.4f},{:.4f},{:.4f}".format(np.mean(lt),np.std(lt),np.var(lt),ss.skew(lt),ss.kurtosis(lt)))
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
data=[np.random.normal(0,std,size=100) for std in range(1,10)]
labels=['x{}'.format(i) for i in range(1,10)]
plt.figure(figsize=(16,9));sns.set_style("darkgrid")
plt.boxplot(data,vert=True,patch_artist=True,labels=labels)
plt.legend();plt.show()
1题简单。2题,3题,4题,5题,6题,7题感觉没有技术含量,本质就是拿复杂算简单,东拼西凑,加一项减一项,展开合并,就可以了,仔细搞搞总能搞出结果。8题简单。9题需要知道 C o r r ( X , Y ) = C o v ( X , Y ) ( V a r ( X ) V a r ( Y ) Corr(X,Y)=\frac{Cov(X,Y)}{\sqrt{(Var(X)}\sqrt{Var(Y)}} Corr(X,Y)=(Var(X)Var(Y)Cov(X,Y),协方差的性质,方差性质,独立与不独立(然后就同前了)。10题需要知道 x ˉ = 1 n 2 ( ∑ i = 1 n x i 2 + 2 ∑ i < j x i x j ) , ( n − 1 ) ∑ i = 1 n x i 2 − 2 ∑ i < j x i x j = ∑ i < j ( x i − x j ) 2 \bar x=\frac{1}{n^2}(\sum\limits_{i=1}^nx_i^2+2\sum\limits_{i
伽马函数 : γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x , γ ( 1 ) = 1 , γ ( 1 / 2 ) = π , γ ( α + 1 ) = α γ ( α ) , 当 n 为自然数有 γ ( n + 1 ) = n ! 伽马函数:\gamma(\alpha)=\int_0^{\infty}x^{\alpha-1}e^{-x}dx,\gamma(1)=1,\gamma(1/2)=\sqrt \pi,\gamma(\alpha+1)=\alpha\gamma(\alpha),当n为自然数有\gamma(n+1)=n! 伽马函数:γ(α)=∫0∞xα−1e−xdx,γ(1)=1,γ(1/2)=π,γ(α+1)=αγ(α),当n为自然数有γ(n+1)=n!。
伽马分布 : p ( x ) = { λ α γ ( α ) x α − 1 e − λ x , x ≥ 0 0 , x < 0 , E ( x ) = α λ , V a r ( x ) = α λ 2 , G a ( 1 , λ ) 为指数分布, G a ( n / 2 , 1 / 2 ) 为卡方分布 伽马分布:p(x)=\left\{\begin{matrix}\frac{\lambda^{\alpha}}{\gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq0\\0,x<0\end{matrix}\right.,E(x)=\frac{\alpha}{\lambda},Var(x)=\frac{\alpha}{\lambda^2},Ga(1,\lambda)为指数分布,Ga(n/2,1/2)为卡方分布 伽马分布:p(x)={γ(α)λαxα−1e−λx,x≥00,x<0,E(x)=λα,Var(x)=λ2α,Ga(1,λ)为指数分布,Ga(n/2,1/2)为卡方分布
定义5.4.1 设 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn独立同分布于标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1),则 X 2 = X 1 2 + X 2 2 + ⋯ + X n 2 \mathcal X^2=X_1^2+X_2^2+\dots+X_n^2 X2=X12+X22+⋯+Xn2的分布称为自由度为n的 X 2 \mathcal{X}^2 X2分布,记为 X 2 ∼ X 2 ( n ) \mathcal X^2\sim \mathcal X^2(n) X2∼X2(n)。可以自己推推卡方分布为什么是 G a ( n / 2 , 1 / 2 ) Ga(n/2,1/2) Ga(n/2,1/2)。(不是很难)
定理5.4.1 设 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn是来自正态总体 N ( u , σ 2 ) N(u,\sigma^2) N(u,σ2)的样本,其样本均值和样本方差分别为 x ˉ = 1 n ∑ i = i 1 n x i \bar x=\frac{1}{n}\sum\limits_{i=i1}^nx_i xˉ=n1i=i1∑nxi和 s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum\limits_{i=1}^n(x_i-\bar x)^2 s2=n−11i=1∑n(xi−xˉ)2则有,(1) x ˉ \bar x xˉ与 s 2 s^2 s2相互独立。(2) x ˉ ∼ N ( u , σ 2 / n ) \bar x\sim N(u,\sigma^2/n) xˉ∼N(u,σ2/n)。(3) ( n − 1 ) s 2 σ 2 ∼ X 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim\mathcal X^2(n-1) σ2(n−1)s2∼X2(n−1)。
PS:定理证明以后填坑。由于概率论没学好现在处于一种不想看也看不懂的状态。拿个小本本记一下。2)使用定理5.3.1能证明。
我们证明两个东西:1)设总体的3阶矩存在,若 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn是取自该总体的简单随机样本, x ˉ \bar x xˉ为样本均值, s 2 s^2 s2为样本方差,试证 C o v ( x ˉ , s 2 ) = v 3 n Cov(\bar x,s^2)=\frac{v_3}{n} Cov(xˉ,s2)=nv3,其中 v 3 = E [ x − E ( x ) ] 3 v_3=E[x-E(x)]^3 v3=E[x−E(x)]3(习题5.3.12)。2)试证正态分布3阶矩为0。如果再有 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0可以得到 X X X与 Y Y Y相互独立就是充分必要条件,可惜不行。关于1)2)可以自己证证。(不是很难)
PS:如果充要条件我就这里写了。我也是写时才知道 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0推不出相互独立。
import numpy as np
x=np.linspace(0,20,100)
from scipy.stats import chi2
y1=chi2.pdf(x,4);y2=chi2.pdf(x,6);y3=chi2.pdf(x,10)
import matplotlib.pyplot as plt;import seaborn as sns
plt.figure(figsize=(16,9));sns.set_style("darkgrid")
plt.plot(x,y1,label="04");plt.plot(x,y2,label="06");plt.plot(x,y3,label="10")
plt.legend();plt.grid(True);plt.show()
定义5.4.2 设随机变量 X 1 ∼ X 2 ( m ) , X 2 ∼ X 2 ( n ) X_1\sim\mathcal X^2(m),X_2\sim\mathcal X^2(n) X1∼X2(m),X2∼X2(n), X 1 X_1 X1与 X 2 X_2 X2独立,则称 F = X 1 / m X 2 / m F=\frac{X1/m}{X2/m} F=X2/mX1/m的分布时自由度为 m m m与 n n n的F分布,记为 F ∼ F ( m , n ) F\sim F(m,n) F∼F(m,n)。F分布的密度函数推导看着就很头大,跳过不要为难自己。
推论5.4.1 设 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn是来自 N ( u 1 , σ 1 2 ) N(u_1,\sigma_1^2) N(u1,σ12)的样本, y 1 , y 2 , … , y n y_1,y_2,\dots,y_n y1,y2,…,yn是来自 N ( u 2 , σ 2 2 ) N(u_2,\sigma_2^2) N(u2,σ22)的样本,且此两两样本相互独立,记 s x 2 = 1 m − 1 ∑ i = 1 n ( x i − x ˉ ) 2 , s y 2 = 1 n − 1 ∑ i = 1 n ( y i − x ˉ ) 2 s_x^2=\frac{1}{m-1}\sum\limits_{i=1}^n(x_i-\bar x)^2,s_y^2=\frac{1}{n-1}\sum\limits_{i=1}^n(y_i-\bar x)^2 sx2=m−11i=1∑n(xi−xˉ)2,sy2=n−11i=1∑n(yi−xˉ)2则有 F = s x 2 / σ 1 2 s y 2 / σ 2 2 ∼ F ( m − 1 , n − 1 ) F=\frac{s_x^2/\sigma_1^2}{s_y^2/\sigma_2^2}\sim F(m-1,n-1) F=sy2/σ22sx2/σ12∼F(m−1,n−1)。超级好证。
import numpy as np
x=np.linspace(0,4,100)
from scipy.stats import f
y1=f.pdf(x,4,4000);y2=f.pdf(x,4,10);y3=f.pdf(x,4,4);y4=f.pdf(x,4,1)
import matplotlib.pyplot as plt;import seaborn as sns
plt.figure(figsize=(16,9));sns.set_style("darkgrid")
plt.plot(x,y1,label="m=4;n=4000");plt.plot(x,y2,label="m=4;n=10");plt.plot(x,y3,label="m=4;n=4");plt.plot(x,y4,label="m=1;n=1")
plt.legend();plt.grid(True);plt.show()
定义5.4.3 设随机变量 X 1 X_1 X1与 X 2 X_2 X2独立且 X 1 ∼ N ( 0 , 1 ) X_1\sim N(0,1) X1∼N(0,1), X 2 ∼ X 2 ( n ) X_2\sim\mathcal X^2(n) X2∼X2(n),则称 t = X 1 X 2 / n t=\frac{X_1}{\sqrt {X_2/n}} t=X2/nX1的分布为自由度为 n n n的 t t t分布,记为 t ∼ t ( n ) t\sim t(n) t∼t(n)。跳过 t t t分布的密度函数推导。自由度为 1 1 1的 t t t分布就是标准柯西分布,它的均值不存在。 n > 1 n>1 n>1时, t t t分布的数学期望存在且为 0 0 0。 n > 2 n>2 n>2时, t t t分布的方差存在,且为 n / ( n − 2 ) n/(n-2) n/(n−2)。当自由度较大(如 n ≥ 30 n\geq 30 n≥30)时, t t t分布可以用 N ( 0 , 1 ) N(0,1) N(0,1)分布近似。
推论5.4.2 设 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn是来自正态分布 N ( u , σ 2 ) N(u,\sigma^2) N(u,σ2)的一个样本, x ˉ \bar x xˉ与 s 2 s^2 s2分别是该样本的样本均值与样本方差,则有 t = n ( x ˉ − u ) s ∼ t ( n − 1 ) t=\frac{\sqrt n(\bar x-u)}{s}\sim t(n-1) t=sn(xˉ−u)∼t(n−1)。超级好证。
推论5.4.3 在推论5.4.1的记号下,设 σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2,并记 s w 2 = ( m − 1 ) s x 2 + ( n − 1 ) s x 2 m + n − 2 s_w^2=\frac{(m-1)s_x^2+(n-1)s_x^2}{m+n-2} sw2=m+n−2(m−1)sx2+(n−1)sx2,则 ( x ˉ − y ˉ ) − ( u ! − u 2 ) s w 1 m + 1 n ∼ t ( m + n − 2 ) \frac{(\bar x-\bar y)-(u_!-u_2)}{s_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2) swm1+n1(xˉ−yˉ)−(u!−u2)∼t(m+n−2)。超级好证。
import numpy as np
x=np.linspace(-6,6,100)
from scipy.stats import t,norm
y1=norm.pdf(x,0,1);y2=t.pdf(x,4)
import matplotlib.pyplot as plt;import seaborn as sns
plt.figure(figsize=(16,9));sns.set_style("darkgrid")
plt.plot(x,y1,label="N(0,1)");plt.plot(x,y2,label="t(4)")
plt.legend();plt.grid(True);plt.show()
1题,2题,3题考察定理5.3.1吧,非常简单。4题考查定义5.4.1吧,非常简单。5题考察推论5.4.2吧,非常简单。6题老老实实去算,遇到问题不要害怕。7题考查定义5.4.2一些性质吧,做过一遍就好。9题考察定义5.4.2吧,非常简单。10题会了9题就好。15题考察推论5.4.3吧,非常简单。其他没有做了,还是太懒了吧。
ξ 5.5. \xi 5.5. ξ5.5.充分统计量
不作要求。