统计学学习——001从基本知识到二项及泊松分布、大数定律、正态分布

一、统计学学基本概念
01)均值:我们假定有n个数,他们之和为sum,那么均值为 m e a n = s u m n mean=\frac{sum}{n} mean=nsum
02)中位数:体现的是可以把样本分为上下两部分的一个值,按照大小关系排列好之后,如果n为奇数那么中位数为第 n + 1 2 \frac{n+1}{2} 2n+1个数值;如果n为偶数那么中位数为 第 n 2 个 和 第 n 2 + 1 个 第\frac{n}{2}个和第\frac{n}{2}+1个 2n2n+1数值的平均数。
03)众数:在统计分布上具有明显集中趋势的点的数值。
04)极差:全距(Range),又称极差,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距;即最大值减最小值后所得之数据。
05)中程数:极差是在最大最小值基础上相减得到,而中程数是二者的平均值。
06):常用的统计图有象形统计图、条形图、线形图、饼图、茎叶图、箱线图
不同的图表有不同的侧重点,一般根据具体场景来选择具体图表。
07)样本和总体:研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全部称为总体。为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则。
08)总体方差:是一组资料中各数值与其算术平均数之差的平方和的平均数。
09)样本方差:样本方差是指构成样本的随机变量对离散中心 x之离差的平方和除以n-1,样本方差用来表示一列数的变异程度。
10)标准差:标准差定义为方差的算术平方根,反映组内个体间的离散程度。
11)随机变量(random variable):表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
12)概率密度函数:对于一维实随机变量X,设它的累积分布函数是 F X ( x ) F_X(x) FX(x)。如果存在可测函数 f X ( x ) f_X(x) fX(x)满足: X是一个连续型随机变量,并且fX(x)是它的概率。

二、二项及泊松分布
01)二项分布
二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是 p ( ξ ) = C ( n , k ) p k ∗ ( 1 − p ) n − k p_{(\xi)}=C_{(n,k)}p^k*(1-p)^{n-k} p(ξ)=C(n,k)pk(1p)nk记作ξ~B(n,p)期望:Eξ=np 方差:Dξ=npq
02)泊松分布
泊松分布是一种统计与概率学里常见到的离散概率分布,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。概率论中常用的一种离散型概率分布。若随机变量 X 只取非负整数值,取k值的概率为 P ( X = k ) = e − λ λ k k ! P(X=k)=\frac{e^{-\lambda }\lambda^{k}}{k!} P(X=k)=k!eλλk则随机变量X 的分布称为泊松分布,记作P(λ)。这个分布是S.-D.泊松研究二项分布的渐近公式时提出来的。泊松分布P (λ)中只有一个参数λ ,它既是泊松分布的均值,也是泊松分布的方差。

三、大数定律和正态分布
01)大数定律
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。 大数定律分为弱大数定律和强大数定律。
单地说,大数定理就是“当试验次数足够多时,事件发生的频率无穷接近于该事件发生的概率”
02)正态分布
正态分布(Normal distribution)是一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ^2 )。遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。

正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低 ,图像是一条位于x 轴上方的钟形曲线。当μ=0,σ^2 =1时,称为标准正态分布,记为N(0,1)。
3)中心极限定理
设随机变量序列X1,X2,…Xn,…相互独立,均具有相同的数学期望与方差,且E(Xi)= Ui,D(Xi)=Ri^2>0,i=1,2,…,令:
Yn=X1+X2+…+Xn
Zn=〔Yn-E(Yn)〕/√D(Yn)=∑(Xi-Ui)/√∑Ri^2 (i=1,2…、n)
则称随机变量Zn为随机变量序列X1,X2,…Xn的规范和。
中心极限定理:设从均值为μ、方差为 σ 2 σ^2 σ2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

你可能感兴趣的:(统计学)