DataWhale概率统计2——数理统计概念及描述性统计

3、数理统计概念

3.1基本概念释义

1.定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体X中随机抽取一部分个体,称这部分个体为取自X的容量为n的样本。

样本具有两重性,即当再一次具体地抽样后它是一组确定的数值。但在一般叙述中,样本也是一组随机变量,因为抽样是随机的。一般地,用表示随机样本,它们取到的值记为称为样本观测值。

样本作为随机变量,有一定的概率分布,这个概率分布称为样本分布。显然,样本分布取决于总体的性质和样本的性质。

3.2统计量与抽样

数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,以此对所研究的问题做出一定的结论,这个过程称为统计推断

定义:设是总体X的一个简单随机样本,为一个n元连续函数,且T中不包含任何关于总体的未知参数,则称是一个统计量,称统计量的分布为抽样分布。

3.3常用的统计量

1.样本均值

设是总体X的一个简单随机样本,称

为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。

2.样本方差

设是总体X的一个简单随机样本,为样本均值,称

为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。

3.k阶样本原点矩

设是总体X的一个简单随机样本,称

为样本的k阶原点矩(可以看到当k=1时,相当于样本均值),通常用样本的无阶原点矩来估计总体分布的k阶原点矩。

4.k阶样本中心矩

设是总体X的一个简单随机样本,为样本均值,称

为样本的k阶中心矩,通常用样本的k阶中心矩来估计总体分布的k阶中心矩。

5.顺序统计量

设是抽自总体X的样本,为样本观测值。将按照从小到大的顺序排列为

当样本取值时,定义取值(k = 1,2,...n),称为

的顺序统计量。

4.描述性统计

4.1数据集中趋势的度量

1.平均数:是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数

2.中位数:是指在一组数据中,按顺序排列后,居于中间位置的数。中位数表述数据中心位置的数字特征,对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数不受异常值的影响,具有稳健性。

3.频数:指同一观测值在一组数据中心出现的次数。

4.众数:就是一组数据中,出现最多的那个数。

5.百分位数:百分位数就是中位数的推广,将数据按从小到大排列后,按照百分数进行定位。

4.2数据离散趋势的度量

表示数据分散(离散,差异)成都的特征量有 方差,标准差,极差以及变异系数等。

1.方差:用来计算每一个变量(观察值)与总体均数之间的差异。实际工作中,总体均属难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:

2.标准差:样本方差的开平方成为样本标准差。

3.极差:数据越分散,极差越大。

4.变异系数:

a.是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有意义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率单位风险。

b.当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,变异系数可以消除测量尺度和量纲的影响。

5.四分位差:样本上、下四分位数之差称为四分位差(或半极差)。它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性。

4.3分布特征

描述一个随机变量,不仅要说明它能够取哪些值,还要关心它取这些值的概率(可能性)。

1.离散变量与连续变量:

离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如:班级人数,电脑台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。

反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,即可取无限个数值。例如:人体测量的身高,体重等。

如果随机变量的值可以都可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。

2.概率函数:就是用函数的形式来表达概率。(大量重复试验中出现的频率来估计概率,它约等于事件出现的频数除以重复试验的次数),连续型随机变量的概率函数就叫做概率密度函数。

3.分布函数:设X是一个随机变量,对任意的实数x,令

则称F(x)是随机变量X的分布函数(概率累积函数)。

分布函数和密度函数的区别:密度函数求积分为分布函数,分布函数求导为密度函数

4.正态分布:也称高斯分布,是一个非常常见的连续概率分布。概率密度函数为

例如测量误差、商品的重量或尺寸、某年龄人群的身高和体重均为正态分布。

对于一般正态分布,从到的区间上概率密度曲线之下的面积占总面积的99.7%,这就是著名的原则。

4.4偏度与峰度

偏度(skewness):也称偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非堆成程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。偏度刻画的是分布函数(数据)的对称性。关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负

正态分布的偏度为0,两侧尾部长度对称

左偏:1.以bs表示偏度。bs<0称分布具有负偏离,也称左偏态;2.此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于右边的尾部要长;3.因为有少数变量值很小,使曲线左侧尾部拖得很长。

右偏:1.bs>0称分布具有正偏离,也称右偏态;2.此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于左边的要长;3.因为有少数变量值很大,使曲线右侧尾部拖得很长。

峰度(peakedness;kurtosis):说明的是分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言的统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数集中和分散程度。

你可能感兴趣的:(DataWhale概率统计2——数理统计概念及描述性统计)