概率统计学习打卡——数理统计与描述性分析

1.数理统计的基本概念

总体:研究对象的全体(X)

个体:组成总体的每个基本单元

样本:从总体中抽取的一部分个体()

简单随机样本:具有随机性和独立性的样本,即样本相互独立具有同一分布

样本的两重性:抽样前是随机变量,抽样后是具体的数

统计量:样本的函数,不含有任何未知参数

抽样分布:统计量的分布

2.常用的统计量

样本均值:用来估计总体均值和对对有关总体均值的假设做检验

样本方差:用来估计总体方差和对有关总体方差的假设做检验

样本k阶原点矩:用来估计总体k阶原点矩

样本k阶中心矩:用来估计总体k阶中心矩

顺序统计量:可以构成经验分布函数,在中心极限定理、大数定律、格利汶科定理等大样本性质保证下,对总体分布进行估计

3.数据集中趋势的度量


在对称分布时,样本均值、中位数、众数相同。

Python求均值、中位数、众数:


4.数据离散趋势的度量

方差:计算每个观察值与全体样本值的平均数之差的平方的平均数

极差:数据越分散极差越大

变异系数:刻画数据相对分散性的一种度量。当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大或数据量纲不同,变异系数可以消除测量尺度和量纲的影响。

四分位差:样本上下四分位数之差。它是度量样本分散性的重要数字特征,特别对于具有异常值的数据。

Python求方差、标准差、变异系数:


5.正态分布的原则

原则:数值分布在(μ-σ,μ+σ)中的概率为du0.6526

原则:数值分布在(μ-2σ,μ+2σ)中的概率为0.9544

原则:数值分布在(μ-3σ,μ+3σ)中的概率为0.9974

由于“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。

由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。

6.偏度与峰度

偏度:数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。

峰度:分布曲线在平均值处峰值高低的特征数,峰度反映了峰部的尖度。峰度刻画的是分布函数的集中和分散程度。

你可能感兴趣的:(概率统计学习打卡——数理统计与描述性分析)