o样本标准差或s总体标准差、n样本数、p总体比例或π样本比例、相关系数w、R相关系数、Ra、B回归系数、误差项左w
统计学含义:统计学是一门收集、处理、分析、解释数据并从数据中得到结论的科学
统计数据类型:
关系:样本平均值=总体、样本标准差=总体标准/sqrt()
总体 | 参数 | 平均数u/标准差o/比例pi |
---|---|---|
样本 | 统计量 | x/s/p |
总体 | 参数 |
随机抽样与非概率抽样的特点,及使用情况:
随机抽样遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。当用样本估计总体时,要考虑到每个单位样本被抽到的概率。技术含量和成本比较高。目的:掌握和研究对象总体的数量特征,得到总体参数的置信区间
非概率抽样:不是随机抽取,而是根据实验目的对数据的要求,采用某种方式从总体中抽取部分单位实施调查。操作简单、时效快、成本低,技术含量不高。适于探索性研究,研究结果用于发现问题,为更深入的数据分析提供准备
普查
抽样调查
*概率抽样
*非概率抽样
统计报表
重点调查
典型调查
全面调查:普查与统计报表制度
非全面调查:重点调查(重点的)与典型调查(具有代表性的)
抽样误差:随机误差
非抽样误差(可以避免):抽样框误差、回答误差、无回答误差、检察员误差、测量误差
直方图和条形图的区别:
面积表示频数,高度表示每一组频数,宽度表示组距 | 长度表示各类频数的多少,宽度固定 |
---|---|
排列连续 | 分开排列 |
显示数值型 | 显示分类型 |
数据透视表(分类汇总、总和、平均值)
直方图(描述一组大批量数据分布)与条形图()区别
茎叶图(描述小批量数据分布)
散点图(描述两者是否存在关系)
箱线图
线图(描述变化趋势)时间一般绘在横轴,数据绘在纵轴
累计频数分布图(适合于顺序图)
环形图(适于研究两个及其以上样本或总体的结构性问题)
饼图(描述结构性问题)
**帕累托图(**大小排序后的条形图+占有百分比)
气泡图(显示三个变量之间的相关关系)
雷达图(多个变量在不同样本间的相似度)
左偏右倾:平均数<中位数<众数
作用:反应多组数据离散程度
离中趋势
分类数据:异众比率(1-众数/所有数)
顺序数据:四分位差
数值型数据:方差、标准差(开平方):样本/n-1,总体/n
极差=max(x)-min(x)
相对离散程度:离散系数=标准差/平均数 v=s/x
计算离散系数的原因:
分布特征从哪几方面测度
(s为标准差,n为样本数,x为样本平均值)
偏态系数=0为对称分布;> 0为右偏分布;< 0为左偏分布;x>1或<-1,被称为高度偏态分布;0.5~1或-1~-0.5之间,被认为是中等偏态分布;越接近0,偏斜程度就越低
峰态系数**=0扁平峰度适中;<0为扁平分布;峰态系数>0**为尖峰分布
基本事件:一个不可能再分的随机事件(例如:掷一枚骰子出现的点数)
样本空间一个试验中所有基本事件的集合,用W表示(在掷枚骰子的试验中,W={1,2,3,4,5,6})
古典定义:事件结果有限,每次出现的可能性相同
主观概率:对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定(我认为2016年的中国玉米价格将下跌)
抽样分布:总体X值已知时,对任意自然数n,都能导出统计量T=T(n)的分布表达式
含义:取有限个值或所有取值都可以逐个列举出来1/2/3)
二项分布
只有两个可能结果
泊松分布
描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布
超几何分布
采用不重复抽样,各次试验并不独立,成功的概率也互不相等
(可以取一个或多个区间中任何值0 正态分布 标准正态分布: 均匀分布 指数分布 其他分布 特点 比正态分布要平坦,随着自由度增加,主键趋近于正态分布 1.设若U为服从自由度为n1的c2分布,即U*c*2(*n*1),*V*为服从自由度为*n*2的*c*2分布,即*V*c2(n2),且U和V相互独立,F=U/n1/(V/n2)则称F为服从自由度n1和n2的F分布,记为F~F (n1,n2) 从均值为m,方差为s X=(u,o²/n) 求近似率: 统计方法=描述分析+推断统计(=参数估计+假设检验) 估计量(样本均值、样本比例、方差等)用于估计总体参数的统计量 估计值:估计参数时计算出来的统计量的具体值 点估计用样本统计计量的某个取值直接作为总体参数的估计值 区间估计u在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。 置信区间:由样本所构造的总体参数的估计区间 置信水平:在该区间所占次数与总体次数的比值 总体均值、总体比例、总体方差 概念: 1.先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的统计方法 1.有参数检验和非参数检验 3.逻辑上运用反证法,统计上依据小概率原理 n小概率是在一次试验中,一个几乎不可能发生的事件发生的概率 n在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设 原假设H0:u最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它 备择假设H1通常用于表达研究者自己倾向于支持的看法,然后就是想办法收*-集证据拒绝原假设,以支持备择假设 (原假设的对立) 双侧检验备择假设没有特定的方向性,并含有符号“¹”的假设检验 临界值norm.s.inv(2.5%)=1.96 单侧检验备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验 norm.s.inv(1%)=2.58 a设拒绝原假设 总体均值检验: 公式z=(x-x0)/(o/sqrt(n))~N(0,1)——样本均值x,x0样本标准值,o标注差,n样本数量 三中检验方式:方差、比例、均值 目的:该检验也可用于判断各类别的观察频数分布是否符合泊松分布或正态分布等 误差:随机误差(方差分析下,某一水平下样本数据之间的误差)、系统误差 F>Fa拒绝原假设,P
SST=SSE+SSA+SSC,Fr>Fa行因素对观测值有影响,Fc>Fa~ SST=SSE+SSA+SSC+SSRC其中kr=n,每个样本的行数m F检验线性关系的显著性、T检验各回归系数的显著性、卡方可以用于测定两个分类变量之间的相关程度,拟合优度检验和独立性检验 回归系数:线性斜率k 判定系数R²=SSR/SST (估计的线性方程与各观测点的拟合程度,0 多重判定系数Ra²:估计因变量的的改变中,自变量的改变的比例 Ra² 估计标准误差Se=sqrt(MSE):度量各实际观测点在直线周围散布状况的一个统计量 标准化残差Ze=MSR/Se y=b0+b1x+左w 回归假设: 含义:是根据样本数据计算的度量两个变量之间的线性关系强度的统计量 假设:两个变量都是随机的 绝对值不大于1;对称性 含义;当回归模型中两个或者两个以上自变量彼此相关 F检验出,T检验不出 回归系数正负号与预想不同正态分布
x²分布
t分布
F分布
样本统计量概率分布
中心极限定理
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布样本统计量分布
7参数估计
评价估计值的标准
区间估计
8假设检验
原理
9分类数据分析
10方差分析
单因素方差分析
误差来源
平方和SS
自由度df
均方MS
临界值F值
P值
F临界值
组间(因素影响)
SSA
k-1
MSR=SSA/*
F=MSA/MSE
组内(误差)
SSE
n-k
MSE=SSE/*
总和
SST
n-1
双因素方差分析
无交互作用
误差来源
平方和SS
自由度df
均方MS
F值
P值
F临界值
行因素
SSR
k-1
MSR=SSR/*
Fr=MSR/MSE
列因素
SSC
r-1
MSC=SSC/*
Fc=MSC/MSE
误差
SSE
(k-1)(r-1)
MSE=SSE/*
总和
SST
kr-1
有交互作用
误差来源
平方和SS
自由度df
均方MS
F值
P值
F临界值
行因素
SSR
k-1
MSR=SSR/*
Fr=MSR/MSE
列因素
SSC
r-1
MSC=SSC/*
Fc=MSC/MSE
交互作用
SSRC
(k-1)(r-1)
MSRC=SSRC/*
Frc=MSRC/MSE
误差
SSE
kr(m-1)
MSE=SSE/*
总和
SST
n-1
线性回归
回归模型
(线性)相关系数r
多重共线性
平方和SS
自由度df
均方MS
F值
significance F(线性关系显著P值)
回归分析
SSR
k-1
MSR=SSR/*
Fr=MSR/MSE
误差
SSE
n-k
MSE=SSE/*
总和
SST
n-1