本文只是个人对统计学基础知识的一点整理,仅作参考。
数据压缩的方法,制作“图”和“统计量”,用来反映数据特性。
平均值的计算:
1. 所有数据相加除以个数
2. 组值乘以相对频数的合计
直方图中平均值的意义:将直方图看做挑担人偶玩具(类似杠杆)时平衡的支点
平均值的性质:
1. 数据在平均值的周边分布
2. 多次出现的数据对平均值的影响比较大
3. 直方图呈左右对称的情况下,其对称轴通过的点是平均值
平均值计算类型:(基本规律是:先聚合,再分解,先进行的操作最后逆操作)
1. 算术平均值: x+y2
2. 几何平均值: xy−−√
3. 均方根值: x2+y22−−−−−√
4. 调和平均数: 21x+1y
偏差的计算:偏差 = 数据 - 平均值
方差的计算:方差 = 偏差的平方的和/数据个数,方差 = (组值 - 平均数)的平方 * 相对频数的总和
标准差的计算:标准差 = 方差开根号 = 偏差的均方根值
标准差的意义:数据以平均值为基点,在其左右扩散,评价这种扩散、分散程度的是标准差,是数据离散程度的平均化。
数据约有几个标准差:(数据 - 平均值)/ 标准差,反映数据是否特殊
数据的标准化,设数据为 x ,平均值是 μ ,标准差是 σ ,则数据标准化(z-score):
金融商品优劣性评价基准:夏普比率(SPM)= (X的回报 - 国债的收益率)/ (X的风险),设 E(Rp) 是投资组合预期报酬率(回报), Rf 是无风险利率(国债收益率), σp 是投资组合的标准差(风险),则:
推论方法:
* 演绎法:由全体推论部分
* 归纳法:由部分推论全体
正态分布是自然界和人类社会中最常见的分布,如抛硬币、身高数据等
标准正态分布,平均值 μ=0 ,标准差 σ=1
关于标准正太分布的一些性质:
* 标准差在(+1)~(-1) 范围内的数据的相对频数为0.6826(70%弱)
* 标准差在(+2)~(-2) 范围内的数据的相对频数为0.9544(95%强)
一般正态分布的数据,由 σ×x+μ 可得
关于一般正太分布的一些性质:
* 在( μ+σ×1 )~( μ−σ×1 ) 范围内的数据的相对频数为0.6826(70%弱)
* 在( μ+σ×2 )~( μ−σ×2 ) 范围内的数据的相对频数为0.9544(95%强)
标准正态分布的95%预测命中区间是-1.96+以上+1.96以下
平均值是 μ 、标准差是 σ 的正态分布95%的预测命中区间是( μ−1.96σ )以上( μ+1.96σ )以下
数据X是平均值是 μ 、标准差是 σ 的正态分布时,95%预测命中区间为解不等式:
95%的置信区间:由各种各样观测值用相同方法进行区间估计,其中95%包含正确的总体参数
随机抽样法的假设,是“进行足够多次数的观测做成直方图,再现母群体分布”的假设
表示母群体的平均值叫总体均值,表示母群体数据分散程度的统计量是总体标准差
总体标准差 = (数据的数值) - (总体均值 μ )
总体标准差 σ =偏差的均方根
总体方差 σ2 =总体标准差的平方
观测到的数据,在一定程度上可以认为接近总体均值
观测复数的数据,它的平均值叫做样本均值,可以记作 x¯
观测复数的数据取样本均值,比1个数据更接近总体均值。观测数据越多,样本均值越接近总体均值的可能性就越高
大数定律(伯努利):从1个母群体中,观测 n 个数据取其样本均值,此时, n 越大,样本均值为接近总体均值 μ 的数值的可能性越高。
中心极限定理:是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理
* 设从均值为 μ ,方差为 σ2 (有限)的任意一个独立同分布的总体中抽取的样本量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为 μ ,方差为 σ2n ,标准差为 σn√ 的正态分布。
正太母群体的样本均值的95%的预测命中区间为:( μ−1.96σn√ )以上( μ+1.96σn√ )以下,表示为不等式为:
μ 的95%的置信区间为
对于标准正太母群体中 n 个样本 x1,x2,x3,...xn ,将它们平方再合计得到:
V=x21+x22+x23+...+x2n
得统计量 V ,则 V 呈自由度为 n 的卡方分布
卡方分布的 V ,只出现0以上的值。另外,距0近的数值的相对频数大,距0远的数值的相对频数小
总体均值对未知的正太母群体总体方差进行区间估计的方法:
1. 首先计算样本均值 x¯ ,并计算样本方差 s2
2. 利用样本方差 s2 乘以 n 再除以总体方差 σ2 作统计量
由总体均值 μ 和样本得到统计量 T 的计算:
假设总体均值为 μ 的正太母群体中的 n 个样本的均值为 x¯ ,样本标准差为 s ,计算得
t分布的形状和正态分布类似,但是t分布更加缓和,中间顶端略低,两端略高
利用t分布估计正太母群体的总体均值的方法:
1. 首先计算样本均值 x¯ ,并计算样本方差 s2
2. 利用样本均值 x¯ 、样本方差 s2 作自由度 n−1 的t分布的统计量 T :
《极简统计学》、《概率论与数理统计》等著作
本文纯属个人整理,比较仓促,仅供参考,如有错误之处还请批评指正,谢谢~