统计学习的一些笔记(1)

第一部分:描述性统计学的图与表格

1.频数分布——注意:组间距离=(组内最大-组内最小)/组数

2.条形图和饼状图

3.直方图

4.累积图与累积曲线(即是频数分布的进阶版,将大于某个值得频数相加起来并统计)

5.茎叶图

6.交叉分组表(有点类似于概率中的联合分布表格)


此处注意一下的是辛普森悖论,辛普森悖论表示的是未综合的交叉分组表与综合的交叉分组表得到的结论是相反。当交叉分组表包含综合数据时,应该审查是否存在可能影响结论的隐藏变量,使得分开的或未综合交叉分组表结论不同。

7.散点图和趋势线

第二部分:描述性统计数值方法

1.位置的度量

—平均数、中位数、众数、百分位数、四分位数


百分位数的计算:1.数据按升序排列; 2.计算i=(p/100)*n ; 3.若i不是整数,则向上取整数,大于i的下一个整数表示第p百分位数的位置,若i是整数,则用第i项与第i+1项的平均值表示。


4分位数与百分位数计算类似,分别是25%,50%(中位数)、75%位数。

2.变异程度的度量

1.极差

2.四分位数间距(用第三分位数-第一分位数表示中间50%的数据的极差)。

3.方差

这里写图片描述

4.标准差,为什么要将方差转换成标准差呢?因为方差的单位是平方,而标准差是方差的平方根与原始数据的度量单位相同易与其进行比较。

5.标准差系数—(标准差/平均数)*100%,表示的是标准差相对于平均数大小的变化。

3.分布形态与相对位置度量以及异常值的检测

1.偏度,可以理解为中位数相对于平均数的大小,当中位数大于平均数时是左偏。

2.z分位数,表示的是xi与平均数的距离是zi个标准差,意义是数据观测值得相对位置的度量。

3.切比雪夫定理:(适用于任何数据集而不论数据分布的形态)


当z>1时,数据与平均数的距离在z个标准差范围内,至少有(1-1/z^2)的概率

4.经验法则:(仅适用于近似钟型分布)


68%————1个标准差内
95%————2个标准差内
几乎所有——3个标准差内

5.检测异常值:根据经验法则在3个标准差外的数据要进行检测。

3.探索性数据分析

1.五数概括法:最小值、第一四分位数、中位数、第三四分位数、最大值。

2.箱型图,基于五数概括法


箱体边界是第1与3分位数Q1与Q3,四分位数间距 IQR=Q3-Q1,1.5倍IQR作为箱型图的界限,在界限外的视为异常值,触须线是最小值与最大值。

3.协方差这里写图片描述

统计学习的一些笔记(1)_第1张图片
如果协方差为正,说明对Sxy影响最大的在第一和第三象限,说明x变大,y变大,即存在正的相关关系。如果各点在4个象限中分布均匀,则Sxy接近于0,说明x与y不存在线性关系。但是协方差的缺点在于其x和y都与计量的单位有关,所以使用相关系数来计算两变量间的相关关系

4.相关系数这里写图片描述

5.加权平均数:通过给每一个观测值分配一个反应其重要性的权重而得到的平均数。

6.分组数据:可用数据是将频数分布按组距汇总后得到的数据,而原始数据的单个值是不可用的。

你可能感兴趣的:(统计学习笔记,统计学习笔记)