数据分析--统计学知识

描述型统计

 描述统计

1.集中趋势 :众数、平均数、分位数

2.离散趋势: 极值(max)、极差(max-min)、平均差、方差、标准差、分位差

3.分布:峰泰、偏度

数据分析--统计学知识_第1张图片

推理型统计

概率分布:离散型分布、连续型分布

离散型分布

二项分布:如抛硬币n次,不同正面朝上的次数对应的概率
几何分布:如抛硬币n次,到第k次才取得第一次成功的概率服从的分布
泊松分布:在一定时间范围内发生概率相同,给定其发生的平均发生的次数μ,则事件在该事件范围内发生k次的概率服从泊松分布

概率分布:

连续型分布

正态分布

 数据分析--统计学知识_第2张图片

 2.假设检验

无效假设:

备择假设

样本抽样

结果检验

假设检验基本步骤

1建立原假设

2选择检验统计量

3寻找拒绝阈

计算样本统计量的值,和临界值做比较,做判断

数据分析里的统计学模型

回归模型

聚类模型

贝叶斯模型

1.回归?

某些因素对目标的影响程度,也就是影响因子

2.相关性分析?

研究事务的因果联系

3.避免伪相关,先定性

1.从业务逻辑出发,不断拆解指标,下钻

2.ABtest实验,测试因素是否对结果产生影响

3.找相关指标或因素替代,或直接删除

4.定量,回归分析

1.确定x、y

x:自变量

y:  因变量

2.建立回归模型

3.回归检验

1.Multiple R:也就是R值,表明自变量与因变量之间相关性大小的值
2 .R Square: R的平方值是指拟合系数,是自变量解释因变量差距的大小
3.Adjusted R Square:调整后的R square,说明自变量能说明因变量百分比
4.标准误差: 用来衡量拟合程度的大小1
5.观察值:用于训练回归方程的样本数据有多少个;
6.SignificanceF: 是指显著性检验度,其实就是我们上节课讲到的P值
7.T Stat: T检验中统计量t值,用于对模型参数的检验
8. Value P:是指系数的显著性检验度

总结

回归模型

定性分析:相关性分析、怎么定性

定量分析:规范回归(y定义清晰、x精准有力)、怎么定量

 二、聚类模型

分类:已知分类标准和规则

聚类:根据数据本身的特性研究分类方法,并遵循这个分类方法对数据进行合理的分类,最终相似数据为一组,同类相同、异类相异

3、聚类步骤?

第一步确定分组k=0

第二步:随机选k个值为数据中心选择A、B两个点为初始中心

第三步:其他数值与数据中心的距离

第四步:重新选择数据中心

第五步:再次计算距离

第六步:再次重新选择数据中心

第七步:再次计算距离

你可能感兴趣的:(数据分析)