数据分析入门(三)

数据探索

通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程

数据质量分析

缺失值

产生的原因:
1.有些信息暂时无法获取,或者获取信息代价太大
2.有些信息遗漏
3.属性值不存在
缺失值的影响:
1.数据挖掘建模将丢失大量有用信息
2.数据挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更难把握
3.包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
缺失值分析:
删除存在缺失值的记录、对可能值进行插补和不处理3种情况

异常值(离群点分析)

简单统计分析
3σ原则
箱型图分析

不一致的值

数据矛盾性、不相容性。

重复数据及含有特殊符号(如 #、¥、*)的数据

数据特征分析

分布分析
定量数据分析的分布分析

求极差
决定组距与组数
决定分点
列出频率分布表
绘制频率直方图

遵循原则

各组之间必须是互相排斥的
各组必须将所有的数据包含在内
各组的组宽最好相等

定性数据的分布分析

常常根据变量的分类类型来分组

对比分析

指把两个互相关联的指标进行比较
绝对数比较

相对数比较
结构相对数
比例相对数
比较相对数
强度相对数
计划完成程度相对数
动态相对数

统计量分析
用统计对定量的数据进行统计描述,常从集中趋势和离中趋势方面分析

1.集中趋势
均值
中位数
众数
2.离中趋势度量
极差
标准差
变异系数
四分位数间距

周期性分析

探索某个变量是否随着时间的变化而呈现出某种周期变化趋势

贡献度分析

帕累托分析,原理是 帕累托法则,又称20/80定律

相关性分析

直接绘图制散点图

绘制散点图矩阵

计算相关系数
pearson 相关系数
spearman 相关系数
判定系数

你可能感兴趣的:(数据分析)