数据分析&数据挖掘 笔记

数据分析&数据挖掘 笔记

1、数据探索

1.1、数据质量分析【数据预处理的前提,主要检查是否存在加粗样式脏数据】

	1.1.1 缺失值分析:pd.isnull(), pd.notnull(), pd.dropna(), pd.fillna();
	1.1.2 异常值(离群点)分析:1\简单统计量分析describe;2\正态分布数据的3σ原则;3\一般随机数据的厢型图分析;(小于1.5-3倍四分位数间距的数据或者大于1.5-3倍四分位数间距的数据)
	1.1.3 一致性分析:主要发生在数据集成的过程;意思是同一条数据,相同字段的数据应该一致;

1.2、数据特征分析【绘制图表,计算特征量】

1.2.1 分布分析:主要看数据的分布特征和分布类型;
	定量数据:频率分布表、频率分布直方图、茎叶图;
	定性数据:饼图、条形图;
1.2.2 对比分析 绝对数和相对数 
	结构相对【部分与总体的比】、比例相对【这一部分与另外一部分的比】、比较相对【性质相同,区域不同间对比】、强度相对【】、计划完成程度相对数、动态相对数、
1.2.3 统计量分析 使用统计学指标对数据进行集中趋势和离中趋势的分析;
	1 集中趋势:均值x、加权均值、中位数、众数;
	2 离中趋势: 极差、标准差s、变异系数【s/x * 100%,数据离中趋势】、四分位间距
1.2.4 周期性分析 一定周期内某指标的分析,股票是最典型的;
1.2.5 贡献度分析 又称28定律;分析的意义在于找出优质率前80%的数据重点培养;
1.2.6 相关性分析 连续变量之间线性相关程度的强弱,
	1 绘制散点图 两个变量间
	2 绘制散点图矩阵  多个变量间的线性关系;
	3 计算相关系数 
		★ Pearson相关系数 范围[-1,1] ,|r|<=0.3不相关,0.3<|r|<=0.5低度线性相关,
		0.5<|r|<=0.8 显著线性相关,|r|>0.8 高度线性相关;
		![相关系数公式](https://img-blog.csdnimg.cn/20190702144742268.jpg)
		 Spearman秩相关系数【要求数据服从正态分布】,
		 判定系数 是相关系数的平方;

你可能感兴趣的:(技术总结)