Python数据分析与挖掘实战-第二章到3.1节

第二章

本章简单介绍了python的基本命令、数据结构,对线上课程所讲到的命令进行了一点补充,引入了库的概念,对库的导入与添加做了简单示例。
第三节,python数据分析工具,介绍了Numpy、Scipy、Matplotlib、Pandas、StatsModels、Scikit-Learn和Keras。

Numpy

提供了数组功能,以及对数据进行快速处理的函数,Numpy还是很多更高级的扩展库的依赖库,后面介绍的Scipy、Matplotlib、Pandas等库都依赖于它。

Scipy

Numpy提供的只是一般的数组,并不是矩阵,Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

Matplotlib

提供了一整套和Matlab相似但更为丰富的命令,可以非常快捷的用python可视化数据,而且允许输出达到出版质量的多种图像格式。

Pandas

pandas是python下最强大的数据分析和探索的工具,包含高级的数据结构和精巧的工具。支持类似于SQL的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。
由于后面会频繁的使用,在后面会继续学习到pandas的使用方法。

StatsModels

pandas着眼于数据的读取、处理和探索,StatsModels则更加注重数据的统计建模分析。

Scikit-Learn

这是一个与机器学习相关的库,是python下最大的机器学习工具包,提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测和模型分析等。

Keras

Keras是一个基于Theano的强大的深度学习库,利用它不仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。
补充:Theano也是python的一个库,用来定义、优化和高校的解决多维数组数据对应数学表达式的模拟估计问题。它具有高效的实现符号分解、高度优化的速度和稳定性等特点,最重要的是它还实现了CPU的加速,使得密集型数据的处理速度是CPU的数十倍。

第三章

3.1 数据质量分析

缺失值分析

1)缺失值产生的原因:
有些信息暂时无法获取,或者获取的代价太大
有些信息是被遗漏的
属性值不存在
2)缺失值的影响
数据挖掘建模将丢失大量的有用信息
数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握
包含空值的数据会使建模过程陷入会乱,导致不可靠的输出
3)缺失值的分析
使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等。
从总体上来说,缺失值的处理分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况,在后面会学习到

异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据
1)简单统计量分析
先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。
2)3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。
3)箱型图分析
箱型图提供了分析异常值的一个标准:异常值通常被定义为QL-1.5IQR或大于QU+1.5IQR的值。QL称为下四分位数,QU称为上四分位数,QU与QL之差,其间包含了全部观察值的一半。箱型图依据实际数据绘制,没有对数据进行任何限制要求(如需要服从某种分布等),它只是真实的表现数据分布的本来面貌;另一方面,箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多大25%的数据可以变的任意远而不会很大的干扰四分位数,所以异常值不能对这个标准施加影响。

一致性分析

数据不一致是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘分析,可能会产生与实际结果相悖的挖掘结果。
在数据挖掘的过程中,不一致数据的产生主要发生在数据集成的过程中,这可能是由于被挖掘数据是来自于从不同的数据源,对于重复存放的数据未能进行一致性的更新造成的。

你可能感兴趣的:(Python数据分析与挖掘实战-第二章到3.1节)