python数据分析和数据挖掘笔记

第四章

1,  数据预处理的过程主要包括:数据清洗,数据集成,数据转换和数据规约。

2,牛顿插值法: https://www.zhihu.com/question/22320408/answer/141973314

3,数据规范化:

3.1 最小最大规范化


 3.2 零-均值规范化

 

σ 为标准差

3.3 小数定标规范化


K为数据绝对值最大的以10为底的次幂的向上取整。

4,常用的离散化方法:

4.1 等宽法

4.2 等频法

4.3 基于聚类分析的方法Kmeans

5,  数据规约:

意义:

  1, 降低无效,错误数据对建模的影响,提高建模的准确性

  2, 少量且具有代表性的数据架将大幅度缩减数据挖掘所需的时间

  3, 降低存储数据的成本

6,属性规约常见方法:

python数据分析和数据挖掘笔记_第1张图片

python数据分析和数据挖掘笔记_第2张图片

注:主成分分析是一种用于连续属性的数据降维方法,它构造了原始数据的一个正交变换,新空间的基底去除了原始空间基底下数据的相关性,只需使用少数新变量就能够解释原始数据中的大部分变异。

主成分分析步骤:

python数据分析和数据挖掘笔记_第3张图片python数据分析和数据挖掘笔记_第4张图片

7,数值规约

数值规约指通过选择代替的,较小的数据来减少数据量,包含有参数和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法就需要存放实际的数据,例如直方图,聚类,抽样。

7.1 直方图

7.2 聚类

7.3 抽样

    7.3.1 s个样本无放回简单随机抽样

    7.3.2 s个样本有放回简单随机抽样

    7.3.3聚类抽样

    7.3.4 分层抽样

 7.4 参数回归

8,python主要数据预处理函数

python数据分析和数据挖掘笔记_第5张图片

你可能感兴趣的:(python数据分析和数据挖掘笔记)