NEFU数据科学导论(三)数据预处理

一、总过程

NEFU数据科学导论(三)数据预处理_第1张图片

 二、数据清洗·

2.1什么是数据清洗?
●删除原始数据集中的无关数据、重复数据、平滑噪声数据
●筛选掉与主题无关的数据
●处理缺失值、异常值等

2.2.1缺失值处理方法

NEFU数据科学导论(三)数据预处理_第2张图片

2.2.2数据插补详解

NEFU数据科学导论(三)数据预处理_第3张图片

 2.3.1异常值处理方法

NEFU数据科学导论(三)数据预处理_第4张图片

三、数据集成 

3.1什么是数据集成?
将多个数据源合并
存放在一个一 致的数据存储 (如数据仓库)中

3.2处理方法

实体识别

数据冗余·

3.3.1实体识别

NEFU数据科学导论(三)数据预处理_第5张图片

 NEFU数据科学导论(三)数据预处理_第6张图片

3.3.2数据冗余

四、数据规约

 4.1什么是数据规约
复杂的数据分析和挖掘时间很久产生更小的数据集
同时保持原数据完整性在规约后的数据集上进行分析和挖掘将更有效率

 4.2形式

属性规约   数值规约

NEFU数据科学导论(三)数据预处理_第7张图片

4.2.1 属性规约

NEFU数据科学导论(三)数据预处理_第8张图片

NEFU数据科学导论(三)数据预处理_第9张图片

 

 4.2.2 数值规约

NEFU数据科学导论(三)数据预处理_第10张图片

 合并属性:将一些旧数据合并为新属性

逐步向前选择:   从一个空属性集开始r每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定调值约束为止。
 

 NEFU数据科学导论(三)数据预处理_第11张图片

逐步向后删除:
从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止或满足一定和值约束为止。
五、数据变换

 

5.1什么是数据交换

NEFU数据科学导论(三)数据预处理_第12张图片 5.2.1简单函数交换

NEFU数据科学导论(三)数据预处理_第13张图片

5.2.2规范化

NEFU数据科学导论(三)数据预处理_第14张图片 

 NEFU数据科学导论(三)数据预处理_第15张图片

5.2.3属性构造

NEFU数据科学导论(三)数据预处理_第16张图片 

5.2.4连续属性离散化

NEFU数据科学导论(三)数据预处理_第17张图片 

NEFU数据科学导论(三)数据预处理_第18张图片 

 

 

 

你可能感兴趣的:(数据挖掘,人工智能)