数据预处理基础(—)

数据预处理

一、定义

       背景现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。

               

    数据预处理:数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理,以利于计算机的运算。

 

    数据预处理方法:数据清理数据集成,数据变换,数据归约。

 

    数据预处理意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。数据预处理在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。

 

二、预处理的内容

1. 数据审核:

准确性审核:主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。  

适用性审核:主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。

及时性审核:主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。 

一致性审核:主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性。 

 

2. 数据筛选:

将某些不符合要求的数据或有明显错误地数据予以剔除;

将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。

 

3. 数据排序:数据排序是按照一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提供依据。在某些场合,排序本身就是分析的目的之一。排序可借助于计算机很容易的完成。

分类数据

数值数据

三、数据预处理的方法

1. 数据清理

数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

 

2. 数据集成

数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

 

3. 数据变换

通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

 

4. 数据归约

数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

 


你可能感兴趣的:(机器学习)