Weka中数据预处理的技术方法

目录

1 聚集

2 抽样

3 维度归约

4 属性选择

5 属性创建

6 离散化和二元化

7 变量转换


1 聚集

聚集是将两个或者多个对象合并成单个对象。一般来说,定量数据都是通过求和或求平均值的方式进行聚集,定性数据通常通过汇总进行聚集。

2 抽样

如果处理全部数据的开销太大,数据预处理可以使用抽样,只选择数据对象的子集进行分析。抽样方法有很多种,例如简单随机抽样和分层抽样。

3 维度归约

维度是指数据集中属性的数目。维度归约是指创建新属性,通过数据编码或数据转换,将一些旧属性合并在一起以降低数据集的维度。

4 属性选择

除了维度归约外,降低维度的另一种方法就是仅仅使用属性的一个子集。属性选择是指从数据集中选择最具代表性的属性子集,删除荣誉冗余或者不相关的属性,从而提高数据处理的效率,使模型更容易理解。下面介绍三种标准的属性选择方法:嵌入、过滤、包装。

嵌入方法:将属性选择作为数据挖掘算法的一部分。在挖掘算法运行期间,算法本身决定使用哪些属性以及忽略哪些属性。决策树通常使用这种方法。

过滤方法:在运行数据挖掘算法之前,使用独立于数据挖掘 任务的方法进行属性选择,即:先过滤数据集产生一个属性子集。

包装方法:将学习算法的结果作为评价准则的一部分,使用类似于理想算法,但通常无法枚举出全部可能的子集以找出最佳属性子集。

5 属性创建

通过对数据集中的旧的属性进行处理,创建新的数据集。由于通常新数据集的维度比原数据低,因此可以获得维度归约到带来的好处。属性创建有三种方法:属性提取、映射数据到新空间和属性构造。

属性提取:由原数据创建新的数据集。

映射数据到新空间:使用一种完全不同的视角挖掘数据可能揭示重要而有趣的特征。

当原始数据的属性含有必要信息,但其形式不适合数据挖掘算法的时候,可以使用属性构造,将一个或多个原来的属性构造成新的属性。

6 离散化和二元化

将连续属性转换成分类属性成为离散化,将连续和离散属性转换为一个或多个二元属性称为二元化。
           离散化的问题就是决定选择多少个分割点,以及确定分割点的位置。

7 变量转换

也称属性转换,是指用于变量的所有值的变换。有简单函数变换和规范化。

简单函数变换:使用一个简单数学函数分别作用于每一个值。

变量标准化:使整个值的集合具有特定的性质。

你可能感兴趣的:(Weka中数据预处理的技术方法)