weka数据挖掘之预处理

weka数据挖掘之预处理

数据挖掘是在大量的、潜在有用的数据中挖掘出有用模式的过程,因此,源数据的质量直接影响到挖掘的效果,高质量的数据是有效挖掘的前提。但是,肯定是,不是所有的数据都是那么理想。

由于无法在数据的源头进行控制质量,所以只能通过两个方面设法避免数据质量的问题:
(1)数据质量问题的检测和纠正。
(2)使用能容忍低质量数据的算法。
第一种方式发生在数据挖掘前,这个过程成为预处理。
第二种方式需要提高算法的健壮性。
Weka专门提供若干过滤器进行预处理,还在explorer界面中提供选择属性标签页专门处理属性的自动选择问题。
数据预处理技术设计的策略和技术非常广泛,主要包括以下技术。

  1. 聚集
    聚集就是将两个或多个对象合并为单个对象。一般来说,定量数据通过求和活求平均值的方式进行聚集,定性数据通常通过汇总进行聚集。

         *定量数据:就是数值,比如年龄,身高,体重。可以进行平均值等计算的。定量数据说明的是现象的数量特征,是必须用数值来表现的。分为离散数据(Discrete data)和连续数据 (Continuous numerical data)。           
         定性数据(Qualitative data):定性是性质,只是计数资料。性 别,男或女,但在录入时可能会给定性变量的值进行赋值,如男为0, 女为1,这时的数代表的就是定性资料。不能进行计算。包括分类数据 和顺序数据,是一组表示事物性质、规定事物类别的文字表述型数据, 不 能将其量化,只能将其定性。定性数据说明的是事物的品质特征,是 不能用数值表示的,通常表现为类别。*
    

    聚集通过数据规约来减少数据量,所导致的较小数据集只需要较小内存和处理时间的开销。另外,聚集使用高层数据视图,起到了范围和度量转换的作用。
    缺点:有可能导致有趣细节的丢失。

  2. 抽样

    如果处理全部数据的开销太大,数据预处理可以使用抽样,只选择数据对象的子集进行分析。使用抽样可以压缩数据量。
    抽样是一个统计过程,好的抽样方案就是确保以很高的概率得到有代表性的样本,即:样本近似地具有原数据相同的性质。
    抽样的方式有多种,如简单随机抽样,分层抽样等。简单随机抽样又分为有放回抽样和无放回抽样两种形式,数据样式不同时,采取不同的抽样方法。

  3. 维度规约

    维度是指数据集中属性的数目。维度规约是指创建新属性,通过数据编码或数据变换,将一些旧属性合并在一起以降低数据集的维度。
    维度规约可以删除不想关的属性并降低噪声,维度降低会使很多数据挖掘的算法变得更好,还能消除维灾难带来的负面影响。
    维灾难
    分类问题中的维灾难
    聚类问题中的维灾难

  4. 属性选择
    除了维度规约外,降低维度的另一种方法是仅只使用属性的一个子集。表面看来似乎这中方法可能失去信息,但很多情况下,数据集存在冗余活不现关的属性。
    属性选择是指从数据集中选择最具有代表性的属性子集,删除冗余活不想管的属性,从而提高数据处理的效率,使模型更容易理解。
    属性选择方法:嵌入、过滤和包装。

  5. 属性创建

  6. 离散化和二元化
  7. 变量变换

你可能感兴趣的:(Weka)