大数据预处理方法,来看看你知道几个

大数据蕴含巨大价值,引起了社会各界的高度关注。大数据的来源多种多样,从现实世界中采集的数据大体上都是不完整、不一致的脏数据,无法直接进行数据挖掘和分析,或分析挖掘的结果差强人意。为了提高数据分析挖掘的质量,需要对数据进行预处理。
数据预处理方法主要包括数据清洗、数据集成、数据转换和数据消减。

1 .数据清洗

现实世界的数据常常是不完全的、含噪声的、不一致的。数据清洗过程包括缺失数据处理、噪声数据处理,以及不一致数据处理。
对于缺失的数据,可以采用忽略该条记录、手动补充缺失值、利用默认值填补缺失值、利用均值填补缺失值、利用最可能的值填补缺失值等方法处理。
对于噪声数据,可采用Bin方法、聚类分析方法、人机结合检测方法、回归方法来处理。
对于不一致的数据,可以利用它们与外部的关联,手动解决这类问题。

2 .数据集成

大数据处理常常涉及数据集成操作,即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一的数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。
在数据集成过程中,需要考虑解决以下几个问题。
(1)模式集成问题。
模式集成问题指如何使来自多个数据源的现实世界的实体相互匹配,这其中涉及实体识别问题。
例如,如何确定一个数据库中的“custom_id”与另一个数据库中的“custome_number”是否表示同一实体。
(2)冗余问题。
冗余问题是数据集成中经常发生的另一个问题。若一个属性可以从其他属性中推演出来,则这个属性就是冗余属性。
例如,一个顾客数据表中的平均月收入属性就是冗余属性,显然它可以根据月收入属性计算出来。此外

你可能感兴趣的:(大数据,big,data,数据挖掘,数据分析)