黑马程序员《数据清洗》学习总结

  




前言

  由于海量数据的来源是广泛的,数据类型也是多而复杂的,因此数据中会夹杂着不完整  、重复 以及错误的数据 ,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。



目录

1.1 数据清洗的背景

1.1.1 数据质量概述

1.1.2 数据质量的评价标准

1.1.3 数据质量的问题分类

1.2 数据清洗的定义

1.3 数据清洗的原理

1.4 数据清洗的基本流程

1.5 数据清洗的策略

1.6常见的数据清洗方法


  1.1数据清洗的背景  

  在大数据背景下,如果作为决策支持的数据仓库存放的数据达不到要求,将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。

1.1.1 数据质量概述

  数据质量 :是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

  数据质量的三个显著特点:

  (1)“业务需求”会随时间变化,数据质量也会随时间发生变化。

  (2)数据质量可以借助信息系统度量,但独立于信息系统存在。

  (3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。

1.1.2 数据质量的评价标准

    数据的准确性完整性、和简洁性是为了保证数据的适用性

  (1)准确性:要求数据中的噪声尽可能减少。

  (2)   完整性:指的是数据信息是否存在缺失的状况。

  (3) 简洁性:就是要尽量选择重要的本质属性。

  (4) 适应性:是评价数据质量的重要标准。

1.1.3 数据质量的问题分类

(通常情况下,将数据源中不完整重复、以及错误等有问题的数据称为“脏”数据。)

(1)基于数据源的“脏”数据分类。

  由于数据仓库的数据来自低层数据源,因此“脏”数据出现的原因与数据源有密切的关系。基于数据源的“脏”数据分类如图1-1所示。

黑马程序员《数据清洗》学习总结_第1张图片

                                                  图 1-1 基于数据源的“脏”数据分类

  (2)   基于清洗方式的“脏”数据分类。

  基于数据源的“脏”数据分类方法需要为每种类型“脏”数据设计单独的清洗方式。从数据清洗方式的设计角度来看,可以将“脏”数据分为“独立型“脏”数据”和“依赖型“脏”数据”两类。基于清洗方式的“脏”数据分类如图1-2所示。

黑马程序员《数据清洗》学习总结_第2张图片

                                               图1-2   基于清洗方式的“脏”数据分类

 

1.2 数据清洗的定义

   数据清洗技术是提高数据质量的有效方法。数据清洗主要用于3个领域即数据仓库领域、数据挖掘领域以及数据质量管理领域。

1.3 数据清洗的原理

  数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。下面通过一张图描述数据清洗的原理,具体如图1-3所以。

黑马程序员《数据清洗》学习总结_第3张图片

                                                          图 1-3  数据清洗的原理

  数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据清洗干净。而干净的数据指的是满足质量要求的数据。

1.4 数据清洗的基本流程

  数据清洗的基本流程分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。下面通过一张图描述数据清洗的基本流程,具体如图1-4所示。

黑马程序员《数据清洗》学习总结_第4张图片

                                       图 1-4 数据清洗的基本流程

1.5 数据清洗的策略

  在数据仓库环境中,数据清洗可以在不同阶段实现,并且存在不同的清洗策略,目前数据清洗的策略主要分为一般的数据数据清洗策略和混合的数据清洗策略。

1. 一般的数据清洗策略

  按照数据清洗的实现方式与范围划分,一般分为手工清洗策略、自动清洗策略、特定应用领域的清洗策略以及特定应用领域无关的清洗策略。

2. 混合的数据清洗策略

  混合的数据清洗策略主要以自动清洗为主。

1.6常见的数据清洗方法


  1.缺失值的清洗

  2.重复值的清洗

  3.错误值的清洗

你可能感兴趣的:(大数据)