面试 | 大数据知识点@2019-01-07

什么是ETL

ETL用来描述对原始数据从抽取清洗转换加载的过程。
ETL按照统一的规则集成并提高数据的价值,是将数据从数据源向目标数据仓库(DW)转化的过程。

数据抽取
数据的抽取是从各个不同的数据源抽取数据并存储到操作数据存储(Operational Data Store, ODS)中的过程,在抽取的过程中需要选择不同的抽取方法,尽量更提高ETL的运行效率。

数据清洗转换
数据清洗转换包括数据清洗和数据转换两个过程。
数据清洗是指对空数据、缺失数据进行补缺操作,对非法数据进行替换,保证数据的正确性。
数据转换是指对数据进行整合、拆分和变换,数据整合是指通过多表关联,将不同类型数据之间可能存在潜在关联关系的多条数据进行合并,通过数据的整合,丰富数据维度,有利于发现更多有价值的信息。
数据拆分是指按一定规范对数据进行拆分,将一条数据拆分为多条。
数据变换是指对数据进行行列转换、排序、修改序号、去处重复记录变换操作。

数据加载
数据加载将清洗转换后的数据加载到数据仓库中,数据加载的方式主要包括以下几种:

  • 时间戳方式:
  • 日志表方式
  • 全表对比方式
  • 全表删除再插入方式

你可能感兴趣的:(面试 | 大数据知识点@2019-01-07)