大数据测试(开源优测)

https://mp.weixin.qq.com/mp/homepage?__biz=MzI0NDQ5NzYxNg==&hid=9&sn=5a57d1e51692be40c713191f5958f909#wechat_redirect

 

什么是BI?

BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据(原始数据或商业数据或业务数据等)进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

原始数据记录了企业日常事务,例如与客户交互的信息、财务信息,员工相关记录等等。

这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等等

 

什么是数据仓库

数据仓库是为查询和分析而不是事务处理而设计的数据库。

数据仓库是通过整合不同的异构数据源而构建起来的。

数据仓库的存在使得企业或组织能够将整合、分析数据工作与事务处理工作分离。

数据能够被转换、整合为更高质量的信息来满足企业级用户不同层次的需求。

 

什么是ETL

ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。

下面我们看一下ETL过程完整的流程图:

大数据测试(开源优测)_第1张图片

ETLProcess.png

  1. Extract
    提取有效的数据

  2. Transform

  • 将提取的数据转换为数据仓库模式/格式

  • 构建keys:一个key是一个或多个数据属性的惟一标识实例,key的类型可以是主键(primary key)、外键(foreign key)、替代键(alternate key)、复合键(composite key)以及代理键(surrogate key)。这些key只允许数据仓库进行维护管理,且不允许其他任何实体进行分配。

  • 数据清理:在提取好数据后,则进入下一个节点:数据清理。对提取的数据中的错误进行标识和修复。解决不同数据集之间的不兼容的冲突问题,使数据一致性,以便数据集能用于目标数据仓库。通常,通过转换系统的处理,我们能创建一些元数据(meta data)来解决源数据的问题,并改进数据的质量。

  1. Load

  • 将转换后的数据载入数据仓库

  • 构建聚集:创建聚集对数据进行汇总并存储数据至表中,以改进终端用户的查询体验。

大数据测试(开源优测)_第2张图片

你可能感兴趣的:(大数据)