ETL和ELT傻傻分不清楚?

背景:为了优化2019年知识总结效率,除了强制的月度更新外,计划2020年增加利用更多碎片化的时间总结碎片化的知识点,本文作为大数据序列碎片化知识开篇,还是先从普及概念开始。

以前认为数据是两个纬度的事情,数据平台和数据流,但最近发觉做数据工作更像练武术(三个纬度)。首先要你依据场景选武器,即 要根据各种数据应用场景,从上百种 工具中选择合适的组成数据平台;其次还要练心法,静心梳理你的数据流,做好拆招式的元数据管理;最后才是用选择的武器耍实际的招式,即用工具进行配置化开发或者sql开发;这样一整套数据三板斧才算耍完(题外话)。

主题:

今天先记录几个碎片化的概念,主要是针对数据对接或者数据接入的场景,有些工具可以应用于多个场景,我们只推荐更优的。

信息化实时业务的数据交互(对接)主要是两种:

实时数据交换(包括单向、双向),例如接口代理、数据交换(单双向均可)、服务路由,ESB很合适,脚本配置化;当然也有只专业做接口代理的叫api网关,例如微服务里架构里的zuul等;

实时消息交换(一对一、一对多等),例如通知、发布订阅、系统异步解耦等,MQ很合适,一般这时候就叫消息总线了;

准实时或者离线的数据对接或接入也包括两种(ETL和ELT):

数据同步,推荐ETL, 抽取 转换 加载,例如使用kettle,我们写sql获取源数据,然后在脚本里转换,然后写数据到目标库;

数据治理,推荐ELT,抽取 加载 转换,例如使用讯飞大数据平台,用数据集成平台从外部源系统抽取数据,加载到仓库内的ODS层;然后用数据治理平台,在仓库内从ODS到DW层的清洗和转换。

依据不同业务场景,选择不同的数据接入工具是基础,需要依据实际的场景对号入座,基本原则是技术满足下选实施成本最低的。由于相关同类型工具、差异化工具很多,所以很难找到满足所有场景、简单好用还免费的,工具合适就好!

你可能感兴趣的:(ETL和ELT傻傻分不清楚?)