【学习笔记】浅识蚂蚁金服大数据产品“数据集成平台DIP”

信息来源:https://tech.antfin.com/docs/2/127816

先一下蚂蚁金服大数据产品“数据集成平台”的相关术语,核心亮点:多数据源、任务调度

编号 信息项 详情
1 数据集成平台DIP 包括:数据工厂DQS(Data query service)和任务调度服务JSS(Job scheduling service)
2 ETL脚本 ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
主要功能:数据抽取、数据加载、数据清洗和转换、数据任务调度
3

任务调度服务

JSS

任务调度服务(JSS,Job Scheduling Service),提供数据任务的全生命周期管理功能。JSS 是 ETL 中的一项重要内容。主要包括:数据抽取、数据加载和数据任务调度。
功能特性:
1、支持RDS、OTS(表格存储)、MaxCompute等异构数据库之间的双向同步。
2、图形化任务调度的设置,支持复杂的任务调度规则,包括:任务定义、任务上下线、任务挂起、补数据、任务监控和异常报警等。
3、实时监控调度任务,发现问题可快速分析和定位出错原因。
4 数据抽取 从数据源中将数据读取出来。数据源在这里指在系统管理中配置的数据源。
5 数据加载 目前支持抽取和加载的数据源:OSS、OTS、RDS、MaxCompute、Oceanbase。在任务调度里,数据抽取与加载是用同一个任务是同一个任务完成的,类型叫同步任务。不需要第三方落地,从目标库抽取后加载到目标表里,简化数据传输过程。
6 数据任务调度 大多少的ETL任务都不是孤立运行的,都需要满足一定的依赖条件,包括:时间、上游任务、外部文件或者其他触发条件等。当大量的任务都需要条件判断来决定是否运行的时候,就需要任务调度来指挥。
任务调度需要设置:任务类型、任务输入参数和任务调度参数等,任务执行后通常返回结果和日志。
7 数据字典 数据字典(data dictionary)是对于数据模型中的数据对象或者项目的描述的集合,这样做有利于程序员和其他需要参考的人。分析一个用户交换的对象系统的第一步就是去辨别每一个对象,以及它与其他对象之间的关系。这个过程称为数据建模,结果产生一个对象关系图。当每个数据对象和项目都给出了一个描述性的名字之后,它的关系再进行描述(或者是成为潜在描述关系的结构中的一部分),然后再描述数据的类型(例如文本还是图像,或者是二进制数值),列出所有可能预先定义的数值,以及提供简单的文字性描述。这个集合被组织成书的形式用来参考,就叫做数据字典。
当开发用到数据模型的程序时,数据字典可以帮助你理解数据项适合结构中的哪个地方,它可能包含什么数值,以及数据项基本上表示现实世界中的什么意思。例如,一家银行或者是一个银行组织可能对客户银行业涉及的数据对象进行建模。他们需要给银行程序员提供数据字典。这个数据字典就描述了客户银行业中的数据模型每一个数据项(例如,“账户持有人”和“可用信用”)。 
https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%AD%97%E5%85%B8/1270246
8 自动数据清洗数据 ETL(Extra-Transfrom-Load)中的Transform就是数据清洗,只有经过清洗整合后的数据,才是数据仓库中真正可用的数据。数据工程里面撰写的数据加工脚本代码,可用配置成周期性执行任务。这类定期任务,通常占ETL任务的大多数。
9 用户自定义函数UDF 用户可以根据一定规则,注册自定义函数UDF,经过注册的UDF可以在脚本文件中使用,减少重复编码,提高开发效率。
10    

支持的数据源:

【学习笔记】浅识蚂蚁金服大数据产品“数据集成平台DIP”_第1张图片

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(大数据)