阿里云大数据ACP(一)大数据开发平台 DataWorks

文章目录

    • 一、DataWorks 简介
      • 1.1 DataWorks 的功能概述
      • 1.2 DataWorks 产品特点
      • 1.3 DataWorks 产品优势
      • 1.4 应用场景 (助力企业搭建大数据信息平台)
    • 二、DataWorks 基本概念
      • 2.1 组织与项目空间
      • 2.2 任务(Task)
      • 2.3 工作流、节点、依赖关系
      • 2.4 任务(Task)类别
      • 2.5 实例(Instance)
      • 2.6 资源与函数
    • 三、DataWorks 功能架构
      • 3.1 功能模块
      • 3.2 组织管理
      • 3.3 项目管理
      • 3.4 数据开发
      • 3.5 数据管理
      • 3.6 运维中心
    • 四、DataWorks 角色隔离
      • 4.1 DataWorks 中的角色
    • 五、DataWorks 开发流程
      • 5.1 新建项目空间
      • 5.2 添加组织成员+项目成员
      • 5.3 数据开发
      • 5.4 数据开发流程
      • 5.5 数据输入
      • 5.6 数据加工
      • 5.7 数据输出
      • 5.8 代码发布
      • 5.9 生产调度
    • 5.10 生产运维
    • 六、DataWorks 数据开发
      • 6.1 数据开发总览
      • 6.2 任务开发
      • 6.3 任务类型
      • 6.4 脚本开发
      • 6.5 函数管理
      • 6.6 发布管理
      • 6.7 导入本地文件
    • 七、DataWorks 调度配置
      • 7.1 调度周期配置
      • 7.2 调度参数配置
      • 7.3 DataWorks 中的参数功能
      • 7.4 调度依赖关系
      • 7.5 跨周期依赖
    • 八、数据管理
      • 8.1 数据管理
      • 8.2 全局概览
      • 8.3 数据表的管理操作
      • 8.4 数据权限
    • 九、DataWorks 运维管理
      • 9.1 运维管理
      • 9.2 运维有关的权限
      • 9.3 运维概览
      • 9.4 手动任务 & 周期任务
      • 9.5 监控报警
    • 十、DataWorks 项目管理
      • 10.1 项目管理综述
      • 10.2 项目配置
      • 10.3 项目成员管理
      • 10.4 调度资源管理

一、DataWorks 简介

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks提供全链路智能大数据及AI开发和治理服务。

阿里云大数据ACP(一)大数据开发平台 DataWorks_第1张图片

1.1 DataWorks 的功能概述

全面托管的调度

  • DataWorks提供强大的调度功能,详情请参见调度配置。
    • 支持根据时间、依赖关系,进行任务触发的机制。详情请参见时间属性和依赖关系。
    • 支持每日千万级别的任务,根据DAG关系准确、准时地运行。
    • 支持分钟、小时、天、周和月多种调度周期配置。
  • 完全托管的服务,无需关心调度的服务器资源问题。
  • 提供隔离功能,确保不同租户之间的任务不会相互影响。

DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。

  • 数据转化:依托MaxCompute强大的能力,保证了大数据的分析处理性能。
  • 数据同步:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能。

可视化开发

  • DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。只要有浏览器有网络,您即可随时随地进行开发工作。

监控告警

  • 运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心。

1.2 DataWorks 产品特点

阿里云大数据ACP(一)大数据开发平台 DataWorks_第2张图片

1.3 DataWorks 产品优势

阿里云大数据ACP(一)大数据开发平台 DataWorks_第3张图片

1.4 应用场景 (助力企业搭建大数据信息平台)

阿里云大数据ACP(一)大数据开发平台 DataWorks_第4张图片

二、DataWorks 基本概念

2.1 组织与项目空间

阿里云大数据ACP(一)大数据开发平台 DataWorks_第5张图片

2.2 任务(Task)

阿里云大数据ACP(一)大数据开发平台 DataWorks_第6张图片

2.3 工作流、节点、依赖关系

阿里云大数据ACP(一)大数据开发平台 DataWorks_第7张图片

2.4 任务(Task)类别

阿里云大数据ACP(一)大数据开发平台 DataWorks_第8张图片

2.5 实例(Instance)

阿里云大数据ACP(一)大数据开发平台 DataWorks_第9张图片
说明:在阿里云大数据开发平台中,节点任务在执行时会被实例化,并以MaxCompute 实例的形式存在。实例会经历未运行、等待时间/等待资源、运行中,成功/失败几个状态。

2.6 资源与函数

阿里云大数据ACP(一)大数据开发平台 DataWorks_第10张图片
说明:资源与函数都是 MaxCompute 的概念。

三、DataWorks 功能架构

阿里云大数据ACP(一)大数据开发平台 DataWorks_第11张图片

3.1 功能模块

阿里云大数据ACP(一)大数据开发平台 DataWorks_第12张图片

3.2 组织管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第13张图片

3.3 项目管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第14张图片

3.4 数据开发

阿里云大数据ACP(一)大数据开发平台 DataWorks_第15张图片

3.5 数据管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第16张图片

3.6 运维中心

阿里云大数据ACP(一)大数据开发平台 DataWorks_第17张图片

四、DataWorks 角色隔离

4.1 DataWorks 中的角色

阿里云大数据ACP(一)大数据开发平台 DataWorks_第18张图片
在这里插入图片描述
阿里云大数据ACP(一)大数据开发平台 DataWorks_第19张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第20张图片

五、DataWorks 开发流程

阿里云大数据ACP(一)大数据开发平台 DataWorks_第21张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第22张图片

5.1 新建项目空间

阿里云大数据ACP(一)大数据开发平台 DataWorks_第23张图片

5.2 添加组织成员+项目成员

阿里云大数据ACP(一)大数据开发平台 DataWorks_第24张图片

5.3 数据开发

阿里云大数据ACP(一)大数据开发平台 DataWorks_第25张图片

5.4 数据开发流程

阿里云大数据ACP(一)大数据开发平台 DataWorks_第26张图片

5.5 数据输入

在这里插入图片描述

5.6 数据加工

阿里云大数据ACP(一)大数据开发平台 DataWorks_第27张图片

5.7 数据输出

阿里云大数据ACP(一)大数据开发平台 DataWorks_第28张图片

5.8 代码发布

阿里云大数据ACP(一)大数据开发平台 DataWorks_第29张图片

5.9 生产调度

阿里云大数据ACP(一)大数据开发平台 DataWorks_第30张图片

5.10 生产运维

阿里云大数据ACP(一)大数据开发平台 DataWorks_第31张图片

六、DataWorks 数据开发

6.1 数据开发总览

阿里云大数据ACP(一)大数据开发平台 DataWorks_第32张图片
四种运行方式:
阿里云大数据ACP(一)大数据开发平台 DataWorks_第33张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第34张图片
数据开发模块中除了组织管理员权限外,其余角色包括:项目管理员、开发、运维、部署和访客。

6.2 任务开发

阿里云大数据ACP(一)大数据开发平台 DataWorks_第35张图片

6.3 任务类型

阿里云大数据ACP(一)大数据开发平台 DataWorks_第36张图片

6.4 脚本开发

阿里云大数据ACP(一)大数据开发平台 DataWorks_第37张图片

6.5 函数管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第38张图片

6.6 发布管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第39张图片

6.7 导入本地文件

阿里云大数据ACP(一)大数据开发平台 DataWorks_第40张图片

七、DataWorks 调度配置

7.1 调度周期配置

阿里云大数据ACP(一)大数据开发平台 DataWorks_第41张图片

7.2 调度参数配置

阿里云大数据ACP(一)大数据开发平台 DataWorks_第42张图片

7.3 DataWorks 中的参数功能

阿里云大数据ACP(一)大数据开发平台 DataWorks_第43张图片
调度参数获取
阿里云大数据ACP(一)大数据开发平台 DataWorks_第44张图片

7.4 调度依赖关系

阿里云大数据ACP(一)大数据开发平台 DataWorks_第45张图片

7.5 跨周期依赖

阿里云大数据ACP(一)大数据开发平台 DataWorks_第46张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第47张图片

八、数据管理

8.1 数据管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第48张图片

8.2 全局概览

阿里云大数据ACP(一)大数据开发平台 DataWorks_第49张图片

8.3 数据表的管理操作

阿里云大数据ACP(一)大数据开发平台 DataWorks_第50张图片
注意:数据管理模块中的表存储信息是离线计算得出的,默认是一天同步一次这个信息,是非实时同步,所以与真实信息不一致。

8.4 数据权限

阿里云大数据ACP(一)大数据开发平台 DataWorks_第51张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第52张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第53张图片

九、DataWorks 运维管理

9.1 运维管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第54张图片

9.2 运维有关的权限

阿里云大数据ACP(一)大数据开发平台 DataWorks_第55张图片

9.3 运维概览

阿里云大数据ACP(一)大数据开发平台 DataWorks_第56张图片

9.4 手动任务 & 周期任务

阿里云大数据ACP(一)大数据开发平台 DataWorks_第57张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第58张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第59张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第60张图片
阿里云大数据ACP(一)大数据开发平台 DataWorks_第61张图片

9.5 监控报警

阿里云大数据ACP(一)大数据开发平台 DataWorks_第62张图片

十、DataWorks 项目管理

10.1 项目管理综述

阿里云大数据ACP(一)大数据开发平台 DataWorks_第63张图片

10.2 项目配置

阿里云大数据ACP(一)大数据开发平台 DataWorks_第64张图片

10.3 项目成员管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第65张图片

10.4 调度资源管理

阿里云大数据ACP(一)大数据开发平台 DataWorks_第66张图片
默认调度资源:默认调度资源为标志位,标记当前调度资源是否为默认调度资源。调度任务默认向该资源组提交惹任务,一个项目内有且只有一个默认调度资源。

阿里云大数据ACP(一)大数据开发平台 DataWorks_第67张图片

你可能感兴趣的:(#,----,Alibaba,Cloud)