阿里云大数据ACP认证学习笔记之——————Dataworks

基本概念

  • 产品服务

    • 数据集成
    • 数据开发
    • 数据地图
    • 数据质量
    • 数据服务
  • 计算和存储引擎服务

    • 离线计算MaxCompute
    • 开源大数据引擎E-MapReduce
    • 实时计算(基于Flink)
    • 机器学习PAI
    • 图计算服务Graph Compute
    • 交互式分析服务
  • 工作空间:DataWorks管理任务、成员,分配角色和权限的基本单元。
  • 解决方案:可以包括多个业务流程,以复用相同的业务流程。
  • 组件:组件是带有多个输入参数和输出参数的SQL代码过程模板。
  • 资源组:资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现,即CPU、内存和带宽的大小。
  • 数据集成的资源组包括以下类型
  1. 公共资源组
  2. 独享数据集成资源组
  3. 自定义资源组
  • 任务:任务是对数据执行的操作的定义。主要分为:
  1. Node Task:节点任务
  2. Flow Task:工作流任务
  3. innerNode:内部节点
  • 实例:实例是某个任务在某时某刻执行的一个快照。
  • 工作空间成员包括项目所有者、项目管理员、开发、运维、部署、访客和安全管理员等角色,工作空间创建者默认为管理员角色。
  • 数据开发流程
  1. 数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。
  2. 数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据存储与处理能力分析已有的数据。
  3. 数据分析与处理:完成数据的同步后,可以对MaxCompute中的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
  4. 数据提取:分析与处理后的结果数据,需要同步导出至业务系统,以供业务人员使用其分析的价值。
  5. 数据展现与分享:数据提取成功后,可以通过报表、地理信息系统等多种展现方式,展示与分享大数据分析、处理后的成果。

 

数据集成

  • 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等)的数据的同步。
  • 离线(批量)数据同步支持的数据源
  1. 关系型数据库
  2. 大数据存储
  3. 半结构化存储
  4. NoSQL
  5. 消息队列
  6. 图计算引擎
  • 实时数据同步
  1. 输入:MySQL、Oracle、Kafka、Datahub、Loghub和PolarDB。
  2. 输出:MaxCompute、Hologres、Kafka和Datahub。
  3. 数据转换:数据过滤、Groovy和字符串替换。
  • 网络类型
  1. 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责。
  2. 专有网络:基于阿里云构建出一个隔离的网络环境,您可以完全掌控自己的虚拟网络。
  3. 本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。
  • 数据同步速度的影响因素
    • 来源端数据源
  1. 数据库的性能:CPU、内存、SSD硬盘、网络和硬盘等。
  2. 并发数:数据源并发数越高,数据库负载越高。
  3. 网络:网络带宽、网速。
    • 数据集成的同步任务配置
  1. 传输速度:是否设置任务同步速度上限值。
  2. 并发:从源并行读取或并行写入数据存储端的最大线程数。
  3. Bytes的设置:单个线程的Bytes=1048576,在网速比较敏感时,会出现超时现象,此时建议将Bytes设置的较小。
  4. 等待资源
  5. 查询语句是否建立索引
    • 目的端数据源
  1. 性能:CPU、内存、SSD 硬盘、网络和硬盘。
  2. 负载:目的数据库负载过高会影响同步任务数据写入效率。
  3. 网络:网络的带宽(吞吐量)、网速。

 

数据开发

  • 业务流程:业务流程由以下各模块的节点组成
    • 数据集成:数据集成任务包括离线同步节点和实时同步节点。
    • MaxCompute:MaxCompute计算引擎包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS MR等数据开发节点。并可以查看和新建表、资源及函数:
  1. 数据开发:MaxCompute数据开发节点包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS M;
  2. 表:新建表;
  3. 资源:创建资源;
  4. 函数:新建函数。
    • AnalyticDB for PostgreSQL:可以新建AnalyticDB for PostgreSQL节点和AnalyticDB for PostgreSQL表。
    • EMR:EMR计算引擎包括EMR HIVE、EMR MR、EMR SPARK和EMR SPARK等数据开发节点,并可以查看和新建EMR资源。
    • 算法:机器学习节点。
    • 通用:OSS对象检查、for-each、do-while、归并节点、分支节点、赋值节点、Shell、虚拟节点和跨租户节点。
    • 自定义: Hologres开发、Data Lake Analytics和AnalyticDB for MySQL。
  • 节点组:可以服用的一系列节点的组合。

 

数据地图

  • 数据地图是在元数据基础上提供的企业数据资产管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。
  •  

 

数据质量

  • 数据质量是支持多种异构数据源的质量校验、通知及管理服务的一站式平台。
  • 数据质量提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。
  • 数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。
  • 数据质量监控的流程
  1. 执行任务
  2. 触发规则
  3. 执行规则
  4. 报警/阻塞

 

 

数据服务

  • 生成API:可根据向导模式或脚本模式将关系型数据库和NoSQL数据库的表生成API。
  • 注册API:注册API。
  • API网关:API网关(API Gateway)提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理。
  • API市场:数据服务生成和注册的API发布至API网关后,可以一键上架至阿里云API市场售卖。

 

DataHub

  • DataHub是阿里云提供的流式数据处理平台,提供对流式数据的发布、订阅和分发功能。
  • StreamCompute是阿里云提供的流计算引擎,提供使用类SQL的语言来进行流式计算。
  • 基本概念

  1. Project:项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。
  2. Topic:Topic是 DataHub 订阅和发布的最小单位,用户可以用Topic来表示一类或者一种流数据。
  3. Topic Lifecycle:表示一个Topic中写入数据在系统中可以保存的最长时间,以天为单位,最小值为1,最大值为7。
  4. Shard:Shard表示对一个Topic进行数据传输的并发通道。
  5. Shard Merge:Shard合并,可以把相邻的Key Range连接的Shard merge成一个Shard。
  6. Shard Split:Shard分裂,可以把一个Shard分裂成Shard Key Range相连接的两个Shard。
  7. Record:用户数据和 DataHub 端交互的基本单位。
  8. RecordType:Topic的数据类型,目前支持Tuple与Blob两种类型。
  • 应用场景
  1. 实时数据通道:通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统。
  2. 实时数据清洗和分析:通过数据总线和实时计算,您可以把多种数据源的异构数据实时清洗成统一的结构化数据。
  3. 实时数据仓库:通过数据总线搭建原始数据层,实时明细层和实时汇总层,打造实时数据仓库。
  • 当Shard进行Merge/Split后会被置为CLOSED状态,该状态可以继续消费读取数据,但是不可写入,也不可再次进行Merge/Split操作,当到达Topic的lifecycle后该Shard会被回收。
  • Topic在进行Merge/Split后新的Shard需要等待变为ACTIVE状态后方可正常使用,通常不会超过5秒。
  • 数据同步功能支持的阿里云产品
  1. MaxCompute
  2. ADS
  3. RDS
  4. OTS
  5. OSS
  6. ElasticSearch
  7. Hologres
  8. 函数计算服务
  •  

Quick BI

  • 基本对象
    • 数据源
    • 数据集
    • 电子表格
    • 仪表板
    • 数据门户
  • 核心流程
    • 获取数据
  1. 从云数据库添加数据源
  2. 添加来自自建数据库的数据源
  3. 上传本地文件
    • 创建数据集
  1. 可以将各种不同的数据源中的表创建为数据集;
  2. 在数据集列表中,可以对已添加的数据集做编辑、移动和删除操作。
    • 仪表板:不仅可以将数据以可视化的方式呈现,还支持通过各种数据筛选和查询,使用各种数据展现方式,突出数据中的关键字段。
    • 电子表格:电子表格适用于群空间下。电子表格是数据集经过分析,加工后的结果。您在选中一个数据集后可以对数据的内容进行分析。
    • 数据门户:可以使用数据门户功能构建例如经营分析系统的应用。数据门户不仅可以引用Quick BI中的数据结果,同时也支持外挂链接。
  • 权限管理
    • 数据对象管理:数据对象支持分享和公开
  1. 被分享的作品可以被其他用户以只读的方式访问,但不允许修改、删除和另存;
  2. 互联网上所有知道链接的人都可以访问被公开的作品。
    • 行级权限管理
  1. 并不是数据集中的所有字段都需要进行行级权限控制;
  2. 目前,成员列表中仅能展示500个成员;
  3. 在列表选择中,有一个特殊的选项,所有。如果将这个选项赋予组织中的某位成员,那么该成员在该字段上将不再受行级权限的限制。

 

机器学习

  • 基本概念
  • 机器学习包括传统机器学习和深度学习。传统机器学习分为以下几类:
  1. 监督学习:样本都有对应的期望值,通过搭建模型,实现输入特征向量到目标值的映射;
  2. 半监督学习:训练数据部分有标识,部分没标识,模型先学习模型的内在结构,然后进行预测;
  3. 无监督学习:所有样本没有目标值,期望从数据本身发现一些潜在规律;
  4. 增强学习:系统和外界环境不断交互,根据外界反馈决定自身行为,达到长期目标最优化。
  • 机器学习PAI底层支持多种计算框架:
  1. 流式计算框架Flink
  2. 深度学习框架TensorFlow
  3. 千亿特征样本的大规模并行计算框架Parameter Server
  4. Spark、PySpark、MapReduce等业内主流开源框架
  • PAI提供的服务:
  1. 可视化建模和分布式训练PAI-Studio
  2. Notebook交互式AI研发PAI-DSW(Data Science Workshop)
  3. 自动化建模PAI-AutoLearning
  4. 在线预测PAI-EAS(Elastic Algorithm Service)
  • PAI的业务架构
  1. 基础设施层:包括CPU、GPU、FPGA及NPU。
  2. 计算引擎和容器服务层
  3. 计算框架层
  4. 按照机器学习全流程,PAI分别提供了数据准备、模型开发和训练及模型部署阶段的产品
  5. 业务层
  •  

你可能感兴趣的:(大数据,阿里云,大数据,ACP认证)