重磅发布！阿里云全链路数据湖开发治理解决方案

简介：阿里云重磅发布全链路数据湖解决方案，主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。阿里云重磅发布全链路数据湖解决方案，主要包含开源大数据平台 E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks  + 数据湖构建DLF + 对象存储OSS 等核心产品。近日，阿里云EMR重磅推出新版数据湖Datalake，100%兼容社区大数据开源组件，具备极强的弹性能力，支持数据湖构建DLF，数据湖存储OSS和OSS-HDFS，支持 Delta Lake、Hudi、Iceberg 三种湖格式。同时新版本 Datalake 对接阿里云一站式大数据开发治理平台DataWorks，沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。另外，解决方案提供了“统一元数据管理、数据入湖、数据存储、缓存加速、弹性计算、容器、数据分析、任务编排、运维管理，以及安全”等全面数据湖能力。通过了工业和信息化部中国信息通信研究院大数据能力专项评测，荣获“云原生数据湖基础能力专项评测证书”。阿里云全链路数据湖开发治理解决方案架构阿里云全链路数据湖开发治理解决方案使用 OSS/OSS–HDFS 作为数据湖存储，DLF 作为数据湖构建和管理工具，JindoFS 进行湖缓存加速，EMR 作为弹性计算引擎进行湖计算，DataWorks 进行数据开发和治理。DataWorks 各模块与 DataLake 深度集成，从而实现一站式数据湖开发治理。

EMR新版数据湖集群核心运维管控能力介绍弹性能力弹性伸缩支持按集群负载和按时间2种模式弹性伸缩组支持多种实例规格支持抢占式实例（相较按量付费成本降低80%以上）支持成本优化模式（弹性比例的按量付费+包年包月）集群管控能力分钟级别创建和扩容集群，无需手动部署和启动服务完善的集群监控和告警体系，覆盖硬件和引擎服务，支持配置告警模板新版数据湖对比Hadoop集群优势性能更优速度加快新版数据湖集群节点组扩容速度得到明显提升，单批次大规模节点扩容速度提升80% HadoopDataLake弹性扩容 10 节点4分钟1分10秒弹性扩容 50 节点8分钟1分30秒弹性扩容 100节点10分钟1分50秒支持并发支持任务节点（task节点类型）多节点组并行扩缩容，能够覆盖多种使用场景，业务效率成倍提升。功能更全伸缩能力更强大可以同时配置按时间伸缩和按负载伸缩。支持优先下线负载低的节点。配置规则不依赖于是否运行弹性伸缩活动，可灵活修改配置（仅影响下一次触发）。执行逻辑更贴近使用场景多方位调研用户真实使用场景，功能执行逻辑设计更贴近业务实际。如：1）弹性伸缩扩容策略支持多实例选择并按顺序弹出（兜底库存不足场景），弹性伸缩缩容支持配置优雅下线并默认按负载选择目标节点下线（减少缩容时对集群任务影响）2）同一节点组多个弹性规则同时触发时，默认按照用户规则排序依次生效（灵活应对多种使用场景）操作体验优化更丰富的配置提示和操作引导，并新增配置项预校验逻辑，降低用户学习成本和操作失败概率。成本更省弹性伸缩性能更优，功能覆盖更广泛的场景弹性伸缩生效更快，支持功能更全。可以帮助用户更快更好地对硬件资源进行敏捷管理，根据业务需要设置相关策略，自动变更集群规模，减少硬件资源浪费。通过灵活配置抢占式实例进一步压缩成本在新增节点组时，提供完善的抢占式实例配置策略和兜底策略供用户配置，用户可以根据其业务诉求灵活配置，通过配置抢占式实例能够进一步压缩成本。与Hadoop集群全面对比模块功能项新版数据湖集群Hadoop集群集群集群创建时间平均时间小于5分钟。平均时间小于10分钟。集群节点组新增节点平均时间小于3.5分钟。平均时间小于10分钟。开放API支持。支持。域名支持Private Zone。hosts地址映射。磁盘扩容支持热扩容，无需重启集群服务。不支持热扩容，需重启集群服务生效。节点组交换机可以在新建节点组时选择交换机。仅支持在集群创建时选择，集群创建后不可更改。挂载公网可以在创建集群的硬件配置页面的实例区域，选择是否为节点组开启公网。没有节点组类型的限制。仅支持在集群创建时选择是否开启公网，创建后如果您需要使用公网IP地址访问，请在ECS上申请开通公网IP地址，详情请参见弹性公网IP中的申请EIP的内容。仅支持Master节点组挂载公网。附加安全组支持。不支持。部署集可以在创建集群硬件配置页面的实例区域，选择是否开启部署集开关。可以在新增Core节点组时，选择是否开启部署集开关。功能受限。节点组状态支持。不支持。混合节点支持同规格的不同机型混合。仅支持同规格机型。弹性伸缩节点支持混合节点。弹性伸缩弹性伸缩弹性伸缩与节点组解耦，从独立的功能模块转为节点组操作，使用更加便捷。需要专用的弹性伸缩组，该节点组不可进行手动扩缩容。伸缩规则配置规则不依赖于是否运行弹性伸缩活动，可灵活修改配置（仅影响下一次触发）。同一节点组多个规则同时触发时，会按照用户规则排序依次生效。配置规则受到弹性伸缩状态限制，修改后无法立即生效。同一节点组多个规则同时触发时，随机生效。伸缩记录丰富了弹性伸缩记录信息。在查看详情页面新增了触发规则快照和执行结果参数，能够快速查看触发原因和变更节点信息。提供基础的伸缩记录列表。指标采集频繁每30秒采集一次。每30秒采集一次。伸缩活动生效时间规则应用后1~30秒。规则应用后1~2分钟。扩缩容扩缩容活动弹性伸缩活动与手动扩缩容活动运行机制相同。区别仅在于触发条件不同：弹性伸缩需要弹性伸缩规则触发。手动扩缩容需要人为触发。支持暂停弹性伸缩活动。多个Task节点组的扩缩容活动彼此独立，互不影响。弹性缩容根据节点负载和创建时间，智能选中目标节点，减少业务影响。弹性伸缩活动和手动扩缩容活动是两套机制，互不兼容。弹性伸缩活动不支持暂停状态。同时仅支持一个节点组进行（弹性）扩缩容。弹性缩容节点选择具有随机性。高可用与软件应用高可用不再支持本地MySQL作为Hive Metastore数据库。支持本地MySQL作为Hive Metastore数据库。支持部署集，3台Master分布在不同底层硬件以降低硬件风险。默认不支持部署集。NameNode与Resource Manager部署于3节点，并不再支持2 Master模式。Namenode与Resource Manager仅部署于2节点，支持2 Master模式。集群应用组件支持可选必选 + 可选。Spark2与Hadoop3组合支持。不支持。Spark3与Hadoop2组合支持。EMR-3.38.0之后版本支持同时部署。  DataWorks全链路开发治理能力介绍DataWorks 基于 EMR-Datalake、EMR-ClickHouse、CDP 等大数据引擎，为数据湖/数据仓库/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者，DataWorks 从2009年起不断沉淀阿里巴巴大数据建设方法论，通过智能数据建模、全域数据集成、高效数据开发、主动数据治理（数据质量、数据地图等）、全面数据安全、快速分析服务六大全链路数据治理的能力，与数万名政务/金融/零售/互联网/能源/制造等客户携手，助力产业数字化升级。

智能数据建模DataWorks智能数据建模沉淀阿里巴巴数据中台建模方法论，以维度建模为基础，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让数据仓库的建设向规范化，可持续发展方向演进。针对 Datalake 的智能数据建模能力将在2022年8月份正式发布。

全域数据集成DataWorks数据集成是开源 DataX 的商业化团队，在数据湖场景下支持50+种数据源之间的离线同步，包含数据湖常见的HDFS、Hive、HBase、OSS、Kafka等数据源，MySql、Oracle、SQLServer等数据库。同时，针对IDC>>云上、云厂商>>云厂商、云产品>>云产品、云账号>>云账号等各种同步场景，提供网络连通的解决方案，让客户在复杂网络环境、丰富的异构数据源之间，依旧保持高速稳定的数据移动能力。

高效数据开发DataWorks数据开发（DataStudio）与运维中心面向EMR-Datalake、EMR-CK、CDH等引擎，提供可视化开发的主界面，赋予用户智能代码开发、多引擎混编工作流、规范化任务发布的强大能力，帮助用户轻松构建数据湖、离线数仓、实时数仓与即席分析系统，保证数据生产的高效与稳定。数据开发-核心开发调度能力支持EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming共八种节点。远超开源的超大规模调度稳定能力（双11单日千万级任务实例）分钟/小时/天/周/月多种调度周期业务流程全局参数/节点上下文传参

数据开发-多种可视化数据对象管理及控制节点可视化资源文件上传（HDFS/OSS）可视化管理UDF（Java）可视化建表（支持HDFS/OSS）归并、赋值、顺序、循环、分支等控制节点。多种调度周期混合编排可视化业务流程编排

数据开发-智能SQL编辑器语法高亮关键词自动补全表/字段信息提示函数信息提示

任务运维-运行诊断运行诊断可帮助用户快速定位任务出错原因，例如上游依赖未完成调度资源不足数据质量规则拦截基线破线同时拥有补数据相关能力，方便用户快速处理运维情况。在告警方面，运维中心支持多种告警方式支持Webhook（钉钉、微信、飞书）、电话、短信、邮件等多渠道告警支持基于值班表配置告警人员，

任务运维-智能基线智能基线是DataWorks独创的监控技术，具备国家专利，用户无需配置每个任务的告警时间，仅需配置最终产出节点的告警时间，智能基线会基于历史的任务运行情况，在核心任务可能无法准时产出时，做提前告警，保障核心任务的生产稳定。

主动数据治理DataWorks数据治理包含数据治理中心、数据质量、数据地图等多个产品，覆盖事前、事中、事后的数据生命周期，通过数据治理健康分、质量规则、数据大血缘等能力，将书面的数据治理规范落地成平台化的产品能力，让数据治理不再一个 “阶段性项目”，而是一个“可持续的运营项目”。数据质量EMR HIVE节点支持DataWorks数据质量规则，内置37种数据质量规则模板，可以进行可视化、批量数据质量规则配置，提高数据质量规则配置效率。同时该模块与数据开发调度深度集成，可通过调度触发规则运行，节省计算资源，及时发现问题。支持37种内置数据质量模板规则支持批量配置规则、规则模板支持绑定调度引擎并在质量报警时阻塞业务流程支持动态阈值（顶会论文技术，算法自动判定告警阈值）支持SQL自定义规则支持短信、邮件、钉钉告警支持自定义数据质量报告支持质量问题处理记录同时，数据质量支持强弱规则设置，进行灵活的运维控制。强规则，直接阻塞下游任务运行，防止问题数据污染下游，浪费下游执行的计算资源弱规则，只告警，不阻塞任务运行，针对一些非核心任务。

数据地图数据地图支持完整的EMR-Datalake元数据体系，可以针对表名、字段名进行快速搜索，基于表、字段血缘浏览上下游关系快速找表，包括：支持表基础信息、业务描述信息、产出信息等支持分区、字段的明细信息与变更记录支持表的产出信息解析（包括对表写入数据或者创建分区的调度任务）支持表、字段的血缘信息解析（实时解析）支持对表进行分级分类、收藏等操作支持全局检索、按类目导航检索、按类目过滤表基础信息：

表血缘信息：

全面数据安全在数据安全方面，DataWorks支持Datalake引擎数据全生命周期的安全管理。包括以下5个方面：数据传输安全数据源访问控制数据存储安全存储加密数据备份数据处理安全Ranger精细化数据授权管控规范化开发流程，开发环境、生产环境执行身份独立管理数据交换安全数据脱敏通用数据安全RBAC权限模型操作行为审计LDAP认证管理快速分析服务SQL查询：完善的SQL查询编辑器，支持即席查询Hive、SparkSQL、Impala

电子表格：即席分析数据，Web类型的Excel

数据服务：低代码快速搭建ClickHouse API 开通购买快速开通使用快速入门：https://help.aliyun.com/docum...使用须知：https://help.aliyun.com/docum... 迁移助手调度任务迁移为了帮助客户快速将原有的调度任务迁移到DataWorks上使用，我们提供了迁移助手，支持以下任务迁移能力：支持Airflow，Oozie，Azkaban工作流迁移支持EMR数据开发一键迁移至DataWorks工作空间之间各种数据对象迁移

    欢迎钉钉扫码加入EMR产品交流群

原文链接：https://click.aliyun.com/m/10...本文为阿里云原创内容，未经允许不得转载。

重磅发布！阿里云全链路数据湖开发治理解决方案

你可能感兴趣的:(后端)