Dataphin V3.6版来了!多项能力升级,助力企业提升全链路数据治理能力

Dataphin（智能数据建设与治理）是阿里巴巴集团数据治理方法论基于内部实践的产品化输出，致力于帮助企业用中台方法论治理企业级好数据，构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。

Dataphin V3.6版本全新上线概念建模、基线运维、全域数据质量监控、数据标准标准落标映射等核心功能，为企业建设贯穿事前、事中、事后的全链路数据治理能力添砖加瓦，助力提升资产价值。

新版本升级后，可以更高效地帮助大家做什么呢？来看几个小场景，就一目了然了。

· 自动化基线运维代替人工监控
“有了基线运维功能，数据研发同学再也不用天天盯着屏幕看核心任务是不是都开始运行了，也不用经常检查是不是漏配了监控，还能提前收到风险预警，预留充足的处理时间，大大减少了工作量”

· 开箱即用，助力全面提升数据质量
“升级后开发同学不仅能监控仓内表的质量情况，还能监控数据源内的表，在数据引入环节就能发现质量问题，将风险前置。同时因为Dataphin V3.6版本内置了丰富的质量规则模板，不用写SQL也能配置出支持灵活业务需求的监控规则了，再也不怕业务小哥给来提需求了。”

· 简化补数据配置，数据回刷更快更稳
“以往配置补数据任务时，最怕误选了暂停调度的节点，整个补数据进程都可能被阻断。有了一键过滤暂停调度任务这个功能，可以放心补数据了，操作效率飞涨。”

· 灵活的脱敏配置，适配业务需求
“运营同学说性别维度可以用来做分组条件，只在展示的时候脱敏就行啦；财务同学说薪资是绝密数据，一定要在查询时就脱敏，从根本上杜绝数据泄露；有了脱敏策略配置，再也不怕这种灵活多变的需求。”

Dataphin V3.6版本升级功能点

1、贯穿事前规划、事中监控、事后稽核的全链路数据治理能力

· 概念建模：可视化定义基于实际业务场景抽象出的业务实体及关系，以更好地反映业务之间的联系，并为逻辑模型建设提供依据。
· 智能基线监控：支持配置天基线，添加需要保障的关键任务或字段后，系统可基于依赖关系自动圈选需要纳入监控范围的任务，同时支持配置灵活的告警规则及接收方式，以降低人工运维成本。
· 全域数据质量：拓展支持针对多种数据源表的质量监控，内置丰富的质量规则模板，同时支持基于业务场景自定义监控规则，以提升配置灵活性和业务监控覆盖面。
· 数据标准落标：新增支持批量导入数据标准，提升配置效率；支持基于标准属性和字段元数据进行关联映射配置，实现标准和资产的关联，作为后续落标稽核的基础。

2、拓展多引擎、多类型数据源、多消息渠道，满足企业多元化数智应用需求

· ADB引擎适配：新增适配以AnalyticDB for PostgreSQL作为计算引擎，可支持数据集成、离线&实时数据研发、数据质量、资产安全、数据服务等功能，助力企业构建统一的数据仓库平台。
· 数据源拓展：新增支持达梦数据源可用于离线集成、提升对国产数据库的支持度；Hive及HDFS的数据源增加EMR版本选择，实时集成输出组件新增支持Hive，增强对Hive数据源的适配度。
· 自定义消息渠道：支持自定义消息发送渠道，通过配置化的方式实现与阿里云电话&短信、企业自有消息渠道的对接，以接收任务监控、质量监控、数据服务监控等告警信息。

3、研发体验优化，加速企业数字能力建设

· 编辑器优化：优化报错提示，可快速定位到错误代码行并提示错误原因及修复建议；新增set参数提示，可查看参数的默认值、类型及说明，提升数据开发效率。
· 集成组件优化：Orcale组件适配特殊字符的处理以减少运行报错，hologres组件支持填写SQL准备及完成语句，hana组件支持小写表名等，降低集成任务配置成本
· 补数据优化：支持一键过滤下游暂停调度的任务及其全部下游，以保障补数据整体链路可正常执行，减少人工筛选成本
· 脱敏方式拓展：支持配置底层查询直接过敏或仅展示脱敏，以支持简单的where/join等子查询场景，对业务使用更友好

重点特性介绍

特性1：基础研发版支持AnalyticDB PostgreSQL计算引擎

应用场景：构筑可线性扩展的企业数据仓库服务，加速企业数据分析和运营体系搭建

AnalyticDB PostgreSQL强兼容PG/Greenplum开源生态，兼容Oracle/TD语法生态，具备秒级弹性和数据共享等国内领先的产品能力；支持复杂SQL优化、海量数据关联聚合、资源负载管理，可提供PB级企业数据分析服务。

Dataphin基础研发版支持以AnalyticDB PostgreSQL作为计算引擎，用户现有的OLTP数据库实例，如RDS MySQL，PostgreSQL，或传统数据库实例 Oracle，SQL Server等，均可以通过Dataphin的数据集成和调度能力同步到AnalyticDB PostgreSQL；结合数据质量监控、安全分类分级及脱敏配置等功能，打通入库、清洗、分析和洞察的全链路，助力企业构建统一的数据仓库平台，加速面向业务场景的数据分析和运营体系搭建。

特性2：概念建模

应用场景：可视化定义基于实际业务场景抽象出的业务实体及关系，为逻辑模型建设提供依据

主题域层级从1级拓展到最多5级，企业可基于主题域更好的构建资产类目体系，实现数据分层管理。

新增概念建模能力，在数仓规划及数据架构设计阶段，支持可视化配置基于实际业务场景抽象出的业务实体及其之间的关系，并以实体关系流程图的形式直观展示，有利于数据消费者更好理解数据和数据对应的业务。如制造业中的“原材料采购”场景，可以抽象出“客户、订单、原材料商品、地址”等业务对象，以及“供应商询价、下采购单、财务预付款、供应商发货、到货签收、财务付尾款”等业务活动。

此外，业务实体间的关系类型，在原有关联, 继承, 层级的基础之上, 新增前后序、流转、包含关系, 以便更精确的反映真实业务联系。如：“采购”流程包含“供应商发货”和“到货签收”两个事件，两个事件之间是流转关系，而“采购”是“供应商评审”的后续流程。

概念模型创建完成后，可基于定义的业务实体快速创建对应的逻辑表，默认继承实体之间的关系并自动翻译为数据表之间的关联逻辑，实现概念模型和逻辑模型的映射，为模型开发提供业务输入和指导。

特性3：基线运维

应用场景：保障核心业务数据的产出任务，及时发现异常并预警，降低对业务用数的影响

1、添加需要保障的任务或字段后，系统将基于依赖关系自动推算需要纳入监控范围的上游节点，降低人工配置成本。

配置时只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可，而无需关心整体依赖链路的上游节点，系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来，即使更新了任务依赖关系，也无需更新基线配置，大大降低了人工操作成本；同时也提升了监控准确性，避免因为配置不同步而导致的监控缺失。
2、可自定义配置基线整体的预警及破线告警、基线监控范围内单个节点的运行出错或变慢告警，便于及时发现异常并处理。

可以将需要保障数据的预计产出时间配置为基线的“保障时间”；同时可以根据任务复杂度和业务重要程度，预估任务运行出现异常可能需要的处理时间，将其配置为基线的“余量”，承诺时间-余量即为基线的预警时间。周期运行过程中，系统将根据基线链路上每个节点最近7天的历史运行概况，推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间，则会发送基线告警，给开发人员和业务人员对应的通知。

此外，还可以给基线链路上的单个任务或字段配置运行变慢或运行出错的告警，便于尽早发现可能出现的异常并处理，保障业务数据能正常产出。

3、支持查看每条基线的运行详情，如果存在预警或破线的风险，可自动识别定位到关键路径上的关键实例，便于开发运维人员直接处理，减少人工分析定位。

特性4：数据标准

应用场景：支持标准和资产的映射关联，以作为质量稽核的参考，提升企业资产治理水平。

1、标准属性配置优化，支持批量导入数据标准，提升配置效率。

支持配置属性字段的取值类型（自定义输入、枚举单选、枚举多选）及取值约束，同时也可引用码表作为枚举取值来源，以增强标准定义的规范性。如，指标的“业务分类”属性需要来源于企业的“业务系统”码表、“字段长度”属性的取值范围需要限制在0~128字符等。

支持下载标准定义模板，并通过上传Excel文件方式批量导入数据标准，实现历史标准的批量迁移入库。支持查看导入执行日志；支持配置导入冲突处理策略；支持一键下载异常记录及异常提示，以提升配置效率。

2、支持基于标准属性和元数据字段进行关联映射配置，实现标准和资产的关联，作为后续落标稽核的基础。

支持将标准属性和资产元数据进行关联映射配置，实现标准和资产的关联。可以在资产目录查看字段及指标的落标映射结果，以便参考映射到的标准定义进行开发，将数据治理前置到研发链路。针对不满足关联标准的资产，可以尽早进行整改，提升企业整体数字能力建设的标准化成熟和资产的健康度。

3、支持码表、词根的定义及管理。

码表可用于约束标准属性字段的取值范围，提升标准定义的准确性；词根可作为数据表、字段等研发对象命名的参考依据，提升研发规范性。

特性5：全域数据质量

应用场景：通过对全域数据表及数据源的监控，将数据质量风险前置，进一步提升资产健康度。

1、支持计算引擎内及多种数据源表的质量监控，支持数据源连通性及表结构异动性监控。

数据质量模块分为域内版和全域版。其中，域内版可以针对计算引擎内的物理表及字段，以及Dataphin特有的逻辑表、指标和实时元表进行质量监控；同时还支持对已创建数据源的连通性以及监控范围内的表结构异动性进行监控。全域版在支持计算引擎内物理表的基础上，还支持10余种数据源的表监控，如MySQL、Oracle、Hana等。结合使用全域版和域内版的功能，能够拓展可监控的资产对象类型，将数据质量风险前置，降低对后续研发链路的影响。

2、基于DAMA体系内置丰富的质量规则模板，开箱即用；可自定义监控规则并支持配置规则触发方式，以灵活适配多样化的业务需求。

基于DAMA（国际数据资产管理协会）体系，Dataphin质量模块内置完整性、唯一性、及时性、一致性、有效性、稳定性6类场景的系统模版及规则，大大降低使用门槛；支持自定义SQL的方式创建规则模版，以灵活适配多样性的业务需求。此外，支持配置灵活多样的规则触发条件，如定时触发、代码运行触发、任务调度触发等，可满足不同的开发场景。

3、自动生成质量监控报告，支持查看下载异常数据，可作为质量整改的参考。

特性6：编辑器优化

应用场景：优化报错及参数自动提示，提升开发效率和使用体验。

1、报错提示优化：支持快速定位到错误代码行并标识错误语句，提示错误原因及修复建议；可自动识别不规范的代码语句，支持一键修复或忽略提醒。

2、支持set参数提示：提示可选的参数，并支持查看参数的默认值、类型及说明；指定参数后，如有默认值或枚举值，自动提示可选值。

特性7：实时集成支持增量同步到Hive

应用场景：实时增量从MySQL或Oracle抽取数据同步到Hive

支持批量在Hive目标库自动建表，可自动为目标表添加系统附加字段；支持处理DDL，如新增表、删除表、表结构变更等8种场景；提供预览字段功能，可查看源表与目标表字段的差异对比，减少手动建表操作。支持智能检查目标表规范性及可用性，针对异常结果给出告警、错误等不同等级的提示，将问题前置以降低任务运行错误的可能性。

此外，新增实时集成任务的提交详情，异常及风险提示一目了然，校验流程透明化。

特性8：离线集成组件优化

应用场景：适配多种数据源的特殊逻辑及异常处理，提升集成任务配置流畅度。

输入组件，对PostgreSQL、AnalyticDB for PostgreSQL类型的数据源，在使用QuerySQL方式时，支持添加常量字段

Hana组件支持小写表名

由于AnalyticDB for PostgreSQL仅支持在建表时指定分区字段，不支持后续添加，因此在整库迁移目标数据源为AnalyticDB for PostgreSQL时，自动添加分区字段，以适配需要创建分区的场景

Hologres输出组件支持填写SQL准备语句和完成语句

优化Oracle来源表带有特殊字符（如/）时的处理策略，使离线管道任务能正常运行而无需使用自定义组件，降低配置成本

特性9：补数据支持过滤暂停节点

应用场景：批量选中多层节点进行补数据，可一键过滤暂停节点，避免阻断补数据任务执行。

调度方式为“暂停调度”的任务，生成的补数据实例默认为暂停运行。暂停运行的节点会阻断下游其他实例的运行，此外如果选择了多个补数据业务日期且设置为周期间串行（即并发分租数为1），还会影响后续业务日期实例的执行，阻断整个补数据进程。

基于该背景，Dataphin新增支持在配置补数据任务时，可一键过滤暂停调度的任务极其下游节点。此外某些场景下，暂停调度的任务在补数据对应的业务日期下需要正常参与调度，如每月第一天运行的财务月结算任务，需要在指定的临时结算日期运行。针对这种场景，新增支持配置选中的暂停任务在选中的补数据业务日期的运行方式，可选空跑、正常运行、暂停运行，以灵活适配多样性的业务求。