数造DataBuilder(一站式数据开发管控平台),融入DataOps的理念,把敏捷开发运用到数据工程管理上,旨在提升企业在数据开发及数据治理的效率和质量,实现数据从需求到交付的全生命周期管理,为业务带来快速的商业价值。
自2022年4月发布DataBuilderV2.1版本以来,新版本产品在金融、零售、新能源、政企多个行业客户进行现场成功落地,为客户保障了多次重大生产经营活动。但随着产品在应用过程中,客户业务发展对数据管理平台提出了新的需求。
对此,数造科技基于对各大行业数智化的产业洞察,技术积淀及数据治理上的丰厚落地经验。针对客户在数字化转型过程中的痛点,以DataOps为理念依据,打造全新的DataBuilderV2.2版本,为客户的重要业务场景赋能。新版本到底有哪些新亮点?适用于哪些应用场景?可以为客户解决哪些数据开发管理问题?下面一起来看看吧!
在实际开发场景中,由于开发环境缺少数据或在任务调优阶段测试环境数据量过小而无法模拟真实场景,常常需要在开发阶段读取生产数据进行开发、测试。为了满足读取生产数据的需求,只能在开发环境、测试环境中导入生产数据,往往存在数据同步耗时长、数据结构更新不及时、资源利用率低等问题!
Q:能不能在不移动生产数据文件和不影响生产数据安全的情况下能够让开发人员和测试人员利用生产数据做开发和测试?
A:这题我会!DataBuilderV2.2版本新增了数据沙箱功能。通过数据沙箱功能打破生产数据使用壁垒,建立数据仿真、资源租户化的安全管控模式,让生产数据能在开发环境、测试环境中灵活使用。
1、完善的安全保障机制,采用租户模式对数据权限进行管理,通过租户权限隔离策略保障生产数据安全,同时支持审计与权限回收;
2、更灵活的沙箱数据使用模式,按需申请、构建和使用沙箱表,基于平台内置的数据开发空间提供更灵活的SQL任务执行过程和任务调度过程;
3、在DataBuilderV2.1,我们实现在一套集群上支持开发、测试和生产态的Dataops。在DataBuilderV2.2中,我们通过数据沙箱功能,使得这个DataOps的过程更加安全、便捷和高效。
Q:数据集成任务一碰到脏数据就报异常,任务被迫中断,能不能先归档下来再做处理?
A:数据集成任务新增了“脏数据”处理,启用“脏数据”策略后,将在任务运行过程中收集“脏数据”并存储至HDFS上,运行结束后可以前往下载。“脏数据”限制条数将数据阈值(“脏数据”条数)和比例阈值(“脏数据”占比)中最先触发的条件为准。如不启用则在出现第一条脏数据时运行报错。
同时为了应对更多的数据应用场景,数据集成任务添加了对以下数据源的支持。
1、新增对StarRocks、ElasticSearch、Clickhouse、MongoDB、FTP、SFTP数据源的读写支持;
2、新增对MySQL及PostgreSQL分库分表场景的支持,支持相同schema的多个来源表对一个目标表的数据集成;
3、新增对MySQL数据源并发读取功能,支持对数值型或日期型字段进行切分后分片读取,降低对MySQL读取的压力。
Q:传统的元数据管理系统存在元数据更新不及时、可信度差,语义不丰富,缺乏使用元数据、应用范围窄等问题,使用体验差。
A:全新数据地图,提供更直观和智能的数据资产发现方式,更丰富的数据资产信息。
搜索更匹配,支持根据元数据名称、标签、主题域等关键字信息进行全文检索,支持多条件组合查询;
搜索更快捷,支持对用户输入的关键字进行联想提示,支持展示用户的搜索历史,支持展示近一段时间的热门搜索词;
找数更精准,对搜索结果进行打分排序,通过当前owner、质量分、浏览量各个指标对搜索结果进行打分;
表资产详情页面,新增样例数据展示、数据质量报告展示;
新增资产评论,与数据负责人及其他用户在线互动,自助理解及发现数据;
支持指标、模型元数据的搜索和查看。
(数据地图)
(数据资产详情-数据质量报告)
Q:随着公司业务的快速发展,业务需求变化越来越敏捷,每个业务部门都有各自的资产分类诉求,如何适应市场的快速变化?
A:数据资产目录功能提供从数据层次、业务主题、资产使用场景、资产类型等多个维度,灵活定义资产目录层级结构以及挂载资产,以便更好地管理和使用数据资产。
Q:如何能根据业务需求精准找到需要维护的元数据列表,批量维护业务元数据?
A:1、通过元模型属性结合“(、)、且、或”组合成高级搜索条件,对元数据信息进行搜索过滤,筛选出符合条件的元数据集合。
2、支撑将筛选结果导出为excel,通过线下编辑的方式批量维护业务元数据信息,再上传导入。
轻松实现元数据批量维护,业务数据处理更便捷!
Q:任务开发、测试及调度过程中将产生大量中间过程文件,上百TB的内存都不够用了,这个问题也很头疼呀!
A:针对这个问题,小造新增了对存储空间的管理。分别从以项目为单位进行存储空间统计;支持自动或手动对文档进行批量压缩、删除等归档处理;并且保留对历史操作记录。让服务器存储空间使用更合理,平台使用更加流畅稳定。
基于AntV X6重构了DAG图引擎,支撑上万节点的DAG图展示和操作,并重新设计前端交互样式,进一步提升提升图形页面交互体验。
管理控制台:优化工单设计页面审批流程图操作交互;
数据开发:优化工作流看板页面DAG图操作交互;
调度监控:优化工作流详情页面DAG图、历史DAG图操作交互;优化任务详情页面上下游依赖图操作交互。
主要面向已经有了数据平台的企业,目前数据开发效率低或者不规范的企业,提供在线的数据协调开发与管理能力,帮助客户统一管理数据开发过程,屏蔽数据平台底层技术细节,提升数据开发效率和标准化。
另外,对于数据及时性要求较高,有实时计算的场景,例如精准推荐、实时风控、安全生产监控等应用的,可以提供实时数据开发平台满足实时数据、指标的开发。
主要面向中大型且在数字化转型阶段,希望将数据以资产的方式进行运营,并满足提供统一、完整、准确、权威的数据服务,需要建设企业数据中台或者企业级大数据平台,以提供完整的数据发现、数据设计、数据开发和计算和存储能力。
主要面向需要进行数据治理或者数据资产平台的企业提供数据治理和数据资产管理能力。包括:
无 hadoop 平台,数据分散在不同业务系统,需要通过构建数据平台进行数据资产建设的企业。
有 hadoop 平台,但数据不可见、数据质量差的企业。
强监管的金融类企业。
传统数仓开发主要还是基于ETL的数据工程,存在几个明显弊端:
1)复杂的开发过程:大数据组件繁多,不同任务类型需要配置不同的计算引擎和数据底座参数,且开发协作混乱,导致数据开发过程复杂且分散,数据工程开发效率低且质量差;
2)漫长的数据等待:数据从开发到上线,需要经过数据准备、数据加工、数据测试再到投产的漫长过程。在此过程中需要人工切换不同环境进行测试和验证,且存在测试环境过于简单无法验证真实生产环境要求,容易返工,造成数据分析需求上线时间过长,无法满足数据分析的时效性;
3)繁重的任务运维:传统上千上万的作业调度和运维工作繁重,作业之间依赖不清晰,问题排查困难;
4)混乱的版本管理:传统数据工程版本管理缺乏版本管理或者版本管理主要考人工,当投产失败后需要问题追溯和版本回滚时往往耗费较长的时间。
数造科技企业级大数据平台解决方案分别从管理域、开发域、流程域,为企业提供在开发状态、测试状态、生产状态的数据全生命周期的全流程服务,解决敏捷开发运用到数据工程管理等难题,提升数据价值变现效率,以过硬的综合实力助力企业数字化转型。
敏捷数据开发管道
提供从数据集成、数据开发、持续集成、持续测试、持续部署、调度监控的敏捷数据开发管道。
分布式任务调度
分布式任务调度,支持海量作业调度及可水平扩展能力。
开放的平台生态
支持开放的数据架构,深度与开源社区融合,并且在大数据底座、数据服务支持适配第三方平台。