某大型国有能源集团成立于2002年(以下简称为“某能源集团”),属国务院国有资产监督管理委员会监管的中央企业,是关系国家安全和国民经济命脉的特大型国有重点骨干企业。在2021年《财富》世界500强中,某能源集团名列前茅。作为国家能源行业的头部企业,某能源集团积极推动数字化转型助推碳减排和产业升级,计划开拓大数据建设运营业务市场,逐步建立及孵化大数据中心建设运营管理能力。
然而,某能源集团的数据使用者面对日益复杂的数据业务和海量数据时,缺乏统一的数据协同,这对集团内部的数字化转型增加了难度,甚至制约了业务的增长速度。如何安全、有序地开放平台能力和平台数据,满足集团内部各部门、各级单位的数据应用建设和使用需求,推动数据的共享利用,已成为当前面临的重要难题。
1、数据发现难,找数效率低。由于数据分布在不同地方,元数据独立维护,没有进行统一元管理,导致数据消费者找数的效率低,没有形成统一的可见、可用的数据资产
2、缺乏完整体系化的数据开发平台。数据仓库采用多套hadoop集群和Greenplum混合的数据架构,不同的任务需要在不同的集群环境和工具里面进行配置和开发,导致开发效率低,数据等待时间长,难以满足业务快速上线要求。
2、离线数据分析无法满足业务实时分析需求。体现在数据应有的各个过程中,数据难以实时调用,降低数据使用者决策效率。
4、缺乏统一的数据管理平台。总部下发的数据标准、数据模型在分省公司未得到有效履行等问题,导致数据上传到总部后标准不一,口径不一致。
对于业务人员:仓库那么多数据,都支持了哪些应用?数据价值如何?这些数据还能用来做什么?技术人员能不能快速地给我提供弹药。
对于开发人员:总部数仓都有什么数据?数据存储在哪?数据的含义是什么?业务快速要出结果,这么多开发工具适配真复杂,能否在线提供快速的业务自助式、可视化开发工具。
对于运维人员:能像公有云一样提供数据资源自动化、管理维护自动化、数据管理策略自主化。
总部技术管理部门:关心开发规范、数据规范、数据标准、数据安全、数据资源的灵活调度等集中管控功能。
集团技术管理部门:关心开发规范、数据规范、数据标准、数据安全、数据资源的灵活调度等集中管控功能
为解决业务技术痛点,某能源集团与数造科技达成合作,旨在打造集合数据发现、数据管理、数据开发等功能的数据全生命周期的企业级大数据平台。为某能源集团提供数据集成、开发、测试及发布的平台工具,同时打通数据协同工具与统一门户、自助分析工具、报表工具等的数据链路,为数据使用者提供更好的数据申请、数据开发及数据消费的作业体验。
自助数据探索。通过灵活的数据探索工具,方便开发人员对不同数据源数据进行预先分析,以及对结果进行查看验证,提高工作效率。支持业务人员碎片化的自助数据检索
基于Monaco实现SQL脚本编辑器,支持关键字高亮显示、库名/表名自动带出、搜索、替换等常用的脚本编辑功能。数据源切换表管理、schema查看。
支持数据离线分析,数据实时反应。DataBuilder全局数据发现能力,面向不同的数据角色,提供自助的数据发现、探索、准备和分析服务,满足不同角色用户对数据的分析需求。
一站式数据开发。可配置数据平台引擎,分配租户资源;支持python、HiveSQL、SparkSQL、GreenplumSQL,支持实时SQL血缘解析;提供强大IDE的开发体验;支持流数据处理和计算,通过拖拽方式快速配置;支持自定义函数;支持版本管理;区分开发环境、测试环境和生产环境,保护数据安全;支持在线数据探索
任务发布。任务提测和发布的管理过程,对开发质量做到统一的监管。自助打包提交表、脚本、任务、任务DAG,生成发布包,支持发布包一键提测、上线。采集冒烟测试运行情况,日志,性能指标,生成测试报告。
数据源管理。对数据集成的数据源接入、配置等进行管理。支持的数据源类型有:关系型数据库、NoSQL数据库、大数据数据库、文本存储。
数据集成。数据集成提供对业务方数据库进行抽取监控功能,能对数据源进行数据同步与集成。包括对关系型数据库、NoSQL数据库、大数据数据库、文本存储(FTP)等数据库类型支持,支持离线数据的批量、全量、增量的同步。
运维管理。以DAG图的方式展示任务/工作流依赖关系,实时监控任务的运行状态。按调度周期自动运行、故障/出错告警。任务的定时调度、依赖调度、手动调度、停止/恢复,手动设置任务状态。查看任务的运行历史。任务优先级、任务并发度、失败重试、执行超时,查看任务的运行日志。丰富的任务类型:Shell、Python、Hive、GreenplumSQL、Spark SQL、MR等。调度监控统计(任务运行情况汇总、任务节点执行时长排行、近一个月报错排行、调度任务数量趋势图、任务类型分布情况等)。
管理控制台。可通过控制台中的概览页面,找到最近使用的项目,进入该项目的数据开发或对其进行配置,也可以在此页面创建项目。在概览模块提供快速入口栏,帮助用户快速进入数据开发模块。
项目空间管理。每个团队都可具有独立的项目空间,通过控制台快速创建项目,对当前项目的基本属性进行管理和配置。可配置项目空间的项目成员,当用户加入项目空间并被分配相关权限之后,才可查看或编辑代码。项目成员角色包括管理员角色、开发者角色、测试人员角色、访客角色,根据不同的角色设置不同的项目空间访问权限。
项目配置。为项目空间绑定存储资源和计算资源,实现按需分配资源和项目空间资源安全隔离。以项目为单位申请数据库资源,获取该数据库的开发权限,可申请hive和greenplum数据库资源。
某能源集团在做各地区电力负荷分析,需要掌握实时用电量情况,为集团业务员规划和运行提供决策支撑。数造科技DataBuilder全局数据发现能力,面向不同的业务分析人员、数据科学等角色,提供自助的数据发现、探索、准备和分析服务,满足不同角色用户对数据的分析需求。
1、业务提出需求,开发人员根据需求做设计,通过数据集市查找数据。
2、在数造工厂上创建项目,申请数据资源。
3、新建数据探索脚本,编写数据探索脚本,运行查询结果。
4、通过导出到本地及迁移到新表功能导出结果给相关业务人员。
针对数据开发项目提交测试和上线生产,进行指标和报表开发。分别从管理域、开发域、流程域,为企业数据开发工程师,提供在开发状态、测试状态、生产状态的数据全生命周期的全流程服务,解决敏捷开发运用到数据工程管理等难题,提升数据价值变现效率。建设数据工厂后,实现一站式开发、快速便捷的数据开发模式。
1、开发人员开发并单元测试完成后,通过提交按钮将开发任务提交到任务发布子模块。
2、项目管理员选择多个发布任务打包成发布包,发起提测流程。
3、审批通过后,测试人员根据发布包内容执行测试任务,系统自动记录任务的运行时间和运行情况并自动生成测试报告。
4、测试人员完善报告并结束提测流程,并通知项目管理员发起上线申请。
5、项目管理员提交上线申请,审批通过后,系统自动将表、脚本、任务依赖再生产环境部署调度。
某能源集团在进行持续完善数据资产体系建设过程中,需要沿企业主业务流打通信息链和数据链,统一管理数据资产,提升数据质量,以推广业务市场发展。
面向数据治理工程师,数造科技打造的企业级大数据平台,以维度建模为理论基础进行体系化建模,以事前治理的理念驱动,让元数据贯穿其中的建模流程,上承指标、维度的定义,下接实际的数据生产,提前对数据进行规范约束,减少后期的数据治理的复杂度。以支持运营效果的提升和经营结果的真实呈现,让大数据回归资产本质,充分实现数据资产价值。
成效一:加快数据开发速度,节省项目数据开发时间。通过DataOps实现代码和数据的持续集成和迭代,解决了以往数据开发过程复杂、协作困难的问题,打造一站式开发、快速便捷,实现企业数据开发周期从以前一周缩到现在2天以内。
成效二:实现自助数据准备与分析。构建流批一体化的数据湖,实现自助化、便捷化的数据探索,助力用户快速找数和用数。
成效三:增强企业数据合规和可信。建设数据工厂,在统一的平台实现数据开发任务从设计态到运营态,且跨开发环境、测试环境和生产环境的任务发布流程,数据开发过程更标准化、协作性更强、安全性更高。
成效四:加快数据需求响应速度,实时响应数据需求。传统数据整合方法受制于各类开发工具、数据开发人员、ETL 研发流程与数据架构设计等因素,少则几天、多则数周才能获得结果,而 数造科技数据开发管理技术可以实时响应数据需求。