本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。
部分资料内容:
在本次项目中,我们将通过大数据治理子平台的建设,提供数据标准管理、元数据管理、数据质量管理能力,实现对数据的规范治理与管理;并提供数据工厂能力,实现对归集的数据进行清洗、加工,支撑业务的数据应用需求。
数据治理就是将数据转化为资产的手段和方法,采用数据治理系统工具,以分布式存储和运算为基础,通过人工智能和机器学习技术,辅之以适量的人工训练和专家反馈不断优化数据理解和数据关联。
本次项目中,数据整理治理子平台的建设将围绕区级大数据资源平台的应用建设目标,提供全面的数据治理能力。数据治理平台通过对数据全生命周期、端到端的全链路透明化管控,实现“数据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化”,实现数据资产的统一管理及全业务流程的实时监控,有效解决数据资源不可知、数据质量不可控、数据关系不可联、数据脉络不清晰的痛点问题。
通过数据治理子平台的建设与实施,可以将海量、分散、多样化的数据通过汇集、标准化、清洗等操作对数据的质量进行全面的提升和监控,形成全区大数据的管理机制,并提供一站式数据治理体系,持续不断的挖掘和提升数据的应用价值。
本项目建设的数据治理子平台适用于分析型系统数据处理的各个过程,负责数据的加工处理以及加工处理过程数据标准、元数据和数据质量的管理。平台可以提供数据输入、数据加工、数据输出和贯穿数据处理各个过程的全流程、全生命周期的数据处理、数据治理和数据管控的一体化建设。
平台采用工厂化的数据处理和管理模式,通过数据生产计划、数据生产执行和数据生产管理三大子模块,保障数据处理全过程透明可控,实现工具化、流程化和自动化的开发、运维、管理,提升数据开发、生产的效率,保持系统健康、持续、稳定的发展。具体,本次所建设的数据治理子平台的整体架构如下:
l 数据生产计划模块:主要功能为:需求设计、设计确认等。
l 数据处理执行模块:负责数据处理计划的执行、数据的生产和数据质量控制等工作。
l 数据处理管理模块:负责软件开发和数据规范的管控。
为实现工厂化的数据处理和管理,本项目数据治理子平台采用基于元数据驱动的开发模式,保障元数据与实际系统情况的一致性,通过元数据准确描述系统,指导系统建设。具体,平台的技术架构设计如下:
l 提供数据对象设计功能
l 提供元数据获取和管理功能
l 提供数据质量管理功能
l 提供对象化接口模块
l 提供与各类底层平台对接功能
l 提供可视化的标准IDE环境
l 提供基于元数据血缘图的调度功能
在本次项目中,我们需要制定全区公共数据汇聚的标准规范和管理制度,归集全区各单位的政府公共数据,形成XX区的数据资源湖。同时经过对数据进行清洗、转换、融合、治理后,形成高质量的公共数据资源,构建形成标准化数据仓库。
基于全区的数据资源湖,利用经过治理后的数据,可以针对某一特领域的业务数据共享、应用需求,按主题归集形成专题库和主题库,并面向政务部门及社会进行数据开放。此外,我们还将持续开展、深入区级大数据的应用探索,围绕跨部门、跨领域、跨行业的数据应用需求,对数据实体进行数据关联、数据融合和衍生计算,生成算法标签,逐步建立不同领域的应用专题或主题库构建面向全区多部门提供统筹的数据共建共享共用的数据服务。具体,在本次区级大数据资源平台建设项目中,数据资源门户的建设内容包括:
Ø 建立XX区级数据湖:构建全区公共数据的存储与计算空间,支撑各类数据资源的汇聚存储、处理计算与查询应用,并依据部门类别、数据源类别等提供资源隔离的多租户数据应用空间;
Ø 完成数据对接的实施:完成与区各委办业务与管理系统、S市大数据资源平台以及物联网相关平台数据的对接,汇聚各类业务数据,形成全区公共数据资源池;
Ø 建设基础库:建设全区统一的基础人口综合库、法人综合库、电子证照库以及地理空间库,支撑全区人口、法人、电子证照与地理空间等数据相关应用;
Ø 建设主题库:建设全区统一的产业经济主题库、电子证照主题库、权力事项主题库等,支撑全区产业经济相关数据应用。
资源目录管理实现数据梳理、编目、目录管理、目录服务等管理,建立和维护公共的共享信息资源目录,实现信息资源的发现和定位,协助共享平台管理部门梳理服务目录,同时指导各部门进行共享信息资源目录的梳理。
系统支撑按照基础目录、主题目录、部门目录等维度进行分类,并支持按照目录类型和更新时间进行排序,提供目录检索、目录下载、目录统计、目录浏览等功能。
1.总体方法
大数据目录体系的建设,信息资源梳理是基础,通过梳理工作才能全面了解部门的数据家底。整个过程要以数据为核心,从业务、信息化、供需等层面全面调研、整理、分析。通过以数据为核心的架构思维,完成整个政务信息资源的全面梳理、有序规范和资源编目工作。
2. 工作思路
为了保障资源工作的顺利推进,将通过5个方面来开展工作 :
1、前期准备:了解各部门的职责范围、业务过程、资源情况
2、需求调研: 摸清资源分布,明确共享需求,明确资源公开方式
3、资源整理:整理分析哪些委办局的业务有哪些系统支持,哪些业务产生了数据,并对这些信息资源进行规范化表示
4、资源分析:信息资源分析和资源目录是对信息资源进行一个高层次的整理和归类
5、成果产出:形成报告、资源目录和相关的标准规范。
按照数据整合的层次结构、主题域划分,需要实现各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。
元数据内容涉及到整个大数据资源平台的各个数据环节,包括数据采集、逐层加工稽核,数据服务到最终应用展现的处理,元数据管理贯穿了整个流程,并与各环节实现有效互动。
按照元数据的定义分类,综合价值分析系统元数据管理分为业务元数据、技术元数据、管理元数据三类。其中:
(1)业务元数据
l 使用者的业务术语所表达的数据模型、对象名和属性名;
l 访问数据的原则和数据来源;
l 系统所提供的分析方法及公式、报表信息;
l 对业务元数据来源的管理和差异性对比;
(2)技术元数据
l 系统结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义等);
l 整合数据层的机构单位的数据模型描述(以描述关系表及其关联关系为形式);
l 对数据稽核规则的定义、汇总数据层模型描述与装载描述(包括维度、层次、度量以及相应事实表、概要表的抽取规则);
(3)管理元数据
系统内部用户的数据处理操作规则,包括抽取、转换、加载、汇总等各类操作的用户权限、操作时间窗管理、异常处理规则等;
外部访问用户(主要针对该系统对外提供的数据服务)的操作规则和方式,包括所提供的数据服务接口、数据访问方式、操作;
各类用户的操作记录日志,包括操作用户、登录方式、操作对象、持续时间、操作类型等相关信息。
为了保障元数据管理目标的顺利达成,需要从组织架构层面建立专业的元数据管控组织予以保障,确保元数据管控要求得以落实、制度得以执行。
元数据维护管理流程是以需求提出作为开始,经历规划设计、开发实施、需求验收等项目阶段的元数据建立和校验,最后实现元数据的发布和运维管理。在这些阶段中,元数据管控组负责元数据信息的全生命周期流程的管理和监控。
元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元数据检索、数据模型管理、元数据管理功能组成等。
Ø 元数据正向采集
对元数据获取数据源以及这些数据源之间的关系进行集中登记管理,并形成自动获取数据源的全局视图,实现元数据自动获取数据信息。
要实现元数据的自动获取,需要在集成的元数据平台中配置自动获取策略和调度时间等,使元数据能够按预设的调度策略触发相应的元数据自动获取过程,满足元数据自动获取的时效性。
调度策略包括时间周期触发、事件触发两种方式。例如,在每周星期一凌晨00:00到01:00之间触发数据资源平台元数据的自动获取过程,或者在数据处理程序更新后12小时内触发相应的映射关系元数据自动获取过程。
Ø 元数据维护
包括元数据的定义、变更及版本管理,对主机信息、数据库信息、用户信息、数据对象信息、业务规则信息、加工逻辑等进行维护和管控。
Ø 元数据检索
在元数据管理首页用户通过输入关键字后,系统采用全文检索的方式迅速查找和关键字匹配的权限范围内的元数据信息,并将信息返回给用户。用户能够通过展示的路径信息快速定位到元数据组织树上的节点。
Ø 元数据版本
版本管理分为元数据对象版本管理与基线版本管理两种类型。
元数据对象版本:对元数据的每次提交形成版本(上一版本形成历史版本),提供历史版本间,历史版本与当前版本对比功能;
基线版本,对某一阶段产生的元数据对象形成数据集,提供不同阶段产生的数据集的版本比较。
篇幅有限,无法完全展示,喜欢资料可转发+评论,私信了解更多信息。