熵简技术谈 | 熵简科技在资管数据中台的探索与实践

导读:数据中台是熵简科技数据智能解决方案中的核心部分。引入数据中台可以打破数据与数据的界限、技术与业务的界限,为业务层的迭代提供更快的数据响应,真正做到业务数据化、数据资产化。
熵简科技在长期的实践过程中总结出了一套适用于资管机构的数据中台架构方案。本文将从数据仓库建设、数据管理和开发和数据服务体系三个维度介绍数据中台在资管场景下的落地规范和方案。

作者信息:熵简科技 Airworks 团队,团队致力于打造高性能、低代码的一体化大数据分析平台,为机构组织的数据团队及各业务部门人员提供“数据智能全链路”平台及解决方案,涵盖数据清洗、数据融合、数据建模、数据可视化、数据服务等多个维度,全面助力客户实现业务数智化。。

本文的主要内容包括:

1.数据中台整体架构
2.数据仓库建设
3.数据整理和开发平台
4.数据服务体系
5.结语

01. 数据中台整体架构

数据中台是资管机构数据智能解决方案中核心的一环。资管机构内部的数据源和数据量往往是异构且巨大的,在引入数据中台之前,这些数据存在各个竖井式的应用中、各业务部门或负责人的数据库中,数据之间相互隔离,无法快速进行融合和分析。

而引入数据中台后将会带来如下几点优势:

●业务层数据往往聚合了若干异构数据源,数据中台可以支持海量数据源的高效治理、提供清晰的数据血缘追踪,对多源异构数据源进行高效的数据治理,通过交叉分析贡献业务价值。
●通过规范的数据分层,清晰定义每个数据层的作用域,能够极大减少重复计算;数据中台作为前台业务与后台系统之间的变速齿轮,为快速的功能迭代提供数据响应基础。

熵简科技在长期的实践过程中总结出了一套适用于资管机构的数据中台架构方案。其功能架构分为数据源、数据开发运维、数据资产管理和数据服务四层。
熵简技术谈 | 熵简科技在资管数据中台的探索与实践_第1张图片
数据源

按照数据形式分为结构化数据、半结构化数据和非结构化数据。其中一方数据大多为结构化数据。三方数据既包括了财务数据、行情数据、指标数据等结构化数据,也包括了研报、图片、评论等半结构化/非结构化数据。

数据开发运维

数据开发包括离线开发、实时开发和算法开发三个部分。其中以 ETL 为核心的离线开发是数据仓库分层的重要手段。

数据资产管理

数据资产管理包括了数据资产管理、数据治理和数据安全三个部分。通过数据资产管理,机构内部所有数据在数据中台汇聚成了有机可复用的数据资产,为业务层的需求提供更快的响应,发掘更大的价值。

数据服务

数据服务包括了面向应用的 API 服务和面向探索分析的 BI 可视化功能。除此之外,数据中台可以扩展标签中心、智能推送等更多的数据智能服务。

熵简数据中台的技术框架如下图所示。我们的数据仓库建立在以对象存储为基础的 Hive 表之上,数据计算分别基于 Spark 集群和 Flink 集群提供离线支持和流式支持,最上层通过 OLAP 引擎 ClickHouse 对外提供统一的数据分发服务。整个数据中台搭建在 Kubernetes 集群之上。
熵简技术谈 | 熵简科技在资管数据中台的探索与实践_第2张图片
接下来我们将从数据仓库建设、数据管理和开发和数据服务体系三个维度介绍数据中台在资管机构落地的规范和方案。

02数据仓库建设

资管数据仓库本质上是一套面向资管业务场景的方法论,涉及从数据规范、指标定义、数据管理到数据开发和数据服务,并保证全流程的数据血缘清晰、可管理、高复用、可追溯。本小节将从核心需求、元数据模型、分层架构、数据管理规范和数仓评价体系这几个方面,对资管数仓的建设进行详细阐述。

2.1 核心需求

在传统的、没有进行统一数据仓库建设的资管机构中,对于数据的使用是“烟囱式”的,各数据源、中间表、数据应用之间相互独立,没有专门的数据开发人员负责统一建设。

业务视角来看,业务分析场景用到的指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体业务问题找数据、核对确认数据成本较高。

技术视角来看,指标定义和指标命名混乱,指标不唯一,指标维护口径不一致;指标生产重复建设;数据汇算成本较高;数据输出和服务的出口不统一,重复输出,输出口径不一致。

为了解决以上痛点,我们需要建设一个统一的分层数据仓库做统一管理,为此我们要从定义元数据模型、搭建分层数据架构、指定数据管理规范和指标体系管理工具产品化四个层面做建设,在系统产品层面打通完整数据流。在业务上 统一数据出口、覆盖全域数据场景;在技术上统一指标和维度管理,统一数据计算口径。

下面我们将着重介绍元数据模型定义、分层数据架构搭建和数据管理规范三个方面的建设内容。

2.2 元数据模型

元数据模型是构建数据仓库的基础,贯穿了数据仓库的整个生命周期。从一般性角度而言,元数据模型定义和规范了源数据到数仓的各层级流程、映射、变换的规则、工具、操作周期等各类关键信息。在此基础上,我们才有可能完成诸如数据血源查询、数据一致性校验、多实体多维度关联、多层级回溯等上层分析目标。

由于篇幅限制,本小节重点聚焦在元数据模型在数据结构以及指标定义等方面的内容。对于资管数据仓库而言,构建元数据模型的设计目标是通过数据规范的定义和引入,来全面、准确地描述资管业务。

接下来,我们以面向投研场景的元数据模型为例,详细介绍熵简数仓在元数据方面的设计思想和实践经验。对于面向投研需求的元数据模型,其最终设计目标是通过对多源异构数据源的统一规范,来准确、完备地描述投资标的,理论上满足投资分析所需的

你可能感兴趣的:(数据中台,科技,数据仓库,big,data,数据挖掘,数据分析)