近线数据服务平台架构解析

近年来,大数据概念早已在国内银行业中大规模普及,越来越多的企业开始尝试借助大数据技术的力量,来推动企业内部与外部的创新。但是,由于大数据与传统技术的理念与技术差异,导致很多银行和企业在实施大数据战略的过程当中,遇到各种各样的问题。因此,如何使用正确的方法和步骤运用大数据技术,是众多金融服务机构在试水大数据技术时首先遇到的难题。

近线数据服务平台,是大数据技术在银行业中的一类平台性应用。其核心的理念在于,以大数据技术为基础,将全量数据从离线与近线系统中统一复制到近线平台,使得该平台保存企业中全量核心数据。近线数据服务平台的业务价值目标包括“离线数据近线化”与“近线数据瘦身”。

离线数据近线化:银行中的离线数据一般包括2年或以上的历史数据。当这些数据不需要被在线或近线系统访问时,它们会被从生产库卸载并被存放于磁带或光盘库等静态介质中。一般来说,当行内人员需要访问这些数据时,需要花费大量的精力和时间找到并将这些数据恢复到临时访问环境。而离线数据近线化,则是借助大数据海量存储空间以及对这些数据的计算能力,将原本无法被直接访问的数据,以相对低廉的成本做到近线化,对行内行外人员提供历史数据查询检索服务。

近线数据瘦身:很多银行的近线数据存储在ODS或数仓中。而随着业务规模的扩大,企业一方面需要不断对近线数据进行归档,另一方面需要不断对这些系统进行扩容。而以传统关系型数据库为基础的ODS或数仓的扩容成本相当高昂,因此,以大数据分布式计算存储为平台,将部分ODS或数仓的功能转移至近线数据平台,可以实现对当前ODS或数仓系统的瘦身。

除了“离线数据近线化”与“近线数据瘦身”两大业务目标外,近线数据服务平台的搭建围绕着初期投入小、见效快、以及安全可靠三大目标建设。

近线数据服务平台的整体架构包括“近线数据归档区”、“固定模式访问区”、“自由查询数据区”以及“数据加工调度区”四大模块。

近线数据服务平台架构解析_第1张图片
典型近线数据平台架构图

近线数据归档区:其中,近线数据归档区作为外部数据在近线数据平台中的拷贝,除了作为数据源提供给数据加工调度区进行加工外,还承载着对关键业务数据的归档功能。业务数据一旦进入近线数据归档区,便无法通过任何方式进行改变。因此,该区域可以替代传统磁带的部分功能。

数据加工调度区:数据加工调度区作为另外三大数据存储区的衔接层,一方面负责对近线数据归档区中的数据进行加工、清洗、去范式化等操作,以提供给固定模式访问区进行定制化查询;另一方面则负责将自由查询数据区中不存在、或被删除的数据在访问时动态地实时复制到指定区域。

固定模式查询区:固定模式查询区则提供对银行内外部应用的固定查询。例如,对于ECIF、回单等模式较为固定的查询业务,完全可以通过数据加工调度区将原始归档数据定期去范式化并构建索引,来满足银行对历史数据在线检索查询的需求。去范式化后的宽表数据可以被存储在固定模式查询区,以独立的硬件和网络满足高并发对外业务的查询功能,保证自由查询与离线分析对该区域的业务不会造成任何影响。

自由查询数据区:自由查询数据区则是近线数据归档区的子集,包含近线数据归档区内全部表的定义以及每个表的全部或部分数据。该区域的数据可以开放给行内用户进行自由查询分析,并通过数据加工调度区动态识别需要访问表的数据范围,并动态地将不存在于自由查询区内的数据从近线数据归档区进行复制。该区域与近线数据归档区进行隔离的目的在于,确保任何数据访问均不会对已经归档的数据造成影响。同时,当该数据区空间占用较多时,可以通过脚本将不常访问的表中的数据清除以释放空间。

通过近线数据服务平台的归档与自由查询区,企业可以实现对传统离线与近线数据的近线化与瘦身操作。同时,固定模式查询区甚至可以将这些数据提供给银行对最终用户的应用。譬如,银行可以从这四个方面实现以近线数据平台为基础的应用创新:

  1. 离线数据近线化:业务系统数据同意归档、历史交易流水在线查询等;
  2. 自由查询:行内自助报表系统、司法查询系统等;
  3. 生产系统瘦身:数仓与ODS瘦身、T+0用户实时资产视图;
  4. 分布式影像平台:影像凭证管理、远程开户录像等。

SequoiaDB巨杉数据库,结合Spark大数据技术,能够满足近线数据服务平台端到端的搭建工作。SequoiaDB提供的分布式框架满足分布式、高可用、高性能、易维护等特性,同时其多维分区、灵活索引、双引擎内核、以及标准SQL支持等特性为企业级近线数据服务平台奠定了最佳的数据存储与计算基础。

作者:巨杉数据库王涛,目前SequoiaDB 2.6 社区版已经正式发布。

你可能感兴趣的:(近线数据服务平台架构解析)