【案例】替代进口数仓,星环科技助力北京银行建设新一代大数据平台

成立于1996年的北京银行,抢抓时代机遇,相继实现引资、上市、跨区域等发展突破,在北京、天津、上海、西安、深圳、杭州、长沙、南京、济南、南昌、石家庄、乌鲁木齐等十余个中心城市以及香港特别行政区、荷兰拥有670多家分支机构,探索了中小银行创新发展的经典模式。

北京银行资产规模稳健增长,继续领跑全国城商行,跻身全球百强银行和我国系统重要性银行。在世界品牌实验室品牌价值排行榜中,品牌价值升至654亿元。在英国《银行家》杂志全球千家大银行排名第62位,连续8年跻身全球百强银行。此外,被人民银行、银保监会正式纳入我国系统重要性银行名单,成为我国19家系统重要性银行之一。

新时期,北京银行紧密围绕“服务实体经济、防控金融风险、深化金融改革”三项任务,强化党建引领,依法合规经营,加快数字化转型升级,加强全方位风险管控,扎实推动全行各项业务高质量发展。

为此,北京银行信用卡中心从2015年开始建设数据平台系统。随着新业务的发展,北京银行信用卡中心要求IT系统具备更强的数据存储、检索和持续的业务建模分析能力。

为了满足未来业务发展对数据的需求,北京银行信用卡中心要求构建新一代大数据平台,更好实现各应用系统间数据和计算资源的共享,并支撑内外部数据的分析和挖掘应用,为数据中台建设打下基础。

具体而言,北京银行信用卡中心的的新一代大数据中心的应用需求包括:

针对批量业务,要求基于新一代大数据平台实现数据文件查收、数据文件预处理、数据文件传输、数据清洗、数据加载、原始文件归档等功能;能够接收上游系统数据并存储到数据仓库中,提供分析计算接口,供下游业务系统使用。

而针对实时业务,则需利用大数据平台的流处理引擎,接入行内消息平台(或构建在平台的内部消息队列后),能具备后期开发实时流处理业务的能力,包括实时仪表盘监控、实时报表等能力。

解决方案
图片

依据北京银行信用卡中心的需求和未来对大数据平台的规划,星环科技为其新一代大数据平台设计出架构方案。该架构主要分为上游系统数据源、文件处理、大数据平台和下游。

批量数据从上游系统数据平台数据库、贴源系统中将数据文件接入到星环科技大数据基础平台TDH中的TDFS中,通过星环科技关系型分析引擎Inceptor进行脱敏、计算,以供下游系统分析挖掘。

实时数据从上游发卡系统将数据接入到星环科技事件存储库Event Store消息队列中,使用星环科技实时流计算引擎Slipstream分析,将数据写入到星环科技宽表数据库Hyperbase中,支持决策引擎。

星环科技大数据管理软件TDH Manager是平台的统一管理入口,承担平台运维管理的功能。

星环科技大数据安全管理软件TDH guardian是平台的安全认证管理组件,可对组、角色、用户进行权限管控和对平台各个服务的使用权限控制。

北京银行信用卡中心关于大数据平台的整体数据流转如下:

数据源

北京银行信用卡中心的数据源来源于数据平台数据库和贴源系统,大数据平台提供数据接口,通过星环科技事件存储库Event Store接入实时数据;通过数据接口全量或定时增量抽取同步关系型数据库,将数据文件的聚汇到TDFS的功能。

具体而言,对于结构化数据:现有业务系统以及数据仓库中的数据,可以使用Sqoop或以文件的方式采用T+1的方式接入到大数据平台。

对于实时数据,支持将实时数据接入Event Store消息队列,并通过Slipstream组件做消息实时研判处理、加工分析,并将处理结果实时返回,以对接上层实时仪表盘等相关应用。

数据存储

通过统一的数据存储平台,对结构化、非结构化数据以及实时数据进行落地持久化,同时提供容错、多副本安全冗余等功能,保证数据的可靠性。

其中,结构化数据主要的来源为数据仓库,业务系统为行内核心、信贷、网银等系统。在实际使用中,由于实时查询数据类数据与离线分析类数据有不同的业务需求,应根据具体的业务场景,将相应的数据持久化到不同的存储引擎当中。

数据加工

大数据平台将数据存储后,可以继续使用Inceptor做加工处理分析,最终供上层应用程序查询检索。

查询部分,主要用于交互式的数据查询,典型业务如行内海量历史数据的查询,可以有效地将以前冷数据部分使用起来。

流式处理部分,流式处理引擎不但可以用于完成数据的实时入库工作,而且可以用于数据的实时统计与处理,如基于时间窗口的统计、基于规则的实时告警应用等。

离线分析部分,离线分析主要用于对时效性要求不高耗时较长的场景中。典型使用场景如报表的离线计算、数据离线导出、后期数据挖掘分析的数据预处理等工作。

方案特点
图片

星环科技为北京银行信用卡中心建设的新一代大数据平台,满足用户实际和未来的发展需求,在以下四个方面取得成功经验:

搭建了基础数据平台架构。结合北京银行信用卡中心基础IT设施情况及所采购的大数据产品,构建北京银行信用卡中心的大数据平台,处理上游系统的批量或者实时数据,包括批量数据的计算、存储,权限控制、批量数据与下游应用的对接,实时数据的接入、计算和下游应用的对接等。

实现了数据的迁移和同步模块。项目对当前贴源层数据、明细汇总层数据进行初始化全量迁移及日常增量同步。针对贴源层和明细层批量历史和增量数据,制定不同的接入方案,在后续实施阶段,根据上游提供的不同字符集的文件进行转码、校验以及对表重新梳理,制定数据分层及存储策略,并将上游提供的源文件保存在大数据平台上。

建立了数据脱敏模块。项目主要是在大数据平台的关系型分析引擎Inceptor中,通过udf函数对数据脱敏,根据具体的要求对姓名、身份证、手机号、卡号等字段进行遮蔽性脱敏、格式化脱敏和一致性脱敏。脱敏后,保证原数据格式不变,对于需要关联的字段保证依旧可以关联等。

完成实时数据模块。搭建实时数据平台,对接发卡系统,其中包括实时数据采集程序的开发、实时数据同步,实时应用开发。

项目满足发卡数据的实时数据的接入和数据处理,满足业务在流式计算方面的数据需求,包括Event Store监听发卡系统的实时数据并接入、流式引擎计算。实时数据采集平台与卡中心内的决策引擎通过Event Store和Hyperbase实现实时数据的应用对接。

完成数据沙箱环境搭建。实现沙箱环境搭建、数据表权限控制以及资源分配。通过对贴源层和明细层数据的脱敏,将数据加载到星环科技Inceptor中,提供一个基于Inceptor构建的脱敏环境,为上层应用包括但不仅限于模型平台,提供一个沙箱环境。

通过为Inceptor创建角色并赋予不同角色查询、修改权限,进行权限控制,通过分配Inceptor计算配额(cpu个数、百分比)来实现资源的控制。

完成调度模块。基于北京银行内现有的调度工具,做相应的作业流以及作业设计,制定规范化的作业开发规范。主要是通过工具,批量生成对应的xml文件,进行接口导入,实现调度作业的批量开发。

应用价值
图片

此前北京银行信用卡中心的数仓历史数据是存储在数据平台数据库中。而基于星环大数据基础平台TDH建设的新一代大数据中心既能支持传统数仓数据的迁移,又能保证后续信用卡中心业务发展的数据应用与分析的需求。

为了更好地支持北京银行信用卡中心数仓业务,需要将数仓历史数据迁移至北京银行信用卡中心大数据平台中星环科技大数据基础平台TDH。

由于北京银行信用卡中心的数据平台数据库服务器部署在北京,而TDH大数据平台服务器部署在西安,如果采用在线迁移的方式,由于迁移数据量过大且网络带宽不足,迁移时间会很长,所以决定采用离线迁移的方式,即先将数仓数据从数据平台数据库中导出到存储服务器,落成数据文件,而后将服务器带到西安,直接连接到TDH大数据集群,将数据文件上传到大数据平台的TDFS上。

同时,北京银行信用卡中心的数据源来源于数据平台数据库和贴源系统,大数据平台提供数据接口,通过Event Store接入实时数据;通过数据接口全量或定时增量抽取同步关系型数据库将数据文件的聚汇到TDFS的功能。

目前北京银行信用卡中心已经完成了80%以上系统的数据入仓工作,提供报表、数据下发、下游应用支持等数据服务,支持北京银行数字化转型。

你可能感兴趣的:(数据仓库)