建立多层次的数据访问服务体系,有力提升数据仓库的价值。基于指标汇总层、集市层、可以提供面向业务人员的即席数据查询、以及面向应用开发者的数据接口、应用访问接口,满足不同类型应用的需要。
1、汇总指标层模型设计原则及步骤
1.1建设目标:
汇总指标层也叫中间层,他提炼出对ODS具有共性的数据访问、统计需求,从而构建出的一个面向支持应用的、提供共享的数据访问服务的公共数据。从技术角度看目标有:
(1)同时服务于多个不同应用,实现数据和指标的共享,减少相同的业务统计所带来的数据重复计算与存储,避免数据在多次加工后出现的不一致。
(2)提高查询效率。将计算结果存储在指标汇总层,数据一次加工,多次使用,减少了重新关联表进行计算所带来的性能问题,加快了查询的响应时间。
从业务层面来看,主要目的如下:
(1)指标汇总层的实现对常用的业务统计口径进行统一的定义和维护,并基于此建立起常用的业务统计口径标准数据定义。
(2)指标汇总层提供了一个便于业务人员理解的数据视图,可以供其分析使用。
1.2设计步骤
第7节已经提到过中间层的设计步骤如下:
(1)从各集市以及数据应用系统分析共性的数据需求;
(2)确定共性的关键实体和指标,即完成中间层数据加工范围;
(3)确定统计维度,设计中间层表结构,设计时也需要考虑后续应用需求,做适当的属性和维度扩充;
(4)对所需要的数据与主数据区数据进行映射,确定加工规则;
(5)系统验证以及后续不断维护扩充,由于业务不断变化,中间层也会和数据仓库一样不断进行演化并适应数据使用需求;
1.3设计原则
那汇总指标层主要设计原则如下:
(1) 应用驱动,按业务分析视角组织表设计:从设计步骤看,中间层的设计起源于各集市及数据应用系统的需求,同时设计中间层时需要按业务产品视角进行分类,如存款、贷款、中间业务等,以便业务集市和系统理解和使用,因为汇总指标层的数据直接会给到业务人员使用;
(2)中间层采用了逆范式宽表设计,即采用维度建模的方法,在事实表尽量关联更多的属性,以减少后续关联。
(3)汇总指标层主要统计的维度包括时间(年、月、日),机构、产品、客户、账户、币种、交易渠道、交易类型等,加工结果表一般都有多维度聚合,如存款账户交易月汇总指标,即根据存款账户不同的交易类型(交易码)来统计交易笔数和交易金额,如卡交易月汇总指标根据维度组合(卡、产品、机构、客户、币种)来统计交易笔数和交易金额
(4)汇总指标按维度统计时按由细到粗的顺序进行汇总,减少重复计算量,如统计年交易量,可以先统计日交易量,再统计月交易量,最后统计年交易量,如统计,如统计客户资产可先按账户统计余额,再按产品汇总余额,最后按客户汇总各产品为总资产;如统计各机构的客户数,可以按支行、分行、总行进行逐层统计。
(5)汇总指标层一般分为明细层和加工层,明细层主要为业务实体表,加工层主要为维度表和汇总指标结果表。明细层表主要按业务条线和产品条线进行表设计,如存款对私账户表、贷款借据表等,同时需要关联多表获得更全面的属性以及维度。如借据表需要有客户、合同、机构、币种、产品等维度,以便后续进行统计汇总。
(6) 历史数据保留策略:中间层数据实际上是数据仓库当前全量的一个快照,如果按照历史每天保存数据量是非常大的,根据应用访问的要求和基础数据平台的空间情况,可以制定中间层数据的保留策略:
1)事件交易明细表以视图方式获取主数据区数据,不进行保留;
2)日表保留1-3日数据;
3)月表保留13个月的月末数据;
4)季报保留5个季度末数据;
5)年报保留2个年末数据;
1.4重点加工举例
那在银行数据仓库中,加工层中的汇总指标结果除了常见的币种折算、余额、交易量、客户数等,以下几个方面也经常在中间层实现:
(1)账户日均:日均是在产品分析、绩效考核绩效考核中都会遇到的指标,需要对存贷款账户的日均进行加工;
(2)客户资产负债:客户资产负债对于客户分层以及营销方面经常使用,如需要将个人客户在银行的存款、贷款、理财、基金、三方存款、保险、信托、信用卡、贵金属等数据按资产负债进行分类统计。
(3)交易对手:交易对手是监管报表、客户分析、风险控制所需要的重要信息,但是由于交易信息会散落在各个系统中,如支付、核心等,因此需要对交易进行关联以补充交易对手信息;
(4)疑似客户:即2个客户号可能为同一个客户,如只有证件号码相同、只有手机号相同的客户,无法确定是否是同一个客户,可以在客户分析及数据清理时提供数据,由柜面在办理客户业务市进行补充信息,完善ECIF中的客户识别。
2、集市模型设计原则及步骤
数据集市是面向数据应用为出发点,一个数据集市可以支持多个相关的数据应用,如风险集市可能支持新资本协议相关的内评、经济资本、风险缓释等系统;监管集市会支持央行大集中、1104报表、反洗钱等监管报送系统。数据集市的作用与指标汇总层类似,但服务的目标系统只是指标汇总层的一部分,因此集市比指标汇总层更面向应用和用户。
2.1设计步骤
(1)应用需求分析:这部分主要针对数据应用系统所需要的数据范围及指标来确定,因此是先分析数据应用系统的需求,再提炼数据集市的数据接口需求;
(2)目标表设计:即数据集市结果表设计,他会根据数据应用的需求进行数据表设计,一般专业度高、产品成熟的系统会自带数据集市目标表的设计。比如管理会计、风险缓释等系统。
(3)数据源分析:主要分析数据仓库的数据如何满足集市的需要,即确定需要数据仓库的那些表数据,如果数据仓库没有,则需要数据仓库进行数据补充。
(4)数据仓库表与目标表字段进行映射,确定加工规则;
(5)验证数据并调整加工规则;
2.2设计原则
数据集市一般简单分为三层:
(1)基础数据:主要是从数据仓库获取的数据,如果是仓内集市,只需要做视图映射,减少数据移动,如果是仓外集市则需要通过数据抽取加载批量获取数据,对于基础数据由于数据仓库已经保留了历史数据,这部分历史数据可以只简单保留几天即可;
(2)加工计算:即集市的目标表或物理模型,需要从基础数据加工映射到目标表。这部分结果表需要根据应用的需求进行加工结果保留,有些系统如新资本协议相关系统的历史数据要求比较高,则需要设计历史数据保留方式,考虑是否可以归到到历史数据区。
(3)接口层:主要提供数据给应用系统的批量数据接口,接口的加工不能太复杂,不进行数据加工,只进行简单的关联筛选,可以用视图表示,该部分数据只需要保留3天进行问题处理即可。
集市的设计原则与指标汇总层类似,也是采用维度建模方式,常见的有星座模型、雪花模型等,只需要按实际应用需要和方便设计即可,对于指标加工也可按汇总指标层的方式逐层加工。
那数据集市相对于汇总指标层更面向应用,两者的边界简单可以按加工需求是否是单一集市或应用系统使用,比如反洗钱相关的报送指标只有在反洗钱系统使用,那就在对应的监管集市来加工。如果对于贷款逾期相关的指标行内风险分析报表(对应风险集市)以及监管报表(对应监管集市)都需要使用,则需要在汇总指标层加工。
3、指标系统
指标系统主要是进行指标管理的系统,他的主要功能有:
(1)基础指标定义,即将基础指标和数据库字段进行映射;
(2)衍生指标定义,即以基础指标为基础,通过简单或复杂的计算得到衍生指标,那衍生指标的规则可以进行配置;
(3) 衍生指标计算,即按设定的周期进行衍生指标加工,如每天计算、月底计算等。
通过指标系统可以清晰管理数据仓库及各集市、应用的指标,减少代码开发工作量。从系统建设上并不复杂,但在指标的业务管理方面往往会遇到问题,因为指标系统的定位应该是全行的指标体系,系统的业务属主由哪个部门来承担?如何进行指标分类?对于每一个指标由哪个业务部门来维护?这也业务指标的管理往往比较难以推进,因此有些银行建立了指标系统,但是只针对了几个系统指标进行了管理,应用效果也发挥不出来。
指标系统可以作为全行的一个标准服务,可以连接任何一个数据集市、应用系统。通过用户进行隔离,如果单由一个业务部门全行推行较难,可以由各集市或数据应用的业务部门分别对各自的指标进行管理,分而治之。如果没有业务部门介入,由各系统负责人按指标方式进行管理和计算也有助于加工规则的需求管理。便于经验知识传递。
目前字节跳动数据团队(上海)有内推职位,主要面向字节所有产品数据仓库及大数据开发岗位,如tiktok等,包括社招,校招,实习,大家可在2021年5月23号之前私信联系,内推方式成功率更高,机会有限,先到先得!