上海财经大学鲜为人知的数据治理与分析之道【下】

继上篇推出后,大家惊艳于上海财大的数据分析成效,今天就来聊聊其背后关于技术的那些事。

先来回顾一下上海财大近期做了哪些数据分析应用……

上海财经大学鲜为人知的数据治理与分析之道【下】_第1张图片

“数据仓库”在这些数据应用分析背后扮演着重要角色,也是决定学校数据分析工作越来越高效化的关键因素。

今天重点围绕数据仓库建设流程展开讨论,主要包括系统架构设计、源数据分析、主题规划、数据模型设计、数据ETL开发、前端应用开发、系统监控、数据分析思维8个环节。

1、系统架构设计

以下是典型企业级数据仓库架构:包括三层数据存储,第一层是操作数据层,作为采集数据的缓冲区;第二层是基础数据层,这是数据仓库的核心;第三层就是面向报表开发的数据集市层,每一个数据存储层都涉及相应的数据处理过程。

上海财经大学鲜为人知的数据治理与分析之道【下】_第2张图片
数据仓库系统架构图

下面是数据仓库各类数据的关系,其中箭头表示数据流向,柱子大小代表存储的数据量,ODS层会存储多天的历史数据,数据量相对大一些;EDW层数据相对少一些,数据集市层存储面向应用的数据,一般情况下数据量不会太大。

上海财经大学鲜为人知的数据治理与分析之道【下】_第3张图片
数据仓库各类数据关系

鉴于学校数据量不太大的情况,数据库可以采用一个物理库,然后用不同用户做逻辑区分。在ODS层,每个业务系统对应一个用户,右边EDW和DDW对应数据仓库基础层与应用分析集市层,这种存储结构有利于后续的数据库的管理和使用。

上海财经大学鲜为人知的数据治理与分析之道【下】_第4张图片
数据存储结构

2、源数据分析

平时做报表,无论是利用工具还是用excel,必然会涉及到分析源数据内容,比如源数据有哪些字段,数据类型是什么,数据内容是什么等等,这些都是源数据分析的工作,源数据分析结果直接与数据仓库模型设计相关。源数据分析是数据仓库项目建设的关键,投入的时间一般要占项目的1/3。

上海财经大学鲜为人知的数据治理与分析之道【下】_第5张图片
源数据分析步骤

源系统分析需要重点分析:系统功能与作用、核心业务流程、核心业务数据等内容;然后进行表级分析,包括:表类型、业务重要程度、数据重要程度,我们要清楚每张表的定义,方便后期准确划分主题。

还需要进行源字段分析,包括:字段含义、数据存放关系等。分析过程中必须要清楚所有元数据的定义,业务系统如果不能提供这些分析资料就需要补充完整,并和业务系统管理员、厂商确认源数据分析结果是否准确。

3、主题规划

上海财经大学鲜为人知的数据治理与分析之道【下】_第6张图片
主题规划原则

主题划分并没有绝对标准,不同行业有不同划分方法,我们学校参照证券行业的划分方法进行了修改。主题定义是基于系统和业务对数据进行抽象的过程,主题域不宜太多,要预留一定空间为后续新增业务和数据扩展做准备。

上海财经大学鲜为人知的数据治理与分析之道【下】_第7张图片
主题规划关键点
上海财经大学鲜为人知的数据治理与分析之道【下】_第8张图片
主题内容

4、数据模型设计

不做集成的数据仓库只有形而没有神,因此数据仓库一定要做数据集成,形成全局数据视图。集成包括数据和结构两个方面,其中数据集成的核心是公共代码合并,不同业务系统可能有不同代码表,但在数据仓库只能保留一套代码标准。需要注意的是,只有不同业务系统同时存在的重复代码才需要合并。

结构集成主要是拆分和合并两种方法,复杂情况也无非就是拆分和合并的组合,拆分包括行级拆分和列级拆分。数据模型设计并不是要将业务系统的所有结构都重新拆分、组合,只有不合理的才需要调整结构。

上海财经大学鲜为人知的数据治理与分析之道【下】_第9张图片
ODS层数据模型
上海财经大学鲜为人知的数据治理与分析之道【下】_第10张图片
EDW层数据模型
上海财经大学鲜为人知的数据治理与分析之道【下】_第11张图片
DDW层数据模型

最后,重点分享一些数据分析的思维。

1、数据可视化思维

单纯的数字展示往往显得枯燥,缺乏视觉冲击力,对用户没有足够的吸引,也无法突出要反映的问题。将数据以可视化的方式展示,显得生动,不枯燥。有些本质很简单的数据加上可视化效果就显得高大上了,而且容易吸引眼球。

上海财经大学鲜为人知的数据治理与分析之道【下】_第12张图片

2、图表简洁思维

大多数人刚开始做报表都会刻意追求漂亮、酷炫,将报表做的很复杂,包含很多信息,我刚开始也是这样,但后来慢慢发现不该是这样的。一个内容丰富的仪表盘可以采用分块组织,同时要保证每块内容的主题或要展现的问题非常明确、简洁,在这个基础上如有精力再考虑美观漂亮的效果呈现。

上海财经大学鲜为人知的数据治理与分析之道【下】_第13张图片

3、发掘问题思维

机械地展示数字不是报表的目的,报表是为了发掘问题,通过解决问题优化管理模式,这样数据分析才更有意义。举个例子:科研评价不仅看重成果数量,更看重成果质量,比如某个学院的论文数量虽然不多,初看是个比较严重的问题,但是论文级别都很高,能够反映该学院的科研水平比较高。

上海财经大学鲜为人知的数据治理与分析之道【下】_第14张图片

4、逆向求证思维

对于数据分析和数据挖掘结果我们要结合经验做反向推理和求证,验证分析结论是否符合正常逻辑,使我们的分析结论更准确,更有意义。

上海财经大学鲜为人知的数据治理与分析之道【下】_第15张图片

5、用户定位思维

如同开发应用系统一样,我们首先要确定面向的用户人群,报表也是同样,针对不同用户要采用不同的展现形式。如:面向校领导的报表要简洁、直观,不需要太多互动,所见即所得;面向普通业务人员的报表可以增强报表的互动性,如借助筛选、钻取等功能提供更丰富的分析结果;面向技术人员的报表可以提供更多的交互操作,复杂计算功能,给用户更大的交互空间。

上海财经大学鲜为人知的数据治理与分析之道【下】_第16张图片
上海财经大学鲜为人知的数据治理与分析之道【下】_第17张图片
上海财经大学鲜为人知的数据治理与分析之道【下】_第18张图片

最后,想和所有学校共勉:希望所有学校都能拥有这样天时、地利、人和的条件,以支撑我们共同做好数据分析工作。

1、领导重视、经费充足、人员合理。人员合理组成包括:精通高校业务的业务分析师、了解数据分析的业务系统管理员、BI开发人员。

2、拥有稳定运行至少使用半年或一年以上,已积累大量数据的成熟业务系统。

上海财经大学鲜为人知的数据治理与分析之道【下】_第19张图片

数据ETL开发、前端应用开发、系统监控等内容涉及技术广且深,因篇幅原因不再展开。(若需详细了解,可加小智微信:wisedu2008。)

你可能感兴趣的:(上海财经大学鲜为人知的数据治理与分析之道【下】)