通过数据平台和BI应用建设,集团企业大数据将搭建统一的大数据共享和分析平台,对各类业务进行前瞻性预测及分析,为集团企业各层次用户提供统一的决策分析支持,提升数据共享与流转能力。
以大数据项目建设作为契机,凝聚集团优势力量,全面梳理数据资源,完善数据体系架构,自主掌握大数据关键技术,加速大数据资源的开发利用,将数据决策化贯穿到经营管理全流程,建设集团企业,提升核心竞争力。
构建大数据平台,实现更广泛的半结构化、非结构化数据集中采集、存储、加工、分析和应用,极大地丰富集团的信息资源,同现有的企业级数据仓库和历史数据存储系统一起,形成基础数据体系,提供支撑经营管理的各类数据应用。
建设离线数据分析、实时数据/流数据分析集群和各类数据分析集市,提供高性能可扩展的分布式计算引擎,通过数据挖掘、计量分析和机器学习等手段,对丰富的大数据资源进行开发使用,并将数据决策化过程结合到风控、营销、营运等经营管理活动。
结合大数据项目的落地实施,建立起一支大数据技术和分析人员队伍,具备自主运营和开发大数据的能力,以更好推动业务创新,提升集团核心竞争力。
Ø 对源系统进行数据质量检核,发现数据质量问题并统计影响到的报表
Ø 对数据质量问题进行归类总结,分析成因和改进建议
Ø 建设数据质量检核系统
Ø 建立基础标准和指标标准框架
Ø 确定标准化范围,对重要属性进行标准化
Ø 引进业内具有先进水平的金融数据模型,进行客户化改造后,建成符合某行特点的数据仓库模型框架
Ø 覆盖某行主要业务系统数据,以便快速高效的为应用系统提供数据
Ø 存储历史数据,解决新报表上线才有数的问题。
Ø 汇总层建设(共性加工)
分析源系统表数据,从及时性、完整性、准确性、有效性、一致性方面对源系统数据进行数据校验,发现并记录数据质量问题,生成数据质量问题报告。
建设数据质量检核系统,对源系统基础业务数据的进行全面的数据质量检查,并实现重要业务数据质量的周期性动态检查,对发现的数据质量问题生成数据质量报告,反馈给业务部门。
大数据虚拟化平台采用虚拟化技术,以充分利用计算、存储、网络等资源,同时采用数据备份方案以增加可靠性。可以实现:
1.效率大幅度提高
由于将资源池化管理和使用,资源得到充分利用。采用分权分域运维的方式,运维更加有效。
2.更低能耗
更加节能,基础设施与IT设备联动节能、负荷均衡。
3.优化业务
新业务上线周期大幅度缩短。可以为各单位提供更多业务:IAAS、PAAS、SAAS,等等。
4.提高效益
在区级单位建立虚拟化平台,其他各单位不需要建立维护自己的基础设施,利用区大数据虚拟化平台运行各自应用。投资收益率,大幅提升,TCO大幅度降低。
1.统一的虚拟化平台
采用虚拟化管理软件,将计算资源划分为多个虚拟机资源,为用户提供高性能、可运营、可管理的虚拟机。支持虚拟机资源按需分配。支持多操作系统。保证资源合理分配,隔离用户间影响。本项目中,为新开发业务系统、迁移业务系统、数据交换与共享前置机分配虚拟机。
2.统一的资源管理
统一资源池,屏蔽不同硬件差异,资源的更换升级对用户零感知。统一管理平台,支持业界主流的操作系统,兼容现有计算及存储资源。设备自动发现,资源快速发放,缩短业务上线时间。
3.支持多种硬件设备
支持多种服务器和兼容多种存储设备,可供用户灵活选择。
4.自动化调度
支持自定义的资源管理策略、故障判断标准及恢复策略。通过资源调度、热管理、能耗管理等一体化拉通,降低维护成本。自动检测服务器或业务的负载情况,对资源进行智能调度,均衡各服务器及业务系统负载,保证系统良好的用户体验和业务系统的最佳响应。
5.完善的权限管理
根据不同的角色、权限等,提供完善的权限管理功能,授权用户对系统内容的资源进行管理。
6.应用智能管理
支持服务目录,应用快速部署。灵活的模板机制,支持用户自定义模板。
7.精细化计费
针对不同的业务类型,进行精确计费。按IT资源(CPU、内存、存储)用量计费。按时计费。
8.丰富的运维管理,实现业务的可控、可管,使整个系统有效运营。
支持快速故障定位,系统通过获取异常日志和程序堆栈等方法,缩短问题定位时间,快速解决异常问题。系统通过自动化的健康状态检查,及时发现故障并预警,确保虚拟机可运营管理。支持全Web化的界面,通过Web浏览器对所有硬件资源、虚拟资源、用户业务发放等进行监控管理。
9.安全
采用多种安全措施和策略,并遵从信息安全法律法规,对用户接入、管理维护、数据、网络、虚拟化等提供端到端的业务保护。
图5.22虚拟化平台架构
如图所示为虚拟化平台的架构,主要包括五个部分:硬件基础设施、虚拟化存储、虚拟化计算、平台管理、数据存储系统五个部分。