一:平台综述
1 现状:数据仓库建立完善,积累了一定量的业务数据
2 问题:数据没有充分利用
3 关注的内容及接下来要做的:标准+管理+建设+整合
4大数据分析平台建设目标:通过数据平台与BI应用,搭建统一的大数据共享和分析平台,对各类业务进行预测及分析,提升数据共享与流转能力
5 预期收益:数据共享+数据质量+效率+创新
二:平台总体架构
6 总体架构
6.1 数据产生层:结构化数据(行结构用二维表结构表示的数据)+非结构化数据(音频,视频,微博,贴吧等)+增量+全量
6.2 数据交换层:保证数据质量安全
数据交换层大数据交换组件包括以下4方面
方式一:处理对象(企业内部结构化和企业外部非结构化,半结构化数据)
实现功能(组件以实时和批量2种模式实际数据采集,存储等)
实现技术(批量采集用SFTP协议传输为了保证更安全性或开始java,调用 API)
应用场景(定时抽取数据,加载处理)
方式二:处理对象(商城业务数据,即四大数据库内的数据)
实现功能(数据采集,质量核查,加载到数据区)
实现技术(perl+hive load)
应用场景(云数据连接源数据库,存储数据到本平台并加载到数据平台临时区)
方式三:处理对象(各层数据区:归档数据区+大数据区+沙盘数据区+主题数据区+集市数据区)
实现功能(批量方式实现数据交换功能)
实现技术(SQOOP+HVIE+HAOOP命令)
应用场景(统一管理)
6.3流程调度层
--------------> 批量数据处理流
1 获取业务系统数据存入临时数据区
2 获取企业内外非结构化数据并进行结构化处理存入主题或集市数据区
3 整合数据
4 整合数据并生成汇总
5 结果交到数据集市,支持分析类应用
----------------->实时数据处理流
1 通过数据库交换组件获取增量数据,加载到实时数据区
2 获取非结构化数据并利用storm处理数据,加载到实时数据区
3 针对实时数据区数据执行标准处理和贴源整合
------------------>归档数据处理流
1 数据文件通过hdfs命令行归档
2 集市数据区通过sqoop或数据库提供的hadoop集成技术执行归档
6.4 数据存储层(后续梳理)
6.5 数据应用层(后续梳理)
6.6 数据访问层(多种展现形式满足各层级用户及应用系统使用需求)
静态报表,即席查询,多维分析,挖掘预测,WEB服务,仪表盘等
6.7 数据管控层(后续梳理)
6.8 数据标准管理
6.9 数据质量管理
6.10 元数据管理
6.11 数据安全管理
7 高阶工作流程
8 数据管控平台
9 总体产品框架
三:演进路线
四:实施
硬件配置
五:数据质量管理
元信息模型为核心+规则配置管理模块+检查执行模块+分析报告生成模块+分析报告展现模块
整个数据质量检查过程以ETL任务的形式统一调度执行
六: 数据质量管理分析报告展现
实现功能:报告查询,报告查看,报告下载,明细下载
实现技术:j2EE,发布链接到平台门户上,作为war包部署在tomcat集群上