跟我一起总结【数据仓库】之——实施经验

在这次分享会开始之前,对所有战斗在项目第一线及奔赴现场的同学们,真切的道一声辛苦了!
本次的分享涵盖了
交付物、数据仓库设计、需求变更及处理方法、问题记录

1.交付物:
《库表检查记录》
《API接口文档》
《数据架构图》
《数仓资源访问方式》数据库类型、数据库位置,面向的是不会使用数据库的客户。
《数据仓库设计文档》贴源层-标准层-基础数据层-集市层-应用层,(Excel结构参照模板)
《数据质量检验记录》针对数据源的质量进行统计,校验规则
《数据源清单说明书》包含数据来源部门,数据结构

2.客户的需求,如果不清楚大数据平台或者hadoop集群能否实现,一定不要答应需求;
不仅仅是咱们数据部同事,项目经理更应该注意,如果项目经理对这方面意识不强,数据成员要做到主动提醒。

例如客户问:

咱们能否实现实时数据对接,达到30秒更新一次呀?
①集群是否有相应组件(spark,kafka,storm,flink);
②组件是否已经在大数据平台测试通过;
③如果都满足:
    实时数据不需要进中间库但是需要根据需求在集市层建立汇总表,之后对接应用层;
    部分数据(如:高德路况数据、物联网数据等)由java同事转格式后,睿呈直接调用;
    空间数据(坐标转换、shape处理)全部由睿呈处理。

咱们大数据平台能否实现血缘关系导出呀? 
①对不起,平台暂时不支持这个功能。

3.依据XX《XXX数据模型设计规范v1.01》
项目中华为侧对于数据库设计尤为关注!
①贴源层、标准层:表结构在源数据的基础上添加五个字段,包含:
①基础数据层:实体划分,实体关系分析、原子信息划分;
②注意那10个字段和实体ID统计表
③维度划分
④源数据不符合第一范式中属性不可再分,
解决方法:跟客户反馈,确认处理方法,是当做脏数据清洗掉,还是另外推送表。

4.核对《交互设计(XX区IOC)》
①产品原型确定好之后,首先跟产品经理对接《交互设计》;
②项目中数据部全体必须清楚设计!做好问题记录,后续etl实施中,针对个人不清楚地方,及时对接;
③“强烈建议”项目经理跟着一起对接,项目中项目经理是公司的出口,涉及问题记录,数据跟踪,需求变更各大环节,清楚地了解原型
能够更快更好的推动项目进展;

5.虽然在数据仓库设计中
要求在建立中间库的时候,实体、原子划分,筛选明细大表的字段,确定三者之间的映射关系,要以原型为导向
即完善“指标梳理”,形成《指标梳理表》
风险:产品经理对于原型的修改
①变更实体原子信息(主要是添加原子信息表的字段),这需要重新,新扫描原子表- 例如

6.形成《问题追踪表》
①更新周期:日更

7.形成《大数据平台调测问题记录》
①平台bug反馈及解决步骤;
②jar包备份及更新记录(包含研发负责人名字);
③log日志查看记录及问题截图,解决步骤;
④权限认证文件更新时间及过期日期,平台版本号,提前向项目经理反馈,做好认证更新;
⑤项目实施过程中针对平台的改进建议;

8.形成《数据库及平台登陆方式》
①包含网址、用户名、密码、ip、端口号等;
②便于项目组所有成员登录平台及数据库;

9.数据跟踪
完善《xxx专题指标梳理表》,做到及时与客户沟通数据情况
 

你可能感兴趣的:(数据仓库)