摘要:数据仓库的建设不单单是一门技术,更是一门管理科学;三分技术,七分业务,十二分的管理;成千上万的数据表如何有效的管理和利用是需要有科学的方法指导实践的。
小源科技成立于2011年,是一家专注移动互联网领域的产品研发和运营的创业公司,我们秉承“点滴源泉,无际蓝海”的公司经营理念,坚信融入用户才能发现需求,专注一点才能做到极致,快速前进才能永葆领先,为用户所想才能实现价值。小源科技是智能短信概念的提出者和先行者,也是国内最大的情景短信平台运营商。目前包括三星及国内大部分知名手机厂商均采用了小源科技的信析宝智能短信SDK整体解决方案。公司团队主要成员来自金山、多玩、QUEST等国内外一流IT企业,拥有5-10年的丰富从业经验,擅长产品策划设计,安卓苹果服务端的跨平台开发,互联网运营和营销推广,数据挖掘和分析。
数据来源于SDK,因业务是2015年摸索的主营智能短信SDK;在2016年3月由来自阿里巴巴的某位大神作为部门总监成立数据部门,心中留着对阿里的满满滴爱,毫无保留的直接使用阿里云产品。
话说,有些神奇的词比如:愿景,目标,战略,规划,方案,架构,接口,数据模型这些关键字会在所有公司各层次的人员之间;一个事情嘛得上级认可,下属认同,然后开展起来就更容易水到渠成。老板经常会问我你规划怎么做?有什么方案? 数据仓库的建设单单是一门技术,更是一门管理科学;三分技术,七分业务,十二分的管理 然后就有了下面的做事情前的规划:
业务现状:需要对公司所经营的业务以及与其他企业合作的业务有一个总体的梳理认识;给领导一个说话的机会:小林同学,xx是公司核心或者需要重点进行数据支持和分析。
数据现状:必须对数据现状有个大致的了解,好评估每日要处理多大的量以及按正常业务正常1-3年的数据处理量达到什么规模。
面临的问题:把数据和技术上的有的坑尽量找出,描述一下数据在技术上的难题;原有的数据是在hdfs上的一个文件,没有保留结构化的中间结果 导致数据使用的难度大大增加;数据结构是json规范 每个业务的json差异比较大有数据组json以及字段之间还有相关规则。
做一件大事得有规划,有方法论指导;因为领导指名点姓使用阿里云,因此完善自建平台的plan B就一字不提了
常言道做大事要有对的人和对的方法,没有个方法论指导数据平台的建设就是耍流氓
建楼房得有规划设计图好对项目有全局观,数据平台也少不了;因此做逻辑规划
数据逻辑分层:逻辑分层便于数据管理以及针对不用终端用户,体现在表前缀或者数据库的用户/数据库的物理隔离。
Ods层:Operational Data Store带日期或者增加stg层存储接口数据,与业务系统一致的结构和数据格式数据处理完成释放,初步存放策略:接口数据不作保留拆分成功后清理。
DW层:data warehouse,以数据信息为基于 梳理企业的信息模型 保留细节数据 轻度汇总,累计去重用户保存在此层级dw层轻度汇总 天数据保存1个月+当前月 累计按周 按月存放(分区为周一,月初1号)。
Dm:DataMart它和需求息息相关多维模型层次,各类报表,对外使用数据 :永久保留。
Dim:永久保存。
odps中落地实现的最终效果:任务管理通过逻辑分层-》主题-》具体的主题任务(以表名的形态存在)
对数据的流程以及与上下游系统之间的描述,实时数据采集实际实践中采用阿里云的日志服务结合Logtail获取日志文件的最新追加的内容并写入日主服务中,由日志服务间隔半小时投递到ODPS的ods层的数据表
采用odps的数据同步底层实际是datax,将源系统数据按原数据格式导入odps表的当天分区(默认保留7天),便于数据的核对和一致性,然后使用sql任务将ods表整合转存到dw保存全量和清洗空置,保留历史快照等ETL操作
模型规划需要有高度的概念描述公司经营业务过程中参与的主要的实体以及实体之间的关系;便于对公司业务的信息进行完整的梳理来支撑完整的数据仓库建模以及保证跨系统之间的一致性
结合业务需求以及公司业务信息为基础覆盖所有数据和现在阶段关键业绩指标的主题域模型,
规划是那么的重要,数据接入往往是分阶段完成的;经过前面的几个步骤对数据之间的关系有大体的能较清晰的了解依赖的数据源并制定相对应的系统调研计划深入了解
某个系统数据接入的方式(增加量条件或者全量,无备库数据的数据接入的时间)
实现数据的可视化不仅让数据变得通俗易懂,还能更加直接的传递所表达的信息。在生活中,常遇到的数据一般都是具有标识系统的,这种标识系统不仅仅是方向性的,还有文字性的。如街头上的指路标志,不仅让你更加直观的获取信息,还能为了解决实际的需要。
使用BI报表中自带的数据产品一周内建立整个美观强大的经营分析系统,最终效果如下图所示
大部分数据分析师常用的技能是excel的透视图表,因此QuickBI报表的透视图表提供了一个web端的数据分析能力,只需要对数据集进行可视化拖拉操作即可完成数据的OLAP操作