泛读阿里巴巴大数据实践

写在文前:每一个牛逼的架构背后都有一群苦逼的工程师和一段苦闷的基础工作!

泛读阿里巴巴大数据实践_第1张图片
图片来自大数据之路

清晰的分层,明确的数据流转通道,大数据业界耳熟能祥的中间件产品,加上阿里巴巴每年双11一骑绝尘的数据处理速度和诸多闪耀的商业智能,证明这绝逼是个牛逼的架构无疑!

先翻到最后下里巴人的应用,对内数据平台,“数据分析基本是所有员工的必备技能”,每个重视大数据的企业的员工的基本要求吧,做不到自觉面壁思过去!

然后就是阿里巴巴通用技术历程,一段段苦逼的苦闷的基础活 到 购买商业软件 到自主研发 最后到闪耀全球,在不断重构和拥抱变化中成长,也不忘记基础的痛点!

再回到本书的大数据三把板斧,数据技术、数据建模和数据管理。

首先是数据技术,我觉得是三类,ETL类(数据采集和数据同步),数据计算(离线和实时),数据服务(数据服务和数据挖掘),阿里巴巴的数据采集与同步基本都是基于数据库日志的,我觉得是为了减少对原始数据的侵入式和各类数据库专家建议的最靠谱方式,数据库操作完备的日志是数据库的最重要功能之一,根据日志能复制一遍数据库以及数据库数据管理和更新的记录,对于原数据没有有限管理设计的数据库有奇效。

然后到中篇数据建模,提现出来的思想是技术的传承性和谦卑善师,从Oracle到大数据仓库是传承,从基础建模理论3NF到ER模型到纬度建模是传承。然后又来了一个阿里巴巴通用技术历程来讲解阿里巴巴数据仓库模型建设的三个阶段:Oracle时代到GP时代到大数据仓库时代。

在建模理论上重点推荐了两本书,主要是Kimball建模,发觉我刚买了其中一本,如此幸运!

模型层次是万物通用的“万有三层理论”(by Me),ODS ->CDM-> ADS。通用三层数据仓库,不同细分和业务建模。

泛读阿里巴巴大数据实践_第2张图片
阿里巴巴大数据之路

再来到建模方法论,Kimball理论。纬度表和事实表建模,通杀三句话,业务,业务,还是业务!索引回上一篇,工程师的最终价值在于业务理解和深度,业务是建模的基础,不懂业务真的只能建个毛(皮毛)。

最后是数据管理,我们更倾向于叫做数据治理,包括质量控制,元数据管理等,ETL有很大工作量,但是有没有价值是靠价值数据体现的,做好基础数据治理,才能更有限更便捷的挖掘数据价值。

通篇而论,架构是三层理论,结构是三章理论,发展步骤是三步理论,业务建模也是三步理论,“三分天下”,是为“形而上学”。

再从技术秉性来看,不断的讲解技术的进阶历史,在拥抱业务变化中重构技术框架,再从不断吸收国外基础理论和架构设计思想,通体在体现互联网技术的拥抱变化、持续迭代持续重构、深度理解业务和谦卑快速学习精神!

好的架构呈现的是解决问题的思想,体现的是背后工程师的辛苦付出和互联网标签的性格特质,再抽象一层是中华民族勤劳为本积极进取的美德(社会主义核心价值观学的精通,没办法)。

没有繁琐的基础工作和一群谦卑热爱学习不断重构折腾的工程师,就没有真金火炼的架构图和千淬百炼的大数据系统,还有业务价值是内功修炼。编者按!

你可能感兴趣的:(泛读阿里巴巴大数据实践)