大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法...

前言

阿里巴巴智能服务事业部数据开发专家。大数据践行者,致力于通过数据和算法的智能化来赋能商业与社会,拥有十余年大数据一线实战经验,尤其对于智能化产品的大数据开发、架构和未来数据产品设计有丰富经验及深入认识。对Hadoop离线数据开发技术、流计算实时开发技术、大数据开发优化以及大数据建模等有较为深入的研究。

阿里巴巴大数据开发专家撰写,源于十余年工作实践,只讲实用有效的“招式”;

庖丁解牛式讲解离线和实时开发平台架构、原理实现、开发示例,涵盖查询与优化、建模、数仓开发、流计算开发等核心技术。

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第1张图片

离线和实时大数据开发实战内容,全篇内容分为三篇,共12章,由于内容实在是太多了,所以小编只把部分知识点截图出来粗略的介绍一下,每个小节都有更加细化的内容。

第一篇为数据大图和数据平台大图(第1章和第2章),主要站在全局的角度,基于数据、数据技术、数据相关从业者和角色、离线和实时数据平台架构等给出整体和大图形式的介绍。

第1章站在数据的全局角度,对数据流程以及流程中涉及的主要数据技术进行介绍,还介绍了主要的数据从业者角色和他们的日常工作内容,使读者有个感性的认识。

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第2张图片

第2章是本书的纲领性章节, 站在数据平台的角度,对离线和实时数据平台架构以及相关的各项技术进行介绍。同时给出数据技术的整体骨架,后续的各章将基于此骨架,具体详述各项技术。

第二篇为离线数据开发:大数据开发的主战场(第3~ 7章),离线数据是目前整个数据开发的根本和基础,也是目前数据开发的主战场。这-部分详细介绍离线数据处理的各种技术。

第3章详细介绍离线数据处理的技术基础HadoopMapReduce和HDFS。本章主要从执行原理和过程方面介绍此项技术,是第4章和第5章的基础。

第4章详细介绍 Hive。Hive 是目前离线数据处理的主要工具和技术。本章主要介绍Hive的概念、原理、架构,并以执行图解的方式详细介绍其执行过程和机制。

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第3张图片

第5章详细介绍 Hive的优化技术,包括数据倾斜的概念、join 无关的优化技巧、join相关的优化技巧,尤其是大表及其join操作可能的优化方案等。

第6章详细介绍数据的维度建模技术,包括维度建模的各种概念、维度表和事实表的设计以及大数据时代对维度建模的改良和优化等。

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第4张图片

第7章主要以虚构的某全国连锁零售超市FutureRetailer为例介绍逻辑数据仓库的构建,包括数据仓库的逻辑架构、分层、开发和命名规范等,还介绍了数据湖的新数据架构。

第三篇为实时数据开发:大数据开发的未来(第8~ 12章),主要介绍实时数据处理的各项技术,包括Storm、Spark Streaming、Flink、 Beam以及流计算SQL等。

第8章详细介绍 分布式流计算最早流行的Storm技术,包括原生Storm以及衍生的Trident框架。

第9章主要介绍 Spark生态的流数据处理解决方案Spark Streaming, 包括其基本原理介绍、基本API、可靠性、性能调优、数据倾斜和反压机制等。寓第10章主要介绍流计算技术新贵Flink技术。Flink兼顾数据处理的延迟与吞吐量,而且具有流计算框架应该具有的诸多数据特性,因此被广泛认可为下一代的流式处理引擎。

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第5张图片

第11章主要介 绍Google力推的Beam技术。Beam 的设计目标就是统一离线批处理和实时流处理的编程范式,Beam抽象出数据处理的通用处理范式BeamModel,是流计算技术的核心和精华。

第12章主要结合 Flink SQL和阿里云Stream SQL介绍流计算SQL,并以典型的几种实时开发场景为例进行实时数据开发实战。

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第6张图片

实时数据平台的整体架构大图

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第7张图片

主流流计算技术对比

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第8张图片

专家点评

阿里机器学习算法大集结

大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第9张图片
大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第10张图片
大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第11张图片
大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第12张图片
大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法..._第13张图片

阿里离线和实时大数据分析和算法技术文档到此为止,小编已经全部整理完了,需要的小伙伴就可以转发此文关注小编,私信小编“学习”来得到获取方式吧~~~

你可能感兴趣的:(大数据算法)