2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪

2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪 致 Spark + AI 后浪

    • 大咖心声
    • 新书图片
    • 新书介绍
    • 编辑推荐
    • 内容简介
    • 作者简介
    • 新书目录
    • 第二版前言
    • 第一版前言
    • 新书案例讲解
    • 第二版网购链接
    • 新书资讯
    • 献给Spark+AI的“后浪”

大咖心声

Apache Spark已是我的天涯。
进,看不见幸福
退,看不见

在Data + AI的漫漫黑夜中,Spark 犹如火花闪现。
这不是终结,
而是开天辟地的第一束数据智能火光。
,止于此。
,也止于此。
止于此,春便还是春,夏便还是夏。
风止于秋水
我,止于你。

——王家林2020年春分于硅谷

新书图片

2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪_第1张图片

2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪_第2张图片

新书介绍

2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪_第3张图片

编辑推荐

基于最新的Spark2.4.X版本,分为内核解密篇,商业案例篇,性能调优篇和Spark+AI解密篇,共32章,学习过程中有任何疑问,可加入QQ群418110145,有专业人员答疑解惑。

内容简介

在大数据和AI紧密协同时代,最佳的AI系统依赖海量数据才能构建出高度复杂的模型,海量数据需要借助Al才能挖掘出终极价值。本书以数据智能为灵魂,以Spark 2.4.X版本为载体,以Spark+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心,对企业生产环境下的Spark+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇,内核解密篇基于Spark源码,从一个实战案例入手,循序渐进地全面解析Spark 2.4.X版本的新特性及Spark内核源码;商业案例篇选取Spark开发中最具代表性的经典学习案例,在案例中综合介绍Spark的大数据技术;性能调优篇覆盖Spark在生产环境下的所有调优技术; Spark+ AI内幕解密篇讲解深度学习动手实践,通过整合Spark、PyTorch以及TensorFlow揭秘Spark上的深度学习内幕。
本书适合所有大数据和人工智能学习者及从业人员使用。对于有丰富大数据和AI应用经验的人员,本书也可以作为大数据和AI高手修炼的参考用书。同时,本书也特别适合作为高等院校的大数据和人工智能教材。

作者简介

王家林,Apache Spark执牛耳者现工作于硅谷的AI实验室,专注于NLP框架超过20本Spark、Al、Android书籍作者Toastmasters International Division Director GRE博士入学考试连续两次满分获得者
  
段智华,就职于中国电信股份有限公司上海分公司,系统架构师,CSDN博客专家,专注于Spark大数据技术研发及推广,跟随Spark核心源码技术的发展,深入研究Spark 2.1.1版本及Spark 2.4.0版本的源码优化,对Spark大数据处理、机器学习等技术有丰富的实战经验和浓厚兴趣。

新书目录

第1篇 内核解密篇
第1章 电光石火间体验Spark 2.4 开发实战
1.1 通过RDD实战电影点评系统入门及源码阅读
1.1.1 Spark核心概念图解
1.1.2 通过RDD实战电影点评系统案例
1.2 通过DataFrame和DataSet实战电影点评系统
1.2.1 通过DataFrame实战电影点评系统案例
1.2.2 通过DataSet实战电影点评系统案例
1.3 Spark2.4 源码阅读环境搭建及源码阅读体验
第2章 Spark 2.4 技术及原理
2.1 Spark 2.4 综述
2.1.1 连续应用程序
2.1.2 新的API
2.2 Spark 2.4 Core
2.2.1 第二代Tungsten引擎
2.2.2 SparkSession
2.2.3 累加器API
2.3 Spark 2.4 SQL
2.3.1 Spark SQL
2.3.2 DataFrame和Dataset API
2.3.3 Timed Window
2.4 Spark 2.4 Streaming
2.4.1 Structured Streaming
2.4.2 增量输出模式
2.5 Spark 2.4 MLlib
2.5.1 基于DataFrame的Machine Learning API
2.5.2 R的分布式算法
2.6 Spark 2.4 GraphX
第3章 Spark的灵魂:RDD和DataSet
3.1 为什么说RDD和DataSet是Spark的灵魂
3.1.1 RDD的定义及五大特性剖析
3.1.2 DataSet的定义及内部机制剖析
3.2 RDD弹性特性7个方面解析
3.3 RDD依赖关系
3.3.1 窄依赖解析
3.3.2 宽依赖解析
3.4 解析Spark中的DAG逻辑视图
3.4.1 DAG生成的机制
3.4.2 DAG逻辑视图解析
3.5 RDD内部的计算机制
3.5.1 Task解析
3.5.2 计算过程深度解析
3.6 SparkRDD容错原理及其四大核心要点解析
3.6.1 Spark RDD容错原理
3.6.2 RDD容错的四大核心要点
3.7 SparkRDD中Runtime流程解析
3.7.1 Runtime架构图
3.7.2 生命周期
3.8 通过WordCount实战解析Spark RDD内部机制
3.8.1 Spark WordCount动手实践
3.8.2 解析RDD生成的内部机制
3.9 基于DataSet的代码如何转化为RDD
第4章 Spark Driver启动内幕剖析
4.1 Spark Driver Program剖析
4.1.1 Spark Driver Program
4.1.2 SparkContext深度剖析
4.1.3 SparkContext源码解析
4.2 DAGScheduler解析
4.2.1 DAG的定义
4.2.2 DAG的实例化
4.2.3 DAGScheduler划分Stage的原理
4.2.4 DAGScheduler划分Stage的具体算法
4.2.5 Stage内部Task获取最佳位置的算法
4.3 TaskScheduler解析
4.3.1 TaskScheduler原理剖析
4.3.2 TaskScheduler源码解析
4.4 SchedulerBackend解析
4.4.1 SchedulerBackend原理剖析
4.4.2 SchedulerBackend源码解析
4.4.3 Spark程序的注册机制
……

第2篇 商业案例篇
第3篇 性能调优篇
第4篇 Spark+AI解密篇

第二版前言

2019年 4月,在美国旧金山举办的 Spark+AI峰会提出,大数据和人工智能需要统一,人工智能应用需要大量的、不断更新的训练数据来构建先进的模型。到目前为止, Apache Spark是唯一一个将大规模数据处理与机器学习和人工智能算法完美结合的引擎。
  Apache Spark是大数据领域的通用计算平台。在 Full Stack思想的指导下, Spark中的 Spark SQL、Spark Streaming、MLLib、GraphX、R五大子框架和库之间可以无缝地共享数据和操作,这不仅形成了 Spark在当今大数据计算领域其他计算框架无可匹敌的优势,而且使其加速成为大数据处理中心首选的通用计算平台。
  回顾 Spark的历史可以发现,在任何规模的数据计算中, Spark在性能和扩展性上都更具优势。
  Hadoop之父 Doug Cutting指出:大数据项目的 MapReduce引擎的使用将下降,由 Apache Spark取代。
  Hadoop商业发行版本的市场领导者 Cloudera、HortonWorks、MapR纷纷转投 Spark,并把 Spark作为大数据解决方案的首选和核心计算引擎。
  在 2014年的 Sort Benchmark测试中,Spark秒杀 Hadoop,在使用其十分之一计算资源的情况下,对相同数据的排序, Spark比 MapReduce快 3倍。在没有官方千万亿字节( PB)排序对比的情况下,首次利用 Spark对 1PB数据( 10万亿条记录)排序,在使用 190个节点的情况下,工作负载在 4小时内完成,同样远超雅虎之前使用 3800台主机耗时 16小时的记录。
  2015年 6月,Spark最大的集群—— 8000个节点来自腾讯,单个最大 Job——1PB来自阿里巴巴和 Databricks。
  IBM公司于 2015年 6月承诺大力推进 Apache Spark项目,并称该项目为以数据为主导的、未来 10年最重要的、新的开源项目。
  2016年,在有“计算界奥运会”之称的国际著名 Sort Benchmark全球数据排序大赛中,由南京大学计算机科学与技术系 PASA大数据实验室、阿里巴巴和 Databricks公司组成的参赛团队 NADSort,使用 Apache Spark大数据计算平台,以 144美元的成本完成了 100TB标准数据集的排序处理,创下了每万亿字节( TB)数据排序 1.44美元成本的世界纪录。
  2017年,Spark Structured streaming发布无缝整合流处理和其他计算范式。
  2018年,Spark 2.4.0发布,成为全球最大的开源项目。
  2019年,任何个人和组织都可以基于 Spark打造符合自己需求的基于大数据的 AI全生态链计算引擎。
  本书以 Spark 2.4.3为基础,在第 1版的基础上根据 Spark的新版本全面更新源码,并以 TensorFlow和 PyTorch为核心,大幅度增加人工智能的内容及相应的实战案例。本书以 Spark内核解密为基石,分为内核解密篇、商业案例篇、性能调优篇和 Spark+AI内幕解密篇。虽然本书的内容增加了一篇,为了更好地与第 1版延续,仍沿用三部曲的书名。
  (1)内核解密篇。第 1版基于 Spark 2.2.X版本源码,从一个动手实战案例入手,循序渐进地全面解析了 Spark 新特性及 Spark内核源码。第 2版在第 1版的基础上,将 Spark 2.2.X
  源码更新为 Spark 2.4.X源码,并对源码的版本更新做了详细解读,帮助读者学习 Spark源码框架的演进及发展。
  (2)商业案例篇。沿用第 1版的案例内容,选取 Spark开发中最具代表性的经典学习案例,深入浅出地介绍综合应用 Spark的大数据技术。
  (3)性能调优篇。第 1版基于 Spark 2.2.X源码,基本完全覆盖了 Spark在生产环境下的所有调优技术;第 2版在第 1版的基础上,将 Spark 2.2.X源码更新为 Spark 2.4.X源码,基于 Spark 2.4.X版本讲解 Spark性能调优的内容。
  (4)Spark+AI内幕解密篇。本篇是第 2版的全新内容,大幅度增加大数据在人工智能领域的应用内容,包括深度学习动手实践:人工智能下的深度学习、深度学习数据预处理、单节点深度学习训练、分布式深度学习训练; Spark+PyTorch案例实战: PyTorch在 Spark上的安装、使用 PyTorch实战图像识别、 PyTorch性能调优最佳实践; Spark+TensorFlow实战: TensorFlow在 Spark上的安装、 TensorBoard解密、 Spark TensorFlow的数据转换; Spark上的深度学习内核解密:使用 TensorFlow进行图片的分布式处理、数据模型源码剖析、逻辑节点源码剖析、构建索引源码剖析、深度学习下 Spark作业源码剖析、性能调优最佳实践。
  在阅读本书的过程中,如发现任何问题或有任何疑问,可以加入本书的阅读群(QQ: 418110145)讨论,会有专人答疑。同时,该群也会提供本书所用案例源码及本书的配套学习视频。作者的新浪微博是 http://weibo.com/ilovepains/,欢迎大家在微博上与作者进行互动。
  由于时间仓促,书中难免存在不妥之处,请读者谅解,并提出宝贵意见。
  王家林 2020年 4月于美国硅谷

第一版前言

大数据像当年的石油、人工智能( Artificial Intelligence),像当年的电力一样,正以前所未有的广度和深度影响所有的行业,现在及未来公司的核心壁垒是数据,核心竞争力来自基于大数据的人工智能的竞争。 Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台, 2009年诞生于美国加州大学伯克利分校 AMP实验室,2010年正式开源, 2013年成为 Apache基金项目, 2014年成为 Apache基金的顶级项目。基于 RDD,Spark成功构建起了一体化、多元化的大数据处理体系。
  在任何规模的数据计算中, Spark在性能和扩展性上都更具优势。
  (1)Hadoop之父 Doug Cutting指出:Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark(大数据项目的 MapReduce引擎的使用将下降,由 Apache Spark取代)。
  (2)Hadoop商业发行版本的市场领导者 Cloudera、HortonWorks、MapR纷纷转投 Spark,并把 Spark作为大数据解决方案的首选和核心计算引擎。
  2014年的 Sort Benchmark测试中,Spark秒杀 Hadoop,在使用十分之一计算资源的情况下,相同数据的排序上, Spark比 MapReduce快 3倍!在没有官方千万亿字节( PB)排序对比的情况下,首次将 Spark推到了 1PB数据( 10万亿条记录)的排序,在使用 190个节点的情况下,工作负载在 4小时内完成,同样远超雅虎之前使用 3800台主机耗时 16个小时的记录。
  2015年 6月,Spark最大的集群—— 8000个节点来自腾讯,单个 Job——1PB最大分别是阿里巴巴和 Databricks,震撼人心!同时, Spark的 Contributor比 2014年涨了 3倍,达到 730人;总代码行数也比 2014年涨了 2倍多,达到 40万行。IBM于 2015年 6月承诺大力推进 Apache Spark项目,并称该项目为:以数据为主导的,未来十年最重要的新的开源项目。
  这一承诺的核心是将 Spark嵌入 IBM业内领先的分析和商务平台,并将 Spark作为一项服务,在 IBMBluemix平台上提供给客户。 IBM还将投入超过 3500名研究和开发人员在全球 10余个实验室开展与 Spark相关的项目,并将为 Spark开源生态系统无偿提供突破性的机器学习技术——IBM SystemML。同时,IBM还将培养超过 100万名 Spark数据科学家和数据工程师。
  2016年,在有“计算界奥运会”之称的国际著名 Sort Benchmark 全球数据排序大赛中,
  由南京大学计算机科学与技术系 PASA大数据实验室、阿里巴巴和 Databricks公司组成的参赛团队 NADSort,以 144美元的成本完成 100TB标准数据集的排序处理,创下了每万亿字节(TB)数据排序 1.44美元成本的最新世界纪录,比 2014年夺得冠军的加州大学圣地亚哥分校 TritonSort团队每万亿字节数据 4.51美元的成本降低了近 70%,而这次比赛依旧使用 Apache Spark大数据计算平台,在大规模并行排序算法以及 Spark系统底层进行了大量的优化,以尽
  可能提高排序计算性能并降低存储资源开销,确保最终赢得比赛。
  在 Full Stack理想的指引下, Spark中的 Spark SQL、SparkStreaming、MLLib、GraphX、 R五大子框架和库之间可以无缝地共享数据和操作,这不仅打造了 Spark在当今大数据计算领域其他计算框架都无可匹敌的优势,而且使得 Spark正在加速成为大数据处理中心首选通用计算平台,而 Spark商业案例和性能优化必将成为接下来的重中之重!
  本书根据王家林老师亲授课程及结合众多大数据项目经验编写而成,其中王家林、段智华编写了本书近 90%的内容,具体编写章节如下。
  第3章 Spark的灵魂: RDD和 DataSet;
  第4章 Spark Driver启动内幕剖析;
  第5章 Spark集群启动原理和源码详解;
  第6章 Spark Application提交给集群的原理和源码详解;
  第7章 Shuffle原理和源码详解;
  第8章 Job工作原理和源码详解;
  第9章 Spark中 Cache和 checkpoint原理和源码详解;
  第10章 Spark中 Broadcast和 Accumulator原理和源码详解;
  第11章 Spark与大数据其他经典组件整合原理与实战;
  第12章 Spark商业案例之大数据电影点评系统应用案例;
  第13章 Spark 2.2实战之 Dataset开发实战企业人员管理系统应用案例;
  第14章 Spark商业案例之电商交互式分析系统应用案例;
  第15章 Spark商业案例之 NBA篮球运动员大数据分析系统应用案例;
  第16章 电商广告点击大数据实时流处理系统案例;
  第17章 Spark在通信运营商生产环境中的应用案例;
  第18章 使用 Spark GraphX实现婚恋社交网络多维度分析案例;
  第23章 Spark集群中 Mapper端、Reducer端内存调优;
  第24章 使用 Broadcast实现 Mapper端 Shuffle聚合功能的原理和调优实战;
  第25章 使用 Accumulator高效地实现分布式集群全局计数器的原理和调优案例;
  第27章 Spark五大子框架调优最佳实践;
  第28章 Spark 2.2.0新一代钨丝计划优化引擎;
  第30章 Spark性能调优之数据倾斜调优一站式解决方案原理与实战;
  第31章 Spark大数据性能调优实战专业之路。
  其中,段智华根据自身多年的大数据工作经验对本书的案例等部分进行了扩展。
  除上述章节外,剩余内容由夏阳、郑采翎、闫恒伟三位作者根据王家林老师的大数据授课内容而完成。

新书案例讲解

Spark+AI新书介绍

Spark+AI新书介绍及大数据电影点评案例讲解

第二版网购链接

《Spark大数据商业实战三部曲》第二版购书链接
2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪_第4张图片
618是京东优惠力度最大的活动!新书现在优惠150元,读者朋友们请抓紧时间购买!
5月27日00:00:00——5月31日23:59:59
优惠力度
自营图书 每满100减50
满减叠券享500减300

新书资讯

1.微博:王家林大咖微博
2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪_第5张图片
2.新书代码: GitHub代码库
3.微信视频号:段智华
4.知识星球:Spark+AI清华大学新书(星球内提供大量电子书资料)
5.微信群:段智华@SPARK+AI清华新书读者群
6.CSDN博客

献给Spark+AI的“后浪”

那些口口声声,一代不如一代的人,
应该看着你们,像我一样。
我看着你们,满怀羡慕。
大数据及人工智能行业积攒了几十年的技术经验,
所有的Spark、Tensorflow、Pytorch框架、机器学习深度学习算法、Java、Python软件和架构,
像是专门为你们准备的礼物。

科技强国战略、人工智能技术先进、科技人才辈出
Spark+AI的科学成果被层层打开,
可以尽情享用。

自由学习一门语言,
学习一种框架,
欣赏一本新书,
到遥远的地方旅行。

很多人从小你们就在自由探索自己的计算机兴趣,
很多人在童年就进入了不惑之年,
不惑于自己喜欢什么,
不喜欢什么

Spark+AI科学家之间的壁垒被打破,
你们只凭相同的Spark+AI技术,
就能结交千万个值得一起为Spark+AI奋斗的朋友。

你们拥有了,我们曾经梦寐以求的权利,
选择的权利。
你所选择的Spark+AI,就是你的生活。
你们有幸遇见这样一个Spark+AI的人工智能时代,
但是Spark+AI人工智能时代更有幸遇见这样的你们。

我看着你们,满怀敬意,向你们的专业态度致敬。
你们正在把经典的变成分布式的,
把学术的变成大众的,
把国内的变成世界领先的,
把传统的变成人工智能的。

你们把自己的Spark+AI代码,
变成了一个和成千上万的人分享快乐的事业,
向你们的自信致敬。

弱小的人才习惯嘲讽和否定,
Spark+AI科学家从不吝啬赞美和鼓励,
向你们的大气致敬。

小人同而不和,
Spark+AI科学家美美与共,和而不同。

更年轻的身体,容得下更多元的文化、审美和价值观。
有一天我终于发现,
不只是我们在教你们如何生活,
你们也在启发我们怎样去更好的生活。

那些抱怨一代不如一代的人,
应该看着你们,就像我一样。
我看着你们,满怀感激。
因为你们,
这个世界会更喜欢中国,
因为一个国家最好看的风景,
就是这个国家的Spark+AI科学家。

因为你们,
这世上的微信视频号、微博、公众号、书籍所表现的青春,
就不再是焦虑、迷茫,
而是善良、勇敢、无私,
是心里有Spark之火,眼里有AI之光

不用活成我们想象中的样子,
我们这一代人的想象力,
不足以想象你们AI世界的未来。

如果你们依然需要我们的祝福,那么,
奔涌吧,后浪 !
我们在同一条奔涌的Spark+AI浪潮。

你可能感兴趣的:(麻省理工线性代数,人工智能,大数据,spark,ai)