GitChat的博客

Spark 高级数据分析（第2版）

内容简介

作为计算框架，Spark 速度快，开发简单，能同时兼顾批处理和实时数据分析，因此很快被广大企业级用户所采纳，并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。

本书由业内知名数据科学家执笔，通过丰富的示例展示了如何结合 Spark、统计方法和真实世界数据集来解决数据分析问题，既涉及模型的构建和评价，也涵盖数据清洗、数据预处理和数据探索，并描述了如何将结果变为生产应用，是运用 Apache Spark 进行大数据分析和处理的实战宝典。

第2版根据新版 Spark 杰出实践，对样例代码和所用资料做了大量更新。

本书涵盖模式如下：

音乐推荐和 Audioscrobbler 数据集
用决策树算法预测森林植被
基于 K 均值聚类进行网络流量异常检测
基于潜在语义算法分析维基百科
用 GraphX 分析伴生网络
对纽约出租车轨迹进行空间和时间数据分析
通过蒙特卡罗模拟来评估金融风险
基因数据分析和 BDG 项目
用 PySpark 和 Thunder 分析神经图像数据

作者简介

桑迪 · 里扎（Sandy Ryza），Spark 项目代码提交者、Hadoop 项目管理委员会委员，Time Series for Spark 项目创始人。曾任 Cloudera 公司高级数据科学家，现就职于 Remix 公司从事公共交通算法开发。

于里 · 莱瑟森（Uri Laserson），MIT 博士毕业，致力于用技术解决遗传学问题，曾利用 Hadoop 生态系统开发了可扩展的基因组学和免疫学技术。目前是西奈山伊坎医学院遗传学助理教授，曾任 Cloudera 公司核心数据科学家。

肖恩 · 欧文（Sean Owen），Spark、Mahout 项目代码提交者，Spark 项目管理委员会委员。现任 Cloudera 公司数据科学总监。

乔希 · 威尔斯（Josh Wills），Crunch 项目发起人，现任 Slack 公司数据工程主管。曾任 Cloudera 公司高级数据科学总监。

本书内容

译者序

大数据是这几年科技和应用领域炙手可热的话题，而 Spark 又是大数据领域里最活跃的技术。随着人工智能的崛起，业内对大数据的需求不再局限于一般意义上的大数据存储、加工和分析，如何挖掘大数据的潜在价值成为新的热点。本书四位作者均在 Cloudera 公司担任过数据科学家，长期为客户提供专业的数据分析和挖掘服务。可以说，本书的出版将为 Spark 在数据分析和挖掘领域起到巨大的推动作用。

同时我们也注意到，国内介绍 Spark 数据分析方面的图书还比较匮乏，而且许多图书都停留在源代码研究的层面上。当然，这些书中也不乏非常优秀的作品，但我们认为 Spark 真正的力量在于其开发的大数据应用。所以早在本书还处于初期编写过程中时，我们就自告奋勇和作者联系中文版事宜，希望以此为中国的大数据分析事业略尽绵力。

本书在翻译过程中得到了许多人的帮助。首先要感谢我在 Cloudera 公司的前同事，也就是本书的 4 位作者。在本书的翻译过程中，由于不同语言的习惯问题，4 位作者桑迪 • 里扎、于里 • 莱瑟森、肖恩 • 欧文和乔希 • 威尔斯花了许多时间和我交流。本人之所以有幸负责本书的中文版翻译，也是承蒙肖恩 • 欧文的引荐。其次要感谢星环信息科技有限公司创始人孙元浩先生将我带入到大数据这个领域，让我的人生轨迹发生变化；感谢思科中国研发公司首席技术官苗凯翔博士在英特尔和 Cloudera 工作期间曾经给我的指导，让我有了端正的工作态度和价值观；感谢我的前同事田占凤博士和陈建忠的鼓励，中文版的翻译工作才得以开始。同时本书在翻译过程中还得到了 Cloudera 公司中国区前同事刘贺峰、糜君、陈飚、陈新江、李大超和张莉苹的鼎力帮助。感谢图灵公司的李松峰、岳新欣、温雪编辑在翻译过程中的指导和仔细审阅。由于本书的翻译都是在周末完成的，所以特别感谢我的妻子周幼琼在每个周末对我的照顾。

龚少成

首先非常感谢龚少成给我这次机会，使我有幸成为本书第 2 版的译者之一。

其次要感谢英特尔大数据团队的同事们，是你们带领我走进了 Spark 的时代。

最后要感谢我的妻子和孩子对我工作的理解和支持，让我腾出业余时间完成此次翻译工作。

由于译者水平有限，同时本书涉及许多课题，所以现有译文中难免存在纰漏之处。希望读者能够不吝赐教，发现问题时麻烦和译者联系。邮件请发送至 [email protected] 或 [email protected]。

邱鑫

序

自从在加州大学伯克利分校创立 Spark 项目起，我就时常心潮澎湃。不仅因为 Spark 可以帮助人们快速构建并行系统，更因为 Spark 帮助了越来越多的人使用大规模计算。因此看到这本介绍 Spark 高级分析的书，我非常欣慰！该书由数据科学领域 4 位专家桑迪、于里、肖恩和乔希携手打造。4 位作者研习 Spark 已久，他们在本书中跟读者分享了关于 Spark 的大量精彩内容，同时本书的案例部分同样出众！

对于这本书，我最钟爱的是它强调案例，而且这些案例都源于现实数据和实际应用。找到 1 个像样的、能在笔记本电脑上运行的大数据案例已经很难，更遑论 10 个了。但本书作者做到了！作者为大家准备好了一切，只等你在 Spark 中运行它们。更难能可贵的是，作者不仅讨论了核心算法，更倾心于数据准备和模型调优，没有这些工作，实际项目中就无法得到好的结果。认真研读此书，你应该可以吸收这些案例中的概念并直接将其运用在自己的项目中！

大数据处理无疑是当今计算领域最激动人心的方向之一，发展非常迅猛，新思想层出不穷。愿本书能帮助你在这个崭新的领域中扬帆启航！

Matei Zaharia

Databricks 公司 CTO 兼 Apache Spark 项目副总裁

前言

作者：桑迪 • 里扎

我不希望我的人生有很多遗憾。2011 年，某个慵懒的时刻，我正在绞尽脑汁地想如何把高难度的离散优化问题最优地分配给计算机集群处理，真是很难想到有什么好方法。我的导师跟我讲，他听说有个叫 Apache Spark 的新技术，可我基本上没当回事。Spark 的想法太好了，让人觉得有点儿不靠谱。就这样，我很快又回去接着写 MapReduce 的本科毕业论文了。时光荏苒，Spark 和我都渐渐成熟，不过令我望尘莫及的是，Spark 已然成为冉冉之星，这让人不禁感叹“Spark”（星星之火）这个双关语是多么贴切。若干年后，Spark 的价值举世皆知！

Spark 的前辈有很多，从 MPI 到 MapReduce。利用这些计算框架，我们写的程序可以充分利用大量资源，但不需要关心分布式系统的实现细节。数据处理的需求促进了这些技术框架的发展。同样，大数据领域也和这些框架关系密切，这些框架界定了大数据的范围。Spark 有望更进一步，让写分布式程序就像写普通程序一样。

Spark 能大大提升 ETL 流水作业的性能，并把 MapReduce 程序员从每天问天天不灵、问地地不应的绝望痛苦中解救出来。对我而言，Spark 的激动人心之处在于，它真正打开了复杂数据分析的大门。Spark 带来了支持迭代式计算和交互式探索的模式。利用这一开源计算框架，数据科学家终于可以在大数据集上高效地工作了。

我认为数据科学教学最有效的方法是利用实例。为此，我和同事一起编写了这本关于实际应用的书，希望它能涵盖大规模数据分析中最常用的算法、数据集和设计模式。阅读本书时不必一页一页地看，可以根据工作需要或按兴趣直接翻到相关章节。

本书内容

第 1 章结合数据科学和大数据分析的广阔背景来讨论 Spark。随后各章在介绍 Spark 数据分析时都自成一体。第 2 章通过数据清洗这一使用场景来介绍用 Spark 和 Scala 进行数据处理的基础知识。接下来几章深入讨论如何将 Spark 用于机器学习，介绍了常见应用中几个最常用的算法。其余几章则收集了一些更新颖的应用，比如通过文本隐含语义关系来查询 Wikipedia 或分析基因数据。

第2版说明

自本书第 1 版出版以来，Spark 进行了一次重大的版本更新：使用了一个全新的核心 API； MLlib 和 Spark SQL 两个子项目也发生了翻天覆地的变化。第 2 版根据新版 Spark 的最佳实践，对样例代码和所使用的资料进行了大量更新。

使用代码示例

补充材料（代码示例、练习、勘误表等）可以从 https://github.com/sryza/aas 下载 {1[本书中文版勘误提交及资料下载，请访问本书图灵社区页面：

http://www.ituring.com.cn/book/2039。——编者注]}。

本书是要帮你完成工作的。一般来说，如果本书提供了示例代码，你可以把它用在你的程序或文档中。除非你使用了很大一部分代码，否则无须联系我们获得许可。比如，用本书的几个代码片段写一个程序就无须获得许可，销售或分发 O'Reilly 图书的示例光盘则需要获得许可；引用本书中的示例代码回答问题无须获得许可，将书中大量的代码放到你的产品文档中则需要获得许可。

我们很希望但并不强制要求你在引用本书内容时加上引用说明。引用说明一般包括书名、作者、出版社和 ISBN。比如：“Advanced Analytics with Spark by Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills (O'Reilly). Copyright 2015 Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills, 978-1-491-91276-8.”

如果你觉得自己对示例代码的用法超出了上述许可的范围，欢迎你通过 [email protected] 与我们联系。

O'Reilly Safari

Safari（前身为 Safari Books Online）是为企业、政府、教育机构和个人提供的会员制培训和参考平台。

会员可以访问来自 250 多家出版商的上千种图书、培训视频、学习路径、互动教程和精选播放列表。这些出版商包括 O'Reilly Media、Harvard Business Review、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Adobe、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology，等等。

欲知更多信息，请访问 https://www.safaribooksonline.com/。

联系我们

请把对本书的评价和问题发给出版社。

美国：

　　O'Reilly Media, Inc.

　　1005 Gravenstein Highway North

　　Sebastopol, CA 95472

中国：

　　北京市西城区西直门南大街 2 号成铭大厦 C 座 807 室（100035）

　　奥莱利技术咨询（北京）有限公司

O'Reilly 的每一本书都有专属网页，你可以在那儿找到本书的相关信息，包括勘误表、示例代码以及其他信息。本书的网站地址是：

http://shop.oreilly.com/product/0636920056591.do

对于本书的评论和技术性问题，请发送电子邮件到：

　　[email protected]

要了解更多 O'Reilly 图书、培训课程、会议和新闻的信息，请访问以下网站：

　　http://www.oreilly.com

我们在 Facebook 的地址如下：

　　https://facebook.com/oreilly

请关注我们的 Twitter 动态：

　　https://twitter.com/oreillymedia

我们的 YouTube 视频地址如下：

　　https://www.youtube.com/oreillymedia

致谢

如果没有 Apache Spark 和 MLlib，就没有本书。所以我们应该感谢开发了 Spark 和 MLlib 并将其开源的团体，也要感谢那些添砖加瓦的数以百计的代码贡献者。

我们还要感谢本书的每一位审阅者，感谢他们花费了大量的时间来审阅本书的内容，感谢他们的专业视角，他们是 Michael Bernico、Adam Breindel、Ian Buss、Parvis Deyhim、Jeremy Freeman、Chris Fregly、Debashish Ghosh、Juliet Hougland、Jonathan Keebler、Nisha Muktewar、Frank Nothaft、Nick Pentreath、Kostas Sakellis、Tom White、Marcelo Vanzin 和另一位 Juliet Hougland。谢谢你们所有人！我们欠你们一个大人情！你们的努力大大改进了本书的结构和质量。

我（桑迪）还要感谢 Jordan Pinkus 和 Richard Wang，你们帮助我完成了风险分析章节的原理部分。

感谢 Marie Beaugureau 和 O'Reilly 出版社在本书出版和发行过程中贡献的宝贵经验和大力支持！

第1章　大数据分析

作者：桑迪 • 里扎

（数据应用）就像香肠，最好别看见它们是怎么做出来的。

——Otto von Bismarck

- - 1.1　数据科学面临的挑战
  - 1.2　认识Apache Spark
  - 1.3　关于本书
  - 1.4　第2版说明

用数千个特征和数十亿个交易来构建信用卡欺诈检测模型
向数百万用户智能地推荐数百万产品
通过模拟包含数百万金融工具的投资组合来评估金融风险
轻松地操作成千上万个人类基因的相关数据以发现致病基因

5~10 年前想要完成上述任务几乎是不可能的。我们说生活在大数据时代，意思是指我们拥有收集、存储、处理大量信息的工具，而这些信息的规模以前我们闻所未闻。这些能力的背后是许多开源软件组成的生态系统，它们能利用大量普通计算机处理大规模数据。Apache Hadoop 之类的分布式系统已经进入主流，并被广泛部署在几乎各个领域的组织里。

但就像锉刀和石头本身并不构成雕塑一样，有了工具和数据并不等于就可以做有用的事情。这时我们就需要数据科学了。雕刻是利用工具将原始石材变成普通人都能看懂的雕塑，数据科学则是利用工具将原始数据变成对不懂数据科学的普通人有价值的东西。

通常，“做有用的事情”指给数据加上模式并用 SQL 来回答问题，比如：“注册过程中许多用户进入到第三个页面，其中有多少用户年龄超过 25 岁？”如何架构一个数据仓库，并组织信息来回答此类问题，涉及的面很广，本书不对其细节过多赘述。

有时候“产生价值”需要多付出一些努力。SQL 可能仍扮演重要角色，但为了处理数据的特质或进行复杂分析，人们需要一个更灵活、更易用的，且在机器学习和统计方面功能更丰富的编程模式。本书将重点讨论此类型的分析。

长久以来，人们利用 R、PyData 和 Octave 等开源框架可以在小数据集上进行快速分析和建模。只需不到 10 行代码，就可以利用数据集的一部分数据构建出机器学习模型，再利用该模型预测其余数据的分类。如果多写几行代码，我们还能处理缺失数据，尝试多个模型并从中找出最佳模型，或者用一个模型的结果作为输入来拟合另一个模型。但如果数据集巨大，必须利用大量计算机来达到相同效果，我们该怎样做呢？

一个可能正确的方法是简单扩展这些框架，使之能运行在多台机器上，保留框架的编程模型，同时重写其内核，使之在分布式环境下能顺利运行。但是，分布式计算难度大，我们必须重新思考在单机系统中的许多基本假设，在分布式环境下是否依然成立。比如，由于集群环境下数据需要在多个节点间切分，网络传输速度比内存访问慢几个数量级，如果算法涉及宽数据依赖，情况就很糟糕。随着机器数量的增加，发生故障的概率也相应增大。这些实际情况要求编程模式适配底层系统：编程模式要防止不当选项，并简化高度并行代码的编写。

当然，除了像 PyData 和 R 这样在软件社区里表现优异的单机工具，数据分析还用到其他工具。在科学领域，比如常常涉及大规模数据的基因学，人们使用并行计算框架已经有几十年的历史了。今天，在这些领域处理数据的人大多数都熟悉 HPC（high-performance computing，高性能计算）集群计算环境。然而，PyData 和 R 的问题在于它们很难扩展。同样，HPC 的问题在于它的抽象层次较低，难于使用。比如要并行处理一个大 DNA 测序文件，人们需要手工将该文件拆成许多小文件，并为每个小文件向集群调度器提交一个作业。如果某些作业失败，用户需要检查失败并手工重新提交。如果操作涉及整个数据集，比如对整个数据集排序，庞大的数据集必须流入单个节点，否则科学家就要用 MPI 这样底层的分布式框架。这些底层框架使用难度大，用户必须精通 C 语言和分布式 / 网络系统。

为 HPC 环境编写的工具往往很难将内存数据模型和底层存储模型独立开来。比如很多工具只能从单个流读取 POSIX 文件系统数据，很难自然并行化，不能用于读取数据库等其他后台存储。最近，Hadoop 生态系统提供了抽象，让用户使用计算机集群就像使用单台计算机一样。该抽象自动拆分文件并在多台计算机上分布式存储，自动将工作拆分成若干粒度更小的任务并分布式执行，出错时自动恢复。Hadoop 生态系统将大数据集处理涉及的许多琐碎工作自动化，并且启动开销比 HPC 小得多。

1.1　数据科学面临的挑战

数据科学界有几个硬道理是不能违背的，Cloudera 数据科学团队的一项重要职责就是宣扬这些硬道理。一个系统要想在海量数据的复杂数据分析方面取得成功，必须明白这些硬道理，至少不能违背。

第一，成功的分析中，绝大部分工作是数据预处理。数据是混乱的，在让数据产生价值之前，必须对数据进行清洗、处理、融合、挖掘和许多其他操作。特别是大数据集，由于人们很难直接检查，为了知道需要哪些预处理步骤，甚至需要采用计算方法。一般情况下，即使在模型调优阶段，在整个数据处理管道的各个作业中，花在特征提取和选择上的时间比选择和实现算法的时间还要多。

比如，在构建网站欺诈交易检测模型时，数据科学家需要从许多可能的特征中进行选择。这些特征包括必填项、IP 地址信息、登录次数、用户浏览网站时的点击日志等。在将特征转换成适用于机器学习算法的向量时，每个特征可能都会有不同的问题。系统需要支持更灵活的转换，远远不止是将二维双精度数组转换成一个数学模型那么简单。

第二，迭代是数据科学的基础之一。建模和分析经常需要对一个数据集进行多次遍历。这其中一方面是由机器学习算法和统计过程本身造成的。常用的优化过程，比如随机梯度下降和最大似然估计，在收敛前都需要多次扫描输入数据。数据科学家自身的工作流程也涉及迭代。在初步调查和理解数据集时，一个查询的结果往往给下一个查询带来启示。在构建模型时，数据科学家往往很难在第一次就得到理想的结果。选择正确的特征，挑选合适的算法，运行恰当的显著性测试，找到合适的超参数，所有这些工作都需要反复试验。框架每次访问数据都要读磁盘，这样会增加时延，降低探索数据的速度，限制了数据科学家进行试验的次数。

第三，构建完表现卓越的模型不等于大功告成。数据科学的目标在于让数据对不懂数据科学的人有用。把模型以许多回归权值的形式存成文本文件，放在数据科学家的计算机里，这样做根本没有实现数据科学的目标。数据推荐引擎和实时欺诈检测系统是最常见的数据应用。这些应用中，模型作为生产服务的一部分，需要定期甚至是实时重建。

在这些场景中，有必要区别是试验环境下的分析还是生产环境下的分析。在试验环境下，数据科学家进行探索性分析。他们想理解工作数据集的本质。他们将数据图形化并用各种理论来测试。他们用各种特征做试验，用辅助数据源来增强数据。他们试验各种算法，希望从中找到一两个有效算法。在生产环境下，构建数据应用时，数据科学家进行操作式分析。他们把模型打包成服务，这些服务可以作为现实世界的决策依据。他们跟踪模型随时间的表现，哪怕是为了将模型准确率提高一个百分点，他们都会精心调整模型并且乐此不疲。他们关心服务 SLA 和在线时间。由于历史原因，探索性分析经常使用 R 之类的语言，但在构建生产应用时，数据处理过程则完全用 Java 或 C++ 重写。

当然，如果用于建模的原始代码也可用于生产应用，那就能节省每个人的时间。但像 R 之类的语言运行缓慢，很难将其与生产基础设施的技术平台进行集成，而 Java 和 C++ 之类的语言又很难用于探索性分析。它们缺乏交互式数据操作所需的 REPL（read-evaluate-print-loop，读取 - 计算 - 打印 - 循环）环境，即使是简单的转换，也需要写大量代码。人们迫切需要一个既能轻松建模又适合生产系统的框架。

1.2　认识Apache Spark

该介绍 Apache Spark 了。Spark 是一个开源框架，作为计算引擎，它把程序分发到集群中的许多机器，同时提供了一个优雅的编程模型。Spark 源自加州大学伯克利分校的 AMPLab，现在已被捐献给了 Apache 软件基金会。可以这么说，对于数据科学家而言，真正让分布式编程进入寻常百姓家的开源软件，Spark 是第一个。

了解 Spark 的最好办法莫过于了解相比于它的前辈，即 Apache Hadoop 的 MapReduce，Spark 有哪些进步。MapReduce 革新了海量数据的计算方式，为运行在成百上千台机器上的并行程序提供了简单的编程模型。MapReduce 引擎几乎可以做到线性扩展：随着数据量的增加，可以通过增加更多的计算机来保持作业时间不变。而且 MapReduce 是健壮的。故障虽然在单台机器上很少出现，但在数千个节点的集群上却总是出现。对于这种情况，MapReduce 也能妥善处理。它将工作拆分成多个小任务，能优雅地处理失败的任务，并且不影响任务所属作业的正确执行。

Spark 继承了 MapReduce 的线性扩展性和容错性，同时对它做了一些重量级扩展。首先，Spark 摒弃了 MapReduce 先 map 再 reduce 这样的严格方式，Spark 引擎可以执行更通用的有向无环图（directed acyclic graph，DAG）算子。这就意味着，在 MapReduce 中需要将中间结果写入分布式文件系统时，Spark 能将中间结果直接传到流水作业线的下一步。在这方面，它类似于 Dryad（https://www.microsoft.com/en-us/research/project/dryad/）。Dryad 也是从 MapReduce 衍生出来的，起源于微软研究院。其次，它也完善了这种能力，通过提供许多转换操作，用户可以更自然地表达计算逻辑。Dryad 更加面向开发人员，其流式 API 可以做到用几行代码表示复杂的流水作业。

再次，Spark 扩展了前辈们的内存计算能力。它的 Dataset 和 DataFrame 抽象使开发人员将流水处理线上的任何点物化在跨越集群节点的内存中。这样后续步骤如果需要相同数据集就不必重新计算或从磁盘加载。这个特性使 Spark 可以应用于以前分布式处理引擎无法胜任的应用场景中。Spark 非常适用于涉及大量迭代的算法，这些算法需要多次遍历相同的数据集。Spark 也适用于反应式（reactive）应用，这些应用需要扫描大量内存数据并快速响应用户的查询。

或许最重要的是，Spark 契合了前面提到的数据科学领域的硬道理。它认识到构建数据应用的最大瓶颈不是 CPU、磁盘或者网络，而是分析人员的生产率。通过将预处理到模型评价的整个流水线整合在一个编程环境中，Spark 大大加速了开发过程。这一点尤为值得称赞。Spark 编程模型富有表达力，在 REPL 下包装了一组分析库，省去了多次往返 IDE 的开销。而这些开销对诸如 MapReduce 等框架来说是无法避免的。Spark 还避免了采样和从 Hadoop 分布式文件系统（the Hadoop distributed file system，HDFS) 来回倒腾数据所带来的问题，这些问题是 R 之类的框架经常遇到的。分析人员在数据上做实验的速度越快，他们从数据中挖掘出价值的可能性就越大。

在数据处理和 ETL 方面，Spark 的目标是成为大数据界的 Python 而不是大数据界的 MATLAB。作为一个通用的计算引擎，它的核心 API 为数据转换提供了强大的基础，它独立于统计学、机器学习或矩阵代数的任何功能。它的 Scala 和 Python API 让我们可以用表达力极强的通用编程语言编写程序，还可以访问已有的库。

Spark 的内存缓存使它适用于微观和宏观两个层面的迭代计算。机器学习算法需要多次遍历训练集，可以将训练集缓存在内存里。在对数据集进行探索和初步了解时，数据科学家可以在运行查询的时候将数据集放在内存中，也很容易将转换后的版本缓存起来，这样就节省了访问磁盘的开销。

最后，Spark 在探索型分析系统和操作型分析系统之间搭起一座桥梁。我们经常说，数据科学家比统计学家更懂软件工程，比软件工程师更懂统计学。基本上讲，Spark 比探索型系统更像操作型系统，比操作型系统中常见的技术更善于数据探索。Spark 从根本上是为性能和可靠性而生的。由于构建于 JVM 之上，它可以利用 Java 技术栈里的许多操作和调试工具。

Spark 还紧密集成 Hadoop 生态系统里的许多工具。它能读写 MapReduce 支持的所有数据格式，可以与 Hadoop 上的常用数据格式，如 Apache Avro 和 Apache Parquet（当然也包括古老的 CSV），进行交互。它能读写 NoSQL 数据库，比如 Apache HBase 和 Apache Cassandra。它的流式处理组件 Spark Streaming 能连续从 Apache Flume 和 Apache Kafka 之类的系统读取数据。它的 SQL 库 SparkSQL 能和 Apache Hive Metastore 交互，而且通过 Hive on Spark，Spark 还能替代 MapReduce 作为 Hive 的底层执行引擎。它可以运行在 Hadoop 集群调度和资源管理器 YARN 之上，这样 Spark 可以和 MapReduce 及 Apache Impala 等其他处理引擎动态共享集群资源和管理策略。

1.3　关于本书

本书接下来的部分不会讨论 Spark 的优缺点。还有其他一些话题本书也不会涉及。本书会介绍 Spark 的流式编程模型和 Scala 基础知识，但它不是 Spark 参考书或参考大全，不会讲 Spark 技术细节。它也不是机器学习、统计学、线性代数的参考书，但在讲到这些知识的时候，许多章节会提供一些背景知识。

另一方面，本书将帮助读者建立用 Spark 在大规模数据集上进行复杂分析的感觉。我们会讲述整个处理过程：不但涉及模型的构建和评价，也会讲述数据清洗、数据预处理和数据探索，并会花费笔墨描述怎样将结果变成生产应用。我们认为最好的教学方法是运用实例，所以在快速介绍完 Spark 及其生态系统之后，本书其余各章分别讨论了在不同领域使用 Spark 进行数据分析的实例，每个实例都自成一体。

如果可能的话，我们要做的不只是提供解决方案。我们会描述数据科学的整个工作流程，包括它所有的迭代、无解以及需要重新开始的情况。本书将有助于读者熟悉 Scala、Spark、机器学习和数据分析。但这都是为了一个更大的目标服务，我们希望本书首先教会读者如何完成本章开头部分提到的任务。每一章虽然只有薄薄的 20 来页，但我们会力求把怎样构建一个此类数据应用讲清楚、讲透彻。

1.4　第2版说明

2015 年和 2016 年 Spark 变化很大，2016 年 7 月 Spark 发布了 2.0 版本。其中改变最大的是 Spark 的核心 API。在 Spark 2.0 以前的版本中，Spark 的 API 主要围绕一个可以跨节点分布的、延迟实例化对象集合的弹性分布式数据集（Resilient Distributed Dataset，RDD）而构建。

虽然 RDD 使用了一套强大而富有表达力的 API，但是仍然存在两个主要的问题。第一，RDD 难以高效且稳定地执行任务。由于依赖 Java 和 Python 对象，RDD 对内存的使用效率较低，而且会导致 Spark 程序受长时间垃圾回收的影响。它们还将执行计划（execution plan）与 API 捆绑到了一起，给用户优化应用程序造成了沉重的负担。例如，传统 RDBMS（关系数据库管理系统）可以根据关联表的大小来选择最优的关联策略（join strategy），而 Spark 需要用户自己来做这个选择。第二，Spark 的 API 忽视了一个事实——数据往往能用一个结构化的关系形式来表示；当出现这种情况的时候，API 应该提供一些原语，使数据更加易于操作，比如允许用户使用列的名字来访问数据，而不是通过元组中的序数位置。

Spark 2.0 用 Dataset 和 DataFrame 替换掉 RDD 来解决上述问题。Dataset 与 RDD 十分相似，不同之处在于 Dataset 可以将它们所代表的对象映射到编码器（encoder），从而实现了一种更为高效的内存表示方法。这就意味着 Spark 程序可以执行得更快、使用更少内存，而且执行时间更好预测。Spark 还在数据集和执行计划之间加入了一个优化器，这意味着 Spark 能对如何执行做出更加智能的决策。DataFrame 是 Dataset 的子类，专门用于存储关系型数据（也就是用行和固定列表示的数据）。为了理解列的概念，Spark 提供了一套更干净的、富有表达力的 API，同时也加入了很多性能优化。举个例子，如果 Spark 知道了仅其中一部分列会被用到，它就能避免将用不到的列载入内存中。还有许多转换操作之前需要使用用户定义函数（user-defined function，UDF）来表示，现在可以在 API 中直接调用了。这对于 Python 用户来说十分有用，因为 Spark 在内部执行这些转换操作比 Python 中定义的函数要快得多。DataFrame 还可以与 Spark SQL 互相操作，这意味着用户可以写一个 SQL 查询来获取一个 DataFrame，然后选择一种 Spark 支持的语言对这个 DataFrame 进行编程操作。尽管新 API 与旧 API 看起来十分相似，但是很多细节发生了改变，因此几乎所有的 Spark 程序都要更新。

除了核心 API 的变化以外，Spark 2.0 还见证了机器学习 API 和统计分析 API 的巨大变化。在之前的版本中，每个机器学习算法都有一套自己的 API。如果用户想要准备算法需要的输入数据，或者将一个算法的输出提供给另外一个算法，都需要写一套它们自己的自定义编制代码。Spark 2.0 包含了 Spark ML API，它引入了一个框架，可以将多种机器学习算法和特征转换步骤管道化。这个 API 受 Python 的流行框架 Scikit-Learn API 启发，以评估器（estimator）和转换器（transformer）为中心，转换器从数据中学习参数，然后用这些参数来转换数据。Spark ML API 与 DataFrame API 高度集成，使得在关系型数据上训练机器学习模型变得更容易。例如，用户可以通过名字访问特征，而不用数组下标。

总体来说，Spark 的这些变化导致本书第 1 版中的很多内容都过时了。因此，第 2 版更新了所有的章节，并尽可能地使用最新的 API。此外，我们还删除了一些无关的章节。例如，第 1 版附录介绍了 API 的细节，第 2 版中将其删除了，一定程度上是因为现在 Spark 可以自动处理，无须用户干预。随着 Spark 进入了一个成熟而稳定的新时代，我们希望通过第 2 版的这些更新，本书在今后几年内会保持对 Spark 数据分析的参考价值。

第2章　用 Scala 和 Spark 进行数据分析（上）

第2章　用 Scala 和 Spark 进行数据分析（下）

第3章　音乐推荐和 Audioscrobbler 数据集

第4章　用决策树算法预测森林植被

第5章　基于 K 均值聚类的网络流量异常检测

第6章　基于潜在语义分析算法分析维基百科

第7章　用 GraphX 分析伴生网络

第8章　纽约出租车轨迹的空间和时间数据分析

第9章　基于蒙特卡罗模拟的金融风险评估

第10章　基因数据分析和 BDG 项目

第11章　基于 PySpark 和 Thunder 的神经图像数据分析

封面介绍

阅读全文: http://gitbook.cn/gitchat/geekbook/5b95f204780fdb5e97d39763

你可能感兴趣的:(Spark 高级数据分析（第2版）)

高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
2023-08-20 圆梦菌
魔力宝贝最详细新手教程，新手该如何完美开局，建议收藏转发2023-08-2010:34《魔力宝贝》手游体力是什么?魔力宝贝体力恢复机制是每10分钟回复1点；体力作用：挑战关卡需消耗体力体力获取方式1、好友每天可以赠送15次，也就是15点体力2、系统每天中午12点以及下午6点赠送25体3、在商城使用神石购买《魔力宝贝》手游战斗力如何提升?1、宠物强化宠物通过融合进阶后可以大幅度提升战力，最高级的宠物
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
使用由 Python 编写的 lxml 实现高性能 XML 解析 hunyxv python 笔记 python xml
转载自：文章lxml简介Python从来不出现XML库短缺的情况。从2.0版本开始，它就附带了xml.dom.minidom和相关的pulldom以及SimpleAPIforXML(SAX)模块。从2.4开始，它附带了流行的ElementTreeAPI。此外，很多第三方库可以提供更高级别的或更具有python风格的接口。尽管任何XML库都足够处理简单的DocumentObjectModel(DOM
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
Python编程 - 函数进阶易辰君 Python核心编程 python 开发语言
目录前言一、函数参数的高级用法（一）缺省参数（二）命名参数（三）不定长参数二、拆包（一）函数返回值拆包（二）通过星号拆包（三）总结三、匿名函数（一）函数定义（二）使用匿名函数四、递归函数（一）简介（二）基本结构（三）简单示例（四）优缺点总结前言上篇文章主要了解了函数基础，如何定义函数，函数种类以及局部变量和全局变量的差异等，接下来就讲解python函数较为进阶的知识点，若有任何想法欢迎一起沟通讨论
高级UI<第二十四篇>：Android中用到的矩阵常识 NoBugException
（1）定义在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合。由m×n个数aij排成的m行n列的数表称为m行n列的矩阵，简称m×n矩阵。记作：图片.png这m×n个数称为矩阵A的元素，简称为元，数aij位于矩阵A的第i行第j列，称为矩阵A的(i,j)元，以数aij为(i,j)元的矩阵可记为(aij)或(aij)m×n，m×n矩阵A也记作Amn。元素是实数的矩阵称为实矩阵，元素是复
婚姻中，女人的高级活法：悦己大梦爱说
文/大梦图/网络杨金贵在《青春是经不起挥霍的》一书中说：当所有人都拿我当回事的时候，我不能太拿自己当回事。当所有人都不拿我当回事的时候，我一定得瞧得上自己。与人交往，被别人当成回事儿是一种幸福，得到他人的关注，理所应当有所付出；不被别人当成回事的时候，也不能自怨自艾，要学会把注意力放到自己的身上，学会自我取悦。婚姻中也是如此，爱上一个人，必不可少会为了让关系更好选择付出，但感情是一场双向奔赴，只有
python中文版软件下载-Python中文版编程大乐趣
python中文版是一种面向对象的解释型计算机程序设计语言。python中文版官网面向对象编程，拥有高效的高级数据结构和简单而有效的方法，其优雅的语法、动态类型、以及天然的解释能力，让它成为理想的语言。软件功能强大，简单易学，可以帮助用户快速编写代码，而且代码运行速度非常快，几乎可以支持所有的操作系统，实用性真的超高的。python中文版软件介绍：python中文版的解释器及其扩展标准库的源码和编
免费像素画绘制软件 | Pixelorama v1.0.3 dntktop 软件运维 windows
Pixelorama是一款开源像素艺术多工具软件，旨在为用户提供一个强大且易于使用的平台来创作各种像素艺术作品，包括精灵、瓷砖和动画。这款软件以其丰富的工具箱、动画支持、像素完美模式、剪裁遮罩、预制及可导入的调色板等特色功能，满足了像素艺术家们的各种需求。用户可以享受到动态工具映射、洋葱皮效果、帧标签、播放动画时绘制等高级功能，以及非破坏性的、完全可定制的图层效果，如轮廓、渐变映射、阴影和调色板化
关闭Windows自动更新的6种方法 Gemini1995 windows
在Windows操作系统中，可以使用多种方法来关闭自动更新。以下是其中一些常用的方法：使用设置应用：打开“设置”应用（Win+I），选择“更新和安全”。在左侧菜单中选择“Windows更新”。点击“更改活动时间”或“高级选项”。在“更新选项”下拉菜单中选择“通知我但不自动下载或安装”或“从不检查更新”。通过服务管理器：打开“服务”管理器，可以通过在运行对话框中输入services.msc来打开。找
氧券邀请码是多少（最新app邀请码大全及填写步骤讲解）带你玩转日常购物小技巧
一、氧券邀请码填什么填多少1、氧券邀请码填写：999999，这样可以获得高级合伙人，高佣金二、怎么才能有氧券邀请码氧券APP是淘宝天猫京东…全网优惠券+返利的搬运工，自购省钱，分享挣钱！注册氧券是必须要填写邀请码的，没有邀请码不能注册。1、填写上面邀请码注册，自己也会升级为高级合伙人，拥有自己的氧券邀请码2、会员自己购物可享受返佣，可以分享赚钱获得佣金三、氧券会员注册怎么弄1、手机下载氧券APP后
云防火墙和Web应用防火墙（WAF）区别快快小毛毛前端网络
随着互联网的进一步发展，Web应用防火墙（WAF）和云防火墙步入大家的视野。防火墙针对web应用拥有很好的保护作用，由硬件和软件组合，在内部网和外部网、专用网和公共网之间形成一道强有力的保护屏障，使用者可配置不同保护级别的防火墙，高级别的保护会阻止运营一些服务。那么，我们如何理解这两种防火墙，他们有什么区别？一、web防火墙Web应用防火墙,属于硬件级别防火墙（WebApplicationFire
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

Spark 高级数据分析（第2版）

内容简介

作者简介

本书内容

推荐序

译者序

序

前言

本书内容

第2版说明

使用代码示例

O'Reilly Safari

联系我们

致谢

第1章 大数据分析

1.1 数据科学面临的挑战

1.2 认识Apache Spark

1.3 关于本书

1.4 第2版说明

第2章 用 Scala 和 Spark 进行数据分析（上）

第2章 用 Scala 和 Spark 进行数据分析（下）

第3章 音乐推荐和 Audioscrobbler 数据集

第4章 用决策树算法预测森林植被

第5章 基于 K 均值聚类的网络流量异常检测

第6章 基于潜在语义分析算法分析维基百科

第7章 用 GraphX 分析伴生网络

第8章 纽约出租车轨迹的空间和时间数据分析

第9章 基于蒙特卡罗模拟的金融风险评估

第10章 基因数据分析和 BDG 项目

第11章 基于 PySpark 和 Thunder 的神经图像数据分析

封面介绍

你可能感兴趣的:(Spark 高级数据分析（第2版）)

第1章　大数据分析

1.1　数据科学面临的挑战

1.2　认识Apache Spark

1.3　关于本书

1.4　第2版说明

第2章　用 Scala 和 Spark 进行数据分析（上）

第2章　用 Scala 和 Spark 进行数据分析（下）

第3章　音乐推荐和 Audioscrobbler 数据集

第4章　用决策树算法预测森林植被

第5章　基于 K 均值聚类的网络流量异常检测

第6章　基于潜在语义分析算法分析维基百科

第7章　用 GraphX 分析伴生网络

第8章　纽约出租车轨迹的空间和时间数据分析

第9章　基于蒙特卡罗模拟的金融风险评估

第10章　基因数据分析和 BDG 项目

第11章　基于 PySpark 和 Thunder 的神经图像数据分析