Learning PySpark

Chapter 1. Understanding Spark

       Apache Spark是Matei Zaharia开发的一个强大的开源原始处理引擎,作为他在加州大学伯克利分校时加州大学的博士论文的一部分。spark的第一个版本在2012年发布。从那以后,在2013年,他和共同创立的Zaharia,成为 Databricks技术首席;他还持有来自麻省理工学院斯坦福大学教授职位。同时,Spark代码库被捐赠给了Apache软件基础,已成为其旗舰项目。
       Apache Spark快速,易于应用框架,使得你们能够解决各种各样的复杂的数据是否半结构化问题,结构化、流或机器学习,数据科学。它还已经成为最大的开源社区大数据,有超过250年+组织和1000贡献者,Spark Meetup 社区成员超过300000,成员来自超过570个世界的不同地方。
在这一章,我们提供一个初级读本去了解Apache Spark,我们将会解释Spark Jobs and APIs的概念,介绍Spark 2.0的体系结构,探索Spark2.0的特性。
主题包含:

  • 什么是Apache Spark?
  • Spark Jobs and APIs
  • 回顾弹性分布式数据集(RDDs),DataFrames,数据集(Datasets)
  • 回顾Catalyst Optimizer 和Project Tungsten
  • 回顾Spark 2.0体系构

什么是Apache Spark?

       Apache Spark是一个强大的开源的分布式查询和处理引擎。它提供了灵活而且具有扩展性的MapReduce却有明显更高的速度:当数据存储在内存时比Apache Hadoop快100倍,当访问磁盘时快十倍。
       Apache Spark允许用户读取、转换、聚合数据,也可以轻松训练和部署复杂的统计模型。Java, Scala, Python, R and SQL都可以访问Spark APIs。Apache Spark可以用来创建包(package)和应用(application),他们作为库(libraries)部署在集群(cluster)或交互式的通过notebooks进行快速分析。(就像,例如,Jupyter,Spark Notebook,Databricksnotebooks,andApacheZeppelin)Apache Spark公开了一大堆数据分析师十熟悉的库,这些数据科学家和研究人员使用过Python’spandas 或 R’sdata.frames or data.tables。一个非常重要的提示:Spark DataFrames和pandas 或者data.frames / data.tables使用相似,这里有一些差异所以调和你的期望。有更多的SQL背景的用户可以使用语言来塑造他们的数据。另外,Apache Spark 交付时已经实现和优化了一些算法,统计模型,和框架:MLlib and ML formachine learning, GraphX and GraphFrames for graph processing, and SparkStreaming (DStreams and Structured).Apache Spark允许用户把这些库无缝地结合在相似的应用程序。
       Apache Spark可以很容易地运行在一台笔记本电脑,也可以很容易部署独立模式(standalone mode),over YARN, or Apache Mesos,或者本地集群或在云中。它可以读和写来自不同数据源的数据,包括(但不限于)HDFS, Apache Cassandra,Apache HBase, and S3:
Learning PySpark_第1张图片

Spark Jobs and APIs

在这一节,我们将会对Apache Spark Jobs and APIs有一个概观。这为随后的Spark 2.0体系结构部分提供了必要的基础。
执行过程

你可能感兴趣的:(machine,learning,机器学习)