pyspark(1)介绍与安装概要

目录

1.什么是pyspark

2.pyspark的特点

3.pyspark的优点

4.pyspark架构

5.pyspark的模块

6.pyspark的安装


1.什么是pyspark

PySpark是一个用Python编写的Spark库,用于使用Apache Spark功能运行Python应用程序,使用PySpark,我们可以在分布式集群(多个节点)上并行运行应用程序。

换句话说,PySpark是用于Apache Spark的Python API。 Apache Spark是一个分析处理引擎,用于大规模,强大的分布式数据处理和机器学习应用程序。

Spark基本上是用Scala编写的,后来由于其行业适应性,它使用Py4J为Python发布了API PySpark。 Py4J是一个集成在PySpark中的Java库,它允许python动态与JVM对象交互,因此要运行PySpark,还需要将Java与Python和Apache Spark一起安装。

此外,对于开发而言,您可以使用Anaconda发行版(在机器学习社区中广泛使用),该发行版附带了许多有用的工具,例如Spyder IDE,Jupyter笔记本,以运行PySpark应用程序。

实时而言,PySpark在机器学习和数据科学家社区中使用很多; 感谢庞大的python机器学习库。 与传统的python应用程序相比,Spark在分布式群集上处理数十亿亿万个数据的操作要快100倍。

2.pyspark的特点

  • 内存计算
  • 使用并行化进行分布式处理
  • 可以与许多集群管理器(Spark,Yarn,Mesos等)一起使用
  • 容错的
  • 一成不变的
  • 懒惰评估
  • 缓存和持久性
  • 使用DataFrame时进行内部优化
  • 支持ANSI SQL

3.pyspark的优点

  • PySpark是一种通用的内存中分布式处理引擎,可让您以分布式方式高效地处理数据。
  • 在PySpark上运行的应用程序比传统系统快100倍。
  • 使用PySpark进行数据提取管道将为您带来巨大的好处。
  • 使用PySpark,我们可以处理Hadoop HDFS,AWS S3和许多文件系统中的数据。
  • PySpark还用于使用Streaming和Kafka处理实时数据。
  • 使用PySpark流媒体,您还可以从文件系统流媒体文件,也可以从套接字流媒体文件。
  • PySpark本身具有机器学习和图形库。

4.pyspark架构

Apache Spark在主从结构中工作,其中主服务器称为“驱动程序”,而从服务器称为“工作程序”。 当您运行Spark应用程序时,Spark驱动程序会创建一个上下文,该上下文是您应用程序的入口点,并且所有操作(转换和操作)都在辅助节点上执行,并且资源由Cluster Manager管理。

pyspark(1)介绍与安装概要_第1张图片

其中,Cluster Manager Types

  • Standalone – a simple cluster manager included with Spark that makes it easy to set up a cluster.
  • Apache Mesos – Mesons is a Cluster manager that can also run Hadoop MapReduce and PySpark applications.
  • Hadoop YARN – the resource manager in Hadoop 2. This is mostly used, cluster manager.
  • Kubernetes – an open-source system for automating deployment, scaling, and management of containerized applications.
  • local – which is not really a cluster manager but still I wanted to mention as we use “local” for master() in order to run Spark on your laptop/computer.

5.pyspark的模块

  • PySpark RDD (pyspark.RDD)
  • PySpark DataFrame and SQL (pyspark.sql)
  • PySpark Streaming (pyspark.streaming)
  • PySpark MLib (pyspark.ml, pyspark.mllib)
  • PySpark GraphFrames (GraphFrames)
  • PySpark Resource (pyspark.resource) It’s new in PySpark 3.0

6.pyspark的安装

  1. 安装python,可选择Anaconda安装
  2. 安装Java 8
  3. 安装Apache Spark

你可能感兴趣的:(spark,spark,python,分布式)