spark和python的区别_Spark入门(Python)

Spark

是第一个脱胎于该转变的快速、

通用分布式计算范式,

并且很快流行起来。

Spark

使用函数式编程范式扩展了

MapReduce

模型以支持更多计算类型,

可以涵

盖广泛的工作流,这些工作流之前被实现为

Hadoop

之上的特殊系统。

Spark

使

用内存缓存来提升性能,因此进行交互式分析也足够快速

(

就如同使用

Python

解释器,

与集群进行交互一样

)

缓存同时提升了迭代算法的性能,

这使得

Spark

非常适合数据理论任务,特别是机器学习。

本文中,

我们将首先讨论如何在本地机器上或者

EC2

的集群上设置

Spark

进行简

单分析。然后,我们在入门级水平探索

Spark

,了解

Spark

是什么以及它如何工

(希望可以激发更多探索)

最后两节我们开始通过命令行与

Spark

进行交互,

然后演示如何用

Python

Spark

应用,并作为

Spark

作业提交到集群上。

设置

Spark

在本机设置和运行

Spark

非常简单。

你只需要下载一个预构建的包,

只要你安装

Java

6+

Python

2.6+

,就可以在

Windows

Mac

OS

X

Linux

上运行

Spark

确保

java

程序在

PATH

环境变量中,或者设置了

JAVA_HOME

环境变量。类似的,

python

也要在

PATH

中。

你可能感兴趣的:(spark和python的区别)