Spark 是 Apache 软件基金会 顶级项目 , 是 开源的 分布式大数据处理框架 , 专门用于 大规模数据处理 , 是一款 适用于 大规模数据处理 的 统一分析引擎 ;
与 Hadoop 的 MapReduce 相比,
借助 Spark 分布式计算框架 , 可以调度 由 数百乃至上千 服务器 组成的 服务器集群 , 计算 PB / EB 级别的海量大数据 ;
Spark 支持多种编程语言 , 包括Java、Python、R和Scala , 其中 Python 语言版本的对应模块就是 PySpark ;
Python 是 Spark 中使用最广泛的语言 ;
Spark 的 Python 语言版本 是 PySpark , 这是一个第三方库 , 由 Spark 官方开发 , 是 Spark 为 Python 开发者提供的 API ;
PySpark 允许 Python 开发者 使用 Python 语言 编写Spark应用程序 , 利用 Spark 数据分析引擎 的 分布式计算能力 分析大数据 ;
PySpark 提供了丰富的的 数据处理 和 分析功能模块 :
开发者 可以使用 上述模块 构建复杂的大数据应用程序 ;
PySpark 既可以作为 Python 库进行数据处理 , 在自己的电脑上进行数据处理 ;
又可以向 Spark 集群提交任务 , 进行分布式集群计算 ;
Python 语言的使用场景很丰富 , 可以有如下应用场景 :
大部分场景 都有专用的 语言 与 开发平台 , 不要贸然使用 Python 进行一般领域进行开发 , 如 : Web 领域 , Python 对其支持并不是很好 , 生态环境不全 ;
Python 语言主流应用于 大数据 与 人工智能 领域 , 在其它领域 , 基本不使用 Python 语言开发 ;