认识Spark

对于Spark的认识,在以下视频中说明。全部免费课程可在腾讯课堂查看:个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)


2-认识PySpark


首先通过Spark官方文档的说明进行认识Spark,官网地址为:http://spark.apache.org/

就依据主页上的说明,进行对Spark认识。

Spark官网

是什么

Apache Spark是一个用于大规模数据处理的统一分析引擎。

运行速度

Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎,实现了批处理和流数据的高性能。

在“逻辑回归”测试中,Spark的执行速度是Hadoop的100倍,所以Spark计算引擎具有高性能。


Spark执行效率

上手难度

对于Spark可以用Java、Scala、Python、R和SQL快速编写应用程序,所以受众很广泛,并且于Python、R和SQL的对初学者也很友好,适合入门学习。

Spark提供了80多个高级操作符,可以轻松构建并行应用。可以在Scala、Python、R和SQL shell中交互地使用它。

组成模块

Spark由4大功能库构成,分别是:Spark SQL、Spark Streaming、MLib、GraphX。

Spark支持一系列库,如SQL和DataFrames进行数据分析处理,用于机器学习的MLlib, GraphX和数据流Spark Streaming。可以在同一个应用程序中无缝地组合这些库。

核心模块


核心模块文档

执行平台

可以在EC2、Hadoop YARN、Mesos或Kubernetes上以独立集群模式运行Spark。可访问HDFS、Apache Cassandra、Apache HBase、Apache Hive等数百个数据源。所以Spark并不是要求一定要直接对接Hadoop。


Spark运行的平台

实验的Spark环境

我们在第1讲在Windows上构建了Spark 2环境,在第2讲构建HDP大数据平台中是Spark 1环境。

所以我们有两套的Spark环境,本来是应该就对Spark 2进行说明,但由于HDP中的Spark环境

可以连接大数据环境中的不同的服务如Hive、HDFS进行连接操作,所以对Spark 1也顺带说明,并且对比与Spark 2的差异。

你可能感兴趣的:(认识Spark)