一、SPARK CORE的使用
1.在JUPYTER网页上创建新的ipynb文件
2.环境准备代码
import os
import sys
spark_home = os.environ.get('SPARK_HOME',None)
if not spark_home:
raise ValueError('SPARK_HOME enviroment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip'))
exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())
运行后显示
二、概念
1.SPARK CORE:spark生态圈的核心
RDD:容错性分布数据(Resilient Distributed Dataset),SPARK CORE的任务就是对这些数据进行分布式计算
2.RDD类型:
对RDD的操作
3.并行化集合(我们处里的RDD数据,所有对于集合而言,第一步需要并行化)
parallelize(list)
可以看到我们的集合已经成功并行化
4.取值操作
take(n):从rdd返回n个元素
top(num):从rdd返回最大的num个数的元素
first():从rdd返回第一个元素
collect():从rdd返回所有元素
5.rdd元素变换