RDD编程

1.读取数据,将RDD持久化到内存中,并进行行动操作。


RDD编程_第1张图片
Paste_Image.png

2.一般常用的是从外部存储中读取来创建RDD,如SparkContext.textFile()。还可以用parallelize读取程序中已有的一个集合,例子如下:
lines=sc.parallelize(['pandas','i like pandas'])


RDD编程_第2张图片
Paste_Image.png

3.RDD操作-转化操作
union为合并操作,filter为过滤操作。
RDD编程_第3张图片
Paste_Image.png

4.RDD操作-行动操作
对错误计数,并显示前两个错误。


RDD编程_第4张图片
Paste_Image.png

行动操作中的collect()可以获取整个数据集,但是不能用于大数据集,这时一般存储于分布式存储系统中,函数为saveAsTextFile(),saveAsSequenceFile()。
5.向spark传递函数
建立.py文件
RDD编程_第5张图片
Paste_Image.png

运行.py文件
Paste_Image.png

6.常见的转化操作和行动操作
map:
RDD编程_第6张图片
Paste_Image.png

RDD编程_第7张图片
Paste_Image.png

flatmap:

RDD编程_第8张图片
Paste_Image.png
Paste_Image.png

reduce:


Paste_Image.png

aggregate:


RDD编程_第9张图片
Paste_Image.png

你可能感兴趣的:(RDD编程)