写给小白的pySpark入门

1. 创建键值对RDD ( Pair RDD)

RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。

首先在本地创建一个word.txt,然后上传到hadoop目录中。

方法a:从文件中加载,来创建键值对RDD

pyspark --queue 队列名   [进入spark]

lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]

你可能感兴趣的:(写给小白的pySpark入门)