pyspark的使用

文章目录

  • 一、连接pyspark
    • 先启动hadoop和spark
    • 创建SparkContext
      • 方式1:通过pyspark下的shell.py
      • 方式2:自行创建
  • 二、创建RDD
    • 并行集合 sc.parallelize()
    • 文件系统数据集读取数据 sc.textFile()
  • 三、单个RDD的操作
    • map()和flatMap()
    • 过滤 filter()
    • reduce()和reduceByKey()
    • countByValue()
  • 四、两个RDD之间的集合操作

一、连接pyspark

先启动hadoop和spark


你可能感兴趣的:(#,——spark)