pyspark单词计数

文章目录

  • 一、shell模式
    • 1.1 shell本地模式
    • 1.2 shell集群模式
  • 二、集群模式

一、shell模式

1.1 shell本地模式

pyspark #进入shell本地模式
# 输入数据
data = ["hello", "world", "hello", "world"]

# 将collection的data转为spark中的rdd并进行操作
rdd = sc.parallelize(data)
res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

# 将rdd转为collection并打印
res_rdd_coll = res_rdd.collect()
for line in res_rdd_coll:
    print(line)    #此处加table键

pyspark单词计数_第1张图片
注:
shell本地模式无法通过masterip:8080监控到
只能通过shell所在机器ip:4040监控到

pyspark单词计数_第2张图片

1.2 shell集群模式

pyspark --master spark://big07:7077  #进入shell集群模式

pyspark单词计数_第3张图片
pyspark单词计数_第4张图片
pyspark单词计数_第5张图片

二、集群模式

spark-submit --master spark://big07:7077 test1.py
from pyspark import SparkContext,SparkConf


conf=SparkConf()
conf.setMaster("spark://big07:7077")
conf.setAppName("test application")


sc=SparkContext(conf=conf)


# 输入数据
data = ["hello", "world", "hello", "world"]

# 将collection的data转为spark中的rdd并进行操作
rdd = sc.parallelize(data)
res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

# 将rdd转为collection并打印
res_rdd_coll = res_rdd.collect()
for line in res_rdd_coll:
    print(line)    #此处加table键


sc.close()


pyspark单词计数_第6张图片
pyspark单词计数_第7张图片

你可能感兴趣的:(pyspark)