Spark学习笔记

1.standalone模式下的Spark Cluster是不能直接处理本地文件的,要么通过addFile接口上传到各个worker机器。

2.reduceByKey(func),把具有相同key的字典元素的value进行func的迭代计算

3.aggregate(value0,fun1,fun2)函数,指定返回值的类型并代初值value0,首先每个patition会执行fun1函数的迭代,然后通过fun2函数将每个结果进行merge

eg:

 nums = [1,2,3,4,5,6,7,8,9]

r1= sc.parallelize(nums)

r2=r1.aggregate((0,0),lambda x,y:(x[0]+y,x[1]+1),lambda x,y:(x[0]+y[0],x[1]+y[1]))//第一个lambda的x初值为(0,0),第二个lambda的初值为第一个的返回值(key,value)


你可能感兴趣的:(服务器技术)