spark面试问题汇总(持续更新....)

spark-submit的时候如何引入外部jar包
spark shuffle的具体过程,你知道几种shuffle方式
spark 如何防止内存溢出
cache和pesist的区别
怎么处理数据倾斜
​简要描述Spark分布式集群搭建的步骤

spark使用:
1)当前文件a.text的格式为,请统计每个单词出现的个数、计算第四列每个元素出现的个数
A,b,c,d
B,b,f,e
A,a,c,f

2)在(url,user)的键值对中,如
a.text
127.0.0.1 xiaozhang
127.0.0.1 xiaoli
127.0.0.2 wangwu
127.0.0.3 lisi
…..
B.text
127.0.0.4 lixiaolu
127.0.0.5 lisi
127.0.0.3 zhangsan
每个文件至少有1000万行,请用程序完成一下工作,
1)各个文件的ip数
2)出现在b.text而没有出现在a.text的IP
3)每个user出现的次数以及每个user对应的IP的个数
4)对应IP数最多的前K个user

你可能感兴趣的:(spark源码学习)