Spark job提交时,spark-submit的主要参数的解析及建议

前言

说spark之前,先提一下MapReduce:

    最本质的两个过程就是Map和Reduce

  • Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map;
  • Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Reduce。

Mapreduce是Hadoop1.0的核心,Spark出现慢慢替代Mapreduce

为什么Mapreduce还在被使用呢?

因为有很多现有的应用还依赖于它,它不是一个独立的存在已经成为其他生态不可替代的部分,比如pig,hive等。
    尽管MapReduce极大的简化了大数据分析,但是随着大数据需求和使用模式的扩大,用户的需求也越来越多:

  • 1.更复杂的多重处理需求(比如迭代计算, ML, Graph);
  • 2.低延迟的交互式查询需求(比如ad-hoc query)

Spark job提交时,spark-submit的主要参数的解析及建议_第1张图片

你可能感兴趣的:(#,hadoop,#,spark,#,mapreduce)