大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例)

1. spark(standalone模式)的安装

(1)下载spark安装包(spark官网)

(2)上传spark安装包到Linux服务器上

(3)解压spark安装包

tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz -C /usr/apps/

(4)将conf目录下的spark-env.sh.template重命名为spark-env.sh,并修改内容如下

export JAVA_HOME=/usr/apps/jdk1.8.0_192
export SPARK_MASTER_HOST=feng01

在编辑内容的过程中,想查看某个路径命令(此处在编辑时想知道JAVA_HOM对应的路径):

: r! echo $JAVA_HOME //  在命令行模式按出“:”

(5)conf目录下的slaves.template重命名为slaves并修改,指定Worker的所在节点

feng02
feng03

(6)分发(将配置好的spark拷贝到其他节点)

for i in {2..3}; do scp -r spark-2.3.3  node-$i.51doit.cn:$PWD; done  // 第一种方式

scp -r spark-2.3.3-bin-hadoop2.7 feng02:$PWD  // 以前一直用的方式

 

(7)启动(注意,此处就别配置环境变量了,否则当使用start-all.sh时,就会与hadoop中的该命令起冲突

  • 在spark的安装目录执行启动脚本
sbin/start-all.sh
  • 执行jps命令查看Java进程

  在feng01上用可看见Master进程,在其他节点上用可看见Worker

  • 访问Master的web管理界面,端口8080

 

 2. Spark各个角色的功能

  •  Master:是一个Java进程,接收Worder的注册信息和心跳、移除异常超时的Worker、接收客户端提交的任务、负责资源调度、命令Worker启动Executor。
  • Worker:是一个java进程,负责管理当前节点的资源关联,向Master注册并定期发送心跳,负责启动Executor、并监控Executor的状态
  • SparkSubmit:是一个java进程,负责向Master提交任务
  • Driver:是很多类的统称,可以认为SparkContext就是Driver,client模式Driver运行在SparkSubmit进程中,cluster模式单独运行在一个进程中,负责将用户编写的代码转成Tasks,然后调度到Executor中执行,并监控Task的状态和执行进度
  • Exeutor: 是一个java进程,负责执行Driver端生成的Task,将Task放入线程中运行

 

 大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例)_第1张图片

 

 

 3.SparkShell的使用

3.1 什么是Spark Shell

  spark shell是spark中的交互式命令行客户端,可以在spark shell中使用scala编写spark程序,启动后默认已经创建了SparkContext,别名为sc

3.2 启动Spark Shell

/usr/apps/spark-2.3.3-bin-hadoop2.7/bin/spark-shell --master spark://feng01:7077 --executor-memory 800m --total-executor-cores 3

此处自己犯的小错误:将"--" 少写了一个"-"

 

参数说明:

--master:指定master的地址和端口,协议为spark://,端口是RPC的通信端口

--executor-memory: 指定每一个executor的使用的内存大小

--total-executor-cores:指定整个application总共使用了多少cores

大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例)_第2张图片

 

 3.3 在shell中编写第一个spark程序(WordCount,单词统计)

sc.textFile("hdfs://feng05:9000/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://feng05:9000/out1")

 

 4. Spark编程入门

 4.1 在IDEA中使用scala编写wordcount案例(本地运行模式)

map和flatmap(切分压平)的区别:

大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例)_第3张图片

 

 

 大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例)_第4张图片

 

 

 

 words.txt内容如下:

大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例)_第5张图片

 

 

 统计代码如下

object WordCount {
  def main(args: Array[String]): Unit = {
//    val conf: SparkConf = new SparkConf().setAppName("WordCount")
    //Spark程序local模型运行,local[*]是本地运行,并开启多个线程
    val conf: SparkConf = new SparkConf()
      .setAppName("WordCount")
      .setMaster("local[*]") //设置为local模式执行
    // 1 创建SparkContext,使用SparkContext来创建RDD
    val sc: SparkContext = new SparkContext(conf)
    // spark写Spark程序,就是对神奇的大集合【RDD】编程,调用它高度封装的API
    // 2 使用SparkContext创建RDD
    val lines: RDD[String] = sc.textFile("E:/javafile/words.txt")
    // 3 切分压平
    val words: RDD[String] = lines.flatMap(line => line.split(" "))
    // 4 将单词和1组合放在元组中
    val wordAndOne: RDD[(String, Int)] = words.map((_, 1))
    // 5 分组聚合,reduceByKey可以先局部聚合再全局聚合
    val reduced: RDD[(String, Int)] = wordAndOne.reduceByKey(_ + _)
    // 6 排序
    val sorted: RDD[(String, Int)] = reduced.sortBy(_._2, false)

    // 调用Action将计算结果保存
    sorted.saveAsTextFile("E:/javafile/wc/out1")
    // 释放资源
    sc.stop()
  }
}

 

4.2 在IDEA中使用JAVA编写wordcount案例 

(1)不使用lambda

 将该程序打包上传集群中测试

代码

public class WordCount1 {
    public static void main(String[] args) {
        // 创建JavaSparkContext
        SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");
        JavaSparkContext jsc = new JavaSparkContext(sparkConf);
        // 使用javaSparkContent创建RDD
        JavaRDD lines = jsc.textFile(args[0]);
        //调用Tranformation(s)
        // 切分压平(这块不太懂)
        JavaRDD words = lines.flatMap(new FlatMapFunction() {
            @Override
            public Iterator call(String line) throws Exception {
                return Arrays.asList(line.split(" ")).iterator();
            }
        });
        // 将单词与1组合放到元组中去
        JavaPairRDD wordAndOne = words.mapToPair(new PairFunction() {
            @Override
            public Tuple2 call(String word) throws Exception {
                return Tuple2.apply(word, 1);
            }
        });
        // 分组聚合
        JavaPairRDD reduced = wordAndOne.reduceByKey(new Function2() {
            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1 + v2;
            }
        });
        // 排序,按key的值倒叙排列
        // 由于java中的JavaPairRDD无按值排序的方法,所以先调换kv的顺序
        JavaPairRDD swapped = reduced.mapToPair(new PairFunction, Integer, String>() {
            @Override
            public Tuple2 call(Tuple2 tp) throws Exception {
                return tp.swap();
            }
        });
        // 排序
        JavaPairRDD sorted = swapped.sortByKey(false);
        // 将kv的顺序调换回来
        JavaPairRDD res = sorted.mapToPair(new PairFunction, String, Integer>() {
            @Override
            public Tuple2 call(Tuple2 tp) throws Exception {
                return tp.swap();
            }
        });
        // 触发Action,将数据保存到HDFS
        res.saveAsTextFile(args[1]);
    }
}

 

 运行命令

 

 

 (2)使用lambda

 大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例)_第6张图片

 

 代码

public class WordCount2 {
    public static void main(String[] args) {
        // 创建SparkContext
        SparkConf conf = new SparkConf().setAppName("LambdaWordCount");
        JavaSparkContext jsc = new JavaSparkContext(conf);
        // 创建RDD
        JavaRDD lines = jsc.textFile(args[0]);
        // 切分压平
        JavaRDD words = lines.flatMap(line -> Arrays.asList(line.split(" ")).iterator());
        // 将得到的单词与1组合
        JavaPairRDD wordAndOne = words.mapToPair(word -> Tuple2.apply(word, 1));
        // 分组聚合
        JavaPairRDD reduced = wordAndOne.reduceByKey((a, b) -> a + b);
        // 按key的值进行排序
        // 调换顺序
        JavaPairRDD swapped = reduced.mapToPair(tp -> tp.swap());
        // 排序
        JavaPairRDD sorted = swapped.sortByKey(false);
        // 再次调换顺序
        JavaPairRDD res = sorted.mapToPair(Tuple2::swap);
        // 触发Action,将数据保存到HDFS
        res.saveAsTextFile(args[1]);
    }
}

 

 

 

 

 

  

tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz -C /bigdata/

你可能感兴趣的:(大数据学习day18----第三阶段spark01--------1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用,spark编程入门(wordcount案例))