菜鸟也学大数据

Spark RDD算子大全(Java、Scala双版本)

一.Spark RDD概念

概述

RDD是将数据项拆分为多个分区的集合，存储在集群的工作节点上的内存中，并执行指定操作
RDD是用于数据转换的接口
RDD指向了存储在HDFS、Cassandra、HBase等、或缓存（内存、内存+磁盘、仅磁盘等），或在故障或缓存收回时重新计算其他RDD分区中的数据

特性

分布式数据集
1. RDD是只读的、分区记录的集合，每个分区分布在集群的不同节点上
2. RDD并不存储真正的数据，只是对数据和操作的描述
弹性
1. RDD默认存放在内存中，当内存不足，Spark自动将RDD写入磁盘
容错性
1. 根据数据血统，可以自动从节点失败中恢复分区

二.RDD的几种创建方式（Scala语言）

第一种：使用集合List创建

//关键字：parallelize、List
//Spark默认会根据集群的情况来设置分区的数量，也可以通过parallelize的第二参数来指定
val rdd:RDD[String] = sc.parallelize(List("hello world","hello java","hello scala"))

第二种：通过加载文件创建RDD

//相对路径：当前工程根目录下的data目录下的hello.txt文件
val rdd:RDD[String]=sc.textFile("data/hello.txt")

//绝对路径：D盘目录下的hello.txt文件
val rdd:RDD[String]=sc.textFile("D:/hello.txt")

//读取HDFS上的文件
//Spark默认为HDFS文件的每一个数据块创建一个分区，也可以通过textFile()第二个参数指定，但只能比数据块数量多
val rdd:RDD[String]=sc.textFile("hdfs://IP地址:端口号/目录/文件")

三.算子(lazy、non-lazy)

Transformation（lazy）：转换算子
Actions（non-lazy）：动作算子

使用Transformation算子实际只会记录RDD的转换过程但不会真正执行，只有遇到Action算子才会真正的执行前面的动作算子

举个栗子：textFile读取本地文件来创建RDD，哪怕实际上该文件并不存在，也能成功创建RDD。当RDD遇到第一个行动算子( actions)操作时，需要对RDD进行计算，此时才会报错，明白了没？也就说明了转化操作的本质:仅仅是记录旧RDD如何转化成新RDD ,但不会立即进行计算，以免浪费资源。

常用的转换算子
Scala版



    //对每个元素执行指定操作
    println("_____________map算子___________________")
    val mapRdd:RDD[String]=sc.parallelize(List("hello","world"))
    //通过map将每个元素形成元组
    mapRdd.map((_,1)).collect.foreach(println)
    /*输出结果：
    (hello,1)
    (world,1)
    */

    //过滤器
    println("____________filter算子_________________")
    val filterRdd:RDD[Int]=sc.parallelize(List(1,2,3,4,5))
    filterRdd.filter(_%2==0).collect.foreach(println)
    /*输出结果：
    2
    4
    */
    
    //只对value进行操作
    println("____________mapValue算子_________________")
    val mapvalueRdd:RDD[(Int,String)] = sc.parallelize(List("dog","tiger","cat")).map(x=>(x.length,x))
    mapvalueRdd.mapValues(x=>"*"+x+"*").collect.foreach(println)
    /*输出结果：
    (3,*dog*)
    (5,*tiger*)
    (3,*cat*)
    */

    //去重
    println("______________distinct算子________________")
    val disRdd:RDD[Int]=sc.parallelize(List(1,2,2,2,3,3,4))
    disRdd.distinct.collect.foreach(println)
    /*输出结果：
    1
    2
    3
    4*/

    //根据判断key值是否相等来决定是不是执行括号内的代码
    println("______________reduceByKey算子________________")
    val rbkRdd:RDD[(Int,String)] = sc.parallelize(List("dog","tiger","cat","lion","eagle")).map(x=>(x.length,x))
    rbkRdd.reduceByKey((a,b)=>a+b).collect.foreach(println)
    /*输出结果：
    (3,dogcat)
    (4,lion)
    (5,tigereagle)
	*/    

    println("______________groupBykey算子________________")
    val gbkRdd:RDD[(Int,String)] = sc.parallelize(List("dog","tiger","cat","lion","eagle")).map(x=>(x.length,x))
    //返回的value是迭代器
    val gbkRdd2:RDD[(Int,Iterable[String])]=gbkRdd.groupByKey()
    gbkRdd3.collect.foreach(println)
	/*输出结果：
	(3,CompactBuffer(dog,cat))
	(4,CompactBuffer(lion))
	(5,CompactBuffer(tiger,eagle))
	*/
	
   //聚合
    println("______________union算子________________")
    val unRdd1:RDD[Int]=sc.parallelize(List(1,2))
    val unRdd2:RDD[Int]=sc.parallelize(List(3,4))
    unRdd1.union(unRdd2).collect.foreach(println)
	/*输出结果：
	1
	2
	3
	4
	*/

   //返回左集合不存在于右集合的所有元素
    println("___________________subtract算子_______________________")
    val rddSub:RDD[Int] = sc.parallelize(List(1,2,3,4))
    val rddSub2:RDD[Int] = sc.parallelize(List(1,2,3))
    rddSub.subtract(rddSub2).collect.foreach(x=>print(x+","))
    /*输出结果：
    4
    */
    

    //将两个集合中key值相同的元素连接
    println("___________________join算子_______________________")
    val rddJoin:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",1),new Tuple2[String,Int]("b",1)))
    val rddJoin2:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",2),new Tuple2[String,Int]("a",2),new Tuple2[String,Int]("b",2),new Tuple2[String,Int]("c",2)))
    rddJoin.join(rddJoin2).collect.foreach(println)
    /*输出结果：
    (a,(1,2))
    (a,(1,2))
    (b,(1,2))*/

    //全连接，存在相同key的元素和join一样，不存在相同的key的则返回None
    println("___________________fullOuterJoin算子_______________________")
    val rddFoj:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",1),new Tuple2[String,Int]("b",1)))
    val rddFoj2:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",2),new Tuple2[String,Int]("b",2),new Tuple2[String,Int]("c",2)))
    rddFoj.fullOuterJoin(rddFoj2).collect.foreach(println)
    /*输出结果：
    (a,(Some(1),Some(2)))
    (b,(Some(1),Some(2)))
    (c,(None,Some(2)))*/

    //左关联:右集合中有无关联的丢弃，左边有无关联的保留
    println("___________________LeftOuterJoin算子_______________________")
    val rddLoj:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",1),new Tuple2[String,Int]("b",1),new Tuple2[String,Int]("c",1)))
    val rddLoj2:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",2),new Tuple2[String,Int]("b",2),new Tuple2[String,Int]("d",2)))
    rddLoj.leftOuterJoin(rddLoj2).collect.foreach(println)
    /*输出结果：
    (a,(1,Some(2)))
    (b,(1,Some(2)))
    (c,(1,None))*/

    //右关联:左集合中有无关联的丢弃，右边有无关联的保留
    println("___________________RightOuterJoin算子_______________________")
    val rddRoj:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",1),new Tuple2[String,Int]("b",1),new Tuple2[String,Int]("c",1)))
    val rddRoj2:RDD[(String,Int)] = sc.parallelize(List(new Tuple2[String,Int]("a",2),new Tuple2[String,Int]("b",2),new Tuple2[String,Int]("d",2)))
    rddRoj.rightOuterJoin(rddRoj2).collect.foreach(println)
    /*输出结果：
    (d,(None,2))
    (a,(Some(1),2))
    (b,(Some(1),2))*/

  }

}

JAVA版本


        //过滤器，根据条件筛选元素
        System.out.println("_________________filter算子________________________");
        //创建ArrayList集合
        ArrayList<Integer> arrFilter = new ArrayList<>();
        arrFilter.add(1);
        arrFilter.add(2);
        arrFilter.add(3);
        //创建RDD，将集合作为RDD数据源
        JavaRDD<Integer> rddFilter = sc.parallelize(arrFilter);
        //方法：def filter(f : org.apache.spark.api.java.function.Function[T, java.lang.Boolean]) : org.apache.spark.api.java.JavaRDD[T]
        //解释：参数为Function对象，重写call方法，指定call方法的输入类型为Integer，返回值为Boolean类型，因为实现的是判断元素是否满足指定条件，算子会根据判断结果来决定是否返回元素
        //实现：判断元素对2取余是否等于0
        JavaRDD<Integer> rddFilter2 = rddFilter.filter(new Function<Integer, Boolean>() {
            @Override
            public Boolean call(Integer integer) throws Exception {
                return integer % 2 == 0;
            }
        });
        //使用collect算子，将元素转成list集合
        List<Integer> collectFilter = rddFilter2.collect();
        //遍历list集合
        for (Integer integer : collectFilter) {
            System.out.println(integer);
        }
        /*
        * 输出结果：
        * 2
        * */

        //对所有元素进行相同操作，返回RDD中的元素个数，与原RDD元素个数一一对应
        System.out.println("_________________map算子________________________");
        //创建ArrayList集合
        ArrayList<Integer> arrMap = new ArrayList<>();
        arrMap.add(1);
        arrMap.add(2);
        arrMap.add(3);
        //创建RDD，将集合作为RDD数据源
        JavaRDD<Integer> rddMap = sc.parallelize(arrMap);
        //方法：def map[R](f : org.apache.spark.api.java.function.Function[T, R]) : org.apache.spark.api.java.JavaRDD[R]
        //解释：在map算子中创建Function对象，重写call方法(创建Function需要指定重写call方法的输入、输出类型)
        //实现：将所有元素对2取余
        JavaRDD<Integer> rddMap2 = rddMap.map(new Function<Integer, Integer>() {
            @Override
            public Integer call(Integer integer) throws Exception {
                return integer % 2;
            }
        });
        List<Integer> collect = rddMap2.collect();
        for (Integer integer : collect) {
            System.out.println(integer);
        }
        /*输出结果：
        * 1
        * 0
        * 1*/

        //一个元素，生成多个元素
        System.out.println("_________________flatMap算子________________________");
        ArrayList<String> arrFlatMap = new ArrayList<>();
        arrFlatMap.add("hello world");
        arrFlatMap.add("hello scala");
        arrFlatMap.add("hello spark");
        JavaRDD<String> rddFlatMap = sc.parallelize(arrFlatMap);
        //方法：def flatMap[U](f : org.apache.spark.api.java.function.FlatMapFunction[T, U]) : org.apache.spark.api.java.JavaRDD[U]
        //解释：flatMap的参数是FlatMapFunction对象，指定重写方法的输入类型为String，返回的类型是元组Tuple2
        //实现：将字符串按空格切分为单个元素，在将单独的字符串以[String,1]的组合塞入tuple元组中
        JavaRDD<Tuple2<String, Integer>> rddFlatMap2 = rddFlatMap.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Iterator<Tuple2<String, Integer>> call(String s) throws Exception {
                ArrayList<Tuple2<String, Integer>> arr = new ArrayList<>();
                String[] s1 = s.split(" ");
                for (String s2 : s1) {
                    arr.add(new Tuple2<>(s2, 1));
                }
                return arr.iterator();
            }
        });
        List<Tuple2<String, Integer>> collectFlatMap = rddFlatMap2.collect();
        for (Tuple2<String, Integer> stringIntegerTuple2 : collectFlatMap) {
            System.out.println(stringIntegerTuple2);
        }
        /*
        * 输出结果：
        *   (hello,1)
            (world,1)
            (hello,1)
            (scala,1)
            (hello,1)
            (spark,1)
         */

        //将RDD元素去重后生成新的RDD
        System.out.println("_________________distinct算子________________________");
        ArrayList<String> arrDistinct = new ArrayList<>();
        arrDistinct.add("a");
        arrDistinct.add("a");
        arrDistinct.add("b");
        arrDistinct.add("c");
        JavaRDD<String> rddDistinct = sc.parallelize(arrDistinct);
        //这里直接调用了无参数的Distinct
        JavaRDD<String> rddDistinct2 = rddDistinct.distinct();
        List<String> collectDistinct = rddDistinct2.collect();
        for (String s : collectDistinct) {
            System.out.println(s);
        }
        /*
        * 输出结果
        * a
        * b
        * c
        * */

        //合并两个RDD
        System.out.println("_________________union算子________________________");
        JavaRDD<String> rddUnion= sc.parallelize(Arrays.asList("a","b"));
        JavaRDD<String> rddUnion2= sc.parallelize(Arrays.asList("c","d"));
        JavaRDD<String> rddUnion3 = rddUnion.union(rddUnion2);
        List<String> collectUnion = rddUnion3.collect();
        for (String s : collectUnion) {
            System.out.print(s+",");
        }
        System.out.println();
        /*输出结果：a,b,c,d,*/

        //返回两个RDD的交集，并且去重,需要混洗数据，比较浪费性能
        System.out.println("_________________intersection算子________________________");
        JavaRDD<String> rddIntersection= sc.parallelize(Arrays.asList("a","b","c"));
        JavaRDD<String> rddIntersection2= sc.parallelize(Arrays.asList("a","b","c","d","e","a"));
        JavaRDD<String> rddIntersection3 = rddIntersection.intersection(rddIntersection2);
        List<String> collectIntersection= rddIntersection3.collect();
        for (String s : collectIntersection) {
            System.out.println(s);
        }
        /*输出结果：
        * a
        * b
        * c
        * */

        //RDD1.subtract(RDD2),返回在RDD1中出现，但是不在RDD2中出现的元素，不去重
        System.out.println("_________________subtract算子________________________");
        JavaRDD<String> rddSubtract= sc.parallelize(Arrays.asList("a","a","b","c","d","e"));
        JavaRDD<String> rddSubtract2= sc.parallelize(Arrays.asList("c","d","e"));
        JavaRDD<String> rddSubtract3 = rddSubtract.subtract(rddSubtract2);
        List<String> collectSub = rddSubtract3.collect();
        for (String s : collectSub) {
            System.out.println(s);
        }
        /*
        * 输出结果：
        * a
        * a
        * b
        * */

        //RDD1.cartesian(RDD2) 返回RDD1和RDD2的笛卡儿积，这个开销非常大
        System.out.println("_________________cartesian算子________________________");
        JavaRDD<String> rddCartesian= sc.parallelize(Arrays.asList("1","2","3"));
        JavaRDD<String> rddCartesian2= sc.parallelize(Arrays.asList("a","b","c"));
        JavaPairRDD<String, String> rddCartesian3 = rddCartesian.cartesian(rddCartesian2);
        List<Tuple2<String, String>> collectCartesion = rddCartesian3.collect();
        for (Tuple2<String, String> stringStringTuple2 : collectCartesion) {
            System.out.println(stringStringTuple2);
        }
        /*输出结果：
        (1,a)
        (1,b)
        (1,c)
        (2,a)
        (2,b)
        (2,c)
        (3,a)
        (3,b)
        (3,c)*/

        //对每个元素操作，最后返回元组，一个元素生成一个结果
        System.out.println("_________________mapToPair算子________________________");
        ArrayList<String> arrMapToPair = new ArrayList<>();
        arrMapToPair.add("aa bb");
        arrMapToPair.add("cc dd");
        arrMapToPair.add("ee ff");
        JavaRDD<String> rddMapToPair = sc.parallelize(arrMapToPair);
        //方法：def mapToPair[K2, V2](f : org.apache.spark.api.java.function.PairFunction[T, K2, V2]) : org.apache.spark.api.java.JavaPairRDD[K2, V2]
        //解释：mapToPairde的参数是PairFunction对象，对象需要传入3个参数，分别是传入参数的类型，与返回结果的两个输出类型
        //实现：将元素按空格切割，取第一个，最为key，1作为value，以元组的对象返回
        JavaPairRDD<String, Integer> rddMapToPair2 = rddMapToPair.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2<>(s.split(" ")[0], 1);
            }
        });
        List<Tuple2<String, Integer>> collectMapToPair = rddMapToPair2.collect();
        for (Tuple2<String, Integer> stringIntegerTuple2 : collectMapToPair) {
            System.out.println(stringIntegerTuple2);
        }
        /*
        * 输出结果
        * (aa,1)
        * (cc,1)
        * (ee,1)
        * */

        // mapToPair是一对一，一个元素返回一个元素，而flatMapToPair可以一个元素返回多个
        System.out.println("_________________flatMapToPair算子________________________");
        ArrayList<String> arrFlatMapToPair = new ArrayList<>();
        arrFlatMapToPair.add("aa bb");
        arrFlatMapToPair.add("cc dd");
        arrFlatMapToPair.add("ee ff");
        JavaRDD<String> rddFlatMapToPair2 = sc.parallelize(arrFlatMapToPair);
        //方法：def flatMapToPair[K2, V2](f : org.apache.spark.api.java.function.PairFlatMapFunction[T, K2, V2]) : org.apache.spark.api.java.JavaPairRDD[K2, V2]
        //解释：flatMapToPair的参数是PairFlatMapFunction对象，同样是重写call方法，但返回值是Iterator迭代器
        //实现：将元素按空格拆分，以拆分后的字符串为key，1为value组成Tuple，放入提前建好的ArrayList集合中，最后通过集合.Iterator的方法，转成迭代器返回
        JavaPairRDD<String, Integer> rddFlatMapToPair3 = rddFlatMapToPair2.flatMapToPair(new PairFlatMapFunction<String, String, Integer>() {
            @Override
            public Iterator<Tuple2<String, Integer>> call(String s) throws Exception {
                ArrayList<Tuple2<String, Integer>> arr = new ArrayList<>();
                String[] s1 = s.split(" ");
                for (String s2 : s1) {
                    arr.add(new Tuple2<>(s2, 1));
                }
                return arr.iterator();
            }
        });
        List<Tuple2<String, Integer>> collectFlatMapToPari = rddFlatMapToPair3.collect();
        for (Tuple2<String, Integer> stringIntegerTuple2 : collectFlatMapToPari) {
            System.out.println(stringIntegerTuple2);
        }
       /* 输出结果：
        (aa,1)
        (bb,1)
        (cc,1)
        (dd,1)
        (ee,1)
        (ff,1)
        */


       //聚合运算
        System.out.println("_________________combinByKey算子________________________");
        ArrayList<Tuple2<String,Integer>> arrCombinByKey=new ArrayList<>();
        //插入两名学生的成绩
        arrCombinByKey.add(new Tuple2<>("zs",98));
        arrCombinByKey.add(new Tuple2<>("zs",72));
        arrCombinByKey.add(new Tuple2<>("zs",90));
        arrCombinByKey.add(new Tuple2<>("ls",91));
        arrCombinByKey.add(new Tuple2<>("ls",67));
        arrCombinByKey.add(new Tuple2<>("ls",80));
        JavaRDD<Tuple2<String, Integer>> rddCombinByKey = sc.parallelize(arrCombinByKey);
        //将元素通过mapToPair转换成二元组，才能使用combinByKey
        JavaPairRDD<String, Tuple2<String, Integer>> rddCombinByKey2 = rddCombinByKey.mapToPair(new PairFunction<Tuple2<String, Integer>, String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Tuple2<String, Integer>> call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
                return new Tuple2<>(stringIntegerTuple2._1, stringIntegerTuple2);
            }
        });
        //CombinByKey有三个参数，都是Function对象
        //先实现第一个Function
        //function拿到元组的value进行操作，此时的value依然是元组，第一个function将value中的成绩取出，作为key，1做为value形成新的元组传至第二个function
        Function<Tuple2<String, Integer>, Tuple2<Integer, Integer>> function1 = new Function<Tuple2<String, Integer>, Tuple2<Integer, Integer>>() {
            @Override
            public Tuple2<Integer, Integer> call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
                return new Tuple2<>(stringIntegerTuple2._2, 1);
            }
        };
        //实现第二个Funcition
        //第二个function将拿到第一个function的结果作为参数一，参数二有combinByKey根据key值也就是同一个人，来传入这个人的其他value，接下就是实现成绩相加，课程数+1，得出的数据形成新的元组传至第三个Function
        Function2<Tuple2<Integer, Integer>, Tuple2<String, Integer>, Tuple2<Integer, Integer>> function2 = new Function2<Tuple2<Integer, Integer>, Tuple2<String, Integer>, Tuple2<Integer, Integer>>() {
            @Override
            public Tuple2<Integer, Integer> call(Tuple2<Integer, Integer> integerIntegerTuple2, Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
                return new Tuple2<>(integerIntegerTuple2._1 + stringIntegerTuple2._2, integerIntegerTuple2._2 + 1);
            }
        };
        //实现第三个Function
        //第三个function将拿到多个第二个function计算的结果，这种情况是因为不同的分区计算的结果，最后汇总在一起
        Function2<Tuple2<Integer, Integer>, Tuple2<Integer, Integer>, Tuple2<Integer, Integer>> function3 = new Function2<Tuple2<Integer, Integer>, Tuple2<Integer, Integer>, Tuple2<Integer, Integer>>() {
            @Override
            public Tuple2<Integer, Integer> call(Tuple2<Integer, Integer> integerIntegerTuple2, Tuple2<Integer, Integer> integerIntegerTuple22) throws Exception {
                return new Tuple2<>(integerIntegerTuple2._1 + integerIntegerTuple22._1, integerIntegerTuple2._2 + integerIntegerTuple22._2);
            }
        };

        //调用combinBykey，将三个Function对象传入
        JavaPairRDD<String, Tuple2<Integer, Integer>> rddCombinByKey4 = rddCombinByKey2.combineByKey(function1, function2, function3);
        //将结果转成List
        List<Tuple2<String, Tuple2<Integer, Integer>>> collectCombinByKey = rddCombinByKey4.collect();
        //遍历输出
        for (Tuple2<String, Tuple2<Integer, Integer>> stringTuple2Tuple2 : collectCombinByKey) {
            //将汇总的总成绩除以总门数就得出了该学生的综合平均值
            System.out.println(stringTuple2Tuple2._1+"\t"+stringTuple2Tuple2._2._1/stringTuple2Tuple2._2._2);
        }
        /*
        输出结果：
        zs	86
        ls	79
        */

		//聚合运算
        System.out.println("_________________reduceByKey算子________________________");
        JavaRDD<String> rddReduceByKey = sc.parallelize(Arrays.asList("hello world hello scala hello spark"));

        //使用reduceByKey需要先对元素生成对应的元组，所以这里将使用flatMapToPair,而flatMapToPair的参数是PairFlatMapFunction对象
        //实现flatMapToPair中需要的PairFlatMapFunction
        //功能：根据空格对元素分隔，再将分隔后的字符串作为key，1作为value组成元组，放入ArrayList集合中最后return出去
        PairFlatMapFunction<String, String, Integer> pfm = new PairFlatMapFunction<String, String, Integer>() {
            @Override
            public Iterator<Tuple2<String, Integer>> call(String s) throws Exception {
                ArrayList<Tuple2<String, Integer>> list = new ArrayList<>();
                String[] s1 = s.split(" ");
                for (int i = 0; i < s1.length; i++) {
                    Tuple2<String, Integer> stringIntegerTuple2 = new Tuple2<>(s1[i], 1);
                    list.add(stringIntegerTuple2);
                }
                return list.iterator();
            }
        };

        //实现reduceByKey的参数Function对象
        //功能：将key值相同的Tuple中的value值进行相加
        Function2<Integer, Integer, Integer> rby = new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer + integer2;
            }
        };

        //用rdd调用flatMapToPair传入上面实现的PairFlatMapFunction对象，在调用reduceByKey传入上面实现的Function对象
        //这里实现的是WorldCount的功能
        JavaPairRDD<String, Integer> stringIntegerJavaPairRDD = rddReduceByKey.flatMapToPair(pfm).reduceByKey(rby);
        //将算子转成List集合
        List<Tuple2<String, Integer>> collectReduceByKey = stringIntegerJavaPairRDD.collect();
        //遍历输出
        for (Tuple2<String, Integer> stringIntegerTuple2 : collectReduceByKey) {
            System.out.println(stringIntegerTuple2);
        }

        /*输出结果：
        (hello,3)
        (world,1)
        (spark,1)
        (scala,1)*/

		//foldByKey也是聚合运算，但是会多一个参数，这个参数会跟每个value进行相同操作后，再去执行聚合
        System.out.println("_________________foldByKey算子________________________");
        ArrayList<Tuple2<String,Integer>> arrayList = new ArrayList();
        arrayList.add(new Tuple2<>("A",1));
        arrayList.add(new Tuple2<>("A",2));
        arrayList.add(new Tuple2<>("B",1));
        arrayList.add(new Tuple2<>("c",1));


        JavaRDD<Tuple2<String, Integer>> rddFoldByKey = sc.parallelize(arrayList);
        //这里foldByKey无法直接对rdd直接操作，需要转换一下，把rdd放入JavaPairRDD.fromJavaRDD()中
        //方法：def foldByKey(zeroValue : V, func : org.apache.spark.api.java.function.Function2[V, V, V]) : org.apache.spark.api.java.JavaPairRDD[K, V]
        //解释：foldByKey有两个参数，第一个参数zeroValue为Int，第二个参数为Function2的对象，传入相同key的value，最后返回一个value
        //举两个例子说一下zeroValue的作用：
        //例子一：zeroValue=1，如果实现的Function2的call方法是将相同的key的value进行相加，在相加之前，zeroValue会对每个value+1，即（"A",1）=>("A",1+1),("A",2)=>("A",2+1)最后才会执行("A",2)+("A",3)=("A",5)
        //例子二：zeroValue=2，如果实现的Function2的call方法是将相同的key的value进行相乘，在相乘之前，zeroValue会对每个value*2，即（"A",1）=>("A",1*2),("A",2)=>("A",2*2)最后才会执行("A",2)*("A",4)=("A",8)
        //以此类推，就是这样的一个操作
        JavaPairRDD<String, Integer> rddFoldByKey2 = JavaPairRDD.fromJavaRDD(rddFoldByKey).foldByKey(1, new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer integer,Integer integer2) throws Exception {
                return integer + integer2;
            }
        });
        List<Tuple2<String, Integer>> collectFoldByKey = rddFoldByKey2.collect();
        for (Tuple2<String, Integer> stringIntegerTuple2 : collectFoldByKey) {
            System.out.println(stringIntegerTuple2);
        }
        /*输出结果：
        (A,5)
        (B,2)
        (c,2)*/

        //排序，默认降序，传入参数false为升序
        System.out.println("_________________SortByKey算子________________________");
        ArrayList<Tuple2<Integer,String>> list = new ArrayList<>();
        list.add(new Tuple2<>(98,"zs"));
        list.add(new Tuple2<>(84,"ls"));
        list.add(new Tuple2<>(99,"ww"));
        list.add(new Tuple2<>(72,"ll"));
        list.add(new Tuple2<>(79,"lq"));
        JavaRDD<Tuple2<Integer, String>> rddSortByKey = sc.parallelize(list);
        //依需要转换一下。然后直接调用sortByKey就可以了。我这里直接collect了
        List<Tuple2<Integer, String>> collectSortByKey = JavaPairRDD.fromJavaRDD(rddSortByKey).sortByKey().collect();
        for (Tuple2<Integer, String> rddSortByKey2 : collectSortByKey) {
            System.out.println(rddSortByKey2);
        }
        /*输出结果：
        (72,ll)
        (79,lq)
        (84,ls)
        (98,zs)
        (99,ww)*/


		//根据key分组
        System.out.println("_________________groupByKey算子________________________");
        JavaRDD<Tuple2<String,Integer>> rddGBK = sc.parallelize(Arrays.asList(new Tuple2("xiaoming", 90), new Tuple2("xiaoming", 80), new Tuple2("lihua", 60), new Tuple2("lihua", 98)));
        JavaPairRDD<String, Integer> rddGBK2 = JavaPairRDD.fromJavaRDD(rddGBK);
        JavaPairRDD<String, Iterable<Integer>> rdd3 = rddGBK2.groupByKey();
        List<Tuple2<String, Iterable<Integer>>> collectGBK = rdd3.collect();
        for (Tuple2<String, Iterable<Integer>> s : collectGBK) {
            for (Integer integer : s._2) {
                System.out.println(s._1+","+integer);
            }
        }
        /*输出结果:
        lihua,60
        lihua,98
        xiaoming,90
        xiaoming,80*/

        //将多个rdd中的元素分组在一起
        System.out.println("_________________Cogroup算子________________________");
        JavaRDD<Tuple2<String,Integer>> rddCg = sc.parallelize(Arrays.asList(new Tuple2("xiaoming", 1), new Tuple2("xiaoming", 1), new Tuple2("lihua", 1), new Tuple2("lihua", 1)));
        JavaRDD<Tuple2<String,Integer>> rddCg2 = sc.parallelize(Arrays.asList(new Tuple2("xiaoming", 2), new Tuple2("xiaoming", 2), new Tuple2("lihua", 2), new Tuple2("lihua", 2)));
        JavaRDD<Tuple2<String,Integer>> rddCg3 = sc.parallelize(Arrays.asList(new Tuple2("xiaoming", 3), new Tuple2("xiaoming", 3), new Tuple2("lihua", 3), new Tuple2("lihua", 3)));

        JavaPairRDD<String, Integer> rddCgJava = JavaPairRDD.fromJavaRDD(rddCg);
        JavaPairRDD<String, Integer> rddCgJava2 = JavaPairRDD.fromJavaRDD(rddCg2);
        JavaPairRDD<String, Integer> rddCgJava3 = JavaPairRDD.fromJavaRDD(rddCg3);

        //返回的元组中的value是每个集合中相同key的值组成的结果
        JavaPairRDD<String, Tuple3<Iterable<Integer>, Iterable<Integer>, Iterable<Integer>>> rddCgAll = rddCgJava.cogroup(rddCgJava2, rddCgJava3);
        List<Tuple2<String, Tuple3<Iterable<Integer>, Iterable<Integer>, Iterable<Integer>>>> collectCg = rddCgAll.collect();
        for (Tuple2<String, Tuple3<Iterable<Integer>, Iterable<Integer>, Iterable<Integer>>> s : collectCg) {
            System.out.println(s._1+","+s._2);
        }
        /*输出结果：
        xiaoming,([1, 1],[2, 2],[3, 3])
        lihua,([1, 1],[2, 2],[3, 3])*/

		//返回左集合不存在于右集合的所有元素
        System.out.println("_________________subtract算子________________________");
        JavaRDD<Integer> rddSub1 = sc.parallelize(Arrays.asList(1, 2, 3, 4));
        JavaRDD<Integer> rddSub2 = sc.parallelize(Arrays.asList(1, 2, 3));
        JavaRDD<Integer> rddSub3 = rddSub1.subtract(rddSub2);
        List<Integer> collectS = rddSub3.collect();
        for (Integer integer : collectS) {
            System.out.println(integer);
        }
        /*输出结果：
        4
        */

        //取交集：将两个集合中key值相同的元素连接
        System.out.println("_________________join算子________________________");
        JavaRDD<Tuple2<String,Integer>> rddJoin1 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",1),new Tuple2<String,Integer>("b",1)));
        JavaRDD<Tuple2<String,Integer>> rddJoin2 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",2),new Tuple2<String,Integer>("b",2),new Tuple2<String,Integer>("c",2)));
        JavaPairRDD<String, Integer> rddJavaJoin1 = JavaPairRDD.fromJavaRDD(rddJoin1);
        JavaPairRDD<String, Integer> rddJavaJoin2 = JavaPairRDD.fromJavaRDD(rddJoin2);
        JavaPairRDD<String, Tuple2<Integer, Integer>> join = rddJavaJoin1.join(rddJavaJoin2);
        List<Tuple2<String, Tuple2<Integer, Integer>>> collectJoin = join.collect();
        for (Tuple2<String, Tuple2<Integer, Integer>> s : collectJoin) {
            System.out.println(s);
        }
        /*输出结果：
        (a,(1,2))
        (b,(1,2))*/

        //全连接，元组的value类型为Optional，当存在无对应连接的元组，返回Optional.empty
        System.out.println("_________________fullOuterJoin算子________________________");
        JavaRDD<Tuple2<String,Integer>> rddfoj1 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",1),new Tuple2<String,Integer>("b",1)));
        JavaRDD<Tuple2<String,Integer>> rddfoj2 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",2),new Tuple2<String,Integer>("b",2),new Tuple2<String,Integer>("c",2)));
        JavaPairRDD<String, Integer> rddJavafoj1 = JavaPairRDD.fromJavaRDD(rddfoj1);
        JavaPairRDD<String, Integer> rddJavafoj2 = JavaPairRDD.fromJavaRDD(rddfoj2);
        JavaPairRDD<String, Tuple2<Optional<Integer>, Optional<Integer>>> rddfoj = rddJavafoj1.fullOuterJoin(rddJavafoj2);
        List<Tuple2<String, Tuple2<Optional<Integer>, Optional<Integer>>>> collectfoj = rddfoj.collect();
        for (Tuple2<String, Tuple2<Optional<Integer>, Optional<Integer>>> s  : collectfoj) {
            System.out.println(s);
        }
        /*输出结果：
        (a,(Optional[1],Optional[2]))
        (b,(Optional[1],Optional[2]))
        (c,(Optional.empty,Optional[2]))*/

        //左关联:右集合中有无关联的丢弃，左边有无关联的保留
        System.out.println("_________________LeftOuterJoin算子________________________");
        JavaRDD<Tuple2<String,Integer>> rddLoj1 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",1),new Tuple2<String,Integer>("b",1),new Tuple2<String,Integer>("c",1)));
        JavaRDD<Tuple2<String,Integer>> rddLoj2 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",2),new Tuple2<String,Integer>("b",2),new Tuple2<String,Integer>("d",2)));
        JavaPairRDD<String, Integer> rddJavaLoj1 = JavaPairRDD.fromJavaRDD(rddLoj1);
        JavaPairRDD<String, Integer> rddJavaLoj2 = JavaPairRDD.fromJavaRDD(rddLoj2);
        JavaPairRDD<String, Tuple2<Integer, Optional<Integer>>> rddLoj = rddJavaLoj1.leftOuterJoin(rddJavaLoj2);
        List<Tuple2<String, Tuple2<Integer, Optional<Integer>>>> collectLoj = rddLoj.collect();
        for (Tuple2<String, Tuple2<Integer, Optional<Integer>>> s  : collectLoj) {
            System.out.println(s);
        }
       /* 输出结果：
        (a,(1,Optional[2]))
        (b,(1,Optional[2]))
        (c,(1,Optional.empty))*/

        //右关联:左集合中有无关联的丢弃，右边有无关联的保留
        System.out.println("________________RightOuterJoin算子________________________");
        JavaRDD<Tuple2<String,Integer>> rddRoj1 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",1),new Tuple2<String,Integer>("b",1),new Tuple2<String,Integer>("c",1)));
        JavaRDD<Tuple2<String,Integer>> rddRoj2 = sc.parallelize(Arrays.asList(new Tuple2<String,Integer>("a",2),new Tuple2<String,Integer>("b",2),new Tuple2<String,Integer>("d",2)));
        JavaPairRDD<String, Integer> rddJavaRoj1 = JavaPairRDD.fromJavaRDD(rddRoj1);
        JavaPairRDD<String, Integer> rddJavaRoj2 = JavaPairRDD.fromJavaRDD(rddRoj2);
        JavaPairRDD<String, Tuple2<Optional<Integer>, Integer>> rddRoj = rddJavaRoj1.rightOuterJoin(rddJavaRoj2);
        List<Tuple2<String, Tuple2<Optional<Integer>, Integer>>> collectRoj = rddRoj.collect();
        for (Tuple2<String, Tuple2<Optional<Integer>, Integer>> s  : collectRoj) {
            System.out.println(s);
        }
        /*输出结果：
        (a,(Optional[1],2))
        (b,(Optional[1],2))
        (d,(Optional.empty,2))*/

    }
}

常用的动作算子
scala版


    //返回第一个元素
    println("_____________first_________________")
    val rddFirst:RDD[Int] = sc.parallelize(List(1,2,3,4))
    println(rddFirst.first())
    /*输出结果：
    1
    */

    //返回第前n个元素
    println("_____________take_________________")
    val rddTake:RDD[Int] = sc.parallelize(List(1,2,3,4))
    val rddTakeArray = rddTake.take(2)
    for (elem <- rddTakeArray) {
      println(elem)
    }
    /*输出结果：
    1
    2
    */

    //返回RDD中所有元素
    println("_____________collect_________________")
    val rddCollect:RDD[Int] = sc.parallelize(List(1,2,3,4))
    val ints = rddCollect.collect()
    for (elem <- ints) {
      println(elem)
    }
    /*输出结果：
    1
    2
    3
    4*/


    //返回RDD中元素个数
    println("_____________count_________________")
    val rddCount:RDD[Int] = sc.parallelize(List(1,2,3,4))
    println(rddCount.count())
    /*输出结果：
    4
    */

    //返回RDD中各元素出现的次数
    println("_____________countByValue_________________")
    val rddCBV:RDD[Int] = sc.parallelize(List(1,1,2,3,3,4))
    val rddCBVmap = rddCBV.countByValue()
    for (elem <- rddCBVmap) {
      println(elem._1+"出现了："+elem._2+"次")
    }
    /*输出结果：
    1出现了：2次
    2出现了：1次
    3出现了：2次
    4出现了：1次*/


    //并行整合RDD中所有数据
    println("_____________reduce_________________")
    val rddReduce:RDD[Int] = sc.parallelize(List(1,2,3,4))
    println(rddReduce.reduce(_ + _))
    /*输出结果：
    10
    */
    //和 reduce() 一 样， 但是提供了初始值num,每个元素计算时，先要合这个初始值进行折叠, 注意，这里会按照每个分区进行fold，然后分区之间还会再次进行fold
    println("_____________fold_________________")
    val rddFold:RDD[Int] = sc.parallelize(List(1,2,3,4),2)
    println(rddFold.fold(1)((x,y)=>{println(x,y);x+y}))
    /*输出结果：
    (当分区为1 的时候) 12
    (当分区为2 的时候) 13
      ...
      */


    //按照升序排列rdd，根据传入的参数取前n个元素
    println("_____________top_________________")
    val rddTop:RDD[Int] = sc.parallelize(List(1,2,3,4))
    val arrayTop = rddTop.top(2)
    for (elem <- arrayTop) {
      println(elem)
    }
    /*输出结果：
    4
    3
    */

    //于top相反，将rdd按降序排列，取前n个元素
    println("_____________takeOrdered_________________")
    val rddTo:RDD[Int] = sc.parallelize(List(1,2,3,4))
    val arrayTo = rddTo.takeOrdered(2)
    for (elem <- arrayTo) {
      println(elem)
    }
   /* 输出结果：
    1
    2
    */

    //对RDD中的每个元素执行指定函数
    println("_____________foreach_____________________")
    val rdd:RDD[Int] = sc.parallelize(List(1,2,3,4))
    rdd.foreach(println)
    /*输出结果(存在分区，每次输出顺序会不同)：
    1
    2
    3
    4*/

你可能感兴趣的:(Spark,菜鸟也学大数据,spark,大数据,scala)

自我感动式的努力，真的有用吗？星辰同学
你曾经有过这种感受吗？我今天有努力学习哎，我看书看了两个个小时，我觉得自己很刻苦；我今天有努力跑步哎，跑了两公里，觉得自己很自律；我今天有努力工作哎；晚上10点才回去…其实，你看书两小时，手机不停看了一个多小时，你努力跑步，也只是坚持了两天而已，努力工作，也是因为工作拖拉，没办法加班…最后，你没有取得成就，却怀疑人生，我明明努力了呀？可是一无所获。这种属于努力吗？应该算是自我感动式的努力吧！其实，
中原焦点团队 L玲珑剔透
龙玲坚持分享第518天（2020.11.4星期三晴）晴的如此好的天气，心情也很愉悦！今天午自习加下午一二节课，所以早晨女儿上学之后，我还有时间在家里有声读书打卡，然后又读了一点晚情的《越自律，越自由》。之后把汤骨炖上，女儿中午要回来吃饭，我没时间在家做午饭，炖上汤骨，先生走时再把饭预约上，到中午先生和女儿回来时，在肉汤里添点配菜，就可以吃午饭了。下午上课，因为九年级赶课，已经学到下册的内容，每学期
今天是父亲节，想写写我老爸徐童歌
我从小父母离异，大三快毕业的时候我爸才跟现在的妈妈重组家庭。虽然跟着爷爷奶奶长大，但心底最亲的人还是我老爸。我人生中很多的价值观都受到我老爸很大的影响。特别是读书这件事，长大后也因为阅读受益颇多，人生路上面临困难不想与人说的时候都是书籍帮我走出来的。从小我爸就告诉我，有兴趣才能做好，对人要宽容大度，我一直都记在心里没有忘记，这些好品格也帮助了我很多。我老爸说，他向往的老年生活是一座小院，一个凉亭，
红楼梦随想三五：少年的谨慎心2 堂堂君
下面送冰片麝香等贵重香料才是实打实的重头戏，送礼是一门大学问。在送礼方面我算是侏儒中的侏儒，这里就只是分享一下所看到的所想到的。礼物太轻，对方看不上，想要的达成的目的也就基本没戏；礼物太重，这倒没什么问题，关键是你能承受住一次或多次输入输出的不等价交换。另外，因人而异，礼物太重也可能带来的一种问题是，让对方觉得有负担，千万不能小看这一份负担感觉。心里感受是最关键的核心点，我说了这么多的言行，都是围
已完结小说全文《十年纠缠:脑癌晚期,我选择了放手!》裴昭林婉--小说免费阅读一米文库2
已完结小说全文《十年纠缠:脑癌晚期,我选择了放手!》裴昭林婉--小说免费阅读主角配角：裴昭林婉小说别名：十年纠缠:脑癌晚期,我选择了放手!简介：“裴昭，你又在耍什么花招？”许是那么刺眼的红刺激到了林婉，她下意识松开手。一双柳叶弯眉却依旧紧紧蹙着，眸色也依旧冷漠厌恶。好似我不是被她掐得吐血，而是自己咬破了口腔，故意卖惨，想要博得她的同情。关注微信公众号【一米文库】回复书号【2015】即可阅读小说【十
今天下雨恬淡风清
这会下班的时候明显感到气温下降了很多，穿了夏日短袖走在路上明显冷飕飕的感觉，不是用一般的凉爽来形容，而是有点冷。今天难得坐地铁上下班，早上把电动车放在地铁站，然后坐地铁，现在先坐公交出行再转地铁，刚才记错了，居然坐地铁坐反了，我在定安路坐，以为下一站是城站，就顺着坐了这一方向，坐到近江才反应过来，不对啊，做反了，应该下一站龙翔桥方向，记错了哈，又多坐了一站到江陵路下车，刚好下车对面的也来了，重新坐
京东618最省钱的攻略，超级大红包领取方法！氧惠好物
现在京东一年一度的购物节马上就要来了，就是京东618购物活动了。那么京东的618活动一般什么时候去买是最划算？有什么优惠活动？下面给大家讲述一下。京东将618的活动分为预热期-专场期-高潮期-返场期京东密令红包：最爱领红包828红包多多148购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超
唯品会如何免5元运费？唯品会无门槛优惠券免费领取是真的吗日常购物小技巧
揭秘唯品会免5元运费秘籍与无门槛优惠券使用方法在电商时代，优惠券和免运费活动层出不穷，吸引着广大消费者。唯品会作为一家知名的电商平台，也时常推出各种优惠活动。本文将为您揭秘如何在唯品会免5元运费以及无门槛优惠券免费领取的使用方法。一、唯品会免5元运费攻略1.会员专享：唯品会会员可享受免5元运费的优惠。而非会员则需支付5元运费。因此，建议用户在购物时优先考虑是否需要购买会员。2.活动参与：唯品会时常
幸福的模样《十》付亚萍
林和芳夫妻俩是店里2015年的会员，两个人持续一起来推拿，有时候一个月两次，最多一个月四次，都是固定时间每周日晚上八点半至十点，已经持续七年了。芳的公司在店的旧址对面，中午芳趁午休时间来推拿一小时，后来把老公也带过来推拿。2017年芳的公司搬家了，搬到了很远的地方，中午就来不了了，只能周末来推拿。林从事博士伦眼镜北京区代理商，应该是管理层，听他接电话的时候，别人都喊他林总。芳在一家私企工作，从事装
免费小说全本阅读昨日迷途(夏崇光贺诗妍)_昨日迷途夏崇光贺诗妍小说推荐完本狂战书楼
《昨日迷途》主角：夏崇光贺诗妍简介：结婚六周年纪念日，老婆说要为我准备个惊喜。我在山顶苦等三个多小时，直到大雨滂沱都没能等到她的出现。老婆的小竹马却发了一条定位在半山酒店的动态。“小别胜新婚。”照片里，两人躺在撒满玫瑰花瓣的床上十指相扣。女人的无名指上空空如也。半裸的酥胸上，却有几道红红的抓痕和浅浅的牙印。我一阵恶心，在底下评论道：“被狗咬了，记得打破伤风。”关注微信公众号【无极推文】去回复个书号
如何丝滑地切换node版本 up阳光正好 node
背景由于有些比较老的系统，使用的node版本较低，本机装的node版本又比较高，不想降node版本，那么就需要考虑能不能在系统里管理多个node版本呢？由于我使用的操作系统是Mac，下面将主要讲解如何在Mac上快速切换不同的node版本。安装n模块sudonpminstall-gn升级node到最新版sudonlatest安装指定版本的node#可以带v，也可以不带vsudonv0.10.26su
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
2022-02-17 我爱你我是你我们是一
你须无依赖外的在任何和人事，就改能变自己生的命。你所之以不知道，那因是为你已遗经忘了己自是谁。你力的量是在内的，而不是在外的，所也以不需要依外赖在的任事何物，这远你比所想容的易多了，如你果想要变改生命，你要所做的是就愿意去担承百分之的百责任。对不起，请原谅，谢谢你，我爱你。[爱心][爱心]
《非暴力沟通》三.如何正确提出请求西风瘦马_25c2
【今天我学到什么】1.提出具体的请求：作者告诉我们在提出请求的第一个需要注意的地方，叫做要提出一个具体的请求。但是在说话之前，我们一定要搞清楚：我仅仅是表达一下感受，还是有一个请求，有一个自己的目的。如果你只说出自己的请求，你不说出感受、需要，也会导致交流困难。所以作者就提醒我们，你在谈话之前，一定要清楚目的，不能光说自己的感受，但同时，你提出请求的时候，也不能光说请求，你还是要提及到感受和需要，
收视率怎么赚钱？这篇文章为你揭秘电视剧怎么赚钱的氧惠全网优惠
现在的人们几乎都是有刷剧的习惯，我们忙完了一天的工作以后都是会看上有些东西，也是成为了我们生活当中必不可少的一个娱乐项目，甚至好多人为了看电视剧可以熬一整个通宵，目的就是看到他们最后的大结局。氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。古
安全重于泰山任娟
为了促进我校班主任团队的专业成长，切实提高班主任管理工作的艺术水平，保障学生在校安全。6月11日下午6:20，我校德育处组织小学部全体班主任在阶梯教室召开会议。这次会议的主题是“班主任工作如何做”。各年级根据学段特点确定研讨主题:一年级研讨内容:学生课间玩耍安全。二年级研讨内容:学生离,返校安全。三年级研讨内容:学生发生安全事故应急处理方法。四年级研讨内容:学生就餐安全。五年级研讨内容:学生楼道玩
刀神传说：第87章梁秀篇（1）刀神传说
两个月后。“此身合是诗人未？细雨骑驴入剑门。”剑门关天下奇险，双翼插天，群峰环立，真是“剑阁峥嵘而崔嵬，一夫当关，万夫莫开。”出剑门。梁秀、阮闲、刘零、山滔四人走在古柏夹道上。刘零开口道：“山老爷，刀神李流水据说武功天下第一，我不服！”山滔眼神茫然，抚着稀稀疏疏的白须，有气无力道：“为啥不服？”刘零大声道：“江湖中卧虎藏龙，学武之人千千万万，难道他都比试过？”阮闲附和：“真人不露相，露相不真人。我
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
王阳明心外无物，是一种先后观，不是主客观2022-05-08 仁也
王阳明心外无物，是一种先后观，不是主客观王阳明说的心外无物，不是在所谓的主客观层面上说的，不是说心之外就没有客观世界存在，如果你从主客观的层面来解读心学，其实是走偏了。【原文】爱问：“‘知止而后有定’，朱子以为‘事事物物皆有定理’，似与先生之说相戾。”【仁也详解】徐爱问：“知止而后有定”，朱熹认为是事事物物都有定理的意思，这个好像和先生的说法相悖？徐爱这里问的，还是“四书”中的入门书《大学》里面的
一些有意思的话：好时光都在生活里（20211011）简叔老魏
读闲书，看微信，经常会看到一些很有意思的话。有些是名人说的，有些不知道是谁说的，有些很正能量，有些能量也不一定很正，但读过之后，都能引发一些思考。摘录一下，发到个人微信公众号上，自己留存，与大家共享。下面的话发于2021年10月11日，摘自网络，说是雪小禅说的。琴棋书画诗酒花，柴米油盐酱醋茶，好时光都在生活里。——雪小禅雪小禅，一个挺美的名字。百度了一下，是个美女作家，作品入围过鲁迅文学奖、获得过
一瞬间的无语深海的老海绵
就是刚刚的事有一个认识7，8年的游戏好友上大学的时候经常在一起玩游戏，毕业之后，偶尔也一起玩游戏。从来没有见过面，但是挺投缘的。接下来开始说明情况突然给我发微信说男朋友要把我删掉这就是瞬间的无语我又没有见过你，而且我也不想跟你发生什么，纯粹的就是游戏好友，没事时候聊聊天。为什么会突然给我发这个呢？搞不懂，而且发完之后就把我删了。是为了给男朋友安全感嘛可这太无语了吧我就是感觉可惜一个人是7，8年，虽
教师带领小学生跳舞支持肖战，引发争议：带给我们三点反思和思考十八点心理
师者，传道授业解惑也。每一位教师都需要在自己的工作岗位上以生为本，身正为师，德高为范，教师的一言一行对于学生的身心成长都是有深远意义的，这一种深远意义也许会影响学生这一辈子的人生观、世界观和价值观。我记得高中语文老师当时在我迷茫困惑的时候，跟我说过一句话：遇到任何事，都要沉着镇定。这句话我一直记到现在，从未忘记，因为老师的话就是在启迪我的心灵净化，让我在今后的人生道路上走得更稳。近日，宿迁一名小学
健身房 af6846e218f2
今天下午没有事情突然心血来潮想去健身房逛一圈。可是到了那里呢不知道练啥而而且那里一个人也没有嗯，我就先上了跑步机然后跑了四公里下来下来之后腿酸胳膊酸。可是我看时间才过了半个小时我想要是这么早就回去唉跟没来有啥区别。所以我又练了会儿胸。今天完美的一天我也回家了
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
时序数据库在工业物联网领域的核心优势与应用价值时序数据说时序数据库物联网数据库 iotdb 大数据
一、工业物联网的数据挑战与需求工业物联网(IIoT)正在重塑全球制造业格局，通过连接设备、传感器和控制系统，实现了生产过程的数字化与智能化。然而，这一转型也带来了前所未有的数据管理挑战：海量数据：单个工厂可能部署数万个传感器，每秒产生数千万数据点高速写入：工业设备常需毫秒级数据采集，对数据库写入性能要求极高严格时效：质量控制、故障预测等场景要求实时数据分析长期存储：设备生命周期数据需保存数年甚至数
冲上热搜!淘宝取消今年“双12”?回应:改名年终好价节氧惠好项目
淘宝双12活动今年取消，这个消息让很多消费者感到失望。但是，淘宝方面表示，双12活动取消是为了更好地提升用户体验，以及更好地准备下一个年度的购物节。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百
焦点初13中13坚持分享第196天2019.6.4 ruby吕
三，构建良好的目标。咨询师会协助当事人澄清，对于问题解决时所欲的美好愿景为何，而非以咨询师认为当事人该改变之处为目标。从当事人所偏好未来之细节探讨，将引发当事人改变的动力，并能发展出行动计划。sfbt也会从当事人多个目标中有所聚焦，逐步引导当事人从问题的描述与抱怨，转而能与咨询师共同建构出明确具体可行的，具人际情景互动的，个人能力意愿所及的，符合当事人生活脉络的以及立即可以开始行动的步骤。
北洋十八载之第一百四十五回逆水行舟林墨臻
对曹锟这番骚操作，大吴碍于情面，虽然嘴上没说，心里却是很不满意。看来三爷也就只能混到这地步了，想想人家朱重八，实力足以称王称霸，可为了达到更高的人生目标，人家是忍着，让着，等着。直到把大半个中国收入囊中，天下再无齐头并行者，才舒舒服服的坐上头把交椅。你三爷也不好好看看周围环境，没错，咱直隶现在确实是民国这盘棋里唯一的超级霸主，可周边的那些也不好惹啊。胡子张仗着背后有日本这个超级奶妈，那是忙着修桥铺
对信任你的人，永远别撒谎，对你撒谎的人，永远别信任（分享）静待花开jl
图片发自App对信任你的人，永远别撒谎，对你撒谎的人永远别信任。一些时间，总会看清一些事，一些事情，总会看清一些人，我们总以为真心对人，也可以换来别人的真心对待，拚了命不让身边的人难过，可后来却发现受伤的是自己。永远不要企望别人都与你相同，我们只需坦坦荡荡，问心无愧。人心有真假，时间能见证；感情有冷暖，风雨能考验。岁月，留不住虚幻的拥有。体会到缘分善变；平淡无语，感受了人情冷暖。有心的人，不管你在
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><