Anbang713

Spark核心编程-RDD转换操作

一、基础转换操作

map 对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD，原RDD中的元素在新RDD中都有且只有一个元素与之对应。

public static void mapTest(JavaSparkContext sc) {
    List words = Arrays.asList("hello", "world");
    JavaRDD wordsRDD = sc.parallelize(words);
    // map操作为每个单词赋值
    JavaRDD> wordCountRDD = wordsRDD
        .map(new Function>() {
          private static final long serialVersionUID = 4883828149185152684L;

          public Tuple2 call(String v1) throws Exception {
            return new Tuple2(v1, 1);
          }
        });
    // 遍历每个单词，并打印其出现的次数
    wordCountRDD.foreach(new VoidFunction>() {
      private static final long serialVersionUID = 4892545561975184834L;

      public void call(Tuple2 t) throws Exception {
        System.out.println("单词：" + t._1 + "，次数：" + t._2);
      }

    });
}

distinct 去除RDD重复元素，返回所有元素不重复的RDD。

public static void distinctTest(JavaSparkContext sc) {
    List nums = Arrays.asList(1, 2, 2, 3, 5);
    JavaRDD numsRDD = sc.parallelize(nums);
    // distinct操作去重
    JavaRDD distinceNumsRDD = numsRDD.distinct();
    distinceNumsRDD.foreach(new VoidFunction() {
      private static final long serialVersionUID = 647204360041943265L;

      public void call(Integer t) throws Exception {
        System.out.println(t);
      }

    });
}

flatMap 首先进行flat扁平化然后在进行map操作。

public static void flatMapTest(JavaSparkContext sc) {
    List words = Arrays.asList("spark core", "spark sql", "spark streaming");
    JavaRDD wordsRDD = sc.parallelize(words, 3);

    JavaRDD splitedRDD = wordsRDD.flatMap(new FlatMapFunction() {
      private static final long serialVersionUID = 840597214907231645L;

      public Iterable call(String t) throws Exception {
        return Arrays.asList(t.split(" "));
      }

    });
    splitedRDD.foreach(new VoidFunction() {
      private static final long serialVersionUID = 4032309929532415386L;

      public void call(String t) throws Exception {
        System.out.println("单词："+t);
      }

    });
}

coalesce 对RDD根据指定的分区数进行重分区，第二参数指定是否进行shuffle；注意：如果指定分区数小于原分区，则可以顺利进行，但是如果大于原分区数，必须指定shuffle参数为true，否则分区不会改变。
repartition也是对根据指定的分区数进行重分区，但是第二个参数默认就是true,也就是默认就需要shuffle操作

public static void repartitionTest(JavaSparkContext sc) {
    List words = Arrays.asList("spark core", "spark sql", "spark streaming");
    JavaRDD wordsRDD = sc.parallelize(words, 3);
    System.out.println("重新分区前的分区数：" + wordsRDD.partitions().size());
    JavaRDD coalesce1RDD = wordsRDD.coalesce(2);
    System.out.println("将分区数设置为2后的分区数："+coalesce1RDD.partitions().size());
    JavaRDD coalesce2RDD = wordsRDD.coalesce(4);
    System.out.println("将分区数设置为4且不指定shuffle后的分区数："+coalesce2RDD.partitions().size());
    JavaRDD coalesce3RDD = wordsRDD.coalesce(4,true);
    System.out.println("将分区数设置为4且指定shuffle后的分区数："+coalesce3RDD.partitions().size());
    
    JavaRDD repartitionRDD = wordsRDD.repartition(4);
    System.out.println("repartition后的分区数：" + repartitionRDD.partitions().size());
}

randomSplit(weights:Array[Double], seed:Long=Utils.random.nextLong):Array[RDD[T]] 根据weights权重将一个RDD分割为多个RDD。

public static void randomSplit(JavaSparkContext sc) {
    List nums = Arrays.asList(1,2,3,4,5,6,7,8,9,10);
    JavaRDD numsRDD = sc.parallelize(nums, 10);
    // 权重的和为1
    double[] weights = new double[] {0.1,0.2,0.3,0.4};
    JavaRDD[] RDDs = numsRDD.randomSplit(weights);
    
    int index = 1;
    for (JavaRDD rdd : RDDs) {
      System.out.println("第"+(index++)+"个RDD");
      rdd.foreach(new VoidFunction() {
        private static final long serialVersionUID = 510345733961440792L;

        public void call(Integer t) throws Exception {
          System.out.print(t+" ");
        }
        
      });
    }
}

glom():RDD[Array[T]] 将RDD中每一个分区所有类型为T的数据转变成元素类型为T的数组Array[T]

public static void glomTest(JavaSparkContext sc) {
    List nums = Arrays.asList(1,2,3,4,5,6,7,8,9,10);
    JavaRDD numsRDD = sc.parallelize(nums, 3);
    JavaRDD> glomRDD = numsRDD.glom();
    glomRDD.foreach(new VoidFunction>() {

      private static final long serialVersionUID = -3717022904720402200L;

      public void call(List t) throws Exception {
        System.out.println(t.toString());
      }
      
    });
}

union(other:RDD[T]):RDD[T] RDD进行合并,返回两个RDD的并集，返回元素不去重
intersection(other:RDD[T]):RDD[T] 返回两个RDD的交集，类似于SQL的inner join，返回元素去重
intersection(other:RDD[T],numPartitions:Int):RDD[T]
intersection(other:RDD[T],partitioner:Partitioner):RDD[T]
subtract(other:RDD[T]):RDD[T] 返回在RDD中出现但是不在other RDD中出现的元素，返回元素不去重
subtract(other:RDD[T],numPartitions:Int):RDD[T]
subtract(other:RDD[T],partitioner:Partitioner):RDD[T]

public static void unionTest(JavaSparkContext sc) {
    List num1s = Arrays.asList(1,2,3,4,5);
    List num2s = Arrays.asList(2,3,4,6,7);
    JavaRDD num1sRDD = sc.parallelize(num1s);
    JavaRDD num2sRDD = sc.parallelize(num2s);
    
    JavaRDD unionRDD = num1sRDD.union(num2sRDD);
    System.out.println("union（并集不去重）操作返回："+unionRDD.collect().toArray());
    
    JavaRDD intersectionRDD = num1sRDD.intersection(num2sRDD);
    System.out.println("intersection（交集去重）操作返回："+intersectionRDD.collect().toArray());
    
    JavaRDD subtractRDD = num1sRDD.subtract(num2sRDD);
    System.out.println("subtract（差集不去重）操作返回："+subtractRDD.collect().toArray());
}

mapPartitions[U](f: (Iterator[T]) =>Iterator[U],preserversPartitions:BooLean = false):RDD[U]

和map操作类似，只不过映射的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器，其中preserversPartitions表示是否保留父RDD的的partitions分区信息。如果在映射过程中需要频繁创建的额外对象，使用mapPartitions比操作map高效的多，比如RDD所有数据通过JDBC写入数据库，如果使用map函数可能为每一个元素都创建连接，而使用mapPartitions那么只需要对每一个分区建立一个连接。但是mapPartitions不适用于大对象，因为一下子加载到内存中容易发生内存溢出。

public static void mapPartitionsTest(JavaSparkContext sc) {
    List nums = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);
    JavaRDD numsRDD = sc.parallelize(nums, 3);
    // 计算每个分区的合计
    JavaRDD totalRDD = numsRDD
        .mapPartitions(new FlatMapFunction, Integer>() {
          private static final long serialVersionUID = 8064196197615893270L;

          public Iterable call(Iterator t) throws Exception {
            Integer total = 0;
            while (t.hasNext()) {
              total = total + t.next();
            }
            return Arrays.asList(total);
          }

        });
    System.out.println(totalRDD.collect().toArray());
}

mapPartitionsWithIndex[U](f: (Int,Iterator[T] )=> Iterator[U],preserversPartitions:BooLean = false)):RDD[U]

类似于mapPartitions，只是输入参数多了一个分区索引

public static void mapPartitionsWithIndexTest(JavaSparkContext sc) {
    List nums = Arrays.asList("1", "2", "3", "4", "5");
    JavaRDD numsRDD = sc.parallelize(nums, 2);
    JavaRDD totalRDD = numsRDD
        .mapPartitionsWithIndex(new Function2, Iterator>() {
          private static final long serialVersionUID = 2818512306761968511L;

          public Iterator call(Integer index, Iterator nums) throws Exception {
            StringBuilder builder = new StringBuilder();
            while (nums.hasNext()) {
              builder.append(nums.next() + "、");
            }
            return Arrays.asList("分区索引下标：" + index + "，其值为：" + builder.toString()).iterator();
          }

        }, false);
    System.out.println(totalRDD.collect());
}

zip U:RDD[(T,U)] 用于将两个RDD组合成Key/Value的形式的RDD，默认两个RDD的分区数和元素数量相同，否则抛出异常，这也是所谓的拉链操作

val rdd1 = sc.makeRDD(1 to 5,2)
val rdd2 = sc.makeRDD(Seq("A","B","C","D","E"),2)

rdd1.zip(rdd2).collect
// 返回结果
res14: Array[(Int, String)] = Array((1,A), (2,B),(3,C), (4,D), (5,E))

val rdd3 = sc.makeRDD(Seq("A","B","C"),3)
rdd1.zip(rdd3).collect
// 因为两个RDD分区数不同，抛出异常。（Can't zip RDDs with unequal numbers of partitions:List(2,3)）

zipPartitions:将多个RDD按照partition组合成为新的RDD，该操作需要RDD分区数相同，但是对于每一个分区内元素数量没有限制。
zipWithIndex():RDD[(T,Long)] 将RDD中的元素和这个元素在RDD的id索引号组合成键值对

public static void zipWithIndexTest(JavaSparkContext sc) {
    List strs = Arrays.asList("a", "b", "c", "d", "e");

    JavaRDD strsRDD = sc.parallelize(strs, 2);
    JavaPairRDD pairRDD = strsRDD.zipWithIndex();
    System.out.println(pairRDD.collect());
}

zipWithUniqueId():RDD[(T,Long)] 将RDD的元素和一个唯一的ID组合成键值对。

该唯一的ID生成算法如下：（1）每个分区中第一个元素的唯一ID值为：该分区索引号；（2）每个分区中第N个元素的唯一ID值为：前一个元素的唯一ID值+该RDD总的分区数。

其中zipWithIndex需要启动一个Spark作业来计算每个分区的开始索引号，而zipWithUniqueId则不需要。

public static void zipWithUniqueIdTest(JavaSparkContext sc) {
    List strs = Arrays.asList("a", "b", "c", "d", "e");

    JavaRDD strsRDD = sc.parallelize(strs, 2);
    JavaPairRDD pairRDD = strsRDD.zipWithUniqueId();
    System.out.println(pairRDD.collect());
}

二、键值转换操作

partitionBy(p:Partitioner):RDD[(K,V)] 根据Partition函数生成新的ShuffleRDD，将原RDD重新分区
mapValues[U]:(f:(V)=>U):RDD[(K,V)] 类似于map只不过是针对[K,V]中的value值进行map操作
flatMapValues[U]:(f:(V)=>TraversableOnce[U]):RDD[(K,V)] 类似于flatMap操作，只不过是针对[K,V]中value值进行flatMap操作

public static void mapValuesTest(JavaSparkContext sc) {
    List strs = Arrays.asList("spark core", "spark sql", "spark streaming");
    JavaRDD strsRDD = sc.parallelize(strs);

    JavaRDD splitedRDD = strsRDD.flatMap(new FlatMapFunction() {

      private static final long serialVersionUID = -984130321206766818L;

      public Iterable call(String t) throws Exception {
        return Arrays.asList(t.split(" "));
      }
    });

    JavaPairRDD pairRDD = splitedRDD
        .mapToPair(new PairFunction() {
          private static final long serialVersionUID = 2043541493697396334L;

          public Tuple2 call(String t) throws Exception {
            return new Tuple2(1, t);
          }

        });

    JavaPairRDD resultRDD = pairRDD.mapValues(new Function() {
      private static final long serialVersionUID = 924538234523756151L;

      public String call(String value) throws Exception {
        return value.toUpperCase();
      }

    });
    System.out.println(resultRDD.collect());
}

reduceByKey(func:(V,V) => V):RDD[(K,V)]
reduceByKey(func:(V,V) => V,numPartitions:Int):RDD[(K,V)]
reduceByKey(p:Partitioner,func:(V,V) =>V):RDD[(K,V)]
reduceByKeyLocally(func:(V,V) => V):Map[(K,V)]

reduceByKey:用于将RDD[K,V]中每一个K对应的V值根据映射函数进行计算，说白了就对相同的key的value进行reduce操作，内部其实调用的是combineByKey，numPartitions用于指定分区；reduceByKeyLocally将运算结果映射到一个Map中，而不是RDD。

public static void reduceByKeyTest(JavaSparkContext sc) {
    List strs = Arrays.asList("spark core", "spark sql", "spark streaming");
    JavaRDD strsRDD = sc.parallelize(strs);

    JavaRDD splitedRDD = strsRDD.flatMap(new FlatMapFunction() {

      private static final long serialVersionUID = -984130321206766818L;

      public Iterable call(String t) throws Exception {
        return Arrays.asList(t.split(" "));
      }
    });

    JavaPairRDD pairRDD = splitedRDD
        .mapToPair(new PairFunction() {
          private static final long serialVersionUID = 2043541493697396334L;

          public Tuple2 call(String t) throws Exception {
            return new Tuple2(t, 1);
          }

        });

    JavaPairRDD resultRDD = pairRDD
        .reduceByKey(new Function2() {
          private static final long serialVersionUID = 4852162726837426718L;

          public Integer call(Integer v1, Integer v2) throws Exception {
            return v1 + v2;
          }

        });
    System.out.println(resultRDD.collect());
}

groupByKey():RDD[(K,Iterable[V])]
groupByKey(numPartitions:Int):RDD[(K,Iterable[V])]
groupByKey(p:Partitioner):RDD[(K,Iterable[V])]

groupByKey:用于将RDD[K,V]中每一个K对应的V值合并到一个集合Iterable[V]中，也就是根据key进行分组。

public static void groupByKeyTest(JavaSparkContext sc) {
    List strs = Arrays.asList("spark core", "spark sql", "spark streaming");
    JavaRDD strsRDD = sc.parallelize(strs);

    JavaRDD splitedRDD = strsRDD.flatMap(new FlatMapFunction() {

      private static final long serialVersionUID = -984130321206766818L;

      public Iterable call(String t) throws Exception {
        return Arrays.asList(t.split(" "));
      }
    });

    JavaPairRDD pairRDD = splitedRDD
        .mapToPair(new PairFunction() {
          private static final long serialVersionUID = 2043541493697396334L;

          public Tuple2 call(String t) throws Exception {
            return new Tuple2(t, 1);
          }

        });

    JavaPairRDD> resultRDD = pairRDD.groupByKey();
    System.out.println(resultRDD.collect());
}

cogroup 相当于SQL语句中全外关联，返回左右RDD中的记录，关联不上的为空。

val sparkConf = new SparkConf().setAppName("Client Main").
        setMaster("local[*]")
val sc = new SparkContext(sparkConf)
val rdd1 = sc.makeRDD(Array(("A",1),("B",2),("C",3)),2)
val rdd2 = sc.makeRDD(Array(("A","a"),("B","b"),("D","d")),2)
val rdd3 = sc.makeRDD(Array(("A","A"),("E","E")),2)
val rdd4 = rdd1.cogroup(rdd2,rdd3).collect

/**
 * Array[(String, (Iterable[Int],Iterable[String], Iterable[String]))] 
 * =Array((B,(CompactBuffer(2),CompactBuffer(b),CompactBuffer())), 
 *(D,(CompactBuffer(),CompactBuffer(d),CompactBuffer())), 
 * (A,(CompactBuffer(1),CompactBuffer(a),CompactBuffer(A))),
 *(C,(CompactBuffer(3),CompactBuffer(),CompactBuffer())), 
 *(E,(CompactBuffer(),CompactBuffer(),CompactBuffer(E))))
 */

join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]
join[W](other: RDD[(K, W)], numPartitions: Int):RDD[(K, (V, W))]

内连接，基于cogroup实现，将两个RDD之间相同的key进行连接，不同的抛弃掉。

val sparkConf = new SparkConf().setAppName("Client Main").
        setMaster("local[*]")
val sc = new SparkContext(sparkConf)
val rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)
val rdd2 = sc.makeRDD(Array(("A","a"),("B","b"),("F","f")),2)
rdd1.join(rdd2).collect
//Array[(String, (String, String))] = Array((B,(2,b)), (A,(1,a)))

leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V,Option[W]))]
leftOuterJoin[W](other: RDD[(K, W)], numPartitions:Int): RDD[(K, (V, Option[W]))]

左外连接，基于cogroup实现，以左边RDD的key为准，进行连接，如果另一个RDD没有则为None。

val sparkConf = new SparkConf().setAppName("Client Main").
        setMaster("local[*]")
val sc = new SparkContext(sparkConf)
val rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)
val rdd2 = sc.makeRDD(Array(("A","a"),("B","b"),("F","f")),2)
rdd1.leftOuterJoin(rdd2).collect
// Array[(String,(String, Option[String]))] = Array((B,(2,Some(b))), (A,(1,Some(a))),(C,(3,None)))

rightOuterJoin[W](other: RDD[(K, W)]): RDD[(K,(Option[V], W))]
rightOuterJoin[W](other: RDD[(K, W)],numPartitions:Int): RDD[(K, (Option[V], W))]

右外连接，基于cogroup实现, 以右边RDD的key为准，进行连接，如果另一个RDD没有则为None。

val sparkConf = new SparkConf().setAppName("Client Main").
        setMaster("local[*]")
val sc = new SparkContext(sparkConf)
val rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)
val rdd2 = sc.makeRDD(Array(("A","a"),("B","b"),("F","f")),2)
rdd1.rightOuterJoin(rdd2).collect
//Array[(String, (Option[String], String))] = Array((B,(Some(2),b)),(F,(None,f)), (A,(Some(1),a)))

fullOuterJoin[W](other: RDD[(K, W)]): RDD[(K,(Option[V], Option[W]))]
fullOuterJoin[W](other: RDD[(K, W)],numPartitions:Int): RDD[(K, (Option[V], Option[W]))]

全连接，基于cogroup实现，两个RDD所有键值对都需要连接，如果另一方没有，则是None。

val sparkConf = new SparkConf().setAppName("Client Main").
        setMaster("local[*]")
val sc = new SparkContext(sparkConf)
val rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)
val rdd2 = sc.makeRDD(Array(("A","a"),("B","b"),("F","f")),2)
rdd1.fullOuterJoin(rdd2).collect
//Array[(String, (Option[String], Option[String]))] =Array((B,(Some(2),Some(b))), 
// (F,(None,Some(f))),(A,(Some(1),Some(a))), (C,(Some(3),None)))

subtractByKey[W: ClassTag](other: RDD[(K, W)]):RDD[(K, V)]
subtractByKey[W: ClassTag](other: RDD[(K,W)],numPartitions: Int): RDD[(K, V)]

返回第一个RDD和第二个RDD的差集，也就是第一个RDD在第二个RDD不存在的元素，比如{1,2,3,5}和{1,2,4} 由于1,2在第二个集合有，所以不反回，3和5在第二个集合没有所以返回。

val sparkConf = new SparkConf().setAppName("Client Main").
        setMaster("local[*]")
val sc = new SparkContext(sparkConf)
val rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)
val rdd2 = sc.makeRDD(Array(("A","a"),("B","b"),("F","f")),2)
rdd1.subtractByKey(rdd2).collect
//Array[(String, String)] = Array((C,3))

老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
AI大模型时代，2025大龄程序员如何轻松转型赢未来？ AI大模型学习不迷路人工智能自然语言处理大模型大语言模型语言模型程序员转行
当前大龄程序员的处境在科技行业的高速发展中，大龄程序员这一群体正面临着前所未有的挑战。随着新兴技术的不断涌现，如云计算、大数据、人工智能等，传统的编程技能逐渐显得“过时”。同时，年轻一代的程序员以更加低廉的薪酬和旺盛的精力涌入市场，加剧了职场的竞争。对于大龄程序员而言，他们不仅需要应对技能更新的压力，还常常受到年龄歧视的影响，尤其是在追求创新和速度的科技公司中。许多大龄程序员发现自己处于尴尬境地，
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
【ARM系列】ARM常用汇编指令阿兹尔猫 ARM系列 arm开发汇编
本文目录前言数据传送指令MOV算数运算指令ADD(不带进位加法指令)SUB(不带进位减法指令)MUL(32位乘法指令)比较和跳转指令CMP(直接比较指令)BEQBNQBBL加载-存储指令LDRSTR移位指令LSLLSR系统寄存器访问指令MSRMRS逻辑运算指令AND(逻辑与指令)ORR(逻辑或指令)BIC(位清除指令)UBFXBFI前言在调试芯片启动代码或者分析ARMcore运行流程的过程中，尝尝
FLASK核心操作之ORM 爬山的小明 Flask Flask ORM
ORM一、概要1、说明ORM，即Object-RelationalMapping（对象关系映射），它的作用是在关系型数据库和业务实体对象之间作一个映射，这样，我们在具体的操作业务对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作对象的属性和方法,2、核心模块SQLAlchemyORM和SQLAlchemyCoreCore是一种构建在表达式语言之上的一种API，一种SQL抽象工具包，允
redis的zset命令总结脱氨垃圾 Redis redis 数据库 database
redis的zset命令总结文章目录redis的zset命令总结1.zadd2.zrem3.zcard4.zrange5.zrevrange6.zrangebyscore7.zrevrangebyscore8.zcount9.zrank10.zscorezset(sortedset：有序集合)Rediszset和set一样也是string类型元素的集合,且不允许重复的成员。不同的是每个元素都会关联
Django 分页操作详解 jay丿 django sqlite 数据库
Django分页操作详解在Django项目中，当处理大量数据时，分页是一项非常关键的功能。它不仅可以提高用户体验，还能减少服务器的负担。Django提供了一个强大的分页工具——django.core.paginator.Paginator，可以很方便地实现数据的分页显示。本文将详细介绍如何使用Django的分页插件来实现分页功能。一、引入分页器首先，需要在你的视图文件中引入Django的分页器模块
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
Redis_Zset数据类型基本命令 Mudrock__ Redis java redis
命令说明zaddkeyscorevalue[scorevalue...]向集合中添加元素，若集合不存在则创建集合，批量添加时scorevalue之间以空格分隔zremkeyvalue[value...]移除集合中的指定元素，批量移除时value之间以空格分隔zrangekeyindex1index2withscores查看集合中下标处于index1-index2的元素（withscores用于将s
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
【架构思维基础：如何科学定义问题】调皮的芋头架构阿里云云计算大数据
架构思维基础：如何科学定义问题一、问题本质认知1.1问题=矛盾根据毛泽东《矛盾论》，问题本质是系统内部要素间既对立又统一的关系。例如：电商系统矛盾演变：90年代：商品供给不足vs消费需求增长00年代：商品丰富但信息匹配低效10年代：商品数量充足但质量需求升级1.2问题三维度publicclassProblem{//核心矛盾主体（如用户需求）privateCoreConflictmainConfli
向量库集成指南三月七꧁ ꧂ langchain+llm 集成学习自然语言处理语言模型机器学习人工智能 gpt llama
文章目录向量库集成指南Chroma集成Pinecone集成MiLvus集成向量库集成指南向量库是一种索引和存储向量嵌入以实现高效管理和快速检索的数据库。与单独的向量索引不同，像Pinecone这样的向量数据库提供了额外的功能，例如，索引管理、数据管理、元数据存储和过滤，以及水平扩展。特别是在处理大数据和复杂查询时，向量库在多种应用场景中发挥着关键作用。其中，语义文本搜索是一个典型的应用，用
如何修复 VirtualBox 中缺少的依赖项 Python Core / win32api mister-big 开发语言
本文将帮助您修复“缺少依赖项PythonCore/win32api”错误。最近，用户在安装OracleVMVirtualBox7.0以在Windows11或10上创建虚拟机时经常遇到问题。一、为什么VirtualBox需要PythonCore/win32api？简而言之，PythonCore/win32api专为Python程序而设计。它就像一组工具，让Python与Windows系统通信。您还可
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
H100解锁生成式AI算力新纪元智能计算研究中心其他
内容概要英伟达H100GPU以Hopper架构为核心，重新定义了生成式AI的算力边界。其创新性设计聚焦三大技术支柱：第三代TensorCore通过稀疏计算与混合精度支持，显著提升矩阵运算效率；显存带宽优化技术结合HBM3高带宽内存，将数据吞吐量提升至3.35TB/s，有效缓解大规模模型训练中的显存墙问题；动态编程加速器则针对AI工作负载特征实现指令级优化。这些突破使H100在生成式AI训练中实现高
Java之微信 APIv3 商家转账到零钱SDK版相思比梦长 JAVA java 商家转账到零钱微信转账平台证书 APIv3
1、测试类TransferTest：importcom.alibaba.fastjson.JSON;importcom.wechat.pay.java.core.RSAConfig;importcom.wechat.pay.java.core.exception.HttpException;importcom.wechat.pay.java.core.exception.MalformedMess
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
出海行动派 | 全球服务新征程！Bonree ONE海外版正式发布运维
在云计算、大数据与物联网深度融合的驱动下，全球IT运维行业正经历从被动响应到主动智能的深刻变革。Gartner最新数据显示，可观测性市场规模将从2021年的68亿美元跃升至2027年的111亿美元，复合年增长率达8.3%，标志着企业对应用稳定性与用户体验的极致追求已成为数字化转型的核心命题。与此同时，全球化进程中的文化差异与合规要求，对运维解决方案的本地化适配能力提出了更高挑战。BonreeONE
什么？一维数组也要自定义排序？林tong学 java 开发语言
自定义排序在编写Java代码时，常常会用到自定义排序。例如，有一些学生，学生有分数score、num两个属性。我们需要根据学生的分数作降序排序（即分数高的在前面）。如果分数相同，需要按照年龄作升序（即年龄高的在后面）。classStudent{intscore;intage;Student(intscore,intage){this.score=score;this.age=age;}public
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
ngx_conf_handler 若云止水 c语言 nginx
ngx_conf_handler声明在src\core\ngx_conf_file.cstaticngx_int_tngx_conf_handler(ngx_conf_t*cf,ngx_int_tlast);定义在src\core\ngx_conf_file.cstaticngx_int_tngx_conf_handler(ngx_conf_t*cf,ngx_int_tlast){char*rv;
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

Spark核心编程-RDD转换操作

一、基础转换操作

二、键值转换操作

你可能感兴趣的:(大数据/Spark/Spark,Core)