丶kino丶

Spark 常用 API

文章目录

一、 `map`：
二、 `mapPartitions`
三、 `mapPartitionsWithIndex`
四、`flatMap(func)`
五、`glom()`
六、`groupBy(func)`
七、`filter(func)`
八、`sample(withReplacement, fraction, seed)`
九、`distinct([numTasks])`
十、`coalesce(numPartitions)`
十一、`repartition(numPartitions)`
十二、`sortBy(func, [ascending], [numTasks])`
十三、`pipe(command, [envVars])`
十四、`union(otherDataset)`
十五、`subtract(otherDataset)`
十六、 `intersection(otherDataset)`
十七、`cartesian(otherDataset)`
十八、`zip(otherDataset)`
十九、`partitionBy`
二十、`reduceByKey(func, [numTasks])`
二十一、`groupByKey()`
reduceByKey 和 groupByKey 的区别
二十二、`aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])`
二十三、`foldByKey`
二十四、`combineByKey[C]`
二十五、`sortByKey`
二十六、`mapValue`
二十七、`join(otherDataset, [numTasks])`
二十八、`cogroup(otherDataset, [numTasks])`
行动算子
二十九、`reduce(func)`
三十、`collect`
三十一、`count`
三十二、`take(n)`
三十三、`first`
三十四、`takeOrdered(n, [ordering])`
三十五、`aggregate`
三十六、`fold`
三十七、`countByKey`
三十九、`foreach(func)`

一、 `map`：

作用: 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换.

/**
 * map: 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值组成,
 * 就是对 RDD 中的数据做转换
 */
def main(args: Array[String]): Unit = {
   val conf: SparkConf = new SparkConf().setAppName("mapDemo")setMaster("local[2]")
   val sc: SparkContext = new SparkContext(conf)

   // 指定该 RDD 有两个分区
   val rdd1: RDD[Int] = sc.makeRDD(Array(10, 20, 30, 40, 50, 60), 2)

   val rdd2: RDD[Int] = rdd1.map(i => {
       println("执行了....")
       i * i
   })

   rdd2.collect().foreach(println)
   sc.stop()
}

运行结果：

[Stage 0:>(0 + 0) / 2]
执行了....
执行了....
执行了....
执行了....
执行了....
执行了....
100
400
900
1600
2500
3600

可以看到 rdd1.map 被执行了 集合长度 次数，是一个算子一个算子的转换

二、 `mapPartitions`

说明：执行次数按分区数决定，如果有两个分区，将元素放入到指定 Iterator 中执行

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("mapPartitions").setMaster("local[2]")
    val sc = new SparkContext(conf)
    // 指定该 RDD 有两个分区
    val rdd1 = sc.makeRDD(Array(10, 20, 30, 40, 50, 60), 2)
    val rdd2: RDD[Int] = rdd1.mapPartitions(i => {
        println("执行了....")
        i.map(x => x * x)
    }, false)
    println(s"rdd2 分区数: ${rdd2.getNumPartitions}")
    rdd2.collect().foreach(println)

}

运行结果：

rdd2 分区数: 2
执行了....
执行了....
100
400
900
1600
2500
3600

三、 `mapPartitionsWithIndex`

作用：和 mapPartitions(func) 类似. 但是会给func多提供一个 Int 值来表示分区的索引. 所以func的类型是：(Int, Iterator) => Iterator

/**
 * mapPartitionsWithIndex(fun):
 *     和 mapPartitions(fun) 类似, 但是会给 fun 多提供一个 Int 值来表示分区的索引,
 *         所以 func 的类型是: (Int, Iterator => Iterator)
 */
def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("mapPatitionsWithIndex").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(Array(10, 20, 30, 40, 50, 60), 2)
    val rdd2= rdd1.mapPartitionsWithIndex((index, items) => items.map((index, _)))
    rdd2.collect().foreach(println)
    sc.stop()
}

运行结果：

(0,10)
(0,20)
(0,30)
(1,40)
(1,50)
(1,60)

总结：
map() 和 mapPatitions() 的区别：

map()：每次处理一条数据。
mapPartition()：每次处理一个分区的数据，这个分区的数据处理完后，原 RDD 中该分区的数据才能释放，可能导致 OOM。
开发指导：当内存空间较大的时候建议使用 mapPartition()，以提高处理效率

四、`flatMap(func)`

作用：类似于map，但是每一个输入元素可以被映射为 0 或多个输出元素（所以func应该返回一个序列，而不是单一元素 T => TraversableOnce[U]）

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("flatMap").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[String] = sc.makeRDD(List("hello world", "hi kino", "kino hi kino"), 2)
    val rdd2: RDD[String] = rdd1.flatMap(line => line.split(" "))
    println(rdd2.collect().mkString(", "))
}

运行结果：

hello, world, hi, kino, kino, hi, kino

五、`glom()`

作用：将每一个分区的元素合并成一个数组，形成新的 RDD 类型是RDD[Array[T]]

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("glom").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(Array(10,20,30,40,50,60), 4)
    rdd1.glom.collect.foreach(it => {
        it.foreach({
            println("---------------------分区分隔符----------------------")
            println
        })
    })
}

运行结果：

---------------------分区分隔符----------------------
10
---------------------分区分隔符----------------------
20
30
---------------------分区分隔符----------------------
40
---------------------分区分隔符----------------------
50
60

在创建 RDD 时，指定了 4 个分区，运行结果表明了是将每一个分区的元素合并成了数组

六、`groupBy(func)`

作用：按照 func 的返回值进行分组

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("groupBy").setMaster("local")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(Array(1, 3, 4, 20, 4, 5, 8),2)
    val rdd2 = rdd1.groupBy(x => if(x % 2 == 0) "odd" else "even")
    rdd2.collect.foreach(kv => {
        kv._2.foreach(it => println(kv._1, it))
    })
}

运行结果：

(even,1)
(even,3)
(even,5)
(odd,4)
(odd,20)
(odd,4)
(odd,8)

七、`filter(func)`

作用：过滤，返回一个新的 RDD，是由 func 的返回值为 true 的那些元素组成

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("filter").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(Array("xiaoli", "laoli", "laowang", "xiaocang", "xiaojing", "xiaokong"))
    val rdd2 = rdd1.filter(_.contains("xiao"))
    rdd2.collect().foreach(println)
}

运行结果：

xiaoli
xiaocang
xiaojing
xiaokong

八、`sample(withReplacement, fraction, seed)`

作用：

以指定的随机种子随机抽样出比例为fraction的数据，(抽取到的数量是: size * fraction). 需要注意的是得到的结果并不能保证准确的比例.
withReplacement 表示是抽出的数据是否放回，true为有放回的抽样，false为无放回的抽样. 放回表示数据有可能会被重复抽取到, false 则不可能重复抽取到. 如果是false, 则fraction必须是:[0,1], 是 true 则大于等于0就可以了.
seed用于指定随机数生成器种子。一般用默认的, 或者传入当前的时间戳

/**
  * sample(withReplacement, fraction, seed)
  * 作用:
  *     1. 以指定的随机种子, 随机抽样出比例为 fraction 的数据, (抽取到的数量是: size * fraction)
  *         需要注意的是, 得到的结果并不能保证准确的比例
  *     2. withReplacement 表示是抽出的数据是否放回,
  *         true 为有放回的抽样, 数据可能会被重复抽取到, fraction 可以 大于 1
  *         false 为无放回的抽样, 数据不能被重复抽取到, fraction 必须是: [0, 1]
  *     3. seed 用于指定随机数生成器种子。 一般用默认的, 或者传入当前的时间戳,
  *         当指定一个固定数后, 得到的结果 每次一定是一样的
  */
 def main(args: Array[String]): Unit = {
     val conf: SparkConf = new SparkConf().setAppName("sample").setMaster("local[2]")
     val sc = new SparkContext(conf)
     val rdd1: RDD[Int] = sc.makeRDD(1 to 10)
     // 不放回抽样
     val rdd2: RDD[Int] = rdd1.sample(false, 0.6, 1)
     // 放回抽样
     val rdd3: RDD[Int] = rdd1.sample(true, 2,1)
     println(s"不放回抽样: ${rdd2.collect().mkString(" ")}")
     println(s"放回抽样: ${rdd3.collect().mkString(" ")}")
 }

运行结果：

不放回抽样: 1 3 5 7 10
放回抽样: 1 1 1 1 2 2 2 2 3 3 4 4 5 5 6 7 7 8 8 8 8 9 10 10 10

九、`distinct([numTasks])`

作用：对 RDD 中元素执行去重操作，参数表示任务的数量，默认值和分区数保持一直。

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("distinct").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(Array(10, 10, 2, 5, 3, 5, 3, 6, 9, 1))
    rdd1.distinct().collect().foreach(println)
}

运行结果：

6, 10, 2, 1, 3, 9, 5

十、`coalesce(numPartitions)`

作用：缩减分区数到指定的数量，用于大数据集过滤后，提高小数据集的执行效率

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("coalesce").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(1 to 100, 5)
    println(s"rdd1 的分区数: ${rdd1.partitions.length}")

    //减少分区数的数量至 2
    val rdd2: RDD[Int] = rdd1.coalesce(2)

    println(s"减少分区后, rdd2 的分区数: ${rdd2.partitions.length}")
}

运行结果：

rdd1 的分区数: 5
减少分区后, rdd1 的分区数: 2

注意:
rdd1.coalesce()：第二个参数表示是否shuffle, 如果不传或者传入的为false, 则表示不进行shuffer, 此时分区数减少有效, 增加分区数无效.

十一、`repartition(numPartitions)`

作用：根据新的分区数，重新 shuffle 所有的数据，这个操作总会通过网络

新的分区数相比以前可以多, 也可以少

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("coalesce").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(1 to 100, 5)
    println(s"rdd1 的分区数: ${rdd1.partitions.length}")

    //减少分区数的数量至 2
    val rdd2: RDD[Int] = rdd1.coalesce(2)

    println(s"减少分区后, rdd2 的分区数: ${rdd2.partitions.length}")
}

运行结果：

repartition 减小后的分区大小: 3
repartition 增加后的分区大小: 10

总结：
coalasce 和 repartition 的区别：

coalesce 重新分区，可以选择是否进行shuffle过程。由参数 shuffle: Boolean = false/true 决定。

repartition 实际上是调用的 coalesce，进行shuffle。源码如下：

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
	coalesce(numPartitions, shuffle = true)
}

如果是减少分区, 尽量避免 shuffle

十二、`sortBy(func, [ascending], [numTasks])`

作用：使用 func 先对数据进行处理，按照处理后结果排序

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("sortBy").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(Array(1,3,4,10,4,6,9,20,30,16))
    
    //默认按升序排
    val rdd2: RDD[Int] = rdd1.sortBy(x => x)
    println(s"默认排序: ${rdd2.collect().mkString(", ")}")

    //指定按升序排
    val rdd3: RDD[Int] = rdd1.sortBy(x => x, true)
    println(s"指定升序: ${rdd3.collect().mkString(", ")}")

    //指定按降序排
    val rdd4: RDD[Int] = rdd1.sortBy(x => x, false)
    println(s"指定降序: ${rdd4.collect().mkString(", ")}")
}

运行结果：

默认排序: 1, 3, 4, 4, 6, 9, 10, 16, 20, 30
指定升序: 1, 3, 4, 4, 6, 9, 10, 16, 20, 30
指定降序: 30, 20, 16, 10, 9, 6, 4, 4, 3, 1

十三、`pipe(command, [envVars])`

作用：管道，可以让Shell 脚本对 RDD 进行处理，针对每个分区，把 RDD 中的每个数据通过管道传递给 Shell 命令或脚本，返回输出的 RDD。一个分区指定一次这个命令，如果只有一个分区，则执行一次命令

注意：脚本要放在 worker 节点可以访问到的位置

步骤1：创建一个脚本文件 pipe.sh

vim pipe.sh

echo "hello"
while read line;do
    echo ">>>"$line
done

步骤2：创建只有一个分区的 RDD

scala> val rdd1 = sc.parallelize(Array(10,20,30,40), 1)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd1.pipe("./pipe.sh").collect
res1: Array[String] = Array(hello, >>>10, >>>20, >>>30, >>>40)

步骤3：创建只有两个分区的 RDD

scala> val rdd1 = sc.parallelize(Array(10,20,30,40), 2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at <console>:24

scala> rdd1.pipe("./pipe.sh").collect
res2: Array[String] = Array(hello, >>>10, >>>20, hello, >>>30, >>>40)

总结：每个分区执行一次脚本，但是每个元素算是标准输入中的一个元素

十四、`union(otherDataset)`

作用：求并集，对源 RDD 和参数 RDD 求并集后返回一个新的 RDD

需求：创建两个 RDD，求并集

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("union").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(1 to 6)
    val rdd2: RDD[Int] = sc.makeRDD(4 to 10)

//    val rdd3: RDD[Int] = rdd1.union(rdd2)
    // union 和 ++ 是等价的
    val rdd3: RDD[Int] = rdd1 ++ rdd2
    println(s"rdd1 和 rdd2 并集: ${rdd3.collect().mkString(", ")}")
}

运行结果：

rdd1 和 rdd2 并集: 1, 2, 3, 4, 5, 6, 4, 5, 6, 7, 8, 9, 10

十五、`subtract(otherDataset)`

作用：计算差集，从原 RDD 中减去原 RDD 和 otherDataset 中的共同部分

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("union").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(1 to 6)
    val rdd2: RDD[Int] = sc.makeRDD(4 to 10)

    val rdd3: RDD[Int] = rdd1.subtract(rdd2)
    println(s"rdd1.subtract(rdd2): ${rdd3.collect().mkString(", ")}")

    val rdd4: RDD[Int] = rdd2.subtract(rdd1)
    println(s"rdd2.subtract(rdd1): ${rdd4.collect().mkString(", ")}")
}

运行结果：

rdd1.subtract(rdd2): 2, 1, 3
rdd2.subtract(rdd1): 8, 10, 7, 9

十六、 `intersection(otherDataset)`

作用：计算交集，对源 RDD 和参数RDD 求交集后返回一个新的 RDD

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("union").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(1 to 6)
    val rdd2: RDD[Int] = sc.makeRDD(4 to 10)

    val rdd3: RDD[Int] = rdd1.intersection(rdd2)
    println(rdd3.collect().mkString(", "))
}

运行结果：

4, 6, 5

十七、`cartesian(otherDataset)`

作用：计算 2 个 RDD 的笛卡尔积，尽量避免使用

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("union").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(1 to 6)
    val rdd2: RDD[Int] = sc.makeRDD(4 to 10)

    val rdd3: RDD[(Int, Int)] = rdd1.cartesian(rdd2)
    println(rdd3.collect().mkString(", "))
}

运行结果：

(1,4), (1,5), (1,6), (2,4), (2,5), (2,6), (3,4), (3,5), (3,6), (1,7), (1,8), (1,9), 
(1,10), (2,7), (2,8), (2,9), (2,10), (3,7), (3,8), (3,9), (3,10), (4,4), (4,5), 
(4,6), (5,4), (5,5), (5,6), (6,4), (6,5), (6,6), (4,7), (4,8), (4,9), (4,10), (5,7), 
(5,8), (5,9), (5,10), (6,7), (6,8), (6,9), (6,10)

十八、`zip(otherDataset)`

作用：拉链操作

注意：在 Spark 中，两个 RDD 的元素的数量和分区数都必须相同，否则抛出异常(在 Scala 中，两个集合的长度可以不停)

其实本质就是：要求的没法分区的元素的数量相同

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("union").setMaster("local[2]")
    val sc = new SparkContext(conf)

    val rdd1 = sc.parallelize(1 to 5)
    val rdd2 = sc.parallelize(11 to 15)
    val rdd3: RDD[(Int, Int)] = rdd1.zip(rdd2)

    rdd3.collect().foreach(println)
}

运行结果：

(1,11)
(2,12)
(3,13)
(4,14)
(5,15)

十九、`partitionBy`

作用：对 pairRDD(键值对) 进行分区操作，如果原有的 partitionRDD 的分区器和传入的分区器相同，则返回原 pairRDD，否则会生成 ShuffleRDD，即会产生 shuffle 过程。

partitionBy 源码：

def partitionBy(partitioner: Partitioner): RDD[(K, V)] = self.withScope {
  if (keyClass.isArray && partitioner.isInstanceOf[HashPartitioner]) {
    throw new SparkException("HashPartitioner cannot partition array keys.")
  }
  if (self.partitioner == Some(partitioner)) {
    self
  } else {
    new ShuffledRDD[K, V, V](self, partitioner)
  }
}

案例：

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(Array((1, "a"), (2, "b"), (3, "c"), (4, "d")))

    rdd1.glom().collect().foreach(arr => println(arr.mkString(", ")))

    println("---------------")
    val rdd2: RDD[(Int, String)] = rdd1.partitionBy(new HashPartitioner(2))
    rdd2.glom().collect().foreach(arr => println(arr.mkString(", ")))

    sc.stop()
}

运行结果：

(1,a), (2,b)
(3,c), (4,d)
---------------
(2,b), (4,d)
(1,a), (3,c)

对 pairRDD 进行分区操作，可以传入分区器，Partitioner 有两个实现类:

HashPartitioner：
根据 Key 的 Hash 值进行分区，关键源码如下:

def getPartition(key: Any): Int = key match {
    case null => 0
    case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)
}
//-------- Utils.nonNegativeMod 具体实现
def nonNegativeMod(x: Int, mod: Int): Int = {
    val rawMod = x % mod
    rawMod + (if (rawMod < 0) mod else 0)
}

RangePartitioner：抽样进行分区，涉及到鱼塘抽样

def getPartition(key: Any): Int = {
 val k = key.asInstanceOf[K]
  var partition = 0
  if (rangeBounds.length <= 128) {
    // If we have less than 128 partitions naive search
    while (partition < rangeBounds.length && ordering.gt(k, rangeBounds(partition))) {
      partition += 1
    }
  } else {
    // Determine which binary search method to use only once.
    partition = binarySearch(rangeBounds, k)
    // binarySearch either returns the match location or -[insertion point]-1
    if (partition < 0) {
      partition = -partition-1
    }
    if (partition > rangeBounds.length) {
      partition = rangeBounds.length
    }
  }
  if (ascending) {
    partition
  } else {
    rangeBounds.length - partition
  }
}

二十、`reduceByKey(func, [numTasks])`

作用：在一个 (k, v) 的 RDD 上调用, 返回一个 (k, v) 的 RDD, 使用指定的 reduce 函数,将相同 key 的 value 聚合到一起, reduce 任务的个数可以通过第二个可选的参数来设置

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(List(("female",1),("male",5),("female",5),("male",2)))

    // reduceByKey 会进行预聚合, 先将每个 Partitioner 中的相同 Key 进行聚合, 再将每个 Partitioner 中相同 Key 进行聚合
    // reduceByKey 结束后, 新的 RDD 分区数可以重新指定, 并且重新指定分区器, 如果没有指定, 使用原来的分区
    val rdd2: RDD[(String, Int)] = rdd1.reduceByKey(_ + _)
    rdd2.collect().foreach(println)
    sc.stop()
}

运行结果：

(female,6)
(male,7)

二十一、`groupByKey()`

作用：按照 key 进行分组

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(List(("female",1),("male",5),("female",5),("male",2)))
    val rdd2: RDD[(String, Iterable[Int])] = rdd1.groupByKey()

    rdd2.collect().foreach(println)

    sc.stop()
}

运行结果：

(female,CompactBuffer(1, 5))
(male,CompactBuffer(5, 2))

注意：

基于当前的实现, groupByKey必须在内存中持有所有的键值对. 如果一个key有太多的value, 则会导致内存溢出(OutOfMemoryError)
所以这操作非常耗资源, 如果分组的目的是为了在每个key上执行聚合操作(比如: sum 和 average), 则应该使用PairRDDFunctions.aggregateByKey 或者PairRDDFunctions.reduceByKey, 因为他们有更好的性能(会先在分区进行预聚合)

reduceByKey 和 groupByKey 的区别

reduceByKey: 按照 key 进行聚合, 在 shuffle 之前有 combine(预聚合) 操作, 返回结果是 RDD[k,v]

groupByKey: 按照 Key 进行分组, 直接进行 shuffle

开发指导: reduceByKey 比 groupByKey 性能更好, 建议使用, 但是需要注意是否影响业务逻辑.

reduceByKey: 会有预聚合, 如果有预聚合有限选择这个

groupByKey: 仅仅分组, 不会有任何的预聚合

二十二、`aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])`

在 reduceByKey 中, 我们可以将键值对(k, v) 的数据按照相同 K 聚合对应的 V，在这个期间不同分区的数据会有预聚合, 最终每个分区的数组再聚合, 预聚合分区间聚合规则不能改变

aggregateByKey 解决了预聚合和分区间聚合规则不一样的问题，可以指定分区内聚合的规则, 指定分区间聚合的规则

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(List(("female",1),("male",5),("female",5),("male",2)))

    /**
      * aggregateByKey(zeroValue)(seqOp, combOp):
      *     zeroValue: 零值, 初始值
      *     seqOp: 分区内聚合规则
      *     combOp: 分区间聚合规则
      */
    val rdd2 = rdd1.aggregateByKey(0)(_ + _, _ * _)
    rdd2.collect().foreach(kv => println(kv._1, kv._2))


    println("--------------------新需求-------------------")
    // 需求: 创建一个 pairRDD, 去除每个分区相同的 key 对应值的最大值, 然后相加
    val rdd3: RDD[(String, Int)] = sc.makeRDD(
          List(("a",3),("a",2),("c",4),("b",3),("c",6),("c",8)),2)
    val rdd4: RDD[(String, Int)] = rdd3.aggregateByKey(Int.MinValue)((x, y) => x.max(y), _ + _)
    rdd4.collect().foreach(println)


    println("--------------------求平均值的需求-------------------")
    // (a, (sum: 10, count: 2)) ==> (a, 10/2)
    val rdd5: RDD[(String, Double)] = rdd3.aggregateByKey((0, 0))({
        case ((sum, count), v) => (sum + v, count + 1)
    }, {
        case ((sum1, count1), (sum2, count2)) => (sum1 + sum2, count1 + count2)
    }).map({
        case (k, (sum, count)) => (k, sum.toDouble / count)
    })
    rdd5.collect().foreach(println)

    sc.stop()
}

运行结果：

(female,5)
(male,10)
--------------------新需求-------------------
(b,3)
(a,3)
(c,12)
--------------------求平均值的需求-------------------
(b,3.0)
(a,2.5)
(c,6.0)

二十三、`foldByKey`

作用：aggregateByKey 的简化操作，seqop 和 combop相同的时候使用 foldByKey

说明：相比 reduceByKey, 多了一个初始值(零值), 如果不需要零值, 可以使用 reduceByKey

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(List(("female",1),("male",5),("female",5),("male",2)))
    val rdd2: RDD[(String, Int)] = rdd1.foldByKey(0)(_ + _)
    rdd2.collect().foreach(println)

    sc.stop()
}

运行结果：

(female,6)
(male,7)

二十四、`combineByKey[C]`

作用：针对每个K, 将V进行合并成C, 得到RDD[(K,C)]

参数说明：

createCombiner： combineByKey会遍历分区中的每个key-value对. 如果第一次碰到这个key, 则调用createCombiner函数,传入value, 得到一个C类型的值.(如果不是第一次碰到这个 key, 则不会调用这个方法)
mergeValue:如果不是第一个遇到这个key, 则调用这个函数进行合并操作. 分区内合并

/**
  * createCombiner: 创建 零值,
  * mergeValue: 分区内聚合
  * mergeCombiners: 分区间聚合
  */
def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(List(("female",1),("male",5),("female",5),("male",2)))

    val rdd2: RDD[(String, Int)] = rdd1.combineByKey(v => v, (last: Int, v: Int) => last + v, (v1: Int, v2: Int) => v1 + v2)
    rdd2.collect().foreach(println)

    sc.stop()
}

二十五、`sortByKey`

作用：在一个(K,V)的 RDD 上调用, K必须实现 Ordered[K] 接口(或者有一个隐式值: Ordering[K]), 返回一个按照key进行排序的(K,V)的 RDD

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(List(("a",3),("a",2),("c",4),("b",3),("c",6),("c",8)))

    // 默认按 Key 升序 排序
    val rdd2: RDD[(String, Int)] = rdd1.sortByKey()
    println("默认按 Key 升序 排序: ")
    rdd2.collect.foreach(println)

    // 指定排序规则为 升序
    val rdd3: RDD[(String, Int)] = rdd1.sortByKey(true)
    println("\n指定排序规则为 升序: ")
    rdd3.collect.foreach(println)

    // 指定排序规则为 降序
    val rdd4 = rdd1.sortByKey(false)
    println("\n指定排序规则为 降序: ")
    rdd4.collect.foreach(println)


    sc.stop()
}

运行结果：

默认按 Key 升序 排序: 
(a,3)
(a,2)
(b,3)
(c,4)
(c,6)
(c,8)

指定排序规则为 升序: 
(a,3)
(a,2)
(b,3)
(c,4)
(c,6)
(c,8)

指定排序规则为 降序: 
(c,4)
(c,6)
(c,8)
(b,3)
(a,3)
(a,2)

二十六、`mapValue`

作用：针对 (K, V) 形式的类型只对 V 进行操作

def main(args: Array[String]): Unit = {
     val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
     val sc = new SparkContext(conf)
     val rdd1 = sc.makeRDD(List(("female",1),("male",5),("female",5),("male",2)))

     val rdd2 = rdd1.mapValues("<" + _ + ">")
     rdd2.collect().foreach(println)
     sc.stop()
 }

运行结果：

(female,<1>)
(male,<5>)
(female,<5>)
(male,<2>)

二十七、`join(otherDataset, [numTasks])`

内连接

在类型为 (K, V) 和 (K, W) 的 RDD 上调用，返回一个相同 key 对应的所有元素对在一起的(K,(V,W))的RDD

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(Array((1, "a"), (1, "b"), (2, "c")))

    val rdd2 = sc.parallelize(Array((1, "aa"), (3, "bb"), (2, "cc")))
    val rdd3: RDD[(Int, (String, String))] = rdd1.join(rdd2)
    val rdd4 = rdd1.leftOuterJoin(rdd2)
    val rdd5 = rdd1.rightOuterJoin(rdd2)
    val rdd6 = rdd1.fullOuterJoin(rdd2)
    println("join: ")
    rdd3.collect().foreach(println)
    println("\nleftOuterJoin: ")
    rdd4.collect().foreach(println)
    println("\nrightOuterJoin: ")
    rdd5.collect().foreach(println)
    println("\nfullOuterJoin: ")
    rdd6.collect().foreach(println)
    sc.stop()
}

运行结果：

join: 
(2,(c,cc))
(1,(a,aa))
(1,(b,aa))

leftOuterJoin: 
(2,(c,Some(cc)))
(1,(a,Some(aa)))
(1,(b,Some(aa)))

rightOuterJoin: 
(2,(Some(c),cc))
(1,(Some(a),aa))
(1,(Some(b),aa))
(3,(None,bb))

fullOuterJoin: 
(2,(Some(c),Some(cc)))
(1,(Some(a),Some(aa)))
(1,(Some(b),Some(aa)))
(3,(None,Some(bb)))

注意:

如果某一个 RDD 有重复的 Key, 则会分别与另外一个 RDD 的相同的 Key进行组合.
也支持外连接: leftOuterJoin, rightOuterJoin, and fullOuterJoin.

二十八、`cogroup(otherDataset, [numTasks])`

作用：在类型为 (K, V) 和 (K, W) 的 RDD 上调用，返回一个 (K,(Iterable,Iterable)) 类型的 RDD

def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("CreateRDD").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.makeRDD(Array((1, 10),(2, 20),(1, 100),(3, 30)),1)
    val rdd2 = sc.parallelize(Array((1, "a"),(2, "b"),(1, "aa"),(3, "c")),1)

    val rdd3: RDD[(Int, (Iterable[Int], Iterable[String]))] = rdd1.cogroup(rdd2)
    rdd3.collect().foreach(println)
    sc.stop()
}

运行结果：

(1,(CompactBuffer(10, 100),CompactBuffer(a, aa)))
(3,(CompactBuffer(30),CompactBuffer(c)))
(2,(CompactBuffer(20),CompactBuffer(b)))

行动算子

二十九、`reduce(func)`

通过func函数聚集 RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据。

scala> val rdd1 = sc.parallelize(1 to 100)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd1.reduce(_ + _)
res0: Int = 5050

scala> val rdd2 = sc.parallelize(Array(("a", 1), ("b", 2), ("c", 3)))
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[1] at parallelize at <console>:24

scala> rdd2.reduce((x, y) => (x._1 + y._1, x._2 + y._2))
res2: (String, Int) = (abc,6)

三十、`collect`

以数组的形式返回 RDD 中的所有元素.
所有的数据都会被拉到 driver 端, 所以要慎用

三十一、`count`

返回 RDD 中元素的个数

三十二、`take(n)`

返回 RDD 中前 n 个元素组成的数组

take 的数据也会拉倒 driver 端，应该只对小数据集使用

三十三、`first`

返回 RDD 中的第一个元素，类似于 take(1)

三十四、`takeOrdered(n, [ordering])`

返回排序后的钱 n 和元素，默认是升序

数据也会被拉到 driver 端

三十五、`aggregate`

aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致
注意:

zeroValue 分区内聚合和分区间聚合的时候各会使用一次.

scala> val rdd1 = sc.makeRDD(Array(100, 30, 10, 30, 1, 50, 1, 60, 1), 2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at makeRDD at <console>:24

scala> rdd1.aggregate(0)(_ + _, _ + _)
res12: Int = 283

scala> val rdd1 = sc.makeRDD(Array("a", "b", "c", "d"), 2)
rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[9] at makeRDD at <console>:24

scala> rdd1.aggregate("x")(_ + _, _ + _)
res13: String = xxabxcd

三十六、`fold`

折叠操作，aggregate 的简化操作， seqop 和 combop 一样的时候，可以使用 fold

scala> val rdd1 = sc.makeRDD(Array(100, 30, 10, 30, 1, 50, 1, 60, 1), 2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at makeRDD at <console>:24

scala> rdd1.fold(0)(_ + _)
res16: Int = 283

scala> val rdd1 = sc.makeRDD(Array("a", "b", "c", "d"), 2)
rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[11] at makeRDD at <console>:24

scala> rdd1.fold("x")(_ + _)
res17: String = xxabxcd

三十七、`countByKey`

作用：针对 (K, V) 类型的 RDD，返回一个 (k, Int) 的 map，表示每一个 key 对应的元素个数

应用：可以用来查看数据是否倾斜

scala> val rdd1 = sc.parallelize(Array(("a", 10), ("a", 20), ("b", 100), ("c", 200)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[15] at parallelize at <console>:24

scala> rdd1.countByKey()
res19: scala.collection.Map[String,Long] = Map(b -> 1, a -> 2, c -> 1)

三十九、`foreach(func)`

作用：针对 RDD 中的每个元素都执行一次 func

每个函数是在 Executor 上执行的，不是在 driver 端执行的

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

Spark 常用 API

文章目录

一、 map：

二、 mapPartitions

三、 mapPartitionsWithIndex

四、flatMap(func)

五、glom()

六、groupBy(func)

七、filter(func)

八、sample(withReplacement, fraction, seed)

九、distinct([numTasks])

十、coalesce(numPartitions)

十一、repartition(numPartitions)

十二、sortBy(func, [ascending], [numTasks])

十三、pipe(command, [envVars])

十四、union(otherDataset)

十五、subtract(otherDataset)

十六、 intersection(otherDataset)

十七、cartesian(otherDataset)

十八、zip(otherDataset)

十九、partitionBy

二十、reduceByKey(func, [numTasks])

二十一、groupByKey()

reduceByKey 和 groupByKey 的区别

二十二、aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])

二十三、foldByKey

二十四、combineByKey[C]

二十五、sortByKey

二十六、mapValue

二十七、join(otherDataset, [numTasks])

二十八、cogroup(otherDataset, [numTasks])

行动算子

二十九、reduce(func)

三十、collect

三十一、count

三十二、take(n)

三十三、first

三十四、takeOrdered(n, [ordering])

三十五、aggregate

三十六、fold

三十七、countByKey

三十九、foreach(func)

你可能感兴趣的:(Spark,Spark)

一、 `map`：

二、 `mapPartitions`

三、 `mapPartitionsWithIndex`

四、`flatMap(func)`

五、`glom()`

六、`groupBy(func)`

七、`filter(func)`

八、`sample(withReplacement, fraction, seed)`

九、`distinct([numTasks])`

十、`coalesce(numPartitions)`

十一、`repartition(numPartitions)`

十二、`sortBy(func, [ascending], [numTasks])`

十三、`pipe(command, [envVars])`

十四、`union(otherDataset)`

十五、`subtract(otherDataset)`

十六、 `intersection(otherDataset)`

十七、`cartesian(otherDataset)`

十八、`zip(otherDataset)`

十九、`partitionBy`

二十、`reduceByKey(func, [numTasks])`

二十一、`groupByKey()`

二十二、`aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])`

二十三、`foldByKey`

二十四、`combineByKey[C]`

二十五、`sortByKey`

二十六、`mapValue`

二十七、`join(otherDataset, [numTasks])`

二十八、`cogroup(otherDataset, [numTasks])`

二十九、`reduce(func)`

三十、`collect`

三十一、`count`

三十二、`take(n)`

三十三、`first`

三十四、`takeOrdered(n, [ordering])`

三十五、`aggregate`

三十六、`fold`

三十七、`countByKey`

三十九、`foreach(func)`