azhrrvsfz270786493

RDD编程-转换算子

2.1 编程模型

在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。
要使用Spark，开发者需要编写一个Driver程序，它被提交到集群以调度运行Worker，如下图所示。Driver中定义了一个或多个RDD，并调用RDD上的action，Worker则执行RDD分区计算任务。

2.2 RDD的创建

在Spark中创建RDD的创建方式可以分为三种：从集合中创建RDD；从外部存储创建RDD；从其他RDD创建。

2.2.1 从集合中创建

从集合中创建RDD，Spark主要提供了两种函数：parallelize和makeRDD
1）使用parallelize()从集合创建

scala> val rdd = sc.parallelize(Array(1,2,3,4,5,6,7,8))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :24

2）使用makeRDD()从集合创建

scala> val rdd1 = sc.makeRDD(Array(1,2,3,4,5,6,7,8))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at makeRDD at :24

2.2.2 由外部存储系统的数据集创建

包括本地的文件系统，还有所有Hadoop支持的数据集，比如HDFS、Cassandra、HBase等，我们会在第4章详细介绍。

scala> val rdd2= sc.textFile("hdfs://hadoop102:9000/RELEASE")
rdd2: org.apache.spark.rdd.RDD[String] = hdfs:// hadoop102:9000/RELEASE MapPartitionsRDD[4] at textFile at :24

2.2.3 从其他RDD创建

详见2.3节

2.3 RDD的转换（面试开发重点）

RDD整体上分为Value类型和Key-Value类型

2.3.1 Value类型

2.3.1.1 map(func)案例

作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成
需求：创建一个1-10数组的RDD，将所有元素*2形成新的RDD

（1）创建

scala> var source  = sc.parallelize(1 to 10)
source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at parallelize at :24

（2）打印

scala> source.collect()
res7: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

（3）将所有元素*2

scala> val mapadd = source.map(_ * 2)
mapadd: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[9] at map at :26

（4）打印最终结果

scala> mapadd.collect()
res8: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18, 20)

2.3.1.2 mapPartitions(func) 案例

作用：类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]。假设有N个元素，有M个分区，那么map的函数的将被调用N次,而mapPartitions被调用M次,一个函数一次处理所有分区。
需求：创建一个RDD，使每个元素*2组成新的RDD

（1）创建一个RDD

scala> val rdd = sc.parallelize(Array(1,2,3,4))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at :24

（2）使每个元素*2组成新的RDD

scala> rdd.mapPartitions(x=>x.map(_*2))
res3: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[6] at mapPartitions at :27

（3）打印新的RDD

scala> res3.collect
res4: Array[Int] = Array(2, 4, 6, 8)

2.3.1.3 mapPartitionsWithIndex(func) 案例

作用：类似于mapPartitions，但func带有一个整数参数表示分片的索引值，因此在类型为T的RDD上运行时，func的函数类型必须是(Int, Interator[T]) => Iterator[U]；
需求：创建一个RDD，使每个元素跟所在分区形成一个元组组成一个新的RDD

（1）创建一个RDD

scala> val rdd = sc.parallelize(Array(1,2,3,4))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at :24

（2）使每个元素跟所在分区形成一个元组组成一个新的RDD

scala> val indexRdd = rdd.mapPartitionsWithIndex((index,items)=>(items.map((index,_))))
indexRdd: org.apache.spark.rdd.RDD[(Int, Int)] = MapPartitionsRDD[5] at mapPartitionsWithIndex at :26

（3）打印新的RDD

scala> indexRdd.collect
res2: Array[(Int, Int)] = Array((0,1), (0,2), (1,3), (1,4))

2.3.1.4 flatMap(func) 案例

作用：类似于map，但是每一个输入元素可以被映射为0或多个输出元素（所以func应该返回一个序列，而不是单一元素）
需求：创建一个元素为1-5的RDD，运用flatMap创建一个新的RDD，新的RDD为原RDD的每个元素的扩展（1->1,2->1,2……5->1,2,3,4,5）

（1）创建

scala> val sourceFlat = sc.parallelize(1 to 5)
sourceFlat: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at :24

（2）打印

scala> sourceFlat.collect()
res11: Array[Int] = Array(1, 2, 3, 4, 5)

（3）根据原RDD创建新RDD（1->1,2->1,2……5->1,2,3,4,5）

scala> val flatMap = sourceFlat.flatMap(1 to _)
flatMap: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[13] at flatMap at :26

（4）打印新RDD

scala> flatMap.collect()
res12: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5)

2.3.1.5 map()和mapPartition()的区别

map()：每次处理一条数据。
mapPartition()：每次处理一个分区的数据，这个分区的数据处理完后，原RDD中分区的数据才能释放，可能导致OOM。
开发指导：当内存空间较大的时候建议使用mapPartition()，以提高处理效率。

2.3.1.6 glom案例
作用：将每一个分区形成一个数组，形成新的RDD类型时RDD[Array[T]]
需求：创建一个4个分区的RDD，并将每个分区的数据放到一个数组

（1）创建

scala> val rdd = sc.parallelize(1 to 16,4)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at :24

（2）将每个分区的数据放到一个数组并收集到Driver端打印

scala> rdd.glom().collect()
res25: Array[Array[Int]] = Array(Array(1, 2, 3, 4), Array(5, 6, 7, 8), Array(9, 10, 11, 12), Array(13, 14, 15, 16))

2.3.1.7 groupBy(func)案例

作用：分组，按照传入函数的返回值进行分组。将相同的key对应的值放入一个迭代器。
需求：创建一个RDD，按照元素模以2的值进行分组。

（1）创建

scala> val rdd = sc.parallelize(1 to 4)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at :24

（2）按照元素模以2的值进行分组

scala> val group = rdd.groupBy(_%2)
group: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at :26

（3）打印结果

scala> group.collect
res0: Array[(Int, Iterable[Int])] = Array((0,CompactBuffer(2, 4)), (1,CompactBuffer(1, 3)))

CompactBuffer是Iterable的一个实现子类.

2.3.1.8 filter(func) 案例

作用：过滤。返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成。
需求：创建一个RDD（由字符串组成），过滤出一个新RDD（包含”xiao”子串）

（1）创建

scala> var sourceFilter = sc.parallelize(Array("xiaoming","xiaojiang","xiaohe","dazhi"))
sourceFilter: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[10] at parallelize at :24

（2）打印

scala> sourceFilter.collect()
res9: Array[String] = Array(xiaoming, xiaojiang, xiaohe, dazhi)

（3）过滤出含” xiao”子串的形成一个新的RDD

scala> val filter = sourceFilter.filter(_.contains("xiao"))
filter: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[11] at filter at :26

（4）打印新RDD

scala> filter.collect()
res10: Array[String] = Array(xiaoming, xiaojiang, xiaohe)

2.3.1.9 sample(withReplacement, fraction, seed) 案例

作用：以指定的随机种子随机抽样出数量为fraction的数据，withReplacement表示是抽出的数据是否放回，true为有放回的抽样，false为无放回的抽样，seed用于指定随机数生成器种子。
(计算机中随机数是伪随机,需要制定种子,一般以当前时间戳为种子)
需求：创建一个RDD（1-10），从中选择放回和不放回抽样

（1）创建RDD

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[20] at parallelize at :24

（2）打印

scala> rdd.collect()
res15: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

（3）放回抽样

scala> var sample1 = rdd.sample(true,0.4,2)
sample1: org.apache.spark.rdd.RDD[Int] = PartitionwiseSampledRDD[21] at sample at :26

（4）打印放回抽样结果

scala> sample1.collect()
res16: Array[Int] = Array(1, 2, 2, 7, 7, 8, 9)

（5）不放回抽样

scala> var sample2 = rdd.sample(false,0.2,3)
sample2: org.apache.spark.rdd.RDD[Int] = PartitionwiseSampledRDD[22] at sample at :26

（6）打印不放回抽样结果

scala> sample2.collect()
res17: Array[Int] = Array(1, 9)

2.3.1.10 distinct([numTasks])) 案例

作用：对源RDD进行去重后返回一个新的RDD。默认情况下，只有8个并行任务来操作，但是可以传入一个可选的numTasks参数改变它。
需求：创建一个RDD，使用distinct()对其去重。

（1）创建一个RDD

scala> val distinctRdd = sc.parallelize(List(1,2,1,5,2,9,6,1))
distinctRdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[34] at parallelize at :24

（2）对RDD进行去重（不指定并行度）

scala> val unionRDD = distinctRdd.distinct()
unionRDD: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[37] at distinct at :26

（3）打印去重后生成的新RDD

scala> unionRDD.collect()
res20: Array[Int] = Array(1, 9, 5, 6, 2)

（4）对RDD（指定并行度为2）

scala> val unionRDD = distinctRdd.distinct(2)
unionRDD: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[40] at distinct at :26

（5）打印去重后生成的新RDD

scala> unionRDD.collect()
res21: Array[Int] = Array(6, 2, 1, 9, 5)

2.3.1.11 coalesce(numPartitions) 案例

作用：缩减分区数，用于大数据集过滤后，提高小数据集的执行效率。
需求：创建一个4个分区的RDD，对其缩减分区

（1）创建一个RDD

scala> val rdd = sc.parallelize(1 to 16,4)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[54] at parallelize at :24

（2）查看RDD的分区数

scala> rdd.partitions.size
res20: Int = 4

（3）对RDD重新分区

scala> val coalesceRDD = rdd.coalesce(3)
coalesceRDD: org.apache.spark.rdd.RDD[Int] = CoalescedRDD[55] at coalesce at :26

（4）查看新RDD的分区数

scala> coalesceRDD.partitions.size
res21: Int = 3

2.3.1.12 repartition(numPartitions) 案例

作用：根据分区数，重新通过网络随机洗牌所有数据。
需求：创建一个4个分区的RDD，对其重新分区

（1）创建一个RDD

scala> val rdd = sc.parallelize(1 to 16,4)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[56] at parallelize at :24

（2）查看RDD的分区数

scala> rdd.partitions.size
res22: Int = 4

（3）对RDD重新分区

scala> val rerdd = rdd.repartition(2)
rerdd: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[60] at repartition at :26

（4）查看新RDD的分区数

scala> rerdd.partitions.size
res23: Int = 2

2.3.1.13 coalesce和repartition的区别

coalesce重新分区，可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定。

repartition实际上是调用的coalesce，进行shuffle。源码如下：

 def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
       coalesce(numPartitions, shuffle = true)
 }

2.3.1.14 sortBy(func,[ascending], [numTasks]) 案例

作用；使用func先对数据进行处理，按照处理后的数据比较结果排序，默认为正序。
需求：创建一个RDD，按照不同的规则进行排序

（1）创建一个RDD

scala> val rdd = sc.parallelize(List(2,1,3,4))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[21] at parallelize at :24

（2）按照自身大小排序

scala> rdd.sortBy(x => x).collect()
res11: Array[Int] = Array(1, 2, 3, 4)

（3）按照与3余数的大小排序

scala> rdd.sortBy(x => x%3).collect()
res12: Array[Int] = Array(3, 4, 1, 2)

2.3.1.15 pipe(command, [envVars]) 案例

作用：管道，针对每个分区，都执行一个shell脚本，返回输出的RDD。
注意：脚本需要放在Worker节点可以访问到的位置
需求：编写一个脚本，使用管道将脚本作用于RDD上。

（1）编写一个脚本

Shell脚本
#!/bin/sh
echo "AA"
while read LINE; do
   echo ">>>"${LINE}
done

（2）创建一个只有一个分区的RDD

scala> val rdd = sc.parallelize(List("hi","Hello","how","are","you"),1)
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[50] at parallelize at :24

（3）将脚本作用该RDD并打印

scala> rdd.pipe("/opt/module/spark/pipe.sh").collect()
res18: Array[String] = Array(AA, >>>hi, >>>Hello, >>>how, >>>are, >>>you)

（4）创建一个有两个分区的RDD

scala> val rdd = sc.parallelize(List("hi","Hello","how","are","you"),2)
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[52] at parallelize at :24

（5）将脚本作用该RDD并打印

scala> rdd.pipe("/opt/module/spark/pipe.sh").collect()
res19: Array[String] = Array(AA, >>>hi, >>>Hello, AA, >>>how, >>>are, >>>you)

2.3.2 双Value类型交互

2.3.2.1 union(otherDataset) 案例

作用：对源RDD和参数RDD求并集后返回一个新的RDD
需求：创建两个RDD，求并集

（1）创建第一个RDD

scala> val rdd1 = sc.parallelize(1 to 5)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[23] at parallelize at :24

（2）创建第二个RDD

scala> val rdd2 = sc.parallelize(5 to 10)
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[24] at parallelize at :24

（3）计算两个RDD的并集

scala> val rdd3 = rdd1.union(rdd2)
rdd3: org.apache.spark.rdd.RDD[Int] = UnionRDD[25] at union at :28

（4）打印并集结果

scala> rdd3.collect()
res18: Array[Int] = Array(1, 2, 3, 4, 5, 5, 6, 7, 8, 9, 10)

2.3.2.2 subtract (otherDataset) 案例

作用：计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来
需求：创建两个RDD，求第一个RDD与第二个RDD的差集

（1）创建第一个RDD

scala> val rdd = sc.parallelize(3 to 8)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[70] at parallelize at :24

（2）创建第二个RDD

scala> val rdd1 = sc.parallelize(1 to 5)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[71] at parallelize at :24

（3）计算第一个RDD与第二个RDD的差集并打印

scala> rdd.subtract(rdd1).collect()
res27: Array[Int] = Array(8, 6, 7)

2.3.2.3 intersection(otherDataset) 案例

作用：对源RDD和参数RDD求交集后返回一个新的RDD
需求：创建两个RDD，求两个RDD的交集

（1）创建第一个RDD

scala> val rdd1 = sc.parallelize(1 to 7)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[26] at parallelize at :24

（2）创建第二个RDD

scala> val rdd2 = sc.parallelize(5 to 10)
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[27] at parallelize at :24

（3）计算两个RDD的交集

scala> val rdd3 = rdd1.intersection(rdd2)
rdd3: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[33] at intersection at :28

（4）打印计算结果

scala> rdd3.collect()
res19: Array[Int] = Array(5, 6, 7)

2.3.2.4 cartesian(otherDataset) 案例

作用：笛卡尔积（尽量避免使用）
需求：创建两个RDD，计算两个RDD的笛卡尔积

（1）创建第一个RDD

scala> val rdd1 = sc.parallelize(1 to 3)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[47] at parallelize at :24

（2）创建第二个RDD

scala> val rdd2 = sc.parallelize(2 to 5)
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[48] at parallelize at :24

（3）计算两个RDD的笛卡尔积并打印

scala> rdd1.cartesian(rdd2).collect()
res17: Array[(Int, Int)] = Array((1,2), (1,3), (1,4), (1,5), (2,2), (2,3), (2,4), (2,5), (3,2), (3,3), (3,4), (3,5))

2.3.2.5 zip(otherDataset)案例

作用：将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。
需求：创建两个RDD，并将两个RDD组合到一起形成一个(k,v)RDD

（1）创建第一个RDD

scala> val rdd1 = sc.parallelize(Array(1,2,3),3)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at :24

（2）创建第二个RDD（与1分区数相同）

scala> val rdd2 = sc.parallelize(Array("a","b","c"),3)
rdd2: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[2] at parallelize at :24

（3）第一个RDD组合第二个RDD并打印

scala> rdd1.zip(rdd2).collect
res1: Array[(Int, String)] = Array((1,a), (2,b), (3,c))

（4）第二个RDD组合第一个RDD并打印

scala> rdd2.zip(rdd1).collect
res2: Array[(String, Int)] = Array((a,1), (b,2), (c,3))

（5）创建第三个RDD（与1,2分区数不同）

scala> val rdd3 = sc.parallelize(Array("a","b","c"),2)
rdd3: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[5] at parallelize at :24

（6）第一个RDD组合第三个RDD并打印

scala> rdd1.zip(rdd3).collect
java.lang.IllegalArgumentException: Can't zip RDDs with unequal numbers of partitions: List(3, 2)
  at org.apache.spark.rdd.ZippedPartitionsBaseRDD.getPartitions(ZippedPartitionsRDD.scala:57)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
  at org.apache.spark.SparkContext.runJob(SparkContext.scala:1965)
  at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:936)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
  at org.apache.spark.rdd.RDD.withScope(RDD.scala:362)
  at org.apache.spark.rdd.RDD.collect(RDD.scala:935)
  ... 48 elided

2.3.3 Key-Value类型

2.3.3.1 partitionBy案例

作用：对pairRDD进行分区操作，如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区，否则会生成ShuffleRDD，即会产生shuffle过程。
需求：创建一个4个分区的RDD，对其重新分区

（1）创建一个RDD

scala> val rdd = sc.parallelize(Array((1,"aaa"),(2,"bbb"),(3,"ccc"),(4,"ddd")),4)
rdd: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[44] at parallelize at :24

（2）查看RDD的分区数

scala> rdd.partitions.size
res24: Int = 4

（3）对RDD重新分区

scala> var rdd2 = rdd.partitionBy(new org.apache.spark.HashPartitioner(2))
rdd2: org.apache.spark.rdd.RDD[(Int, String)] = ShuffledRDD[45] at partitionBy at :26

（4）查看新RDD的分区数

scala> rdd2.partitions.size
res25: Int = 2

2.3.3.2 reduceByKey(func, [numTasks]) 案例

在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，reduce任务的个数可以通过第二个可选的参数来设置。
需求：创建一个pairRDD，计算相同key对应值的相加结果

（1）创建一个pairRDD

scala> val rdd = sc.parallelize(List(("female",1),("male",5),("female",5),("male",2)))
rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[46] at parallelize at :24

（2）计算相同key对应值的相加结果

scala> val reduce = rdd.reduceByKey((x,y) => x+y)
reduce: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[47] at reduceByKey at :26

（3）打印结果

scala> reduce.collect()
res29: Array[(String, Int)] = Array((female,6), (male,7))

2.3.3.3 groupByKey案例

作用：groupByKey也是对每个key进行操作，但只生成一个seq。
需求：创建一个pairRDD，将相同key对应值聚合到一个seq中，并计算相同key对应值的相加结果。

（1）创建一个pairRDD

scala> val words = Array("one", "two", "two", "three", "three", "three")
words: Array[String] = Array(one, two, two, three, three, three)

scala> val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))
wordPairsRDD: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[4] at map at :26

（2）将相同key对应值聚合到一个Seq中

scala> val group = wordPairsRDD.groupByKey()
group: org.apache.spark.rdd.RDD[(String, Iterable[Int])] = ShuffledRDD[5] at groupByKey at :28

（3）打印结果

scala> group.collect()
res1: Array[(String, Iterable[Int])] = Array((two,CompactBuffer(1, 1)), (one,CompactBuffer(1)), (three,CompactBuffer(1, 1, 1)))

（4）计算相同key对应值的相加结果

scala> group.map(t => (t._1, t._2.sum))
res2: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[6] at map at :31

（5）打印结果

scala> res2.collect()
res3: Array[(String, Int)] = Array((two,2), (one,1), (three,3))

2.3.3.4 reduceByKey和groupByKey的区别

reduceByKey：按照key进行聚合，在shuffle之前有combine（预聚合）操作，返回结果是RDD[k,v]。
groupByKey：按照key进行分组，直接进行shuffle。
开发指导：reduceByKey比groupByKey，建议使用。但是需要注意是否会影响业务逻辑。

2.3.3.5 aggregateByKey案例
参数：(zeroValue:U,[partitioner: Partitioner]) (seqOp: (U, V) => U,combOp: (U, U) => U)
作用：在kv对的RDD中，，按key将value进行分组合并，合并时，将每个value和初始值作为seq函数的参数，进行计算，返回的结果作为一个新的kv对，然后再将结果按照key进行合并，最后将每个分组的value传递给combine函数进行计算（先将前两个value进行计算，将返回结果和下一个value传给combine函数，以此类推），将key与计算结果作为一个新的kv对输出。
参数描述：
（1）zeroValue：给每一个分区中的每一个key一个初始值；
（2）seqOp：函数用于在每一个分区中用初始值逐步迭代value；
（3）combOp：函数用于合并每个分区中的结果。
需求：创建一个pairRDD，取出每个分区相同key对应值的最大值，然后相加
需求分析

（1）创建一个pairRDD

scala> val rdd = sc.parallelize(List(("a",3),("a",2),("c",4),("b",3),("c",6),("c",8)),2)
rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at parallelize at :24

（2）取出每个分区相同key对应值的最大值，然后相加

scala> val agg = rdd.aggregateByKey(0)(math.max(_,_),_+_)
agg: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[1] at aggregateByKey at :26

（3）打印结果

scala> agg.collect()
res0: Array[(String, Int)] = Array((b,3), (a,3), (c,12))

2.3.3.6 foldByKey案例

参数：(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]

作用：aggregateByKey的简化操作，seqop和combop相同
需求：创建一个pairRDD，计算相同key对应值的相加结果
（1）创建一个pairRDD

scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[91] at parallelize at :24

（2）计算相同key对应值的相加结果

scala> val agg = rdd.foldByKey(0)(_+_)
agg: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[92] at foldByKey at :26

（3）打印结果

scala> agg.collect()
res61: Array[(Int, Int)] = Array((3,14), (1,9), (2,3))

2.3.3.7 combineByKey[C] 案例

参数：(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)

作用：针对相同K，将V合并成一个集合。
参数描述：

（1）createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建那个键对应的累加器的初始值
（2）mergeValue: 如果这是一个在处理当前分区之前已经遇到的键，它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并
（3）mergeCombiners: 由于每个分区都是独立处理的，因此对于同一个键可以有多个累加器。如果有两个或者更多的分区都有对应同一个键的累加器，就需要使用用户提供的 mergeCombiners() 方法将各个分区的结果进行合并。
需求：创建一个pairRDD，根据key计算每种key的均值。（先计算每个key出现的次数以及可以对应值的总和，再相除得到结果）
需求分析：

（1）创建一个pairRDD

scala> val input = sc.parallelize(Array(("a", 88), ("b", 95), ("a", 91), ("b", 93), ("a", 95), ("b", 98)),2)
input: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[52] at parallelize at :26

（2）将相同key对应的值相加，同时记录该key出现的次数，放入一个二元组

scala> val combine = input.combineByKey((_,1),(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),(acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2))
combine: org.apache.spark.rdd.RDD[(String, (Int, Int))] = ShuffledRDD[5] at combineByKey at :28

（3）打印合并后的结果

scala> combine.collect
res5: Array[(String, (Int, Int))] = Array((b,(286,3)), (a,(274,3)))

（4）计算平均值

scala> val result = combine.map{case (key,value) => (key,value._1/value._2.toDouble)}
result: org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionsRDD[54] at map at :30

（5）打印结果

scala> result.collect()
res33: Array[(String, Double)] = Array((b,95.33333333333333), (a,91.33333333333333))

2.3.3.8 sortByKey([ascending], [numTasks]) 案例

作用：在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD
需求：创建一个pairRDD，按照key的正序和倒序进行排序

（1）创建一个pairRDD

scala> val rdd = sc.parallelize(Array((3,"aa"),(6,"cc"),(2,"bb"),(1,"dd")))
rdd: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[14] at parallelize at :24

（2）按照key的正序

scala> rdd.sortByKey(true).collect()
res9: Array[(Int, String)] = Array((1,dd), (2,bb), (3,aa), (6,cc))

（3）按照key的倒序

scala> rdd.sortByKey(false).collect()
res10: Array[(Int, String)] = Array((6,cc), (3,aa), (2,bb), (1,dd))

2.3.3.9 mapValues案例

针对于(K,V)形式的类型只对V进行操作
需求：创建一个pairRDD，并将value添加字符串"|||"

（1）创建一个pairRDD

scala> val rdd3 = sc.parallelize(Array((1,"a"),(1,"d"),(2,"b"),(3,"c")))
rdd3: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[67] at parallelize at :24

（2）对value添加字符串"|||"

scala> rdd3.mapValues(_+"|||").collect()
res26: Array[(Int, String)] = Array((1,a|||), (1,d|||), (2,b|||), (3,c|||))

2.3.3.10 join(otherDataset, [numTasks]) 案例

作用：在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD
需求：创建两个pairRDD，并将key相同的数据聚合到一个元组。

（1）创建第一个pairRDD

scala> val rdd = sc.parallelize(Array((1,"a"),(2,"b"),(3,"c")))
rdd: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[32] at parallelize at :24

（2）创建第二个pairRDD

scala> val rdd1 = sc.parallelize(Array((1,4),(2,5),(3,6)))
rdd1: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[33] at parallelize at :24

（3）join操作并打印结果

scala> rdd.join(rdd1).collect()
res13: Array[(Int, (String, Int))] = Array((1,(a,4)), (2,(b,5)), (3,(c,6)))

2.3.3.11 cogroup(otherDataset, [numTasks]) 案例

作用：在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable,Iterable))类型的RDD
需求：创建两个pairRDD，并将key相同的数据聚合到一个迭代器。

（1）创建第一个pairRDD

scala> val rdd = sc.parallelize(Array((1,"a"),(2,"b"),(3,"c")))
rdd: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[37] at parallelize at :24

（2）创建第二个pairRDD

scala> val rdd1 = sc.parallelize(Array((1,4),(2,5),(3,6)))
rdd1: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[38] at parallelize at :24

（3）cogroup两个RDD并打印结果

scala> rdd.cogroup(rdd1).collect()
res14: Array[(Int, (Iterable[String], Iterable[Int]))] = Array((1,(CompactBuffer(a),CompactBuffer(4))), (2,(CompactBuffer(b),CompactBuffer(5))), (3,(CompactBuffer(c),CompactBuffer(6))))

2.3.4 案例实操

数据结构：时间戳，省份，城市，用户，广告，中间字段使用空格分割。
样本如下：
需求：统计出每一个省份广告被点击次数的TOP3

实现过程：

 package com.atguigu.practice

 import org.apache.spark.rdd.RDD
 import org.apache.spark.{SparkConf, SparkContext}

 //需求：统计出每一个省份广告被点击次数的TOP3
 object Practice {
   def main(args: Array[String]): Unit = {

     //1.初始化spark配置信息并建立与spark的连接
     val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Test")
     val sc = new SparkContext(sparkConf)

     //2.读取数据生成RDD：TS，Province，City，User，AD
     val line = sc.textFile("E:\\IDEAWorkSpace\\SparkTest\\src\\main\\resources\\agent.log")

     //3.按照最小粒度聚合：((Province,AD),1)
     val provinceAdAndOne = line.map { x =>
       val fields: Array[String] = x.split(" ")
       ((fields(1), fields(3)), 1)
     }

     //4.计算每个省中每个广告被点击的总数：((Province,AD),sum)
     val provinceAdToSum = provinceAdAndOne.reduceByKey(_ + _)

     //5.将省份作为key，广告加点击数为value：(Province,(AD,sum))
     val provinceToAdSum = provinceAdToSum.map(x => (x._1._1, (x._1._2, x._2)))

     //6.将同一个省份的所有广告进行聚合(Province,List((AD1,sum1),(AD2,sum2)...))
     val provinceGroup = provinceToAdSum.groupByKey()

     //7.对同一个省份所有广告的集合进行排序并取前3条，排序规则为广告点击总数
     val provinceAdTop3 = provinceGroup.mapValues { x =>
       x.toList.sortWith((x, y) => x._2 > y._2).take(3)
     }

     //8.将数据拉取到Driver端并打印
     provinceAdTop3.collect().foreach(println)

     //9.关闭与spark的连接
     sc.stop()
   }
 }

转载于:https://www.cnblogs.com/CampNouBallBoy/p/10046263.html

你可能感兴趣的:(RDD编程-转换算子)

PL/SQL语言的语法糖技术的探险家包罗万象 golang 开发语言后端
PL/SQL语言的语法糖引言PL/SQL（ProceduralLanguage/StructuredQueryLanguage）是Oracle公司为其数据库管理系统（DBMS）设计的一种过程化语言。作为一种扩展SQL的语言，PL/SQL不仅支持数据的查询和操作，还增加了更复杂的编程特性，比如变量声明、控制结构、异常处理等，从而使得程序员能够编写出更加灵活和高效的数据库应用程序。然而在PL/SQL中
Go语言的学习路线技术的探险家包罗万象 golang 开发语言后端
Go语言的学习路线随着科技的迅速发展，编程语言也在不断进化，Go（又称Golang）作为一种现代化的编程语言，其简单性、高效性和强大的并发支持吸引了越来越多的开发者。本文将为您提供一条系统的Go语言学习路线，帮助您从零基础逐步掌握这门语言。一、Go语言简介Go语言是Google于2007年开发的一种开源编程语言，旨在提高编程的效率，与传统的编程语言相比，Go具有以下几个显著的优点：简洁性：Go设计
标准化可观察量：Web标准新成员及其与RxJS的差异 exploration-earth 前端 javascript 开发语言
当前，可观察对象（乃至信号）正逐步成为Web标准体系不可或缺的一部分，这一趋势不仅预示着Web开发技术的进一步成熟与规范化，也为开发者们提供了更加统一、高效的编程接口。相较于RxJS这一流行的响应式编程库中的Observables，标准化的可观察量在设计理念与实现细节上均展现出若干显著的不同点，这些差异旨在更好地适应Web环境的特殊需求，提升开发效率与代码的可维护性。具体而言，标准化后的可观察量可
OpenCV03-高级-滤波与增强坐吃山猪 OpenCV opencv 计算机视觉人工智能
OpenCV03-高级-滤波与增强文章目录OpenCV03-高级-滤波与增强1-OpenCV平滑滤波1.均值滤波(`cv2.blur()`)2.高斯滤波(`cv2.GaussianBlur()`)3.中值滤波(`cv2.medianBlur()`)4.双边滤波(`cv2.bilateralFilter()`)总结2-OpenCV边缘检测1.Sobel算子(`cv2.Sobel()`)2.Canny
R语言的并发编程技术的探险家包罗万象 golang 开发语言后端
R语言的并发编程引言在现代计算中，如何有效地利用计算资源进行数据处理和分析已成为一个重要的研究方向。尤其在大数据时代，数据量的急剧增加让单线程处理方式显得力不从心。为了解决这一问题，各种编程语言都开展了并发编程的研究和应用。R语言作为一种广泛应用于统计分析和数据科学的语言，也为并发编程提供了强大的支持。本文将介绍R语言的并发编程，包括其基本概念、常用包、应用示例以及实用技巧。一、并发编程基础并发编
网络编程——UDP套接字 Sirudoi 网络网络 udp 服务器
一、前缀知识端口号：用来标识在一台机器上的唯一进程。IP地址：用来标识在网络上的唯一主机。因此通过IP+端口号的方式，就可以在互联网上唯一标识一个进程，套接字就是通过这种方式，唯一地标识在互联网之间通信的一对进程，网络套接字的本质其实就是进程间的通信。套接字是在传输层的接口，可以让我们选择通信的协议是UDP，还是TCP。1.1端口号&进程PID这里区分一下端口号和进程的PID，看到这里你也许会问：
ChatGPT大模型极简应用开发-目录 uncle_ll #GPT chatgpt 人工智能 LLM 大模型 GPT
引言要理解ChatGPT，了解其背后的Transformer架构和GPT技术一路的演进则变得非常必要。ChatGPT背后的LLM技术使普通人能够通过自然语言完成过去只能由程序员通过编程语言实现的任务，这是一场巨大的变革。然而，人类通常容易高估技术的短期影响而低估长期影响。进一步学习关于LLM技术原理的论文、视频、图书等。在阅读这本书或者后续学习过程中，你有任何疑问都可以随时请教ChatGPT等工具
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Java 基础之泛型：类型安全的保障与灵活运用幽兰的天空 Java 基础启航：从零到小有所成开发语言 java
在Java编程的世界里，泛型是一个至关重要且非常实用的特性。它在Java5中被引入，从根本上改变了我们处理数据类型的方式，提供了更强的类型安全保障，同时也增加了代码的复用性和可读性。一、什么是泛型泛型（Generics）简单来说，就是允许在定义类、接口和方法时使用类型参数。这些类型参数在使用时会被具体的类型所替代。例如，我们常见的集合类ArrayList就是一个泛型类，它的定义形式是ArrayLi
Java虚拟机（JVM）深入解析 I~Lucky jvm
Java虚拟机（JVM）是Java程序运行的核心环境，它负责将Java字节码转换为机器码并执行。本文将深入解析JVM的运行时数据区、类加载机制以及执行引擎，帮助读者更好地理解JVM的工作原理。一、运行时数据区（RuntimeDataArea）运行时数据区是JVM在执行Java程序时分配的内存区域，主要包括以下几个部分：1.方法区（MethodArea）方法区用于存储类信息、常量、静态变量以及即时编
PCL点云处理算法汇总（C++长期更新低价精品版）点云侠' 点云学习算法 c++开发语言计算机视觉
可笑，我当然知道是抄袭的啊，还用你提醒？要不是你们审核不作为，我能抄这么明目张胆？？？目录一、点云滤波1、常用滤波器2、采样滤波3、裁剪滤波二、KD树与八叉树1、KD树2、八叉树三、点云配准粗配准精配准对应关系配准精度坐标转换刚体运动变换四、点云拟合分割1、RANSAC2、其他几何分割五、三维重建六、特征点与特征描述1、点云的属性2、关键点提取3、特征描述子七、基础函数1、common模块2、其他
Python中用ollama库实现连续对话 longnershot python 开发语言 AI编程
找来找去没找到一个简单示例，用4o和问心来回调整简单生成了一个，抛砖引玉了。importollamadefchat_with_ollama():#初始化一个列表来存储对话历史，每个元素是一个包含用户输入和模型回复的元组history=[]whileTrue:#获取用户输入，并转换为小写，方便后续判断退出条件user_input=input("\nUser:")#判断用户是否想要退出对话ifuser
推荐开源项目：MySQL Connector for .NET与.NET Core 伏佳励Sibyl
推荐开源项目：MySQLConnectorfor.NET与.NETCoreMySqlConnectorMySqlConnector是一个开源的MySQL数据库连接器，用于在.NET应用程序中与MySQL数据库进行交互。-功能：MySQL数据库连接器；.NET应用程序；MySQL数据库交互。-特点：易于使用；轻量级；支持多种编程语言；高性能。项目地址:https://gitcode.com/gh_m
C/C++ 中有哪些类型转换方式？分别有什么区别？类型转换可能会带来哪些问题？ SUN_Gyq java jvm 开发语言 c++
1）C/C++中有哪些类型转换方式？分别有什么区别？在C/C++中，常见的类型转换方式有以下几种：隐式类型转换定义：也称为自动类型转换，是由编译器自动完成的类型转换，不需要程序员显式地进行操作。这种转换通常发生在不同数据类型的操作数进行混合运算时，编译器会自动将操作数转换为一种公共类型，然后再进行运算。inta=5;doubleb=3.14;doubleresult=a+b;//在这里，整数a会被
Python网络编程之UDP套接字编程 Ssaty. udp 网络 python
第1关：UDP初体验任务描述本关任务：完成一个客户端程序，向服务器端发出请求，传输数据，并设置超时丢包，体验UDP的基本连接过程。相关知识为了完成本关任务，你需要掌握：创建socket对象；发送UDP数据；接收UDP数据；设置超时。创建socket对象创建socket对象是第一步，后续所有的操作都是通过socket对象完成的。创建对象使用socket()函数：s=socket(参数1,参数2)#s
使用Python访问和操作Llama的方法起风了~~~。 python llama 人工智能 Python
使用Python访问和操作Llama的方法Llama是一个流行的Python库，用于处理和操作数据集。它提供了丰富的功能和工具，使我们能够轻松地对数据进行处理、转换和分析。本文将介绍如何使用Python来访问和使用Llama库，并提供相应的示例代码。安装Llama库首先，我们需要安装Llama库。可以使用pip命令在Python环境中安装Llama。打开终端或命令提示符，并运行以下命令：pipin
实战设计模式之命令模式希望_睿智实战设计模式系列设计模式命令模式软件工程架构设计系统架构
概述命令模式是一种行为设计模式，用于将请求封装成对象，从而使我们可以用不同的请求对客户进行参数化。简单来说，命令模式就是把一个请求转换为一个包含所有关于这个请求信息的对象。这样，就可以像传递其他对象一样传递这个请求，并且可以在适当的时间和地点执行它。命令模式主要适用于以下几种应用场景。1、需要支持撤销、重做操作的应用程序，比如：文本编辑器、绘图程序等。2、操作可以被放入队列中，并按顺序或特定条件执
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
python连接485网关设备 dilqu python 网络开发语言
Python相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python连接485网关设备1.流程图gantttitlePython连接485网关设备流程图section了解485网关设备:1dsection安装Python库:1dsection编写Pyt
如何在Node.js里实现依赖注入前端
什么是依赖注入依赖注入是一种用于在开发过程中实现控制反转（IoC）的技术。在IoC中，对程序流的控制是颠倒的：依赖项不是控制其依赖项的创建和管理的组件，而是从外部源提供给组件。在传统的编程模式中，一个组件可能会直接创建并管理它所依赖的其他组件，这会导致组件之间的耦合度较高，难以维护和测试。控制反转是一种设计原则，它改变了组件之间的控制关系。在IoC中，组件不再自己创建和管理它所依赖的组件，而是将这
编程语言符号表的管理编译原理
首先为表中的符号,设置一个初始annote值的,其中size是长度,staticvoidsymtable_add_global(structsymtable*st){structsym*sym;sym=&st->table[st->len++];sym->annot.type=FS_INT;sym->annot.size=8;sym->name="@$";sym->size=sym->annot.
工业控制系统的8种类型 dotNET跨平台
工业控制系统（ICS）是指用于操作或自动化常见工业过程的任何设备、网络或系统及其相关仪表的统称。ICS几乎被所有工业领域和关键基础设施行业使用，包括但不限于能源、制造、运输和污水处理。工业控制系统有几种类型。它们在大小和复杂性上有所不同，并且是为不同的行业和不同的任务设计的。最常见的包括监督控制和数据采集（SCADA）系统、分布式控制系统（DCS）、可编程逻辑控制器（PLC）以及其他几种。继续阅读
JavaWeb合集17-拦截器（Interceptor）和过滤器（Filter）永恒之月℡ JavaWeb合集 1024程序员节 java javaweb 过滤器拦截器
十七、拦截器和过滤器在JavaWeb开发中，拦截器（Interceptor）和过滤器（Filter）都是用于在请求处理前后执行某些操作的机制。虽然它们的功能相似，但在实现方式、使用场景和灵活性方面有一些重要的区别。1、拦截器和过滤器的区别及选择1.1拦截器定义：拦截器是Spring框架提供的一个机制，用于在请求处理前后执行某些操作。它基于AOP（面向切面编程）的思想。作用：通常用于处理与业务逻辑相
C++17（3） programing菜鸟 modern C++c++开发语言后端
目录类模板实参推导CTAD是如何工作的？CTAD&&STLvectordeductionguides其他与CTAD的搭配CTAD要注意的点何时&&如何禁用CTAD模板元编程技法deductionguides&&SFINAEmoreC++20可能对CTAD的修改类模板实参推导C++17支持类模板类型推导（classtemplateargumentdeduction，在下面的文章中，我叫做CTAD）。
整理一下一些Qt/C++第三方库 MayZork qt 开发语言 c++
boost一个广泛的C++库集合，提供了大量的功能模块，包括但不限于数据结构、算法、并发编程、网络编程、文件系统、正则表达式、序列化等。poco也是一个广泛的C++库集合，提供了一套丰富的功能模块，包含网络通信、HTTP、文件系统、XML、JSON、数据库等。libevent轻量级的C语言库，主要用于异步网络编程。它提供了对I/O复用的支持，使得开发者可以在单线程中同时处理多个连接。QCustom
深度学习常用格式转化脚本xml2yolo/coco2yolo/bdd2yolo/frame2video等 qq1309399183 计算机视觉实战项目集合深度学习人工智能格式转化脚本 voc2yolo格式转化数据集格式转换 xml2yolo coco2yolo
文章目录1.**数据集格式转换脚本**`coco2yolo.py`示例注释：注释说明：`xml2yolo.py`示例注释：注释说明：2.**数据集可视化与统计**`vis_yolo_files.py`示例注释：注释说明：3.**其他工具脚本**`frames2video.py`示例注释：注释说明：该项目提供了一系列用于深度学习的数据处理工具，主要功能包括：数据集格式转换：提供多种脚本，将不同格式的
Apache PDFBox添加maven依赖,pdf转成图片 iteye_10392 网站设计 apache maven pdf
要使用ApachePDFBox将PDF文件转换为图片，并将其添加到Maven项目中，您可以按照以下步骤操作：1.添加Maven依赖在您的pom.xml文件中添加ApachePDFBox的依赖。请确保使用最新版本的PDFBox库。截至2025年，以下是推荐的配置：org.apache.pdfboxpdfbox2.0.27org.apache.pdfboxfontbox2.0.27请检查MavenCe
JODConverter引入maven依赖 iteye_10392 网站设计 maven java
JODConverter是一个基于LibreOffice的Java库，它允许你在Java应用程序中转换办公文档格式。为了使用JODConverter并通过Maven管理依赖，你需要在pom.xml文件中添加适当的依赖项和仓库（如果需要）。请注意，JODConverter本身并不直接处理文件转换，而是通过与LibreOffice的交互来完成这一任务。截至我所知的信息（2025年1月4日），以下是引入
chatgpt赋能python：Python：免费下载音乐的神器 atest166 ChatGpt python chatgpt 开发语言计算机
Python：免费下载音乐的神器Python是一种优秀的编程语言，在各个领域都有广泛的应用。如果你是一个音乐爱好者，那么Python可以帮助你轻松免费下载你喜欢的音乐。介绍在过去，许多网站和应用程序提供免费下载音乐的服务，但现在这些服务已经不复存在。然而，Python可以帮助你免费下载音乐，并且速度非常快。Python有许多库可以帮助你从网上下载免费音乐。其中，最著名的库是"youtube_dl"
【黑马python：文件操作】85-90 asaasaaax python java android
目录一、文件编码的概念二、文件的读取操作1.打开文件2.读取文件3.关闭文件4.课后练习四、文件的写入操作五、文件的追加案例一、文件编码的概念1.什么是编码？编码就是一种规则集合，记录了内容和二进制间进行相互转换的逻辑。编码有许多中，我们最常用的是UTF-8编码2.为什么需要使用编码？计算机只认识0和1，所以需要将内容翻译成0和1才能保存在计算机中。二、文件的读取操作1.打开文件open（打开函数
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

RDD编程-转换算子

2.1 编程模型

2.2 RDD的创建

2.2.1 从集合中创建

2.2.2 由外部存储系统的数据集创建

2.2.3 从其他RDD创建

2.3 RDD的转换（面试开发重点）

2.3.1 Value类型

2.3.1.1 map(func)案例

2.3.1.2 mapPartitions(func) 案例

2.3.1.3 mapPartitionsWithIndex(func) 案例

2.3.1.4 flatMap(func) 案例

2.3.1.5 map()和mapPartition()的区别

2.3.1.6 glom案例

2.3.1.7 groupBy(func)案例

2.3.1.8 filter(func) 案例

2.3.1.9 sample(withReplacement, fraction, seed) 案例

2.3.1.10 distinct([numTasks])) 案例

2.3.1.11 coalesce(numPartitions) 案例

2.3.1.12 repartition(numPartitions) 案例

2.3.1.13 coalesce和repartition的区别

2.3.1.14 sortBy(func,[ascending], [numTasks]) 案例

2.3.1.15 pipe(command, [envVars]) 案例

2.3.2 双Value类型交互

2.3.2.1 union(otherDataset) 案例

2.3.2.2 subtract (otherDataset) 案例

2.3.2.3 intersection(otherDataset) 案例

2.3.2.4 cartesian(otherDataset) 案例

2.3.2.5 zip(otherDataset)案例

2.3.3 Key-Value类型

2.3.3.1 partitionBy案例

2.3.3.2 reduceByKey(func, [numTasks]) 案例

2.3.3.3 groupByKey案例

2.3.3.4 reduceByKey和groupByKey的区别

2.3.3.5 aggregateByKey案例

2.3.3.6 foldByKey案例

2.3.3.7 combineByKey[C] 案例

2.3.3.8 sortByKey([ascending], [numTasks]) 案例

2.3.3.9 mapValues案例

2.3.3.10 join(otherDataset, [numTasks]) 案例

2.3.3.11 cogroup(otherDataset, [numTasks]) 案例

2.3.4 案例实操

你可能感兴趣的:(RDD编程-转换算子)