跟乌龟赛跑

Scala | Spark核心编程 | SparkCore | 算子

文章目录

- 一、SparkCore
- - 1.RDD
  - - 1.1 概念
    - 1.2 RDD的五大属性（重点）
    - 1.3 RDD理解图
  - 2.Spark任务执行原理
  - 3.Spark代码流程
- 二、算子
- - 1.Transformations转换算子
  - - 1.1 filter算子
    - 1.2 map算子
    - 1.3 flatMap算子
    - 1.4 sample算子
    - 1.5 reduceByKey算子
    - 1.6 sortByKey与sortBy算子
    - 1.7 join算子
    - 1.8 union算子
    - 1.9 intersection算子
    - 1.10 subtract算子
    - 1.11 mapPartition算子
    - 1.12 distinct算子(map+reduceByKey+map)
    - 1.13 cogroup算子
    - 1.14 mapPartitionWithIndex算子
    - 1.15 repartition算子
    - 1.16 coalesce算子
    - 1.17 groupByKey算子
    - 1.18 zip算子
    - 1.19 zipWithIndex算子
  - 2.Action行动算子
  - - 2.1 count算子
    - 2.2 take(n)`算子
    - 2.3 first算子
    - 2.4 foreach算子
    - 2.5 collect算子
    - 2.6 foreachPartition算子
    - 2.7 countByKey算子
    - 2.8 countByValue算子
    - 2.9 reduce算子
  - 3.控制算子（持久化算子）
  - - 3.1 cache算子
    - 3.2 persist算子
    - 3.3 cache 和 persist 的注意事项
    - 3.4 checkpoint算子

课程地址：spark讲解
Scala | Spark基础入门 | IDEA配置 | 集群搭建与测试
Scala | Spark核心编程 | SparkCore | 算子
Scala | 宽窄依赖 | 资源调度与任务调度 | 共享变量 | SparkShuffle | 内存管理
Scala | SparkSQL | 创建DataSet | 序列化问题 | UDF与UDAF | 开窗函数

一、SparkCore

1.RDD

1.1 概念

RDD(Resilient Distributed Dataset) ，弹性分布式数据集。

1.2 RDD的五大属性（重点）

RDD 是由一系列的 partition 组成的。
函数是作用在每一个 partition（split）上的。
RDD 之间有一系列的依赖关系。
分区器是作用在 K，V 格式的 RDD 上。
RDD 提供一系列最佳的计算位置，体现了大数据中“计算移动数据不移动”的理念。

1.3 RDD理解图

注意：

textFile 方法底层封装的是MR 读取文件的方式，读取文件之前先 split，默认 split 大小是一个 block 大小。
RDD 实际上不存储数据，这里方便理解，暂时理解为存储数据。
什么是 K、V 格式的 RDD?
如果 RDD 里面存储的数据都是二元组对象，那么这个 RDD 我们就叫做 K，V 格式的 RDD。
哪里体现 RDD 的弹性？
RDD 是由一系列的partition 组成。其大小和数量都是可以改变的，默认情况下，partition的个数和block块个数相同，体现了 RDD 的弹性。
哪里体现 RDD 的容错？
RDD 之间存在依赖关系，子RDD可以找出对应的父RDD然后通过一系列计算得到相应结果，这就是容错的体现。
哪里体现 RDD 的分布式？
- RDD 是由 Partition 组成，partition 是分布在不同节点上的。
- RDD 提供计算最佳位置，体现了数据本地化。体现了大数据中“计算移动数据不移动”的理念。

2.Spark任务执行原理

以standalone模式为例，Standalone模式是Spark自带的一种集群模式，Standalone模式是真实地在多个机器之间搭建Spark集群的环境，完全可以利用该模式搭建多机器集群，用于实际的大数据处理。

以上图中有四个机器节点，Driver 和 Worker 是启动在节点上的进程，运行在 JVM 中的进程。其中：

Master角色以Master进程存在, Worker角色以Worker进程存在
Driver和Executor运行于Worker进程内, 由Worker提供资源供给它们运行
Driver 与集群节点之间有频繁的通信。
Driver 负责任务(tasks)的分发和结果的回收。任务的调度。如果 task的计算结果非常大就不要回收了。会造成 oom。

这里只是做了简单介绍，更多可查看Spark四种运行模式介绍

3.Spark代码流程

创建 SparkConf 对象
- 可以设置 Application name。
- 可以设置运行模式及资源需求。
创建 SparkContext 对象
基于 SparkContext 即上下文环境对象创建一个 RDD，对 RDD 进行处理。
应用程序中要有 Action 类算子来触发 Transformation 类算子执行。
关闭 Spark 上下文对象。

二、算子

常见的算子如下图所示，主要也分为如下几种：

1.Transformations转换算子

Transformations 类算子是一类算子（函数）叫做转换算子，如map，flatMap，reduceByKey 等。Transformations 算子是延迟执行，也叫懒加载执行。

1.1 filter算子

filter：过滤符合条件的记录数，true 保留，false 过滤掉。
Operator_filter.scala：

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_filter {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("filter")
    val sc =  new SparkContext(conf)
    val lines = sc.textFile("data/word.txt")
    val result = lines.filter { _.indexOf("Spark") >= 0 }
    result.foreach { println}
    sc.stop()
  }
}

hello Spark

1.2 map算子

map：将一个 RDD 中的每个数据项，通过 map 中的函数映射变为一个新的元素。
特点：输入一条，输出一条数据。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_map {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("map")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("data/word.txt")
    val result = lines.map { _.split(" ") }
    result.foreach(println)
    sc.stop()
  }
}

[Ljava.lang.String;@1c200b99
[Ljava.lang.String;@1ae41188
[Ljava.lang.String;@72a7be25
[Ljava.lang.String;@26de52e0

1.3 flatMap算子

flatMap：先 map 后 flat。与 map 类似，每个输入项可以映射为 0 到多个输出项。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_flatMap {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("flatMap")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("data/word.txt")
    val result = lines.flatMap { _.split(" ")}
    result.foreach(println)
    sc.stop()
  }
}

hello
tiantian
hello
shsxt
hello
gzsxt
hello
Spark

1.4 sample算子

sample：随机抽样算子，根据传进去的小数按比例进行有放回或者无放回的抽样。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_sample {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("sample")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("data/word.txt")
    lines.sample(true, 0.5,10).foreach(println)
  }
}

hello shsxt

1.5 reduceByKey算子

reduceByKey：将相同的 Key 根据相应的逻辑进行处理。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_reduceByKey {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("reduceByKey")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("data/word.txt")
    val flatMap = lines.flatMap { _.split(" ")}
    val map = flatMap.map {(_,1)}
    map.reduceByKey(_+_).foreach(println)
    sc.stop()
  }
}

(Spark,1)
(shsxt,1)
(tiantian,1)
(hello,4)
(gzsxt,1)

1.6 sortByKey与sortBy算子

sortByKey/sortBy：作用在 K、V 格式的 RDD 上，对 key 进行升序或者降序排序。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_sortByKey {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("sortByKey")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("data/word.txt")
    val reduceResult = lines.flatMap { _.split(" ")}.map { (_,1)}.reduceByKey(_+_)
    reduceResult.map(f => {(f._2,f._1)}).sortByKey(false).map(f => {(f._2,f._1)}).foreach(println)
    
    sc.stop()
  }
}

(hello,4)
(Spark,1)
(shsxt,1)
(tiantian,1)
(gzsxt,1)

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_sortBy {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("sortBy")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("data/word.txt")
    val reduceResult = lines.flatMap { _.split(" ")}.map{ (_,1)}.reduceByKey(_+_)
    val result = reduceResult.sortBy(_._2,false)
    result.foreach{println}
    sc.stop()

  }
}

(hello,4)
(Spark,1)
(shsxt,1)
(tiantian,1)
(gzsxt,1)

1.7 join算子

join算子：作用在 K,V 格式的 RDD 上。根据 K 进行连接，对（K,V）join(K,W)返回（K,(V,W)）

leftOuterJoin算子
rightOuterJoin算子
fullOuterJoin算子

注意：join 后的分区数与父 RDD 分区数多的那一个相同。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Operator_Join {

    def main(args: Array[String]): Unit = {

        val conf = new SparkConf()
        conf.setMaster("local").setAppName("flatMap")
        val sc = new SparkContext(conf)

        val rdd1 = sc.parallelize(
            Array(("a",1),("b",2),("c",3)),
            3
        )

        val rdd2 = sc.parallelize(
            Array(("a",1),("d",2),("e",3)),
            2
        )

        val result1: RDD[(String, (Int, Int))] = rdd1.join(rdd2)
        //注意：join 后的分区数与父 RDD 分区数多的那一个相同
        println("join后的分区数=",result1.partitions.length)
        result1.foreach(println)

        val result2: RDD[(String, (Int, Option[Int]))] = rdd1.leftOuterJoin(rdd2)
        result2.foreach(println)

        val result3: RDD[(String, (Option[Int], Int))] = rdd1.rightOuterJoin(rdd2)
        result3.foreach(println)

        val result4: RDD[(String, (Option[Int], Option[Int]))] = rdd1.fullOuterJoin(rdd2)
        result4.foreach(println)
    }
}

(join后的分区数=,3)
//join
(a,(1,1))

//leftOuterJoin
(a,(1,Some(1)))
(b,(2,None))
(c,(3,None))

//rightOuterJoin
(d,(None,2))
(e,(None,3))
(a,(Some(1),1))

//fullOuterJoin
(d,(None,Some(2)))
(e,(None,Some(3)))
(a,(Some(1),Some(1)))
(b,(Some(2),None))
(c,(Some(3),None))

1.8 union算子

union算子合并两个数据集。两个数据集的类型要一致。
注意：返回新的 RDD 的分区数是合并 RDD 分区数的总和。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Operator_union {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("sortBy")
    val sc = new SparkContext(conf)
    
    //union算子
    val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3), 3)
    val rdd2: RDD[Int] = sc.parallelize(List(4, 5, 6), 2)
    val rdd3: RDD[Int] = rdd1.union(rdd2)
    println(rdd3.getNumPartitions)  //并行度
    rdd3.foreach(println)

    sc.stop()

  }
}

1.9 intersection算子

intersection算子：取两个数据集的交集。
注意：intersection 后的分区数与父 RDD 分区数多的那一个相同。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Operator_intersection {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("sortBy")
    val sc = new SparkContext(conf)

    //union算子
    val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3), 3)
    val rdd2: RDD[Int] = sc.parallelize(List(2, 3, 4), 2)
    val rdd3: RDD[Int] = rdd1.intersection(rdd2)
    println(rdd3.getNumPartitions)
    rdd3.foreach(println)

    sc.stop()

  }
}

1.10 subtract算子

subtract算子是取两个数据集的差集。
注意：subtract后的分区数与父 RDD 分区数多的那一个相同。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Operator_subtract {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("sortBy")
    val sc = new SparkContext(conf)

    //union算子
    val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3), 3)
    val rdd2: RDD[Int] = sc.parallelize(List(2, 3, 4), 2)
    val rdd3: RDD[Int] = rdd1.subtract(rdd2)
    println(rdd3.getNumPartitions)
    rdd3.foreach(println)

    sc.stop()
  }
}

3

1

1.11 mapPartition算子

与 map 类似，mapPartition算子遍历的单位是每个 partition 上的数据。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable.ListBuffer

object Operator_mapPartition {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("map")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("data/word.txt",minPartitions = 2)

    //map算子
    lines.map(x=>{
      println("创建数据库连接：")
      println("插入数据"+x)
      println("关闭数据库连接")
      x
    }).foreach(println)

    //mapPartition算子
    val result: RDD[String] = lines.mapPartitions(x => {
      println("创建数据库连接：")
      val list: ListBuffer[String] = ListBuffer("")
      while (x.hasNext) {
        val next: String = x.next()
        println("查询数据库数据" + next)
        list.append(next)
      }
      println("关闭数据库连接")
      list.iterator
    })

    result.foreach(println)
    sc.stop()
  }
}

//map算子
创建数据库连接：
插入数据hello tiantian
关闭数据库连接
hello tiantian
创建数据库连接：
插入数据hello shsxt
关闭数据库连接
hello shsxt
创建数据库连接：
插入数据hello gzsxt
关闭数据库连接
hello gzsxt
创建数据库连接：
插入数据hello Spark
关闭数据库连接
hello Spark

//mapPartition算子
创建数据库连接：
查询数据库数据hello tiantian
查询数据库数据hello shsxt
关闭数据库连接

hello tiantian
hello shsxt
创建数据库连接：
查询数据库数据hello gzsxt
查询数据库数据hello Spark
关闭数据库连接

hello gzsxt
hello Spark

1.12 distinct算子(map+reduceByKey+map)

distinct算子用于去重。其底层逻辑是

/**
 * Return a new RDD containing the distinct elements in this RDD.
 */
def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
  map(x => (x, null)).reduceByKey((x, y) => x, numPartitions).map(_._1)
}

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_distinct {

    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("filter")
        val sc =  new SparkContext(conf)
        val lines = sc.parallelize(Array(1,2,2,3,4,4))
        lines.distinct().foreach(println)
        //手动给定分组条件，再利用map去掉不要的东西
        lines.map(x=>{(x,1)}).reduceByKey(_+_).map(x=>{x._1}).foreach(println)

		sc.stop()
    }
}

//distinct算子
4
1
3
2

//map+reduceByKey+map算子
4
1
3
2

1.13 cogroup算子

当调用类型（K,V）和（K，W）的数据上时，返回一个数据集
（K，（Iterable,Iterable））

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Operator_cogroup {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("sortByKey")
    val sc = new SparkContext(conf)

    val nameRDD: RDD[(String, String)] = sc.parallelize(List(
      ("1", "zhangsan"),
      ("2", "lisi"),
      ("3", "wangwu"),
      ("4", "maliu")
    ))
    val scoreRDD: RDD[(String, Int)] = sc.parallelize(List(
      ("1", 100),
      ("2", 99),
      ("3", 89),
      ("4", 60),
      ("1",1000)
    ))

    val value: RDD[(String, (Iterable[String], Iterable[Int]))] = nameRDD.cogroup(scoreRDD)
    value.foreach(println)

    sc.stop()
  }
}

(4,(CompactBuffer(maliu),CompactBuffer(60)))
(2,(CompactBuffer(lisi),CompactBuffer(99)))
(3,(CompactBuffer(wangwu),CompactBuffer(89)))
(1,(CompactBuffer(zhangsan),CompactBuffer(100, 1000)))

1.14 mapPartitionWithIndex算子

类似于 mapPartitions，除此之外还会携带分区的索引值，能获取到当前处理数据的分区号。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer

object Operator_mapPartitionsWithIndex {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("mapPartitionsWithIndex")
     val sc = new SparkContext(conf)
      val rdd = sc.parallelize(List("a","b","c"),3)
      rdd.mapPartitionsWithIndex((index,iter)=>{
      val list = ListBuffer[String]()
        while(iter.hasNext){
          val v = iter.next()
          list.append(v)
      	  println("index = "+index+" , value = "+v)
        }
        list.iterator
      }, false).foreach(println)
    sc.stop();
  
  }
}

index = 0 , value = a
a
index = 1 , value = b
b
index = 2 , value = c
c

1.15 repartition算子

增加或减少分区都会产生 shuffle。当考虑减少分区时，一般使用coalesce算子，可以避免Shuffle。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer

object Operator_repartition {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("repartition")
    val sc = new SparkContext(conf)
    
    val rdd1 = sc.makeRDD(List(1,2,3,4,5,6,7),3)
    val rdd2 = rdd1.mapPartitionsWithIndex((partitionIndex,iter)=>{
      val list = new ListBuffer[String]()
      while(iter.hasNext){
        list += "rdd1partitionIndex : "+partitionIndex+",value :"+iter.next()
      }  
      list.iterator
    })
    
    rdd2.foreach{ println }
    
    val rdd3 = rdd2.repartition(4)
    val result = rdd3.mapPartitionsWithIndex((partitionIndex,iter)=>{
      val list = ListBuffer[String]()
      while(iter.hasNext){
        list +=("repartitionIndex : "+partitionIndex+",value :"+iter.next())
      }
      list.iterator
    })
    result.foreach{ println}
    
    
    sc.stop()
  }
}

rdd1partitionIndex : 0,value :1
rdd1partitionIndex : 0,value :2
rdd1partitionIndex : 1,value :3
rdd1partitionIndex : 1,value :4
rdd1partitionIndex : 2,value :5
rdd1partitionIndex : 2,value :6
rdd1partitionIndex : 2,value :7

repartitionIndex : 0,value :rdd1partitionIndex : 0,value :2
repartitionIndex : 0,value :rdd1partitionIndex : 1,value :4
repartitionIndex : 0,value :rdd1partitionIndex : 2,value :6
repartitionIndex : 1,value :rdd1partitionIndex : 2,value :7
repartitionIndex : 3,value :rdd1partitionIndex : 0,value :1
repartitionIndex : 3,value :rdd1partitionIndex : 1,value :3
repartitionIndex : 3,value :rdd1partitionIndex : 2,value :5

1.16 coalesce算子

coalesce 常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。true 为产生 shuffle，false 不产生 shuffle。默认是 false。如果 coalesce 设置的分区数比原来的 RDD 的分区数还多的话，第二个参数设置为 false 不会起作用，相当于分区原封不动。如果设置成 true，效果和 repartition 一样。即 repartition(numPartitions) = coalesce(numPartitions,true)。意思就是只有当设置为True时，coalesce 增加分区才会生效，此时与repartition一致。两个算子底层均是coalesce算子。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer

object Operator_coalesce {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("coalesce")
        val sc = new SparkContext(conf)
        val rdd1 = sc.parallelize(Array(1, 2, 3, 4, 5, 6), 4)
        //可变长度的集合 不可变长度的集合
        //List
        val rdd2 = rdd1.mapPartitionsWithIndex((partitionIndex, iter) => {
            val list = new ListBuffer[String]()
            while (iter.hasNext) {
                list += "rdd1 PartitonIndex : " + partitionIndex + ",value :" + iter.next()
            }
            list.iterator
        })

        rdd2.foreach {
            println
        }
        val rdd3 = rdd2.coalesce(5, false)

        println("rdd3 Partitions=" + rdd3.getNumPartitions)
        val rdd4 = rdd3.mapPartitionsWithIndex((partitionIndex, iter) => {
            val list = new ListBuffer[String]()
            while (iter.hasNext) {
                list += "coalesce PartitionIndex :" + partitionIndex + ",value:" + iter.next()
            }
            list.iterator
        })

        rdd4.foreach {
            println
        }

        sc.stop()
    }
}

rdd1 PartitonIndex : 0,value :1
rdd1 PartitonIndex : 1,value :2
rdd1 PartitonIndex : 1,value :3
rdd1 PartitonIndex : 2,value :4
rdd1 PartitonIndex : 3,value :5
rdd1 PartitonIndex : 3,value :6

rdd3 Partitions=4

coalesce PartitionIndex :0,value:rdd1 PartitonIndex : 0,value :1
coalesce PartitionIndex :1,value:rdd1 PartitonIndex : 1,value :2
coalesce PartitionIndex :1,value:rdd1 PartitonIndex : 1,value :3
coalesce PartitionIndex :2,value:rdd1 PartitonIndex : 2,value :4
coalesce PartitionIndex :3,value:rdd1 PartitonIndex : 3,value :5
coalesce PartitionIndex :3,value:rdd1 PartitonIndex : 3,value :6

1.17 groupByKey算子

作用在 K，V 格式的 RDD 上。根据 Key 进行分组。作用在（K，V），返回（K，Iterable ）。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_groupByKey {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("groupByKey")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(Array(
        (1,"a"),
        (1,"b"),
        (2,"c"),
        (3,"d")
       ))
    
        
    val result = rdd1.groupByKey()
    result.foreach(println)
    sc.stop()
  }
}

(1,CompactBuffer(a, b))
(3,CompactBuffer(d))
(2,CompactBuffer(c))

1.18 zip算子

将两个 RDD 中的元素（KV 格式/非 KV 格式）变成一个 KV 格式的 RDD,
注意：两个 RDD 的个数必须相同。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 将两个RDD中的元素（KV格式/非KV格式）变成一个KV格式的RDD,两个RDD的个数必须相同。
 */
object Operator_zip {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setAppName("zip").setMaster("local")
    val sc = new SparkContext(conf)
    val nameRDD  = sc.parallelize(Array("zhangsan","lisi","wangwu"))
    val scoreRDD = sc.parallelize(Array(1,2,3))
    val result = nameRDD.zip(scoreRDD)
    result.foreach(println)
    sc.stop()
    
  }
}

(zhangsan,1)
(lisi,2)
(wangwu,3)

1.19 zipWithIndex算子

该函数将 RDD 中的元素和这个元素在 RDD 中的索引号（从 0 开始）组合成（K,V）对。

package com.shsxt.scalaTest.core.transform_operator

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 该函数将RDD中的元素和这个元素在RDD中的索引号（从0开始）组合成（K,V）对
 */
object Operator_zipWithIndex {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("zipWithIndex")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(Array((1,"a"),(2,"b"),(3,"c")))
    val result = rdd1.zipWithIndex()
    result.foreach(println)
    sc.stop()
    
  }
}

((1,a),0)
((2,b),1)
((3,c),2)

2.Action行动算子

Action 类算子也是一类算子（函数）叫做行动算子，如foreach,collect，count 等。Transformations 类算子是延迟执行，Action 类算子是触发执行。一个 application 应用程序中有几个 Action 类算子执行，就有几个 job 运行。

2.1 count算子

count算子：返回数据集中的元素数。会在结果计算完成后回收到 Driver 端。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_count {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("count")
        val sc = new SparkContext(conf)
        val lines = sc.textFile("data/word.txt")

        val result = lines.count()

        println(result)
        sc.stop()
    }
}

2.2 take(n)`算子

take(n)算子：返回一个包含数据集前 n 个元素的集合。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_take {

    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("reduce")

        val sc = new SparkContext(conf)

        val rdd1 = sc.parallelize(Array(1, 2, 3, 4, 5))

        val result = rdd1.take(2)

        result.foreach(println)

        sc.stop()
    }
}

1
2

2.3 first算子

first算子:first=take(1)，返回数据集中的第一个元素。

2.4 foreach算子

foreach算子：循环遍历数据集中的每个元素，运行相应的逻辑。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_foreach {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("collect")

        val sc = new SparkContext(conf)

        val lines = sc.textFile("data/word.txt")

        lines.foreach(println)
    }
}

hello tiantian
hello shsxt
hello gzsxt
hello Spark

2.5 collect算子

collect算子：将计算结果回收到 Driver 端。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_collect {

    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("collect")

        val sc = new SparkContext(conf)

        val lines = sc.textFile("data/word.txt")
        lines.collect().foreach {
            println
        }
        sc.stop()
    }

}

hello tiantian
hello shsxt
hello gzsxt
hello Spark

2.6 foreachPartition算子

foreachPartition算子：遍历的数据是每个 partition 的数据。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.{SparkConf, SparkContext}

object Operator_foreachPartition {
    def main(args: Array[String]): Unit = {

        val conf = new SparkConf()

        conf.setMaster("local").setAppName("collect")

        val sc = new SparkContext(conf)

        val lines = sc.textFile("data/word.txt")

        lines.foreachPartition(x=>{
            System.out.println("连接数据库....")
            while(x.hasNext){
                println(x.next())
            }
            System.out.println("关闭数据库....")
        })
    }
}

连接数据库....
hello tiantian
hello shsxt
hello gzsxt
hello Spark
关闭数据库....

2.7 countByKey算子

作用到 K,V 格式的 RDD 上，根据 Key 计数相同 Key 的数据集元素。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

/**
  * countByKey
  *
  * 作用到K,V格式的RDD上，根据Key计数相同Key的数据集元素。返回一个Map
  */
object Operator_countByKey {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("countByKey")
        val sc = new SparkContext(conf)

        val rdd1: RDD[(String, Int)] = sc.parallelize(List(
            ("a", 100),
            ("b", 200),
            ("a", 300),
            ("c", 400)
        ))
        
        val result: collection.Map[String, Long] = rdd1.countByKey()
        
        result.foreach(println)
        sc.stop()
    }
}

(a,2)
(b,1)
(c,1)

2.8 countByValue算子

根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * countByValue
  * 根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。
  */
object Operator_countByValue {

    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("countByValue")
        val sc: SparkContext = new SparkContext(conf)

        val rdd1: RDD[(String, Int)] = sc.parallelize(List(
            ("a", 100),
            ("a", 100),
            ("b", 300),
            ("b", 300),
            ("c", 400)
        ))
        val rdd2: collection.Map[(String, Int), Long] = rdd1.countByValue()
        rdd2.foreach(println)

        sc.stop()
    }
}

((b,300),2)
((c,400),1)
((a,100),2)

2.9 reduce算子

根据聚合逻辑聚合数据集中的每个元素。

package com.shsxt.scalaTest.core.action_operator

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * reduce
  *
  * 根据聚合逻辑聚合数据集中的每个元素。
  */
object Operator_reduce {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setMaster("local").setAppName("reduce")

        val sc = new SparkContext(conf)
        val rdd1: RDD[Int] = sc.parallelize(Array(1, 2, 3, 4, 5))

        val result: Int = rdd1.reduce(_ + _)

        println(result)
        sc.stop()
    }
}

3.控制算子（持久化算子）

控制算子有三种：cache，persist，checkpoint，以上算子都可以将RDD 持久化，持久化的单位是 partition。

cache 和 persist 算子都是懒执行的。必须有一个 action 类算子触发执行。
checkpoint 算子不仅能将 RDD 持久化到磁盘，还能切断 RDD 之间的依赖关系。

3.1 cache算子

默认将 RDD 的数据持久化到内存中。cache 是懒执行。针对重用RDD，可以将其持久化到内存中。

注意：
cache () = persist()=persist(StorageLevel.Memory_Only)

未加入cache算子之前：

package com.shsxt.scala

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Test_Persistent {
  def main(args: Array[String]): Unit = {
    //新建SparkContext执行环境入口对象
    val conf = new SparkConf().setAppName("TransformationOperator").setMaster("local")
    val sc = new SparkContext(conf)

    //读取数据
    var line: RDD[String] = sc.textFile("data/NASA_access_log_Aug95")

    //cache算子：将 RDD 的数据持久化到内存中
//    line = line.cache()

    //统计行数并计算时间
    val start: Long = System.currentTimeMillis()
    val count: Long = line.count()
    val end: Long = System.currentTimeMillis()

    println("一共"+count+"条数据，初始化和缓存时间及计算时间总共为="+(end-start))

    //统计行数并计算时间
    val start2: Long = System.currentTimeMillis()
    val count2: Long = line.count()
    val end2: Long = System.currentTimeMillis()

    println("一共"+count2+"条数据，初始化和缓存时间及计算时间总共为="+(end2-start2))
    sc.stop()
  }
}

一共1569898条数据，初始化和缓存时间及计算时间总共为=772
一共1569898条数据，初始化和缓存时间及计算时间总共为=478

加入cache算子之后：

package com.shsxt.scala

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Test_Persistent {
  def main(args: Array[String]): Unit = {
    //新建SparkContext执行环境入口对象
    val conf = new SparkConf().setAppName("TransformationOperator").setMaster("local")
    val sc = new SparkContext(conf)

    //读取数据
    var line: RDD[String] = sc.textFile("data/NASA_access_log_Aug95")

    //cache算子：将 RDD 的数据持久化到内存中
    line = line.cache()

    //统计行数并计算时间
    val start: Long = System.currentTimeMillis()
    val count: Long = line.count()
    val end: Long = System.currentTimeMillis()

    println("一共"+count+"条数据，初始化和缓存时间及计算时间总共为="+(end-start))

    //统计行数并计算时间
    val start2: Long = System.currentTimeMillis()
    val count2: Long = line.count()
    val end2: Long = System.currentTimeMillis()

    println("一共"+count2+"条数据，初始化和缓存时间及计算时间总共为="+(end2-start2))
    sc.stop()
  }
}

一共1569898条数据，初始化和缓存时间及计算时间总共为=1470
一共1569898条数据，初始化和缓存时间及计算时间总共为=55

发现：虽然第一次速度变慢，但是第二次速度明显加快！

3.2 persist算子

可以指定持久化的级别。最常用的是MEMORY_ ONLY和MEMORY_ AND_ DISK。
持久化级别如下:

package com.shsxt.scala

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Test_Persistent {
  def main(args: Array[String]): Unit = {
    //新建SparkContext执行环境入口对象
    val conf = new SparkConf().setAppName("TransformationOperator").setMaster("local")
    val sc = new SparkContext(conf)

    //读取数据
    var line: RDD[String] = sc.textFile("data/NASA_access_log_Aug95")

    //持久化算子：中间结果的持久化，提升整体的效率
    //默认持久化级别是MEMORY_ ONLY，与cache算子一致
    line = line.persist()
//    line = line.cache()
    //统计行数并计算时间
    val start: Long = System.currentTimeMillis()
    val count: Long = line.count()
    val end: Long = System.currentTimeMillis()

    println("一共"+count+"条数据，初始化和缓存时间及计算时间总共为="+(end-start))

    //统计行数并计算时间
    val start2: Long = System.currentTimeMillis()
    val count2: Long = line.count()
    val end2: Long = System.currentTimeMillis()

    println("一共"+count2+"条数据，初始化和缓存时间及计算时间总共为="+(end2-start2))
    sc.stop()
  }
}

一共1569898条数据，初始化和缓存时间及计算时间总共为=1292
一共1569898条数据，初始化和缓存时间及计算时间总共为=62

3.3 cache 和 persist 的注意事项

cache 和 persist 都是懒执行，必须有一个 action 类算子触发执行。
cache 和 persist 算子的返回值可以赋值给一个变量，在其他 job 中直接使用这个变量就是使用持久化的数据了。持久化的单位是 partition。
cache 和 persist 算子后不能立即紧跟 action 算子。

错误：rdd.cache().count() 返回的不是持久化的 RDD，而是一个数值了。

3.4 checkpoint算子

checkpoint 将 RDD 持久化到磁盘，还可以切断 RDD 之间的依赖关系。
checkpoint 的执行原理：

当 RDD 的 job 执行完毕后，会从 finalRDD 从后往前回溯。
当回溯到某一个 RDD 调用了 checkpoint 方法，会对当前的RDD 做一个标记。
Spark 框架会自动启动一个新的 job，重新计算这个 RDD 的数据，将数据持久化到 HDFS 上。

使用checkpoint 时常用优化手段：对 RDD 执行 checkpoint 之前，最好对这个 RDD 先执行cache，这样新启动的 job 只需要将内存中的数据拷贝到 HDFS上就可以，省去了重新计算这一步。
使用：

package com.shsxt.scala

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel

object Test_Checkpoint {
  def main(args: Array[String]): Unit = {
    //新建SparkContext执行环境入口对象
    val conf = new SparkConf().setAppName("TransformationOperator").setMaster("local")
    val sc = new SparkContext(conf)

    //读取数据
    sc.setCheckpointDir("./chkpoint")
    var line: RDD[String] = sc.textFile("data/NASA_access_log_Aug95")

    //RDD保存到内存中是对checkpoint过程的优化，因为它是新的任务（new job）
    line = line.persist(StorageLevel.MEMORY_ONLY)
    line.checkpoint()
    //统计行数并计算时间
    val start: Long = System.currentTimeMillis()
    val count: Long = line.count()
    val end: Long = System.currentTimeMillis()

    println("一共" + count + "条数据，初始化和缓存时间及计算时间总共为=" + (end - start))

    //统计行数并计算时间
    val start2: Long = System.currentTimeMillis()
    val count2: Long = line.count()
    val end2: Long = System.currentTimeMillis()

    println("一共" + count2 + "条数据，初始化和缓存时间及计算时间总共为=" + (end2 - start2))
    sc.stop()
  }
}

一共1569898条数据，初始化和缓存时间及计算时间总共为=2189
一共1569898条数据，初始化和缓存时间及计算时间总共为=40

你可能感兴趣的:(Spark,spark,大数据)

《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
SparkSQL编程-RDD、DataFrame、DataSet 早拾碗吧 Spark spark hadoop 大数据 sparksql
三者之间的关系在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
pyspark 遇到**Py4JJavaError** Traceback (most recent call last) ~\AppData\ 2pi spark python
Py4JJavaErrorTraceback(mostrecentcalllast)~\AppData\Local\Temp/ipykernel_22732/1401292359.pyin---->1feat_df.show(5,vertical=True)D:\Anaconda3\envs\recall-service-cp4\lib\site-packages\pyspark\sql\data
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h