wuyangcc

SparkCore-RDD编程

SparkCore-RDD编程操作

0. 大纲

Spark程序的执行过程
RDD的操作
- RDD的转换操作
- 共享变量
高级排序

1. Spark程序执行过程

1.1. WordCount案例程序的执行过程

1.2. Spark程序执行流程

2. RDD的操作

At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spark provides is a resilient distributed dataset (RDD), which is a collection of elements partitioned across the nodes of the cluster that can be operated on in parallel. RDDs are created by starting with a file in the Hadoop file system (or any other Hadoop-supported file system), or an existing Scala collection in the driver program, and transforming it. Users may also ask Spark to persist an RDD in memory, allowing it to be reused efficiently across parallel operations. Finally, RDDs automatically recover from node failures.

A second abstraction in Spark is shared variables that can be used in parallel operations. By default, when Spark runs a function in parallel as a set of tasks on different nodes, it ships a copy of each variable used in the function to each task. Sometimes, a variable needs to be shared across tasks, or between tasks and the driver program. Spark supports two types of shared variables: broadcast variables, which can be used to cache a value in memory on all nodes, and accumulators, which are variables that are only “added” to, such as counters and sums.

2.1. RDD的初始化

RDD的初始化，原生api提供的2中创建方式，一种就是读取文件textFile，还有一种就是加载一个scala集合parallelize。当然，也可以通过transformation算子来创建的RDD。

2.2. RDD的操作

需要知道RDD操作算子的分类，基本上分为两类：transformation和action，当然更加细致的分，可以分为输入算子，转换算子，缓存算子，行动算子。

输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进行管理。
运行：在Spark数据输入形成RDD后便可以通过变换算子，如filter等，对数据进行操作并将RDD转化为新的RDD，通过Action算子，触发Spark提交作业。如果数据需要复用，可以通过Cache算子，将数据缓存到内存。
输出：程序运行结束数据会输出Spark运行时空间，存储到分布式存储中（如saveAsTextFile输出到HDFS），或Scala数据或集合中（collect输出到Scala集合，count返回Scala int型数据）。

2.2.1. transformation转换算子

map

说明

rdd.map(func):RDD,对rdd集合中的每一个元素，都作用一次该func函数，之后返回值为生成元素构成的一个新的RDD。

编码

对rdd中的每一个元素×7

object _01RDDOps {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
                    .setAppName(s"${_01RDDOps.getClass.getSimpleName}")
                    .setMaster("local[*]")

        val sc = new SparkContext(conf)
        //map 原集合*7
        val list = 1 to 7
        //构建一个rdd
        val listRDD:RDD[Int] = sc.parallelize(list)

//        listRDD.map((num:Int) => num * 7)
//        listRDD.map(num => num * 7)
        val ret = listRDD.map(_ * 7)
        ret.foreach(println)

        sc.stop()
    }
}

flatMap
1. 说明
  
  rdd.flatMap(func):RDD ==>rdd集合中的每一个元素，都要作用func函数，返回0到多个新的元素，这些新的元素共同构成一个新的RDD。所以和上述map算子进行总结：
  
  map操作是一个one-2-one的操作
  
  flatMap操作是一个one-2-many的操作
2. 编码
  
  案例：将每行字符串，拆分成一个个的单词
```
def  flatMapOps(sc:SparkContext): Unit = {
    val list = List(
        "jia jing kan kan kan",
        "gao di di  di di",
        "zhan yuan qi qi"
    )
    val listRDD = sc.parallelize(list)
    listRDD.flatMap(line => line.split("\\s+"))
    .foreach(println)
}
```
filter
1. 说明
  
  rdd.filter(func):RDD ==> 对rdd中的每一个元素操作func函数，该函数的返回值为Boolean类型，保留返回值为true的元素，共同构成一个新的RDD，过滤掉哪些返回值为false的元素。
2. 编程
  
  案例：保留集合中的偶数
```
def filterMapOps(sc:SparkContext): Unit = {
    val list = 1 to 10
    sc.parallelize(list)
    .filter(_ % 2 == 0)
    .foreach(println)
}
```
sample
1. 说明
  
  rdd.sample(withReplacement:Boolean, fraction:Double [, seed:Long]):RDD ===> 抽样，需要注意的是spark的sample抽样不是一个精确的抽样。一个非常重要的作用，就是来看rdd中数据的分布情况，根据数据分布的情况，进行各种调优与优化。—>数据倾斜。
  
  首先得要知道这三个参数是啥意思
  
  withReplacement:抽样的方式，true有放回抽样, false为无返回抽样
  
  fraction: 抽样比例，取值范围就是0~1
  
  seed: 抽样的随机数种子，有默认值，通常也不需要传值
2. 编程
  
  案例：从10w个数中抽取千分之一进行样本评估
```
def sampleMapOps(sc:SparkContext): Unit = {
    val listRDD = sc.parallelize(1 to 100000)

    var sampledRDD = listRDD.sample(true, 0.001)
    println("样本空间的元素个数：" + sampledRDD.count())
    sampledRDD = listRDD.sample(false, 0.001)
    println("样本空间的元素个数：" + sampledRDD.count())
}
```

union

说明

rdd1.union(rdd2),联合rdd1和rdd2中的数据，形成一个新的rdd，其作用相当于sql中的union all。

编程

案例：合并两个rdd中的数据，生成一个新的rdd，做后续统一的处理

def unionMapOps(sc:SparkContext): Unit = {
    val listRDD1 = sc.parallelize(List(1, 3, 5, 7, 9))
    val listRDD2 = sc.parallelize(List(2, 4, 5, 8, 10))
    val unionedRDD:RDD[Int] = listRDD1.union(listRDD2)

    unionedRDD.foreach(println)
}

join

说明

join就是sql中的inner join，join的效果工作7种。

  从具体的写法上面有如下几种

  - 交叉连接

      A a accross join B b；这种操作方式会产生笛卡尔积，在工作中一定要避免。

  - 内连接

      A a [inner] join B b [where|on a.id = b.id]; 有时候也写成：A a, B b(自连接) 是一种等值连接。所谓等值连接，就是获取A和B的交集。

  - 外连接

      - 左外连接

          以左表为主体，查找右表中能够关联上的数据，如果管理不上，显示null。

          A a left outer join B b on a.id = b.id。

      - 右外连接

          是以右表为主体，查找左表中能够关联上的数据，如果关联不上，显示null。

          A a right outer join B b on a.id = b.id。

      - 全连接

          就是左外连接+右外连接

          A a full outer join B b on a.id = b.id。

      - 半连接 

          一般在工作很少用

      sparkcore中支持的连接有：笛卡尔积、内连接join，外连接（左、右、全）

  - spark连接

       要想两个RDD进行连接，那么这两个rdd的数据格式，必须是k-v键值对的，其中的k就是关联的条件，也就是sql中的on连接条件。

        假设，RDD1的类型[K, V], RDD2的类型[K, W]

      - 内连接

          val joinedRDD:RDD[(K, (V, W))] = rdd1.join(rdd2)

      - 左外连接

          val leftJoinedRDD:RDD[(K, (V, Option[W]))] = rdd1.leftOuterJoin(rdd2)

      - 右外连接

          val rightJoinedRDD:RDD[(K, (Option[V], W))] = rdd1.rightOuterJoin(rdd2)

      - 全连接

          val fullJoinedRDD:RDD[(K, (Option[V], Option[W]))] = rdd1.fullOuterJoin(rdd2)

编程

案例：关联学生信息

def joinedMapOps(sc:SparkContext): Unit = {
    //stu表：id，name，gender，age
    //score表：stuid,course, score
    val stuList = List(
        "1 严文青 女 18",
        "2 王大伟 男 55",
        "3 贾静凯 男 33",
        "4 old李 ladyBoy 31"
    )

    val scoreList = List(
        "1 语文 59",
        "3 数学 0",
        "2 英语 60",
        "5 体育 99"
    )

    val stuListRDD = sc.parallelize(stuList)
    val sid2StuInfoRDD:RDD[(Int, String)] = stuListRDD.map(line => {
        val sid = line.substring(0, line.indexOf(" ")).toInt
        val info = line.substring(line.indexOf(" ") + 1)
        (sid, info)
    })
    val scoreListRDD = sc.parallelize(scoreList)
    val sid2ScoreInfoRDD:RDD[(Int, String)] = scoreListRDD.map(line => {
        val sid = line.substring(0, line.indexOf(" ")).toInt
        val scoreInfo = line.substring(line.indexOf(" ") + 1)
        (sid, scoreInfo)
    })
    //查询有成绩的学生信息 --> join, k-v
    println("---------------------joined----------------------------")
    val stuScoreInfoRDD:RDD[(Int, (String, String))] = sid2StuInfoRDD.join(sid2ScoreInfoRDD)
    //        stuScoreInfoRDD.foreach(kv => {
    //            println(s"sid:${kv._1}, stu's info: ${kv._2._1}, stu's score: ${kv._2._2}")
    //        })

    stuScoreInfoRDD.foreach{case (sid, (stuInfo, scoreInfo)) => {
        println(s"sid:${sid}, stu's info: ${stuInfo}, stu's score: ${scoreInfo}")
    }}
    println("---------------------left----------------------------")
    //查询所有学生的信息
    val stuInfo:RDD[(Int, (String, Option[String]))] = sid2StuInfoRDD.leftOuterJoin(sid2ScoreInfoRDD)
    stuInfo.foreach{case (sid, (stuInfo, scoreOption)) => {
        println(s"sid:${sid}, stu's info: ${stuInfo}, stu's score: ${scoreOption.getOrElse(null)}")
    }}
    println("---------------------full----------------------------")
    //查询学生，及其有成绩的学生信息
    val stuScoreInfo:RDD[(Int, (Option[String], Option[String]))] = sid2StuInfoRDD.fullOuterJoin(sid2ScoreInfoRDD)
    stuScoreInfo.foreach{case (sid, (stuOption, scoreOption)) => {
        println(s"sid:${sid}, stu's info: ${stuOption.getOrElse(null)}, stu's score: ${scoreOption.getOrElse(null)}")
    }}
}

groupByKey

说明

原始rdd的类型时[(K, V)]

rdd.groupByKey(),按照key进行分组，那必然其结果就肯定[(K, Iterable[V])]，是一个shuffle dependency宽依赖shuffle操作，但是这个groupByKey不建议在工作过程中使用，除非非要用，因为groupByKey没有本地预聚合，性能较差，一般我们能用下面的reduceByKey或者combineByKey或者aggregateByKey代替就尽量代替。

编程

案例：对不同班级的学生进行分组。

def groupByKeyOps(sc:SparkContext): Unit ={
    //stu表：id, name, gender, age, class
    val stuList = List(
        "1,白普州,1,22,1904-bd-bj",
        "2,伍齐城,1,19,1904-bd-wh",
        "3,曹佳,0,27,1904-bd-sz",
        "4,姚远,1,27,1904-bd-bj",
        "5,匿名大哥,2,17,1904-bd-wh",
        "6,欧阳龙生,0,28,1904-bd-sz"
    )
    val stuRDD = sc.parallelize(stuList)

    val class2InfoRDD:RDD[(String, String)] = stuRDD.map(line => {
        val dotIndex = line.lastIndexOf(",")
        val className = line.substring(dotIndex + 1)
        val info = line.substring(0, dotIndex)
        (className, info)
    })

    val gbkRDD:RDD[(String, Iterable[String])] = class2InfoRDD.groupByKey()
    gbkRDD.foreach(println)
}

reduceByKey

rdd的类型为[(K, V)]
1. 说明
  
  rdd.reduceByKey(func:(V, V) => V):RDD[(K, V)] ====>在scala集合中学习过一个reduce(func:(W, W) => W)操作，是一个聚合操作，这里的reduceByKey按照就理解为在groupByKey(按照key进行分组[(K, Iterable[V])])的基础上，对每一个key对应的Iterable[V]执行reduce操作。
  
  同时reduceByKey操作会有一个本地预聚合的操作，所以是一个shuffle dependency宽依赖shuffle操作。
2. 编程
  
  经典案例：wordcount
```
略
```
sortByKey

按照key进行排序

略
combineByKey

通过查看reduceByKey和groupByKey的实现，发现其二者底层都是基于一个combineByKeyWithClassTag的底层算子来实现的，包括下面的aggregateByKey也是使用该算子实现。该算子又和combineByKey有啥关系呢？
```
  Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD using the* existing partitioner/parallelism level. This method is here for backward compatibility. It* does not provide combiner classtag information to the shuffle.
```
通过api学习，我们了解到combineByKey是combineByKeyWithClassTag的简写的版本。
1. 说明
  
  这是spark最底层的聚合算子之一，按照key进行各种各样的聚合操作，spark提供的很多高阶算子，都是基于该算子实现的。
```
def combineByKey[C](
    createCombiner: V => C,
    mergeValue: (C, V) => C,
    mergeCombiners: (C, C) => C): RDD[(K, C)] =  {
   。。。。。。
}
```
  上述源码便是combineByKey的定义，是将一个类型为[(K, V)]的RDD聚合转化为[(K, C)]的类型，也就是按照K来进行聚合。这里的V是聚合前的类型，C聚合之后的类型。
  
  如何理解聚合函数？切入点就是如何理解分布式计算？总—>分—>总
  
  createCombiner: V => C, 相同的Key在分区中会调用一次该函数，用于创建聚合之后的类型，为了和后续Key相同的数据进行聚合。使用分区中的一条记录进行初始化。
  mergeValue: (C, V) => C, 在相同分区中基于上述createCombiner基础之上的局部聚合
  mergeCombiners: (C, C) => C) 将每个分区中相同key聚合的结果在分区间进行全局聚合

    所以combineByKey就是分布式计算。

2. 编程

    - 模拟groupByKey

        ```scala
        def cbk2GbkOps(sc:SparkContext): Unit ={
            val stuList = List(
                "白普州,1904-bd-bj",
                "伍齐城,1904-bd-bj",
                "曹佳,1904-bd-sz",
                "刘文浪,1904-bd-wh",
                "姚远,1904-bd-bj",
                "匿名大哥,1904-bd-sz",
                "欧阳龙生,1904-bd-sz"
            )
            val stuRDD = sc.parallelize(stuList)
        
            val class2InfoRDD:RDD[(String, String)] = stuRDD.map(line => {
                val dotIndex = line.lastIndexOf(",")
                val className = line.substring(dotIndex + 1)
                (className, line)
            })
            println("=================groupBykey=================")
            val gbkRDD:RDD[(String, Iterable[String])] = class2InfoRDD.groupByKey()
            gbkRDD.foreach(println)
            println("=================cbk2Gbk================")
            val cbk2gbkRDD:RDD[(String, ArrayBuffer[String])] = class2InfoRDD.combineByKey(createCombiner, mergeValue, mergeCombiners)
            cbk2gbkRDD.foreach(println)
        }
        /*
                初始化操作
                相同key在同一个分区中只会调用一次该函数，用于初始化，并且将第一个元素用于初始化
             */
        def createCombiner(stu:String):ArrayBuffer[String] = {
            println("============createCombiner<" + stu + ">====================>>>>")
            val ab = ArrayBuffer[String]()
            ab.append(stu)
            ab
        }
        
        /**
              * 分区内的局部聚合
              */
        def mergeValue(ab:ArrayBuffer[String], stu:String):ArrayBuffer[String] = {
            println("》》》>>========mergeValue:局部聚合结果<" + ab + ">，被聚合的值：" + stu + "===========>>>>")
            ab.append(stu)
            ab
        }
        /*
                全局聚合，各个分区内聚合的结果进行二次全局聚合
                第一个参数ab就是全局聚合的临时结果
                第二个参数ab2就是某一个分区聚合的结果
             */
        def mergeCombiners(ab:ArrayBuffer[String], ab2:ArrayBuffer[String]):ArrayBuffer[String] = {
            println("|-|-|<>|-|>>========mergeCombiners:全局聚合临时结果<" + ab + ">，局部聚合的值：" + ab2 + "===========>>>>")
            ab.++:(ab2)
        }
        ```

    - 模拟reduceByKey

        ```scala
        def cbk2rbkOps(sc:SparkContext): Unit = {
            val lines = sc.textFile("file:/E:/data/hello.txt")
        
            val pairs = lines.flatMap(_.split("\\s+")).map((_, 1))
        
            println("==========reduceByKey============")
            //reduceByKey
            pairs.reduceByKey(_+_).foreach(println)
            println("==========combineByKey============")
            val cbk2rbk = pairs.combineByKey[Int]((num:Int) => num, (sum:Int, num:Int) => sum + num, (sum1:Int, sum2:Int) => sum1 + sum2)
            cbk2rbk.foreach(println)
        }
        ```

aggregateByKey

说明

aggregateByKey和combineByKey都是一个相对底层的聚合算子，可以完成系统没有提供的其它操作，相当于自定义算子。

aggregateByKey底层还是使用combineByKeyWithClassTag来实现，所以本质上二者没啥区别，区别就在于使用时的选择而已。

编程

def abk2rbkOps(sc:SparkContext): Unit = {
    val lines = sc.textFile("file:/E:/data/hello.txt")

    val pairs = lines.flatMap(_.split("\\s+")).map((_, 1))

    println("==========reduceByKey============")
    //reduceByKey
    pairs.reduceByKey(_+_).foreach(println)
    println("==========combineByKey============")
    val abk:RDD[(String, Int)] = pairs.aggregateByKey(0)(_+_, _+_)
    abk.foreach(println)
}

def abk2GbkOps(sc:SparkContext): Unit ={
    val stuList = List(
        "白普州,bj",
        "伍齐城,bj",
        "曹佳,sz",
        "刘文浪,wh",
        "姚远,bj",
        "匿名大哥,sz",
        "欧阳龙生,sz"
    )
    val stuRDD = sc.parallelize(stuList)

    val class2InfoRDD:RDD[(String, String)] = stuRDD.map(line => {
        val dotIndex = line.lastIndexOf(",")
        val className = line.substring(dotIndex + 1)
        (className, line)
    })

    //        class2InfoRDD.saveAsTextFile("file:/E:/data/out/heihei")
    println("=================groupBykey=================")
    val gbkRDD:RDD[(String, Iterable[String])] = class2InfoRDD.groupByKey()
    gbkRDD.foreach(println)
    println("=================abk2Gbk================")
    val abkRDD:RDD[(String, ArrayBuffer[String])] = class2InfoRDD.aggregateByKey(ArrayBuffer[String]())(
        seqOp,
        combOp
    )
    abkRDD.foreach(println)

}

def seqOp(ab:ArrayBuffer[String], info:String):ArrayBuffer[String] = {
    ab.append(info)
    ab
}

def combOp(ab:ArrayBuffer[String], ab2:ArrayBuffer[String]):ArrayBuffer[String] = {
    ab.++:(ab2)
}

总结：

通过上例我们可以看出，如果是对相同类型的数据进行聚合统计，倾向于使用aggregateByKey更为简单，但是如果聚合前后数据类型不一致，建议使用combineByKey；同时如果初始化操作较为复杂，也建议使用combineByKey。

2.2.2. action行动算子

所有的这些算子都是在rdd，rdd上的分区partition上面执行的，不是在driver本地执行。

foreach

略

count

统计该rdd中元素的个数

val count = abk.count()
println("abk rdd的count个数为：" + count)

返回值为Long类型

take(n)

返回该rdd中的前N个元素
```
val arr:Array[(String, Int)] = abk.take(2)
arr.foreach(println)
```
如果该rdd的数据是有序的，那么take(n)就是TopN。

first

take(n)中比较特殊的一个take(1)(0)

val ret:(String, Int) = abk.first()
println(ret)

collect

字面意思就是收集，拉取的意思，该算子的含义就是将分布在集群中的各个partition中的数据拉回到driver中，进行统一的处理；但是这个算子有很大的风险存在，第一，driver内存压力很大，第二数据在网络中大规模的传输，效率很低；所以一般不建议使用，如果非要用，请先执行filter。
```
val arr = abk.filter(_._2 > 2).collect()
arr.foreach(println)
```
reduce

一定记清楚，reduce是一个action操作，reduceByKey是一个transformation。reduce对一个rdd执行聚合操作，并返回结果，结果是一个值。
```
//统计有多少个单词
val newRet = abk.reduce{case ((k1, v1), (k2, v2)) => (k1 + "_" + k2, v1 + v2)}
println(newRet)
```
需要注意一点的是，聚合前后的数据类型保持一致。

countByKey

统计key出现的次数

val countByKey = pairs.countByKey()
for ((k, v) <- countByKey) {
    println(k + "-->" + v)
}
//使用groupByKey求解wordcount
val rr = pairs.groupByKey().map{case (key, iters) => (key, iters.size)}
rr.foreach(println)

saveAsTextFile
```
rr.saveAsTextFile("file:/E:/data/out/1904-bd/out1")
```
本质上是saveAsHadoopFile[TextOutputFormat[NullWritable, Text]]

saveAsObjectFile和saveAsSequenceFile

saveAsObjectFile本质上是saveAsSequenceFile

def saveAsObjectFile(path: String): Unit = withScope {
    this.mapPartitions(iter => iter.grouped(10).map(_.toArray))
    .map(x => (NullWritable.get(), new BytesWritable(Utils.serialize(x))))
    .saveAsSequenceFile(path)
}

saveAsHadoopFile和saveAsNewAPIHadoopFile

这二者的主要区别就是OutputFormat的区别，

接口org.apache.hadoop.mapred.OutputFormat

抽象类org.apache.hadoop.mapreduce.OutputFormat

所以saveAshadoopFile使用的是接口OutputFormat，saveAsNewAPIHadoopFile使用的抽象类OutputFormat，建议大家使用后者。
```
val path = "file:/E:/data/out/1904-bd/out3"
rr.saveAsNewAPIHadoopFile(path,
                          classOf[Text],
                          classOf[IntWritable],
                          classOf[TextOutputFormat[Text, IntWritable]]
                         )
```

2.2.3. 持久化操作

2.2.3.1. 什么是持久化，为什么要持久化

  One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations. When you persist an RDD, each node stores any partitions of it that it computes in memory and reuses them in other actions on that dataset (or datasets derived from it). This allows future actions to be much faster (often by more than 10x). Caching is a key tool for iterative algorithms and fast interactive use.

2.2.3.2. 如何进行持久化

	You can mark an RDD to be persisted using the persist() or cache() methods on it. The first time it is computed in an action, it will be kept in memory on the nodes. Spark’s cache is fault-tolerant – if any partition of an RDD is lost, it will automatically be recomputed using the transformations that originally created it.

持久化的方法就是rdd.persist()或者rdd.cache()

2.2.3.3. 持久化策略

In addition, each persisted RDD can be stored using a different storage level, allowing you, for example, to persist the dataset on disk, persist it in memory but as serialized Java objects (to save space), replicate it across nodes. These levels are set by passing a StorageLevel object (Scala, Java, Python) to persist(). The cache() method is a shorthand for using the default storage level, which is StorageLevel.MEMORY_ONLY (store deserialized objects in memory).

可以通过persist(StoreageLevle的对象)来指定持久化策略,eg:StorageLevel.MEMORY_ONLY。

持久化策略	含义
MEMORY_ONLY(默认)	rdd中的数据，以未经序列化的java对象格式，存储在内存中。如果内存不足，剩余的部分不持久化，使用的时候，没有持久化的那一部分数据重新加载。这种效率是最高，但是是对内存要求最高的。
MEMORY_ONLY_SER	就比MEMORY_ONLY多了一个SER序列化，保存在内存中的数据是经过序列化之后的字节数组，同时每一个partition此时就是一个比较大的字节数组。
MEMORY_AND_DISK	和MEMORY_ONLY相比就多了一个，内存存不下的数据存储在磁盘中。
MEMEORY_AND_DISK_SER	比MEMORY_AND_DISK多了个序列化。
DISK_ONLY	就是MEMORY_ONLY对应，都保存在磁盘，效率太差，一般不用。
xxx_2	就是上述多个策略后面加了一个_2,比如MEMORY_ONLY_2，MEMORY_AND_DISK_SER_2等等，就多了一个replicate而已，备份，所以性能会下降，但是容错或者高可用加强了。所以需要在二者直接做权衡。如果说要求数据具备高可用，同时容错的时间花费比从新计算花费时间少，此时便可以使用，否则一般不用。
HEAP_OFF(experimental)	使用非Spark的内存，也即堆外内存，比如Tachyon，HBase、Redis等等内存来补充spark数据的缓存。

2.2.3.4. 如何选择一款合适的持久化策略

第一就选择默认MEMORY_ONLY，因为性能最高嘛，但是对空间要求最高；如果空间满足不了，退而求其次，选择MEMORY_ONLY_SER,此时性能还是蛮高的，相比较于MEMORY_ONLY的主要性能开销就是序列化和反序列化；如果内存满足不了,直接跨越MEMORY_AND_DISK，选择MEMEORY_AND_DISK_SER，因为到这一步，说明数据蛮大的，要想提高性能，关键就是基于内存的计算，所以应该尽可能的在内存中存储对象；DISK_ONLY不用，xx_2的使用如果说要求数据具备高可用，同时容错的时间花费比从新计算花费时间少，此时便可以使用，否则一般不用。

2.2.3.5. 持久化和非持久化性能比较

object _05SparkPersistOps {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()    .setAppName(s"${_05SparkPersistOps.getClass.getSimpleName}")
            .setMaster("local[*]")

        val sc = new SparkContext(conf)
        //读取外部数据
        var start = System.currentTimeMillis()
        val lines = sc.textFile("file:///E:/data/spark/core/sequences.txt")
        var count = lines.count()
        println("没有持久化：#######lines' count: " + count + ", cost time: " + (System.currentTimeMillis() - start) + "ms")
        lines.persist(StorageLevel.MEMORY_AND_DISK) //lines.cache()
        start = System.currentTimeMillis()
        count = lines.count()
        println("持久化之后：#######lines' count: " + count + ", cost time: " + (System.currentTimeMillis() - start) + "ms")
        lines.unpersist()//卸载持久化数据
        sc.stop()
    }
}

没有持久化：#######lines’ count: 1000000, cost time: 5257ms
持久化之后：#######lines’ count: 1000000, cost time: 1408ms

2.3. 共享变量

2.3.0. 概述

Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separate copies of all the variables used in the function. These variables are copied to each machine, and no updates to the variables on the remote machine are propagated back to the driver program. Supporting general, read-write shared variables across tasks would be inefficient(低效). However, Spark does provide two limited types of shared variables for two common usage patterns: broadcast variables and accumulators.

2.3.1. broadcast广播变量

说明

如何使用广播变量呢？

对普通遍历进行包装即可，

val num:Any = xxx

val numBC:Broadcast[Any] = sc.broadcast(num)

调用

val n = numBC.value

需要注意一点的是，显然该num需要进行序列化。

编程

object _06BroadcastOps {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
            .setAppName(s"${_06BroadcastOps.getClass.getSimpleName}")
            .setMaster("local[*]")

        val sc = new SparkContext(conf)

        val genderMap = Map(
            "0" -> "妹砸儿",
            "1" -> "大兄弟"
        )

        val stuRDD = sc.parallelize(List(
            Student("01", "宋敏健", "0", 18),
            Student("02", "严文青", "1", 19),
            Student("03", "王大伟", "1", 18),
            Student("04", "闫来宾", "1", 22)
        ))

        stuRDD.map(stu => {
            val gender = stu.gender
            Student(stu.id, stu.name, genderMap.getOrElse(gender, "ladyBoy"), stu.age)
        }).foreach(println)
        println("=============使用广播变量的做法==============")
        val genderBC:Broadcast[Map[String, String]] = sc.broadcast(genderMap)

        stuRDD.map(stu => {
            val gender = genderBC.value.getOrElse(stu.gender, "ladyBody")
            Student(stu.id, stu.name, gender, stu.age)
        }).foreach(println)

        sc.stop()
    }
}

case class Student(id:String, name:String, gender:String, age:Int)

2.3.2. accumulator累加器

说明

accumulator累加器的概念和mr中出现的counter计数器的概念有异曲同工之妙，对某些具备某些特征的数据进行累加。累加器的一个好处是，不需要修改程序的业务逻辑来完成数据累加，同时也不需要额外的触发一个action job来完成累加，反之必须要添加新的业务逻辑，必须要触发一个新的action job来完成，显然这个accumulator的操作性能更佳！

累加的使用：

构建一个累加器

val accu = sc.longAccumuator()

累加的操作

accu.add(参数)

获取累加器的结果，累加器的获取，必须需要action的触发

val ret = accu.value

编程

使用非累加器完成某些特征数据的累加求解

val sc = new SparkContext(conf)

val lines = sc.textFile("file:/E:/work/1904-bd/workspace/spark-parent-1904/data/accu.txt")
val words = lines.flatMap(_.split("\\s+"))

//统计每个单词出现的次数
val rbk = words.map((_, 1)).reduceByKey(_+_)
rbk.foreach(println)
println("=============额外的统计=================")
//统计其中的is出现的次数
rbk.filter{case (word, count) => word == "is"}.foreach(println)

Thread.sleep(10000000)
sc.stop()

使用累加器完成上述案例

val conf = new SparkConf()
.setAppName(s"${_07AccumulatorOps.getClass.getSimpleName}")
.setMaster("local[*]")

val sc = new SparkContext(conf)

val lines = sc.textFile("file:/E:/work/1904-bd/workspace/spark-parent-1904/data/accu.txt")
val words = lines.flatMap(_.split("\\s+"))

//统计每个单词出现的次数
val accumulator = sc.longAccumulator

val rbk = words.map(word => {
    if(word == "is")
    accumulator.add(1)
    (word, 1)
}).reduceByKey(_+_)
rbk.foreach(println)
println("================使用累加器===================")
println("is： " + accumulator.value)

Thread.sleep(10000000)
sc.stop()

- 总结

    使用累加器也能够完成上述的操作，而且只使用了一个action操作。

3. 注意

    - 累加器的调用，也就是accumulator.value必须要在action之后被调用，也就是说累加器必须在action触发之后。

    - 多次使用同一个累加器，应该尽量做到用完即重置

        accumulator.reset

    - 尽量给累加器指定name，方便我们在web-ui上面进行查看

4. 自定义累加器

    在上述3的案例基础之上，还用统计of，甚至统计a这些额外的单词，怎么做？此时就应该使用自定义累加器。

    MyAccumulator

    ```scala
    /*
        自定义累加器
        IN 指的是accmulator.add(sth.)中sth的数据类型
        OUT 指的是accmulator.value返回值的数据类型
     */
    class MyAccumulator extends AccumulatorV2[String, Map[String, Long]] {
    
        private var map = mutable.Map[String, Long]()
        /**
          * 当前累加器是否有初始化值
          * 如果为一个long的值，0就是初始化值，如果为list，Nil就是初始化值，是map，Map()就是初始化值
          */
        override def isZero: Boolean = true
    
        override def copy(): AccumulatorV2[String, Map[String, Long]] = {
            val accu = new MyAccumulator
            accu.map = this.map
            accu
        }
    
        override def reset(): Unit = map.clear()
    
        //分区内的数据累加 is: 5, of:4
        override def add(word: String): Unit = {
            if(map.contains(word)) {
                val newCount = map(word) + 1
                map.put(word, newCount)
            } else {
                map.put(word, 1)
            }
    //        map.put(word, map.getOrElse(word, 0) + 1)
        }
    
        //多个分区间的数据累加
        override def merge(other: AccumulatorV2[String, Map[String, Long]]): Unit = {
            other.value.foreach{case (word, count) => {
                if(map.contains(word)) {
                    val newCount = map(word) + count
                    map.put(word, newCount)
                } else {
                    map.put(word, count)
                }
    //            map.put(word, map.getOrElse(word, 0) + count)
            }}
        }
    
        override def value: Map[String, Long] = map.toMap
    }
    ```

    注册使用

    ```scala
    object _08AccumulatorOps {
        def main(args: Array[String]): Unit = {
            val conf = new SparkConf()
                .setAppName(s"${_08AccumulatorOps.getClass.getSimpleName}")
                .setMaster("local[*]")
    
            val sc = new SparkContext(conf)
    
            val lines = sc.textFile("file:/E:/work/1904-bd/workspace/spark-parent-1904/data/accu.txt")
            val words = lines.flatMap(_.split("\\s+"))
            //注册
            val myAccu = new MyAccumulator()
            sc.register(myAccu, "myAccu")
    
            //统计每个单词出现的次数
            val pairs = words.map(word => {
                if(word == "is" || word == "of" || word == "a")
                    myAccu.add(word)
                (word, 1)
            })
    
            val rbk = pairs.reduceByKey(_+_)
            rbk.foreach(println)
            println("=============累加器==========")
            myAccu.value.foreach(println)
            Thread.sleep(10000000)
            sc.stop()
        }
    }
    ```

3. 高级排序

3.1. 普通的排序

3.1.1. sortByKey

object _01SortByKeyOps {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
            .setAppName(s"${_01SortByKeyOps.getClass.getSimpleName}")
            .setMaster("local[2]")

        val sc = new SparkContext(conf)

        //sortByKey 数据类型为k-v,且是按照key进行排序

        val stuRDD:RDD[Student] = sc.parallelize(List(
            Student(1, "吴轩宇", 19, 168),
            Student(2, "彭国宏", 18, 175),
            Student(3, "随国强", 18, 176),
            Student(4, "闫  磊", 20, 180),
            Student(5, "王静轶", 18, 168.5)
        ))

        //按照学生身高进行降序排序
        val height2Stu = stuRDD.map(stu => (stu.height, stu))
        //注意：sortByKey是局部排序，不是全局排序，如果要进行全局排序，
        // 必须将所有的数据都拉取到一台机器上面才可以
        val sorted = height2Stu.sortByKey(ascending = false, numPartitions = 1)
        sorted.foreach{case (height, stu) => println(stu)}
        sc.stop()
    }
}

case class Student(id:Int, name:String, age:Int, height:Double)

3.1.2. sortBy

说明

这个sortByKey其实使用sortByKey来实现，但是比sortByKey更加灵活，因为sortByKey只能应用在k-v数据格式上，而这个sortByKey可以应在非k-v键值对的数据格式上面。

编程

val sortedBy = stuRDD.sortBy(stu => stu.height,
                             ascending = true,
                             numPartitions = 1
                            )(new Ordering[Double](){
       override def compare(x: Double, y: Double) = y.compareTo(x)
    },
    ClassTag.Double.asInstanceOf[ClassTag[Double]])
sortedBy.foreach(println)

总结

sortedBy的操作，除了正常的升序，分区个数以外，还需需要传递一个将原始数据类型，提取其中用于排序的字段；并且提供用于比较的方式，以及在运行时的数据类型ClassTag标记型trait。

3.1.3. takeOrdered

说明

takeOrdered也是对rdd进行排序，但是和上述的sortByKey和sortBy相比较，takeOrdered是一个action操作，返回值为一个集合，而前两者为transformation，返回值为rdd。如果我们想在driver中获取排序之后的结果，那么建议使用takeOrdered，因为该操作边排序边返回。

其实是take和sortBy的一个结合体。

takeOrdered(n)，获取排序之后的n条记录

编程

//先按照身高降序排序，身高相对按照年龄升序排 ---> 二次排序
stuRDD.takeOrdered(3)(new Ordering[Student](){
    override def compare(x: Student, y: Student) = {
        var ret = y.height.compareTo(x.height)
        if(ret == 0) {
            ret = x.age.compareTo(y.age)
        }
        ret
    }
}).foreach(println)

3.2. TopN

到这里，topN就是3.1之后执行action操作take(N),或者3.2直接takeOrderd(N)，建议使用后者，效率高于前者。

3.3. 二次排序

所谓二次排序，指的是排序字段不唯一，有多个，共同排序，仍然使用上面的数据，对学生的身高和年龄一次排序。

object _02SecondSortOps {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
            .setAppName(s"${_02SecondSortOps.getClass.getSimpleName}")
            .setMaster("local[2]")

        val sc = new SparkContext(conf)

        //sortByKey 数据类型为k-v,且是按照key进行排序

        val personRDD:RDD[Person] = sc.parallelize(List(
            Person(1, "吴轩宇", 19, 168),
            Person(2, "彭国宏", 18, 175),
            Person(3, "随国强", 18, 176),
            Person(4, "闫  磊", 20, 180),
            Person(5, "王静轶", 18, 168)
        ))
        personRDD.map(stu => (stu, null)).sortByKey(true, 1).foreach(p => println(p._1))

        sc.stop()
    }
}

case class Person(id:Int, name:String, age:Int, height:Double) extends Ordered[Person] {
    //对学生的身高和年龄依次排序
    override def compare(that: Person) = {
        var ret = this.height.compareTo(that.height)
        if(ret == 0) {
            ret = this.age.compareTo(that.age)
        }
        ret
    }
}

3.4. 分组TopN

在分组的情况之下，获取每个组内的TopN数据。

需求

基础数据：

chinese ls 91
english ww 56
chinese zs 90
chinese zl 76
english zq 88

字段分别为科目，姓名，成绩。要求：求出每个科目成绩排名前3的学生信息。

编码

object _03GroupSortTopN {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
            .setAppName(s"${_03GroupSortTopN.getClass.getSimpleName}")
            .setMaster("local[2]")

        val sc = new SparkContext(conf)

        val lines = sc.textFile("file:/E:/data/spark/topn.txt")

        //按照科目进行排序
        val course2Info:RDD[(String, String)] = lines.map(line => {
            val spaceIndex = line.indexOf(" ")
            val course = line.substring(0, spaceIndex)
            val info = line.substring(spaceIndex + 1)
            (course, info)
        })
        //按照科目排序，指的是科目内排序，不是科目间的排序，所以需要把每个科目的信息汇总
        val course2Infos:RDD[(String, Iterable[String])] = course2Info.groupByKey()//按照key进行分组

        //分组内的排序
        val sorted:RDD[(String, mutable.TreeSet[String])] = course2Infos.map{case (course, infos) => {
            val topN = mutable.TreeSet[String]()(new Ordering[String](){
                override def compare(x: String, y: String) = {
                    val xScore = x.split("\\s+")(1)
                    val yScore = y.split("\\s+")(1)
                    yScore.compareTo(xScore)
                }
            })

            for(info <- infos) {
                topN.add(info)
            }
            (course, topN.take(3))
        }}
        sorted.foreach(println)
        sc.stop()
    }
}

3.6. 优化分组TopN

说明

上述在编码过程当中使用groupByKey，我们说着这个算子的性能很差，因为没有本地预聚合，所以应该在开发过程当中尽量避免使用，能用其它代替就代替。

编码

使用combineByKey模拟

object _04GroupSortByCombineByKeyTopN {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
            .setAppName(s"${_04GroupSortByCombineByKeyTopN.getClass.getSimpleName}")
            .setMaster("local[2]")

        val sc = new SparkContext(conf)

        val lines = sc.textFile("file:/E:/data/spark/topn.txt")

        //按照科目进行排序
        val course2Info:RDD[(String, String)] = lines.map(line => {
            val spaceIndex = line.indexOf(" ")
            val course = line.substring(0, spaceIndex)
            val info = line.substring(spaceIndex + 1)
            (course, info)
        })
        //按照科目排序，指的是科目内排序，不是科目间的排序，所以需要把每个科目的信息汇总
        val course2Infos= course2Info.combineByKey(createCombiner, mergeValue, mergeCombiners)

        //分组内的排序
        val sorted:RDD[(String, mutable.TreeSet[String])] = course2Infos.map{case (course, infos) => {
            val topN = mutable.TreeSet[String]()(new Ordering[String](){
                override def compare(x: String, y: String) = {
                    val xScore = x.split("\\s+")(1)
                    val yScore = y.split("\\s+")(1)
                    yScore.compareTo(xScore)
                }
            })

            for(info <- infos) {
                topN.add(info)
            }
            (course, topN.take(3))
        }}
        sorted.foreach(println)
        sc.stop()
    }

    def createCombiner(info:String): ArrayBuffer[String] = {
        val ab = new ArrayBuffer[String]()
        ab.append(info)
        ab
    }

    def mergeValue(ab:ArrayBuffer[String], info:String): ArrayBuffer[String] = {
        ab.append(info)
        ab
    }

    def mergeCombiners(ab:ArrayBuffer[String], ab1: ArrayBuffer[String]): ArrayBuffer[String] = {
        ab.++:(ab1)
    }
}

此时这种写法和上面的groupByKey性能一模一样，没有任何的优化。

使用combineByKey的优化

object _05GroupSortByCombineByKeyTopN {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
            .setAppName(s"${_05GroupSortByCombineByKeyTopN.getClass.getSimpleName}")
            .setMaster("local[2]")

        val sc = new SparkContext(conf)

        val lines = sc.textFile("file:/E:/data/spark/topn.txt")

        //按照科目进行排序
        val course2Info:RDD[(String, String)] = lines.map(line => {
            val spaceIndex = line.indexOf(" ")
            val course = line.substring(0, spaceIndex)
            val info = line.substring(spaceIndex + 1)
            (course, info)
        })
        //按照科目排序，指的是科目内排序，不是科目间的排序，所以需要把每个科目的信息汇总
        val sorted= course2Info.combineByKey(createCombiner, mergeValue, mergeCombiners)
        sorted.foreach(println)
        sc.stop()
    }

    def createCombiner(info:String): mutable.TreeSet[String] = {
        val ts = new mutable.TreeSet[String]()(new Ordering[String](){
            override def compare(x: String, y: String) = {
                val xScore = x.split("\\s+")(1)
                val yScore = y.split("\\s+")(1)
                yScore.compareTo(xScore)
            }
        })
        ts.add(info)
        ts
    }

    def mergeValue(ab:mutable.TreeSet[String], info:String): mutable.TreeSet[String] = {
        ab.add(info)
        if(ab.size > 3) {
            ab.take(3)
        } else {
            ab
        }
    }

    def mergeCombiners(ab:mutable.TreeSet[String], ab1: mutable.TreeSet[String]): mutable.TreeSet[String] = {
        for (info <- ab1) {
            ab.add(info)
        }
        if(ab.size > 3) {
            ab.take(3)
        } else {
            ab
        }
    }
}

      sorted.foreach(println)
      sc.stop()
  }

  def createCombiner(info:String): mutable.TreeSet[String] = {
      val ts = new mutable.TreeSet[String]()(new Ordering[String](){
          override def compare(x: String, y: String) = {
              val xScore = x.split("\\s+")(1)
              val yScore = y.split("\\s+")(1)
              yScore.compareTo(xScore)
          }
      })
      ts.add(info)
      ts
  }

  def mergeValue(ab:mutable.TreeSet[String], info:String): mutable.TreeSet[String] = {
      ab.add(info)
      if(ab.size > 3) {
          ab.take(3)
      } else {
          ab
      }
  }

  def mergeCombiners(ab:mutable.TreeSet[String], ab1: mutable.TreeSet[String]): mutable.TreeSet[String] = {
      for (info <- ab1) {
          ab.add(info)
      }
      if(ab.size > 3) {
          ab.take(3)
      } else {
          ab
      }
  }

}

你可能感兴趣的:(Spark,大数据,spark)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache