ListenerDMT

RDD----RDD创建+RDD分区+RDD转换算子+RDD行动算子+实现wordc的11种方法

一、创建RDD

1、从内存中创建

2、从文件中创建RDD

二、RDD分区与分区数据匹配

1、内存分区的设定

2、内存分区数据的匹配

3、文件分区的设定

4、文件分区数据的匹配

三、RDD转换算子

1、value类型

（1）map，可以进行映射转换，可以是类型，可以是值

（2） mapPartitions 进去迭代器，返回迭代器

（3）mapPartitionsWithIndex 可以获取指定分区的数据

（4）flatMap 扁平化

（5）groupby 分组

（6）filter 过滤

（7）sample 随机抽数，放回与不放回

（8） distinct 去重

（9）coalesce 缩小分区

（10）repartition 扩大分区

（11）sortBy 默认升序排序

2、双value类型

（1）交集、并集、差集、拉链

3、key value类型

（1）partitionBy 将数据重新分配

（2）reduceByKey 相同key进行 value聚合

（3） groupByKey 相同的key的数据分到一个组中，形成一个对偶元组

（4）reduceByKey 和 groupByKey

（5）aggregateByKey 分区内，分区间计算逻辑不一致

（6）foldByKey 分区内与分区间计算逻辑一致，简化写

（7）72 一个小练习，获取相同key的平均值

（8）combineByKey

（9）74 reduceByKey、foldByKey、aggregateByKey、combineByKey的区别？

（10） join 和 leftOuterJoin

（11） cogroup 实现分组连接

四、RDD行动算子

1、什么叫行动算子？

2、行动算子

（1）reduce、collect、count、first、take、takeOrdered

(2) aggregate 计算逻辑和 aggregateByKey

（3）fold 当aggregate 分区内与分区间计算逻辑一致时，使用它进行简化

（4）countByValue 统计每个出现的次数

（5）countByKey 统计每个key出现的次数

（6）save相关算子

五、实现wordcou的11种方法

一、创建RDD

1、从内存中创建

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]): Unit = {
    //准备环境
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    //创建RDD
    //从内存中创建RDD，将内存中集合的数据作为处理的数据源
    val seq = Seq[Int](1, 2, 3, 4)
    //collect 汇总


//    sc.parallelize(seq).collect().foreach(println)
//    makeRDD方法在底层实现就是调用，rdd的对象parallelize 方法  ！！！
    sc.makeRDD(seq).collect().foreach(println)


    //关闭环境
    sc.stop()
  }
}

2、从文件中创建RDD

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    // 从文件中创建RDD，作为处理的数据源
    // path路径以当前的环境，根路径为基准，可以写绝对路径，也可以写相对路径
    // 路径可以是具体文件，也可是目录，是目录就会统计目录下所有文件内容
    // 路径也可是使用通配符 如：Data/Wc*
    //路径也可是 hdfs路径  如： hdfs://hadoop:9000/test.txt
    val rdd = sc.textFile("Data/Wcdata.txt")
    rdd.collect().foreach(println)
    sc.stop()
  }
}

二、RDD分区与分区数据匹配

1、内存分区的设定

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    
    //配置分区
    conf.set("spark.default.parallelism","4")
    
    val sc = new SparkContext(conf)

    //makeRDD 可以传递第二个参数，表示分区的数量
    //若不写第二个参数，使用默认值：defaultParallelism
    // scheduler.conf.getInt("spark.default.parallelism", totalCores)
    //spark在默认情况下，从配置对象中获取参数  spark.default.parallelism
    // 如果获取不到，就使用 totalCores 属性，这个属性取值为当前的环境最大可用核数
    val rdd = sc.makeRDD(List(1, 2, 3, 4),2)


    //saveAsTextFile将处理的数据保存成分区文件
    rdd.saveAsTextFile("output")


    sc.stop()
  }
}

2、内存分区数据的匹配

3、文件分区的设定

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")

    //配置分区
    conf.set("spark.default.parallelism","4")

    val sc = new SparkContext(conf)

    // textFile 也可以默认指定分区
    //minPartitions  最小分区数量
    //math.min(defaultParallelism, 2)
    //若不想使用默认的分区数量，可以使用第二个分区，指定分区数
    //spark 读取文件，底层使用的就是hadoop的读取方式
    //分区计算方式：
    /*比如指定两个分区，文件有7个字节(回车等也算)
    * 文件 totalSize =  7
    * 指定分区数 par =2
    * goalSize = 7/2 = 3
    * 那么每个分区需要存放2  还余 1 ，1占3的百分之30，
    * 超过hadoop分区百分之10，就会再增加一个分区，所以最后是 3个分区
    * */
    val rdd = sc.textFile("Data/Wcdata.txt",3)


    //saveAsTextFile将处理的数据保存成分区文件
    rdd.saveAsTextFile("output")


    sc.stop()
  }
}

4、文件分区数据的匹配

三、RDD转换算子

1、value类型

（1）map，可以进行映射转换，可以是类型，可以是值

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))
    //1 2 3 4 -> 2 4 6 8

    //1 写法逻辑
//    def mapfunction(num:Int): Int = {
//      num *2
//    }
//    rdd.map(mapfunction).collect().foreach(println)

    //2 简易写法
//    rdd.map((num: Int) => {num *2}).collect().foreach(println)

    //3  将2再次简化
//    当代码逻辑只有一行，花括号可以省略
//    rdd.map((num: Int) => num *2).collect().foreach(println)
//    参数类型可以自动推断出来，类型可以省略
//    rdd.map((num) => num *2).collect().foreach(println)
//    如果参数列表只有一个，小括号可以省略
//    rdd.map(num => num *2).collect().foreach(println)
//    参数在逻辑中只出现一次，并且按照顺序出现，可以使用下划线代替
    rdd.map(_*2).collect().foreach(println)





    sc.stop()
  }
}

（2） mapPartitions 进去迭代器，返回迭代器

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4),2)
    //1 2 3 4 -> 2 4 6 8

    // mapPartitions 空间换时间，会将整个分区的数据，加载到内存中，
    // 然后以分区为单位进行数据加载转换操作，处理完的数据不会被释放，所以注意内存，防止溢出
    rdd.mapPartitions(num =>{num.map(_*2)}).collect().foreach(println)


    //要求返回迭代器，求每个分区最大
    rdd.mapPartitions(num => {
      List(num.max).iterator
    }).collect.foreach(println)



    sc.stop()
  }
}

（3）mapPartitionsWithIndex 可以获取指定分区的数据

获取第二个分区的数据

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4),2)
    //1 2 3 4 -> 2 4 6 8
    //需求只想获取第二个分区数据

    rdd.mapPartitionsWithIndex((index,iter) => {
      if (index == 1) {
        iter
      }
      else {
        //不符合返回一个空
        Nil.iterator
      }
    })





    sc.stop()
  }
}

查看数据在哪个分区

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))
    //1 2 3 4 -> 2 4 6 8
    //需求 查看数据在哪个分区

    rdd.mapPartitionsWithIndex((index,inter) =>{
      inter.map(num => {
        (index,num)
      })
    }).collect().foreach(println)



    sc.stop()
  }
}

（4）flatMap 扁平化

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(List(1, 2), List(3, 4)))
//    List(1, 2)
//    List(3, 4)
//    将数据拆分成个体
    rdd.flatMap(list =>{
      list
    }).collect().foreach(println)





//    拆分 字符串
    val rdd1 = sc.makeRDD(List("hello spark", "spark hadoop"))
    rdd1.flatMap(list =>{
      list
    }).collect().foreach(println)
    // 这样打平是每个字母包括空格都打平，要进行分隔

    
    rdd1.flatMap(list =>{
      list.split(" ")
    }).collect().foreach(println)


    sc.stop()
  }
}

模式匹配

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(List(1,2),1,2))

//    模式匹配
    rdd.flatMap( data =>{
        data match{
          case list:List[_] => list
          case dat => List(dat)
        }
    }).collect().foreach(println)


    sc.stop()
  }
}

（5）groupby 分组

分组原理

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,3,4),2)


    //1分组原理
    //groupBy会将数据源中每一个数据进行分区判断，根据返回的分组key进行分组
    // 相同的 key值会被放在同一个组中
    def groupa(num: Int): Int ={
//      取模为key
      num %2
    }
    rdd.groupBy(groupa).collect().foreach(println)




    //2

    sc.stop()
  }
}

根据单词的首字母进行分组

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    
    val rdd = sc.makeRDD(List("hello","spark","hello","hive"),2)

    rdd.groupBy(_.charAt(0)).collect().foreach(println)






    sc.stop()
  }
}

groupby 分组和分区没有必然联系

groupby 是一个将数据打乱重新组成的过程，所以有shuffle

（6）filter 过滤

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test3 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))

//  只保留奇数
//  rdd.filter(num =>{num%2!=0})
    rdd.filter(_%2!=0).collect().foreach(println)



    sc.stop()
  }
}

当对数据进行筛选过滤后，符合规则的数据留下，不符和的舍去，分区数不变，但这很可能造成分区内数据分布的不均匀，导致数据倾斜

（7）sample 随机抽数，放回与不放回

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)



    val rdd =sc.makeRDD(List(1,2,3,4),1)
    // 抽取数据不放回（伯努利算法）
    // 具体实现：根据种子和随机算法算出一个数和第二个参数设置几率比较，小于第二个参数要，大于不要
    // 第一个参数：抽取的数据是否放回，false：不放回
    // 第二个参数：抽取的几率，范围在[0,1]之间,0：全不取；1：全取；
    // 第三个参数：随机数种子
    val dataRDD1 = rdd.sample(false, 0.5)

    // 抽取数据放回（泊松算法）
    // 第一个参数：抽取的数据是否放回，true：放回；false：不放回
    // 第二个参数：重复数据的几率，范围大于等于0.表示每一个元素被期望抽取到的次数
    // 第三个参数：随机数种子
    val dataRDD2 = rdd.sample(true, 2)



    sc.stop()
  }
}

有啥用？

在实际开发过程中，往往会出现数据倾斜的情况。那么可以从数据倾斜的分区中抽取数据，查看数据的规则。分析后，可以进行改善处理，让数据更加均匀。

（8） distinct 去重

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,3,4,1,2),1)

    // 原理 map(x => (x, null)).reduceByKey((x, _) => x, numPartitions).map(_._1)
    val rdd1 = rdd.distinct()

    val rdd2 = rdd.distinct(2)

    //发现重新分为两个区
    rdd2.saveAsTextFile("output")




    sc.stop()
  }
}

（9）coalesce 缩小分区

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,3,4,1,2),6)

    //coalesce算子默认情况下无法扩大分区，因为默认情况下不会打乱数据。
    // 扩大分区是没有意义的，如果就想扩大分区，那么必须使用shuffle，打乱数据。即第二个参数
    val rdd1 = rdd.coalesce(2)

    rdd1.saveAsTextFile("output")

    sc.stop()
  }
}

（10）repartition 扩大分区

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,3,4,1,2),2)

    //repartition底层就是coalesce(numPartitions, shuffle = true)
    val rdd1 = rdd.repartition(4)

    rdd1.saveAsTextFile("output")
    
    sc.stop()
  }
}

repartition算子其实底层调用的就是coalesce算子，只不过固定使用了shuffle的操作,可以让数据更均衡一下，可以有效防止数据倾斜问题。

如果缩减分区，一般就采用coalesce，如果想扩大分区，就采用repartition

（11）sortBy 默认升序排序

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,6,4,1,2),2)
    
    //默认升序，不改变分区，有shuffle
    rdd.sortBy(num => num).collect().foreach(println)

    //第二个参数 false  降序
    rdd.sortBy(num => num,false).collect().foreach(println)


    sc.stop()
  }
}

2、双value类型

（1）交集、并集、差集、拉链

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test4 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4))
    val rdd2 = sc.makeRDD(List(3,4,5,6))

    //交集
    println(rdd1.intersection(rdd2).collect().mkString(","))

    //并集
    println(rdd1.union(rdd2).collect().mkString(","))


    //差集   站在rdd1的角度上去看和rdd2的差集  【1,2】
    println(rdd1.subtract(rdd2).collect().mkString(","))


    //拉链 预想结果  13  24  35 46
    println(rdd1.zip(rdd2).collect().mkString(","))

    sc.stop()
  }
}

如果两个RDD数据类型不一致怎么办？会出错

交集并集和差集要求两个数据源数据类型保持一致

拉链操作，两个数据源类型可以不一致

但是拉链操作要求我们的两个数据源的分区数量要保持一致，并且还要保持两个数据源分区中的数据要保持一致

3、key value类型

（1）partitionBy 将数据重新分配

package com.test

import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}

object Test5 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))

    //partitionBy 将数据进行重分配  使用规则HashPartitioner
    val newrdd = rdd.map(num => {
      (num, 1)
    }).partitionBy(new HashPartitioner(2))

    newrdd.saveAsTextFile("output")

    sc.stop()
  }
}

（2）reduceByKey 相同key进行 value聚合

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object reduceBykey {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(("a", 1), ("a", 2), ("b", 1), ("c", 3)))

    //reduceByKey
    //相同的key进行value数据的聚合（两两聚合）
    //如果key的数据只有一个，是不会参与运算的！！！直接返回
    rdd.reduceByKey((x,y) =>(x+y)).collect().foreach(println)

    sc.stop()
  }
}

（3） groupByKey 相同的key的数据分到一个组中，形成一个对偶元组

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object groupBykey {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(("a", 1), ("a", 2), ("b", 1), ("c", 3)))

    //groupByKey
    //将数据源中的数据，相同的key的数据分到一个组中，形成一个对偶元组
    //元组中第一个元素 是  key
    //元组中第二个元素 是 相同key的value 的集合
    rdd.groupByKey().collect().foreach(println)
    println("-----------------------------------")
    rdd.groupBy(_._1).collect().foreach(println)


    sc.stop()
  }
}

结果：

(a,CompactBuffer(1, 2))
(b,CompactBuffer(1))
(c,CompactBuffer(3))
-----------------------------------
(a,CompactBuffer((a,1), (a,2)))
(b,CompactBuffer((b,1)))
(c,CompactBuffer((c,3)))

（4）reduceByKey 和 groupByKey

groupByKey大致原理

reduceByKey 大致原理（支持分区内预聚合，可以有效减少shuffle时的数据量，提升shuffle的性能）

总结：

两个算子没有使用上的区别。所以使用的时候需要根据应用场景来选择。

从性能上考虑，reduceByKey存在预聚合功能，这样，在shuffle的过程中，落盘的数据量会变少，所以读写磁盘的速度会变快。性能更高

（5）aggregateByKey 分区内，分区间计算逻辑不一致

reduceByKey 支持分区内预聚合可以有效减少shuffle落盘数据量

但是这要求我们使用reduceByKey 时分区内与分区间的计算规则要一样，例如统计wc

相同的key 两两之间聚合

但是当遇到计算逻辑不一致时，比如分区内求最大值，分区间求和，此时reduceByKey 就不太能满足要求。

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)


    val rdd = sc.makeRDD(List(("a", 1), ("a", 2), ("a", 3), ("a", 4)),2)
    //第一个参数列表
    //需要传递一个参数，表示为初始值
    // 主要用于当碰见第一个key的时候，和value进行分区内的计算
    //第二个参数列表
    //需要两个参数，第一个参数 表示分区内计算规则
    //              第二个参数 表示分区间计算规则
    rdd.aggregateByKey(0)(
      (x,y) => math.max(x,y),
      (x,y) => x +y
    ).foreach(println)

    


    sc.stop()
  }
}

（6）foldByKey 分区内与分区间计算逻辑一致，简化写

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)


    val rdd = sc.makeRDD(List(("a", 1), ("b", 2), ("c", 3), ("a", 4)),2)

//    rdd.aggregateByKey(0)(_+_,_+_).collect().foreach(println)

    //如果聚合计算时，分区内和分区间计算逻辑一致，spark提供了简化方法

    rdd.foldByKey(0)(_+_).collect().foreach(println)




    sc.stop()
  }
}

（7）72 一个小练习，获取相同key的平均值

（8）combineByKey

一个分区下：

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test10 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(
      ("a", 1), ("a", 2), ("a", 3), ("b", 4), ("b", 5), ("c", 6)
    ),1)

    rdd.mapPartitionsWithIndex((index,partition) => {
      println("----------------"+index)
      partition.map(x => s"${index},${x}")
    }).foreach(println)

    val res = rdd.combineByKey(
      (v:Int) => v + "_" ,    //初始化
      (c:String,v:Int) => c + "@" + v ,  //同一分区内计算
      (c1:String,c2:String) => c1 + "$" + c2 ,  //跨分区合并
    )
    println(res.collect().mkString(","))




    sc.stop()
  }
}

打印结果为：

----------------0
0,(a,1)
0,(a,2)
0,(a,3)
0,(b,4)
0,(b,5)
0,(c,6)
(a,1_@2@3),(b,4_@5),(c,6_)

三个分区下：

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test10 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(
      ("a", 1), ("a", 2), ("a", 3), ("b", 4), ("b", 5), ("c", 6)
    ),3)

    rdd.mapPartitionsWithIndex((index,partition) => {
      println("----------------"+index)
      partition.map(x => s"${index},${x}")
    }).foreach(println)

    val res = rdd.combineByKey(
      (v:Int) => v + "_" ,    //初始化
      (c:String,v:Int) => c + "@" + v ,  //同一分区内计算
      (c1:String,c2:String) => c1 + "$" + c2 ,  //跨分区合并
    )
    println(res.collect().mkString(","))




    sc.stop()
  }
}

打印结果为：

----------------1
----------------0
----------------2
2,(b,5)
1,(a,3)
0,(a,1)
1,(b,4)
2,(c,6)
0,(a,2)
(c,6_),(a,1_@2$3_),(b,4_$5_)

（9）74 reduceByKey、foldByKey、aggregateByKey、combineByKey的区别？

从源码的角度来讲，四个算子的底层逻辑是相同的。

aggregateByKey的算子会将初始值和第一个value使用分区内的计算规则进行计算

foldByKey的算子的分区内和分区间的计算规则相同，并且初始值和第一个value使用的规则相同

combineByKey第一个参数就是对第一个value进行处理，所以无需初始值。

reduceByKey不会对第一个value进行处理，分区内和分区间计算规则相同

上面的四个算子都支持预聚合功能。所以shuffle性能比较高

上面的四个算子都可以实现WordCount

（10） join 和 leftOuterJoin

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)


    val rdd1 = sc.makeRDD(List(("a", 1), ("b", 2), ("c", 3),("d",0),("a",22)))
    val rdd2 = sc.makeRDD(List(("a", 4), ("b", 5), ("c", 6)))

    // join
    // 两个不同数据源的数据，相同key的的value会连接在一起，形成元组
    // 类似inner join
    rdd1.join(rdd2).collect().foreach(println)

    println("-------------------------------------------------")

    //leftOuterJoin
    rdd1.leftOuterJoin(rdd2).collect().foreach(println)



    sc.stop()
  }
}

打印结果：

(a,(1,4))
(a,(22,4))
(b,(2,5))
(c,(3,6))
-------------------------------------------------
(a,(1,Some(4)))
(a,(22,Some(4)))
(b,(2,Some(5)))
(c,(3,Some(6)))
(d,(0,None))

（11） cogroup 实现分组连接

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)


    val rdd1 = sc.makeRDD(List(("a", 1), ("b", 2), ("c", 3),("d",0),("a",22)))
    val rdd2 = sc.makeRDD(List(("a", 4), ("b", 5), ("c", 6)))

    // cogroup  : connect + group
    //
    rdd1.cogroup(rdd2).collect().foreach(println)

    sc.stop()
  }
}

打印结果：

(a,(CompactBuffer(1, 22),CompactBuffer(4)))
(b,(CompactBuffer(2),CompactBuffer(5)))
(c,(CompactBuffer(3),CompactBuffer(6)))
(d,(CompactBuffer(0),CompactBuffer()))

四、RDD行动算子

1、什么叫行动算子？

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))

    //行动算子，其实就是触发作业（job）执行的方法
    //底层代码调用的是环境对象的 runJob 方法
    //底层代码会创建ActiveJob,并且提交执行
    rdd.collect()

    sc.stop()
  }
}

2、行动算子

（1）reduce、collect、count、first、take、takeOrdered

package com.test

import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))

    //
    println(rdd.reduce(_+_))


    // collect :会将不同分区的数据按照分区顺序采集到Driver端内存中，形成数组
    rdd.collect().foreach(println)

    // count: 获取数据源中数据的个数
    println(rdd.count())

    //first :获取数据源中数据的第一个
    print(rdd.first())

    //take : 获取数据中的 N 个数据
    rdd.take(3).foreach(println)

    //takeOrdered:数据排序后，取N个数据
    rdd.takeOrdered(3).foreach(println)

    

    sc.stop()
  }
}

(2) aggregate 计算逻辑和 aggregateByKey

区别，它的初始值会既参与分区内计算，也参与分区间计算

package com.peizk.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("My HdfsApp")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,3,4),2)

    println(rdd.aggregate(10)(_ + _, _ + _))


    sc.stop()
  }
}

（3）fold 当aggregate 分区内与分区间计算逻辑一致时，使用它进行简化

package com.peizk.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("My HdfsApp")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,3,4),2)

    println(rdd.fold(10)(_ + _))


    sc.stop()
  }
}

（4）countByValue 统计每个出现的次数

package com.peizk.test

import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("My HdfsApp")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(1,2,1,2,3,4,4,4,4),2)

    //countByValue,可以统计出每个值出现的次数
    println(rdd.countByValue())


    sc.stop()
  }
}

打印结果：

Map(4 -> 4, 2 -> 2, 1 -> 2, 3 -> 1)

（5）countByKey 统计每个key出现的次数

package com.peizk.test

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("My HdfsApp")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(
      (1, "a"), (1, "a"), (1, "a"), (2, "b"), (3, "c"), (3, "c")
    ))

    // 统计每种key的个数
    println(rdd.countByKey())

    sc.stop()
  }
}

（6）save相关算子

package com.peizk.test

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Test2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("My HdfsApp")
    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(List(
      (1, "a"), (1, "a"), (1, "a"), (2, "b"), (3, "c"), (3, "c")
    ))

    rdd.saveAsTextFile("output1")

    rdd.saveAsObjectFile("output2")

    //saveAsSequenceFile  方法要求数据的格式必须为 K -V 类型
    rdd.saveAsSequenceFile("output3")

    sc.stop()
  }
}

五、实现wordcou的11种方法

package com.test

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

object Test {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("my app")
    val sc = new SparkContext(conf)

    wordcount1(sc)



    sc.stop()
  }

  //1 group by
  def wordcount1(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val group = word.groupBy(word => word)
    val worcount = group.mapValues(iter => iter.size)

  }

  // 2 groupByKey 要有k v类型  效率不高  走shuffle
  def wordcount2(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val wordone = word.map((_, 1))
    val group = wordone.groupByKey()
    val worcount = group.mapValues(iter => iter.size)

  }

  // 3 reduceByKey 较groupByKey 效率更好点
  def wordcount3(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val wordone = word.map((_, 1))
    val worcount = wordone.reduceByKey(_+_)

  }

  // 4 aggregateByKey
  def wordcount4(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val wordone = word.map((_, 1))
    val worcount = wordone.aggregateByKey(0)(_+_,_+_)

  }

  // 5 foldByKey 当aggregateByKey分区内分区外规则一样时
  def wordcount5(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val wordone = word.map((_, 1))
    val worcount = wordone.foldByKey(0)(_+_)

  }

  // 6 combineByKey  需要传三个参数
  def wordcount6(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val wordone = word.map((_, 1))
    val worcount = wordone.combineByKey(
      v=>v,
      (x:Int,y)=>x+y,
      (x:Int,y:Int)=>x+y
    )

  }

  // 7 countByKey
  def wordcount7(sc: SparkContext): Unit = {
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val wordone = word.map((_, 1))
    val worcount = wordone.countByKey()
  }

  // 8 countByValue
  def wordcount8(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))
    val worcount = word.countByValue()

  }

  // 9 reduce,aggregate,fold
  def wordcount9(sc: SparkContext): Unit ={
    val rdd = sc.makeRDD(List("Hello spark", "Hello scala"))
    val word = rdd.flatMap(_.split(" "))

    val mapword = word.map(
      word => {
        mutable.Map[String, Long]((word, 1))
      }
    )

    val wordcount = mapword.reduce(
      (map1, map2) => {
        map1
      }
    )

  }





}

你可能感兴趣的:(Spark学习,spark,scala,大数据)

时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【Spark征服之路-3.7-Spark-SQL核心编程（六）】 qq_46394486 spark sql ajax
数据加载与保存：通用方式：SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet加载数据：spark.read.load是加载数据的通用方法。如果读取不同格式的数据，可以对不同的数据格式进行设定。spark.read.format("…")[.option("…")].
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
Spark RDD 之 Partition 博弈史密斯
SparkRDD怎么理解RDD的粗粒度模式？对比细粒度模式SparkRDD的task数量是由什么决定的？一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度支持保存点(checkpoint)虽然RDD可以通过lineage实现faultrecove
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&