林柚晞你今天博学了吗

“Spark三剑客”之SparkCore和SparkSql学习笔记（零基础入门）（一）

1 Spark的介绍

1.1 Spark的定义

1.2 Spark为什么比MapReduce快？

1.3 RDD 弹性式分布式数据集

1.4 MasterURL

1.5 Spark为什么很占内存？

1.6 SparkCount的典型案例（真我瞎写的，非官方）

1.7 spark代码的核心框架（指的是main方法里的）

2 RDD的那些事

2.1 介绍RDD

2.2 Transformation算子

2.2.1 map算子

2.2.2 flatmap算子

2.2.3 filter算子

2.2.4 sample

2.2.5 union

2.2.6 distinct

2.2.7 join

2.2.8 gourpByKey

2.3.9 reduceByKey

2.2.10 sortByKey

2.2.11 mapPartitions

2.2.12 groupByKey

2.2.13 reduceByKey

2.2.14 sortByKey

2.2.15 mapPartitions

2.2.16 coalesce和repartition

2.2.16 mapPartitionWithIndex

2.3 Action算子

2.3.1 foreach

2.3.2 count

2.3.3 take(n)

2.4.4 first

2.3.5 collect

2.3.6 reduce

2.3.7 countByKey

2.3.8 saveAsTextFile和saveAsHadoopFile和saveAsObjectFile和saveAsSequenceFile

2.4 “持久化”操作

2.4.1 spark持久化的含义

2.4.2 如何持久化

2.4.3 持久化策略

2.5 共享变量

2.5.1 广播变量

2.5.2 累加器

3 SparkSQL

3.1.1定义

3.1.2 rdd dataframe dataset

3.2编程入门

3.2.1 JavaBean存入Dataframe

3.2.2 JavaBean存入Dataset

3.2.3 动态编程这里就拿dataframe做例子

3.3 RDD Dataframe DataSet之间的转换

3.4 读取数据以及数据的转存

3.5 sparksql与hive的整合

3.6 sparksql的自定义函数

3.6.1 自定义udf函数

3.6.2 自定义UDAF函数

1 Spark的介绍

1.1 Spark的定义

它是一个集成了离线计算、实时计算、SQL查询、机器学习、图计算为一体的一站式框架。

一站式的体现：既可以做离线计算（批处理），也可以做其他的（SQL查询、机器学习、图计算）

flink对于机器学习、图计算支持真的的不太友好哈。

1.2 Spark为什么比MapReduce快？

因为Spark是基于内存计算，Spark运行起来只有一次Suffle，但是MapReduce存在两次Suffle。

1.3 RDD 弹性式分布式数据集

弹性式：Spark运行时导致内存溢出，会把数据落地到磁盘上，并不会导致数据丢失。
数据集：其实就是一个存放数据的地方，可以认为是一个不可变的Scala集合。
RDD的特点： 只读、可分区、分布式的数据集。这个数据集全部或者一部分可以缓存在内存中（这里有个小Tips：就是缓存内存就是对RDD做了持久化操作哦），在多次计算时被重用。
RDD的存在：RDD的计算和数据保存都在Worker上（Spark的集群模式是主从架构，一个Master调度N个Worker）。RDD是分区的，每个分区分布在集群中的不同Worker节点上面，这样的好处就是RDD可以并行式计算。
RDD的来源：可以读取HDFS或者hive中的数据，也可以自己创建（makeRDD）。
有关MapReduce：
好处：自动容错、负载均衡、高扩展
坏处：采用非循环的数据列模型，进行计算的时候数据迭代进行大量的磁盘IO流。
但是Spark避免了MapReduce的坏处，采用血缘追溯，通过执行时产生的有向无环图，找到数据故障的partition，提高容错性。
有关RDD的封装：spark2.X版本RDD已经被封装了，我们做开发的时候不会使用rdd，而是直接使用DataSet或者DataFrame进行计算。

1.4 MasterURL

spark编程是通过SparkConf.setMaster传递线程运行的参数，以及是线程采用什么模式

master

含义

local

程序在本地运行，同时为本地程序提供一个线程来处理spark程序

local[M]

程序在本地运行，同时为本地程序提供M个线程来处理spark程序

local[*]

程序在本地运行，同时为本地程序提供当前计算机CPU Core数个线程来处理spark程序

local[M,N]

程序在本地运行，同时为本地程序分配M个工作线程来处理，如果程序提交失败，会进行最多N次重试

spark://ip:port

基于Standalone模式运行，spark程序提交到ip和port对应的master上运行

spark://ip1:port1，ip2:port2

基于Standalone ha模式运行，spark程序提交到ip和port对应的master上运行

yarn [deploy-mode=cluster]

yarn的集群模式（一般是生产环境中使用）。

基于yarn模式运行，基于yarn的cluster模式，这个程序会被提交给yarn集群中的resourceManager，然后有RM分配给对应NodeMananger执行

yarn [deploy-mode=client]

yarn的客户端模式（一般是生产环境中做测试时使用）

基于yarn模式运行，基于yarn的client模式，只会在提交spark程序的机器上运行

1.5 Spark为什么很占内存？

因为Spark运行的时候，每个job的运行阶段都会存在副本，即使运行完了也依然存在内存中，所以很占用内存。

1.6 SparkCount的典型案例（真我瞎写的，非官方）

idea中的pom.xml



    4.0.0

    org.example
    spark_sz2102
    1.0-SNAPSHOT


    
    
        1.8
        1.8
        UTF-8
        2.11.8
        2.4.5
        2.7.6
        2.11
    
    
    
        
            org.scala-lang
            scala-library
            ${scala.version}
        
        
            org.apache.spark
            spark-core_2.11
            ${spark.version}
        
        
            org.apache.hadoop
            hadoop-client
            ${hadoop.version}
        
    

    
    
        
        src/main/scala
        
        
            
            
                net.alchim31.maven
                scala-maven-plugin
                3.2.2
                
                    
                        
                            compile
                            testCompile
                        
                        
                            
                                -dependencyfile
                                ${project.build.directory}/.scala_dependencies
                            
                        
                    
                
            
            
                
                org.apache.maven.plugins
                maven-shade-plugin
                2.4.3
                
                    
                        package
                        
                            shade
                        
                        
                            
                            
                                *:*
                                    
                                        META-INF/*.SF
                                        META-INF/*.DSA
                                        META-INF/*.RSA

在resource中放一个log4j.properties

# Set everything to be logged to the console
log4j.rootCategory=ERROR, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Set the default spark-shell log level to WARN. When running the spark-shell, the
# log level for this class is used to overwrite the root logger's log level, so that
# the user can have different defaults for the shell and regular Spark apps.
log4j.logger.org.apache.spark.repl.Main=WARN

# Settings to quiet third party logs that are too verbose
log4j.logger.org.spark_project.jetty=WARN
log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR

# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support
log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

自己创建了一个文档

a.txt的内容

hello word
hello hadoop
hello jdk

统计的代码

package com.qf.bigdata
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object TestDemo13 {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("wordcount")
    val sc: SparkContext = new SparkContext(conf)
     val lines:RDD[String] = sc.textFile("D:/data/a.txt")
    val words:RDD[(String,Int)]=lines.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_)
    words.foreach(println)
    sc.stop()
  }
}

1.7 spark代码的核心框架（指的是main方法里的）

对于countword程序的画图理解

2 RDD的那些事

2.1 介绍RDD

每个spark应用程序都包含了一个驱动程序，该程序驱动了功能在集群上执行各种操作。
RDD只是一个抽象的逻辑定义，不是真实存在的。
RDD是一个跨集群节点的集合，处理数据可以并行操作。
RDD可以实现现有的scala集合进行转换创建RDD。
Spark可以把RDD持久化，并行操作中可以高效复用。
RDD快速恢复数据是通过血缘追溯，找到分区中的数据故障，快速恢复数据，提高容错性。
RDD的共享变量：主要是广播变量和累加器。对于不同节点并行运行同一个算子，会把算子中使用的每个变量的副本传送给每个任务，任务之间需要共享变量。

2.2 Transformation算子

2.2.1 map算子

def map[U: ClassTag](f: T => U): RDD[U]

U : 表示f函数的返回值类型

T : 表示RDD中的元素类型的返回值

RDD[U] ：通过map算子处理之后的返回类型，返回的RDD[U]，这里说明map处理之后返回的是一个新的RDD的副本，RDD的副本中的元素类型是由我们的U类型决定

f : 函数

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val txtRDD:RDD[String] = sc.parallelize(Array(
      "hello world",
      "hello",
      "world"
    ),2)
    val arrRDD:RDD[Array[String]] = txtRDD.map(_.split("\\s+"))
    arrRDD.foreach(println)
}
}

2.2.2 flatmap算子

def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]

TraversableOnce[U]: 表示f函数的返回值类型,TraversableOnce就把它看作为一个集合即可

U ：表示f函数返回值类型的一个元素的类型

T : 表示RDD中的元素类型的返回值

RDD[U] ：通过map算子处理之后的返回类型，返回的RDD[U]，这里说明map处理之后返回的是一个新的RDD的副本，RDD的副本中的元素类型是由我们的U类型决定

f:函数

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val txtRDD:RDD[String] = sc.parallelize(Array(
      "hello world",
      "hello",
      "world"
    ),2)
    val flatMapRDD:RDD[String] = txtRDD.flatMap(_.split("\\s+"))
    flatMapRDD.foreach(println)
}
}

2.2.3 filter算子

 def filter(f: T => Boolean): RDD[T]

T : 表示RDD中的元素类型的返回值

f:函数

Boolean:f函数的返回类型

作用：将RDD中的元素过滤，把f函数返回为true的保留。产生一个新的RDD副本

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val txtRDD:RDD[String] = sc.parallelize(Array(
      "hello world",
      "hello",
      "world"
    ),2)
    val filterRDD:RDD[String] = txtRDD.filter(_.contains("hello"))
    filterRDD.foreach(println)
}
}

2.2.4 sample

def sample(
withReplacement: Boolean,
fraction: Double,
seed: Long = Utils.random.nextLong): RDD[T]

withReplacement：抽样方式，true有返回抽样，false无返回抽样

fraction：抽样因子/比例,取值范围介于0~1之间

seed：随机数种子

作用：抽样的查询

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())

    val listRDD:RDD[Int] = sc.parallelize(1 to 1000)
    var res: RDD[Int] = listRDD.sample(true,0.01)
    println(res.count())
    println("_"*10)
     res = listRDD.sample(true,0.01)
    println(res.count())
    println("_"*10)

}
}

2.2.5 union

def union(other: RDD[T]): RDD[T]

other ：需要进行合并的RDD

返回值：合并之后的RDD

作用：将两个RDD进行合并形成一个新的RDD。类似于SQL中的union all

就是两个rdd元素有一样的也都会出现，不会去重。

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
   println("union------------------->")
    val listRDD1:RDD[Int] = sc.parallelize(List(1,2,3,4,5))
    val listRDD2:RDD[Int] = sc.parallelize(List(5,6,7,8,9,10))
    listRDD1.union(listRDD2).foreach(println)
   sc.stop()

}
}

2.2.6 distinct

def distinct(): RDD[T]

作用：将一个RDD中相同的元素剔除，然会一个新的RDD

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
   println("union------------------->")
    val listRDD1:RDD[Int] = sc.parallelize(List(1,2,3,4,5))
    val listRDD2:RDD[Int] = sc.parallelize(List(5,6,7,8,9,10))
    listRDD1.union(listRDD2).distinct().foreach(println)
   sc.stop()

}
}

2.2.7 join

一 sql的join
1. 交叉查实训
select * from A a accross join B b; 这种方式会产生笛卡尔积，在工作中一定要避免

2. 内连接
select * from A a [inner] join B b [where|on a.id = b.id];

3. 外连接
3.1 左外 : 查询到所有的左表数据，右边要符合条件
select * from A a left [outer] join B b on a.id = b.id];

3.2 右外：查询到所有的右表数据，左边要符合条件
select * from A a right [outer] join B b on a.id = b.id];

3.3 全外：两边表都能查询
select * from A a full [outer] join B b on a.id = b.id];

3.4 左半连接：一般在工作中不用

二 spark的join
e.g. 假设RDD1[K,V], RDD2[K,W]

1. 内连接
val innerRDD[(K,(V, W))]rdd1.join(rdd2)

2. 左外
val leftRDD[(K,(V, Option(W)))]rdd1.leftOuterJoin(rdd2)

3. 右外
val rightRDD[(K,(Option(V), W))]rdd1.rightOuterJoin(rdd2)

4. 全外
val fullRDD[(K,(Option(V), Option(W))]rdd1.fullOuterJoin(rdd2)

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
   val stuList = List(
     "1 刘诗诗女 18",
     "2 欧阳娜娜女 55",
     "3 李冰冰女 33",
     "4 蒋勤勤女 34",
     "6 王冰冰女 11"
   )
   val subjectList = List(
     "1 语文 79",
     "1 数学 0",
     "1 体育 99",
     "2 语文 69",
     "2 数学 10",
     "2 英语 89",
     "2 体育 19",
     "3 语文 79",
     "3 数学 69",
     "3 英语 99",
     "4 语文 19",
     "4 数学 40",
     "4 英语 69",
     "4 艺术 40",
     "5 语文 69",
     "5 数学 69"
   )
    val stuRDD:RDD[String] = sc.parallelize(stuList)
    val subjectRDD:RDD[String] = sc.parallelize(subjectList)
    //join算子只有在二维元组才能使用
    //下面这个是对sturdd的id和其余信息切割，然后做成了一个元组
    val sid2StuInfoRDD:RDD[(Int,String)] = stuRDD.map(line =>{
      val sid = line.substring(0,line.indexOf(" ")).toInt
      val info = line.substring(line.indexOf(" ") + 1)
      (sid,info)
    })
    //下面这个代码是测试切割效果
    sid2StuInfoRDD.foreach(println)
    println("join测试现在是inner join")
    val stuSubScoreInfoRDD:RDD[(Int,(String,String))] = sid2StuInfoRDD.join(sid2StuInfoRDD)
    stuSubScoreInfoRDD.foreach{
      case (sid, (stuInfo,subjectInfo)) => println(s"sid = ${sid},stu = ${stuInfo},subject = ${subjectInfo}")
    }
    println("*"*10)
    val stuInfoRDD:RDD[(Int,(String,Option[String]))] = sid2StuInfoRDD.leftOuterJoin(sid2StuInfoRDD)
    stuInfoRDD.leftOuterJoin(sid2StuInfoRDD)
    stuInfoRDD.foreach{
      case (sid,(stuInfo,subjectInfo)) =>println(s"sid=${sid},stu = ${stuInfo},subject = ${subjectInfo.getOrElse(null)}")
    }
    println("*" * 10)
    val studInfoRDD: RDD[(Int,(Option[String],String))] = sid2StuInfoRDD.rightOuterJoin(sid2StuInfoRDD)
    studInfoRDD.foreach{
      case (sid,(stuInfo,subjectInfo)) => println(s"sid =${sid},stu = ${stuInfo.getOrElse(null)},subject = ${subjectInfo}")
    }

    println("*"* 10)
    val fullRDD:RDD[(Int,(Option[String],Option[String]))] = sid2StuInfoRDD.fullOuterJoin(sid2StuInfoRDD)
    fullRDD.foreach{
      case (sid,(stuInfo,subjectInfo)) =>println(s"sid=${sid},stu = ${stuInfo.getOrElse(null)},subject = ${subjectInfo.getOrElse(null)}")
    }
   sc.stop()

}
}

2.2.8 gourpByKey

def groupByKey(): RDD[(K, Iterable[V])]

RDD[(K, Iterable[V])] ：返回的RDD中元素类型是一个二维元组：(K, Iterable[V])

作用：分组，都是需要二维元组

缺点：因为不会先进行局部聚合，这将导致它在分布式环境下的shuffle增多。

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val lineRDD:RDD[String] = sc.parallelize(List(
      "1,杨过,18,古墓派",
      "2,郭靖,32,桃花岛",
      "3,令狐冲,1,华山派",
      "4,张无忌,2,明教",
      "5,韦小宝,3,天地会"
    ))
    //修改数据格式：二维元组
    val stuRDD:RDD[(String,String)] = lineRDD.map(line =>{
      val index:Int = line.lastIndexOf(",")
      val className = line.substring(index + 1)
      val info = line.substring(0,index)
      (className,info)
    })
    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
      gbkRDD.foreach(println)

   sc.stop()

}
}

2.3.9 reduceByKey

def reduceByKey(func: (V, V) => V): RDD[(K, V)]

func : 自定义的函数

RDD[(K, V)] ：返回的也是RDD副本，也是一个二维元组的RDD

作用：按照key进行分组聚合

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val lineRDD:RDD[String] = sc.parallelize(List(
      "1,杨过,18,古墓派",
      "2,郭靖,32,桃花岛",
      "3,令狐冲,1,华山派",
      "4,张无忌,2,明教",
      "5,韦小宝,3,天地会"
    ))
    //修改数据格式：二维元组
    val stuRDD:RDD[(String,String)] = lineRDD.map(line =>{
      val index:Int = line.lastIndexOf(",")
      val className = line.substring(index + 1)
      val info = line.substring(0,index)
      (className,info)
    })
    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
      gbkRDD.foreach(println)
println("reduceByKey--------->")
    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
   sc.stop()

}
}

2.2.10 sortByKey

def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length)
: RDD[(K, V)]

ascending ：升序、降序（true/false）

numPartitions : 分区数

RDD[(K, V)] ：排序之后的RDD副本

作用：就是按照key进行排序,只保证分区内有序，不保证全局有序。

个人感觉这个排序只是在分区内排序，没很多用途，还是使用字典排序法，对于数字没有用。

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val lineRDD:RDD[String] = sc.parallelize(List(
      "1,杨过,18,古墓派",
      "2,郭靖,32,桃花岛",
      "3,令狐冲,1,华山派",
      "4,张无忌,2,明教",
      "5,韦小宝,3,天地会"
    ))
    //修改数据格式：二维元组
    val stuRDD:RDD[(String,String)] = lineRDD.map(line =>{
      val index:Int = line.lastIndexOf(",")
      val className = line.substring(index + 1)
      val info = line.substring(0,index)
      (className,info)
    })
    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
      gbkRDD.foreach(println)
println("reduceByKey--------->")
    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
    println("sortByKey---------------------------------->")
    lineRDD.map(line => {
      val stu: Array[String] = line.split(",")
      val age:Int = stu(2).toInt
      (age, line)
    }).sortByKey(false, 2).foreach(println)
   sc.stop()

}
}

2.2.11 mapPartitions

def mapPartitions[U: ClassTag](
f: Iterator[T] => Iterator[U],
preservesPartitioning: Boolean = false): RDD[U]

f : 函数

Iterator[T] ：表示一个分区中的所有的数据元素的集合

Iterator[U] : f函数的返回值，也是一个集合

作用：map算子的升级版，map算子是一行读取一次，这个算子是一个分区读取一次

这个算子用处和map算子一样，但是这个用起来效率比map高！

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo01 {
private val logger = LoggerFactory.getLogger(TestDemo01.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
   Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val lineRDD:RDD[String] = sc.parallelize(List(
      "1,杨过,18,古墓派",
      "2,郭靖,32,桃花岛",
      "3,令狐冲,1,华山派",
      "4,张无忌,2,明教",
      "5,韦小宝,3,天地会"
    ))
    //修改数据格式：二维元组
    val stuRDD:RDD[(String,String)] = lineRDD.map(line =>{
      val index:Int = line.lastIndexOf(",")
      val className = line.substring(index + 1)
      val info = line.substring(0,index)
      (className,info)
    })
    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
      gbkRDD.foreach(println)
println("reduceByKey--------->")
    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
    println("sortByKey---------------------------------->")
    lineRDD.map(line => {
      val stu: Array[String] = line.split(",")
      val age:Int = stu(2).toInt
      (age, line)
    }).sortByKey(false, 2).foreach(println)
    println("mapPartitions---------------------------------->")
    val seqRDD: RDD[Int] = sc.parallelize(1 to 10)
    seqRDD.mapPartitions(_.map(_ * 2)).foreach(println)
   sc.stop()

}
}

2.2.12 groupByKey

package com.qf.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo03 {
private val logger = LoggerFactory.getLogger(TestDemo03.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
   val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    //1. 加载源数据
    val lineRDD: RDD[String] = sc.parallelize(List(
      "1,杨过,18,古墓派",
      "2,郭靖,32,桃花岛",
      "3,令狐冲,1,华山派",
      "4,张无忌,2,明教",
      "5,韦小宝,3,天地会",
      "6,黄蓉,35,桃花岛"
    ))
    //2. 修改数据格式：二维元组
    val stuRDD: RDD[(String, String)] = lineRDD.map(line => {
      val index: Int = line.lastIndexOf(",")
      val className = line.substring(index + 1)
      val info = line.substring(0, index)
      (className, info)
    })
    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
    gbkRDD.foreach(println)
    sc.stop()

}
}

2.2.13 reduceByKey

def reduceByKey(func:(V,V) =>V):RDD[(K,V)]

func:自定义的函数

RDD[(K，V)]：返回RDD副本，是一个二维元组的RDD

作用：按照key进行分组聚合

package com.qf.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo03 {
private val logger = LoggerFactory.getLogger(TestDemo03.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
   val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    //1. 加载源数据
    val lineRDD: RDD[String] = sc.parallelize(List(
      "hello,jdk",
      "hello,hadoop"
    ))
    //2. 修改数据格式：二维元组
//    val stuRDD: RDD[(String, String)] = lineRDD.map(line => {
//      val index: Int = line.lastIndexOf(",")
//      val className = line.substring(index + 1)
//      val info = line.substring(0, index)
//      (className, info)
//    })
//    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
//    gbkRDD.foreach(println)
    println("reduce------------------>")
    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
    sc.stop()

}
}

2.2.14 sortByKey

def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length)
: RDD[(K, V)]

ascending ：升序、降序（true/false）

numPartitions : 分区数

RDD[(K, V)] ：排序之后的RDD副本

作用：就是按照key进行排序,只保证分区内有序，不保证全局有序。

package com.qf.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo03 {
private val logger = LoggerFactory.getLogger(TestDemo03.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
   val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    //1. 加载源数据
    val lineRDD: RDD[String] = sc.parallelize(List(
      "cidy,14",
      "tom,1"
    ))
    //2. 修改数据格式：二维元组
//    val stuRDD: RDD[(String, String)] = lineRDD.map(line => {
//      val index: Int = line.lastIndexOf(",")
//      val className = line.substring(index + 1)
//      val info = line.substring(0, index)
//      (className, info)
//    })
//    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
//    gbkRDD.foreach(println)
//    println("reduce------------------>")
//    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
    println("sortByKey---------------->")
    lineRDD.map(line =>{
      val info :Array[String] = line.split(",")
      val age:Int = info(1).toInt
      (age,line)
    }).sortByKey(false,2).foreach(println)

    sc.stop()

}
}

2.2.15 mapPartitions

def mapPartitions[U: ClassTag](
f: Iterator[T] => Iterator[U],
preservesPartitioning: Boolean = false): RDD[U]

f:函数
Iterator[T]:表示一个分区中的所有数据元素的集合
Iterator[U]:f函数的返回值，也是一个集合
作用：Map算子的升级版，map算子是一行读取一次，这个算子是一个分区读取一次

package com.qf.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo03 {
private val logger = LoggerFactory.getLogger(TestDemo03.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
   val sc = new SparkContext("local[*]","wordcount",new SparkConf())
//    //1. 加载源数据
//    val lineRDD: RDD[String] = sc.parallelize(List(
//      "cidy,14",
//      "tom,1"
//    ))
    //2. 修改数据格式：二维元组
//    val stuRDD: RDD[(String, String)] = lineRDD.map(line => {
//      val index: Int = line.lastIndexOf(",")
//      val className = line.substring(index + 1)
//      val info = line.substring(0, index)
//      (className, info)
//    })
//    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
//    gbkRDD.foreach(println)
//    println("reduce------------------>")
//    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
//    println("sortByKey---------------->")
//    lineRDD.map(line =>{
//      val info :Array[String] = line.split(",")
//      val age:Int = info(1).toInt
//      (age,line)
//    }).sortByKey(false,2).foreach(println)
     println("mapPartitions----------->")
    val seqRDD:RDD[Int] = sc.parallelize(1 to 10)
    seqRDD.mapPartitions(_.map(_*2)).foreach(println)
    sc.stop()

}
}

2.2.16 coalesce和repartition

def coalesce(numPartitions: Int, shuffle: Boolean = false,
partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
(implicit ord: Ordering[T] = null)
: RDD[T]

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

作用：重分区,从字面上讲这两个算子都是重分区，但是实际上repartition就是由coalesce来实现的，coalesce既可以是宽依赖也可以窄依赖，但是默认是窄依赖，repartition进行分区只能是宽依赖；coalesce一般用于分区减少的操作，repartition一般用于分区增加的操作。

package com.qf.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo03 {
private val logger = LoggerFactory.getLogger(TestDemo03.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
   val sc = new SparkContext("local[*]","wordcount",new SparkConf())
//    //1. 加载源数据
//    val lineRDD: RDD[String] = sc.parallelize(List(
//      "cidy,14",
//      "tom,1"
//    ))
    //2. 修改数据格式：二维元组
//    val stuRDD: RDD[(String, String)] = lineRDD.map(line => {
//      val index: Int = line.lastIndexOf(",")
//      val className = line.substring(index + 1)
//      val info = line.substring(0, index)
//      (className, info)
//    })
//    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
//    gbkRDD.foreach(println)
//    println("reduce------------------>")
//    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
//    println("sortByKey---------------->")
//    lineRDD.map(line =>{
//      val info :Array[String] = line.split(",")
//      val age:Int = info(1).toInt
//      (age,line)
//    }).sortByKey(false,2).foreach(println)
//     println("mapPartitions----------->")
//    val seqRDD:RDD[Int] = sc.parallelize(1 to 10)
//    seqRDD.mapPartitions(_.map(_*2)).foreach(println)

    println("coalesce and repartition------------>")
    val listRDD:RDD[Int] =sc.parallelize(1 to 1000)
    println(s"listRDD partition num is ${listRDD.getNumPartitions}")
    val cRDD:RDD[Int] = listRDD.coalesce(1)
    val rRDD:RDD[Int] = listRDD.repartition(10)
    println(s"cRDD partitions num is ${cRDD.getNumPartitions}")
    println(s"rRDD partitions num is ${rRDD.getNumPartitions}")
    sc.stop()

}
}

2.2.16 mapPartitionWithIndex

def mapPartitionsWithIndex[U: ClassTag](
f: (Int, Iterator[T]) => Iterator[U],
preservesPartitioning: Boolean = false): RDD[U]

f:函数

(Int, Iterator[T]) ： f函数的参数，Int表示分区编号，Iterator[T]是一个分区的所有的数据

他是 mapPartitions算子的升级版，比 mapPartitions多了一个分区编号

package com.qf.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

object TestDemo03 {
private val logger = LoggerFactory.getLogger(TestDemo03.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
   val sc = new SparkContext("local[*]","wordcount",new SparkConf())
//    //1. 加载源数据
//    val lineRDD: RDD[String] = sc.parallelize(List(
//      "cidy,14",
//      "tom,1"
//    ))
    //2. 修改数据格式：二维元组
//    val stuRDD: RDD[(String, String)] = lineRDD.map(line => {
//      val index: Int = line.lastIndexOf(",")
//      val className = line.substring(index + 1)
//      val info = line.substring(0, index)
//      (className, info)
//    })
//    val gbkRDD:RDD[(String,Iterable[String])] = stuRDD.groupByKey()
//    gbkRDD.foreach(println)
//    println("reduce------------------>")
//    lineRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
//    println("sortByKey---------------->")
//    lineRDD.map(line =>{
//      val info :Array[String] = line.split(",")
//      val age:Int = info(1).toInt
//      (age,line)
//    }).sortByKey(false,2).foreach(println)
//     println("mapPartitions----------->")
//    val seqRDD:RDD[Int] = sc.parallelize(1 to 10)
//    seqRDD.mapPartitions(_.map(_*2)).foreach(println)

//    println("coalesce and repartition------------>")
//    val listRDD:RDD[Int] =sc.parallelize(1 to 1000)
//    println(s"listRDD partition num is ${listRDD.getNumPartitions}")
//    val cRDD:RDD[Int] = listRDD.coalesce(1)
//    val rRDD:RDD[Int] = listRDD.repartition(10)
//    println(s"cRDD partitions num is ${cRDD.getNumPartitions}")
//    println(s"rRDD partitions num is ${rRDD.getNumPartitions}")
    println("mapPartitionWithIndex----------------->")
    val seqRDD:RDD[Int] = sc.parallelize(1 to 1000)
    seqRDD.mapPartitionsWithIndex{
      case (partitionId,iterator) =>{
        println(s"partition is ${partitionId} and data is ${iterator.mkString(",")}")
        iterator.map(_ * 2)
      }
    }.foreach(println)

    sc.stop()

}
}

combineByKey

通过查看GroupByKey和ReduceByKey的底层源码，发现二者底层都是基于combineByKeyWithClassTag的算子来实现的。包括下面aggregateByKey也是通过combineByKeyWithClassTag来实现的。那么通过名称我们应该可以猜测到我们即将要学习的CombineByKey多少应该和combineByKeyWithClassTag算子有一些关系。

combineByKey其实就是combineByKeyWithClassTag的简化版。作用是它使用现有的分区程序对生成的RDD进行哈希分区。并且此方法是向后兼容。

combineByKey它其实是spark最底层聚合算子之一，可以按照key进行各种各样的聚合操作，spark提供了很多高阶算子，这些算子都是基于combineByKey来实现的。

模拟GroupByKey

def combineByKey[C](
createCombiner: V => C,
mergeValue: (C, V) => C,
mergeCombiners: (C, C) => C): RDD[(K, C)]

package com.qf.bigata.spark

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

import scala.collection.mutable.ArrayBuffer

object Demo5_CombineByKey {
private val logger = LoggerFactory.getLogger(Demo5_CombineByKey.getClass.getSimpleName)

def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    val sc = new SparkContext("local[*]", "wordcount", new SparkConf())
    //1. 加载源数据
    val stuRDD: RDD[String] = sc.parallelize(List(
      "杨过,古墓派",
      "郭靖,桃花岛",
      "令狐冲,华山派",
      "张无忌,明教",
      "韦小宝,天地会",
      "黄蓉,桃花岛",
      "小龙女,古墓派",
      "杨逍,明教",
      "陈近南,天地会",
      "李莫愁,古墓派"
    ), 2)

    //2. 处理数据格式：将数据变为二维的元组
    val class2InfoRDD: RDD[(String, String)] = stuRDD.mapPartitionsWithIndex {
      case (paritionId, iterator) => {
        val array: Array[String] = iterator.toArray
        println(s"${paritionId} : ${array.mkString(",")}")
        array.map(line => {
          val index: Int = line.lastIndexOf(",")
          val className: String = line.substring(index + 1)
          val info: String = line.substring(0, index)
          (className, info)
        }).toIterator
      }
    }

    //3. groupByKey
    println("=========================groupbykey==============================")
    class2InfoRDD.groupByKey().foreach(println)

    println("=========================combinebykey==============================")
    class2InfoRDD.combineByKey(createCombiner, mergeValue, mergeCombiners).foreach(println)

    sc.stop()
}

/**
   * 初始化操作
   * 在同一个分区中的相同的key会调用一次这个函数，用于初始化，初始化第一个key对应的元素的value
   * 说白了就是，RDD中有几个key，就叫用几次这个函数，如果key相同的情况不会再次调用，仅第一次的时候调用
   */
def createCombiner(stu:String):ArrayBuffer[String] = {
    println(s"----------------createCombiner<${stu}>----------------------------------")
    val ab = ArrayBuffer[String]()
    ab.append(stu)
    ab
}

/**
   * 分区内的局部聚合
   * 当分区之内，相同的key要先进行局部聚合
   */
def mergeValue(ab:ArrayBuffer[String], stu:String):ArrayBuffer[String] = {
    println(s"----------------mergeValue：局部聚合<${ab}>, 被聚合页的只：${stu}----------------------------------")
    ab.append(stu)
    ab
}

/**
   * 全局聚合，各个分区内相同的key聚合
   * @param ab1 ：全局聚合的临时结果
   * @param ab2 ：某一个分区内的所有的数据
   * @return
   */
def mergeCombiners(ab1:ArrayBuffer[String], ab2:ArrayBuffer[String]):ArrayBuffer[String] = {
    println(s"----------------mergeCombiners：全局的结果<${ab1}>, 分区的结果：${ab2}----------------------------------")
    ab1.++:(ab2)
}
}

2.3 Action算子

真相：
RDD中包含了分区，所有数据实际上都是在分区中处理，不在Driver本地执行。

action VS transformation
-action算子处理完RDD的数据时候不会产生RDD副本
-action、action算子用于驱动transformation算子

2.3.1 foreach

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val rdd1 = sc.makeRDD(List(1,2,3,4,5),2)
    // 行动算子foreach是在excutor端执行的，而普通函数foreach是在Driver端执行的
    rdd1.foreach(x =>println(x))
    rdd1.collect().foreach(println)
    sc.stop()
}
}

2.3.2 count

def count():Long

作用：返回RDD中的元素的个数

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())

      val listRDD:RDD[Int] = sc.parallelize(1 to 100).map(num =>{
        println("-------------------"+num)
        num * 10
      })

      val count :Long =listRDD.count()
     println(count.isInstanceOf[Long]) //我只是判断count返回的类型，确定是一个Long类型
    println(count)
}
}

2.3.3 take(n)

def take(num:Int):Array[T]

作用：取RDD的前3个元素，但是不会对RDD进行排序，所以如果是求topn就一般对RDD中的元素进行排序。

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())

      val listRDD:RDD[Int] = sc.parallelize(1 to 100).map(num =>{
        println("-------------------"+num)
        num * 10
      })
     val top3:Array[Int] = listRDD.take(3)
    println(top3.mkString(","))
}
}

2.4.4 first

就是打印第一个元素

同理还有last

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())

      val listRDD:RDD[Int] = sc.parallelize(1 to 100).map(num =>{
        println("-------------------"+num)
        num * 10
      })
     val first = listRDD.first()
    println(first)
}
}

2.3.5 collect

说明：
（各个分区中的数据都要统一放到driver中）数据实际上是保持在RDD中，RDD是一个弹性分布式数据集，数据会通过分区分布在不同的节点中，需要将各个分区的数据放在driver中统一处理。
存在风险：
1）dirver内存压力大
2）在网络大规模传输，效率低
建议：
不建议使用，如果要使用还是先filter算子处理无用数据再使用collect。

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val rdd1 = sc.makeRDD(List(1,2,3,4,5),2)
    // 行动算子foreach是在excutor端执行的，而普通函数foreach是在Driver端执行的
    rdd1.foreach(x =>println(x))
    rdd1.collect().foreach(println)
    sc.stop()
}
}

2.3.6 reduce

def reduce(f: (T, T) => T): T

它是一个action算子，不是reducebykey一样是transformation算子。reduce的作用对一个RDD进行聚合操作，并返回结果，结果是一个值

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())
     val tRDD:RDD[(String,String)] = sc.parallelize(List(
       ("name","cidy"),
       ("age","18"),
       ("sex","feman"),
       ("salary","10000000")
     ))
      val tuple:(String,String) = tRDD.reduce{
        case ((k1,v1),(k2,v2)) =>(k1+"_"+k2,v1+"_"+v2)
      }
    println(tuple.toString().mkString(","))
    sc.stop()
}
}

一个很尴尬的例子

就是居然把字符串切割成字符了

2.3.7 countByKey

本质是一个action算子

作用是统计RDD中的Key的个数。要求RDD中的元素得是一个二维元组，此算子才可用。

2.3.8 saveAsTextFile和saveAsHadoopFile和saveAsObjectFile和saveAsSequenceFile

以上算子都是用于将RDD中的数据映射到磁盘中。

tRDD.saveAsTextFile("file:/h:/1")

2.4 “持久化”操作

2.4.1 spark持久化的含义

跨节点完成内存中的rdd数据持久化
每个节点都会将其计算的所有的分区存储在内存中，并且在数据集上的其他操作中重用它们。
好处：提升程序的运行效率至10倍以上

2.4.2 如何持久化

使用：persist()和cache()
说明
第一次操作的时候，对RDD中的数据集保存在内存中
需要复用的时候直接获取

2.4.3 持久化策略

每个持久化的RDD可以使用不同的存储策略进行存储，就是可以持久化到磁盘或者是到内存中。

通过设置StorageLevel的类来设置持久化级别，默认存储级别是cache

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    var start: Long = System.currentTimeMillis()
    val listRDD: RDD[String] = sc.parallelize(List(
      "hello every one",
      "hello everybody",
      "ma ma ha ha",
      "xi xi xi ha ha"
    ))
    var count: Long = listRDD.count()
    println(s"没有持久化：listRDD's count is ${count}, cost time : ${(System.currentTimeMillis() - start)} ms")

    listRDD.persist(StorageLevel.MEMORY_AND_DISK) // { 开启持久化并配置策略

    start = System.currentTimeMillis()
    count = listRDD.count()

    println(s"持久化之后：listRDD's count is ${count}, cost time : ${(System.currentTimeMillis() - start)} ms")

    listRDD.unpersist() // } // 关闭持久
    sc.stop()
}
}

2.5 共享变量

2.5.1 广播变量

就是把需要多次使用的变量加载到内存中

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val stuRDD:RDD[Student] = sc.parallelize(List(
      Student("01","韦小宝","0",18),
      Student("02","令狐冲","0",32),
      Student("03", "任盈盈", "1", 12),
      Student("04", "东方估量", "1", 32)
    ))
    val genderMap = Map(
      "0" ->"小哥哥",
      "1" ->"小姐姐"
    )
    stuRDD.map(stu =>{
      val gender:String = stu.gender
      Student(stu.id,stu.name,genderMap.getOrElse(gender,"春哥"),stu.age)
    }).foreach(println)

    println("使用广播变量==========================")
    val genderBC:Broadcast[Map[String,String]] = sc.broadcast(genderMap)
    stuRDD.map(stu =>{
      val gender:String = stu.gender
      Student(stu.id,stu.name,genderBC.value.getOrElse(gender,"春哥BC"),stu.age)
    }).foreach(println)
    sc.stop()
}
}
case class Student(id:String,name:String,gender:String,age:Int)

2.5.2 累加器

accumulator累加器的概念和mapreduce中的counter是一样的。计数！！！

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object Demo04 {
private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val lineRDD: RDD[String] = sc.parallelize(List(
      "Our materialistic sciety has led us t hello that happiness cannt be hello withut having mney"
    ))
    val wordsRDD: RDD[String] = lineRDD.flatMap(_.split("\\s+"))
    val accumulator = sc.longAccumulator
    val rbkRDD: RDD[(String, Int)] = wordsRDD.map(word => {
      if (word.equals("hello")) accumulator.add(1L)
      (word, 1)
    }).reduceByKey(_ + _)
    rbkRDD.foreach(println)
    println("累加器统计hello的个数：" + accumulator.value)
    sc.stop()
}
}

自定义累加器

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
import org.apache.spark.util.AccumulatorV2
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

import scala.collection.mutable
object Demo04 {
  private val logger = LoggerFactory.getLogger(Demo04.getClass.getSimpleName)
  def main(args: Array[String]): Unit = {
      Logger.getLogger("org").setLevel(Level.WARN)
      val sc = new SparkContext("local[*]","wordcount",new SparkConf())
    val lineRDD: RDD[String] = sc.parallelize(List(
      "Our materialistic sciety has led us t hello that happiness cannt be hello withut having mney"
    ))

    val wordsRDD: RDD[String] = lineRDD.flatMap(_.split("\\s+"))
    val myAcc = new MyAccumulator
      sc.register(myAcc,"myAcc")
      val rbkRDD:RDD[(String,Int)] = wordsRDD.map(word =>{
        if (word.equals("hello")){
          myAcc.add(word)
        }
        (word,1)
      }).reduceByKey(_+_)
     println("自定义累加"+myAcc.value)
      sc.stop()
  }
}
class MyAccumulator extends AccumulatorV2[String,Map[String,Long]] {
  //累加器的所有的数据都存储在map上
  private var map = mutable.Map[String,Long]()
  //是否初始化累加器的初始化值
  override def isZero: Boolean = true
   //拷贝累加器
  override def copy(): AccumulatorV2[String, Map[String, Long]] = {
    val acc = new MyAccumulator
    acc.map = this.map
    acc
  }

  override def reset(): Unit = map.clear()

  override def add(word: String): Unit = {
    if(map.contains(word)){
      val newCount = map(word) + 1
      map.put(word,newCount)
    }else{
      map.put(word,1)
    }
    //map.put(word,map.getOrElse(word,0) + 1)
  }

  override def merge(other: AccumulatorV2[String, Map[String, Long]]): Unit = {
    other.value.foreach{
      case (word,count) =>{
        if(map.contains(word)){
          val newCount = map(word) +count
          map.put(word,newCount)
        }else{
          map.put(word,count)
        }
      }
    }
  }

  override def value: Map[String, Long] = map.toMap
}

3 SparkSQL

3.1.1定义

spark生态圈用于sql的计算模块。
曾经叫Shark，15年后面开启了sparksql。
sparksql不依托hive，形成两种不同的业务：sparksql和hive-on-spark

3.1.2 rdd dataframe dataset

(1)编程模型
rdd是第一代编程模型，只有spark core和sparkstreaming使用
df和ds是第二代和第三代编程，是parksql和struturedstreaming使用
（2）编程模型的特点
df和ds可以理解是一个mysql的二维表，有表头、表名、字段、字段类型
rdd是一张表，但是没有表头
df和ds区别就是表头形式不同（ds的表头是一个整的，df的表头是根据字段区分开的）
df是spark1.3出现的，ds是spark1.6出现的

3.2编程入门

pom.xml



    4.0.0

    org.example
    spark_sz2102
    1.0-SNAPSHOT


    
    
        1.8
        1.8
        UTF-8
        2.11.8
        2.2.3
        2.7.6
        2.11
    
    
    
        
            org.scala-lang
            scala-library
            ${scala.version}
        
        
            org.apache.spark
            spark-core_2.11
            ${spark.version}
        
        
            org.apache.hadoop
            hadoop-client
            ${hadoop.version}
        
        
            org.apache.spark
            spark-sql_2.11
            ${spark.version}
        
        
            org.apache.spark
            spark-hive_2.11
            ${spark.version}
        
        
            mysql
            mysql-connector-java
            8.0.21

package com.qf

import org.apache.spark.sql.{DataFrame, SparkSession}

object Demo05 {

  def main(args: Array[String]): Unit = {
    val spark:SparkSession = SparkSession.builder().appName("demo1").master("local[*]").getOrCreate()
   import spark.implicits._
    val df:DataFrame = spark.read.json("D:\\data\\sss\\sql\\people.json")
   df.printSchema() //打印元数据
    df.show()
    df.select("name","age").show()  //要导入隐式转换
    df.select($"name",$"age").show()   //要导入隐式转换
    //列也可以+1
    df.select($"name",($"height"+1).as("height")).show()

    //也有其他算子 where和group
    df.select($"age").groupBy($"age").count().as("count").show()
    //另一种方式，经常使用
    df.createTempView("people")
    spark.sql(
      """
        |select age,count(1) from people group by age
        |""".stripMargin).show()

   spark.stop()
  }

}

3.2.1 JavaBean存入Dataframe

package com.qf


import java.util

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{Column, DataFrame, Dataset, SparkSession}
import org.slf4j.LoggerFactory

import scala.beans.BeanProperty

//JavaBean+反射
object Demo07 {
  private val logger = LoggerFactory.getLogger(Demo07.getClass.getSimpleName)
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    val spark:SparkSession = SparkSession.builder().appName("demo01").master("local[*]").getOrCreate()
    import spark.implicits._
    import scala.collection.JavaConversions._  //java的list和scalalist要转换
    val list = List(
       new Student(1,"郑宇",1,24),
      new Student(2,"李狗剩",2,10)
    )   //先说一下，这个是java的list
    val df:DataFrame = spark.createDataFrame(list,classOf[Student]) //这是一个java的list转换为scala的list并且转为df
    df.printSchema()
    df.show()
    println("_"*10)
    //把list转换为ds就别了，因为ds要求的集合类型对象必须是样例类
    //val ds:Dataset[Student] spark.createDataset(list)
    spark.stop()
  }

}
class Student {
  @BeanProperty var id:Int = _
  @BeanProperty var name:String = _
  @BeanProperty var gender:Int =_
  @BeanProperty var age:Int = _
  def this (id:Int,name:String,gender:Int,age:Int){
    this()
    this.id = id
    this.name = name
    this.gender = gender
    this.age = age
  }

}

3.2.2 JavaBean存入Dataset

说明一下：dataset也是一张表，但是它只能存样例类，不能存普通的javabean。所以要存入dataset只能自定义一个样例类。

package com.qf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{Dataset, SparkSession}
import org.slf4j.LoggerFactory
//把javabean放入dataset里面去！一定要使用样例类啊！
object Demo09 {
  private val logger = LoggerFactory.getLogger(Demo09.getClass.getSimpleName)
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    val spark:SparkSession = SparkSession.builder().appName("demo09").master("local[*]").getOrCreate()
    import spark.implicits._
    val list = List(
      new Stu(1,"李白",1,19),
      new Stu(2,"杜甫",1,67)
    )
    val ds:Dataset[Stu] = spark.createDataset(list)
    ds.printSchema()
    ds.show()
    spark.stop()
  }
}
case class Stu(id:Int,name:String,gender:Int,age:Int)

3.2.3 动态编程这里就拿dataframe做例子

package com.qf
import java.util

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{DataTypes, StructField, StructType}
import org.apache.spark.sql.{Column, DataFrame, Dataset, Row, SparkSession}
import org.slf4j.LoggerFactory

import scala.beans.BeanProperty
import scala.collection.JavaConversions
//动态编程
object Demo08 {
  private val logger = LoggerFactory.getLogger(Demo08.getClass.getSimpleName)
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    val spark = SparkSession.builder().appName("demo08").master("local[*]").getOrCreate()
    import spark.implicits._
    import scala.collection.JavaConversions._
    val rowRDD:RDD[Row] = spark.sparkContext.parallelize(List(
      Row(1,"曾真",1,10),
      Row(2,"李露露",3,90)
    ))
    //创建表头部分
    val schema:StructType = StructType(List(
      StructField("id",DataTypes.IntegerType,false),
      StructField("name",DataTypes.StringType,false),
      StructField("gender",DataTypes.IntegerType,false),
      StructField("age",DataTypes.IntegerType,false)
    ))

    val df:DataFrame = spark.createDataFrame(rowRDD,schema)
    df.printSchema()
    df.show()
    spark.stop()
  }
}

3.3 RDD Dataframe DataSet之间的转换

上图是我第一次作图，所以不太美观，但是真的可以直观看见各种转换关系

小tips：

只要转换为df，都是toDF()

只要转换为rdd，都是rdd（）

RDD->TODF or DS

package com.qf.sparksql.day02

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

/**
* RDD 转 DataFrame 或者是Dataset
*/
object Spark_10_RDD_ToDFOrDS {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[*]").setAppName("SQLStyle")
        val sparkSession = SparkSession.builder().config(conf).getOrCreate()
        import sparkSession.implicits._

        val rdd1: RDD[Int] = sparkSession.sparkContext.makeRDD(List(1, 2, 3, 4, 5))
        println("--------------RDD===>DataFrame: RDD的元素只有一列的情况-----------------------")
        val df1: DataFrame = rdd1.toDF("num")
        df1.show()

        println("--------------RDD===>Dataset: RDD的元素只有一列的情况-----------------------")
        val ds: Dataset[Int] = rdd1.toDS()
        ds.show()

        val rdd2: RDD[(Int,String,Int)] = sparkSession.sparkContext.makeRDD(List((1,"lily",23),(1,"lucy",24),(1,"tom",25)))
        println("--------------RDD===>DataFrame: RDD的元素只有多列的情况，只能使用元组-----------------------")
        val df2: DataFrame = rdd2.toDF("id","name","age")
        df2.show()

        println("--------------RDD===>Dataset: RDD的元素是元组多列的情况下，列名是_1,_2,_3,....... -----------------------")
        val ds1: Dataset[(Int, String, Int)] = rdd2.toDS()
        ds1.select("_2").show()

        val rdd3: RDD[Dog] = sparkSession.sparkContext.makeRDD(List(Dog("旺财", "白色"), Dog("阿虎", "棕色")))
        println("--------------其他自定义类型的RDD===>DataFrame -----------------------")
        val df3: DataFrame = rdd3.toDF()
        df3.select("color").where("color='白色'").show()

        println("--------------其他自定义类型的RDD===>Dataset -----------------------")
        val ds3: Dataset[Dog] = rdd3.toDS()
        ds3.where("color='棕色'").select("*").show()

        sparkSession.stop()
    }
    case class Dog(name:String,color:String)
}

DF ->RDD OR DS

package com.qf.sparksql.day02

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

import java.util.Date

/**
* DataFrame 转 RDD 或者是Dataset
*/
object Spark_11_DF_ToRDDOrDS {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[*]").setAppName("SQLStyle")
        val sparkSession = SparkSession.builder().config(conf).getOrCreate()
        import sparkSession.implicits._

        val df: DataFrame = sparkSession.read.json("data/emp.json")

        println("--------------DataFrame=>RDD   注意：RDD的泛型为Row-----------------------")
        val rdd1: RDD[Row] = df.rdd
        //rdd1.foreach(println)
        rdd1.foreach(row=>println(row.get(0)+","+row.get(1)+","+row.get(2)))

        println("--------------DataFrame=>Dataset    注意： 1 需要自定义一个类型与df中的列数以及类型进行匹配，2，使用as[自定义类型]进行转换即可-----------------------")
        val ds: Dataset[E] = df.as[E]
        ds.show()

        sparkSession.stop()
    }
    case class E(empno:Long,ename:String,job:String,mgr:Long,hiredate:String,sal:Double,comm:Double,Deptno:Long)
}

DS -> RDD or DF

package com.qf.sparksql.day02

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

/**
* 或者是Dataset 转 RDD 或者是DataFrame
*/
object Spark_12_DS_ToRDDOrDF {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[*]").setAppName("SQLStyle")
        val sparkSession = SparkSession.builder().config(conf).getOrCreate()
        import sparkSession.implicits._

        val emps = List(Employee(1001,"lucy","saleman",1000),
            Employee(1002,"lily","saleman",1001),
            Employee(1003,"john","saleman",1001),
            Employee(1004,"michael","boss",1002))
        val ds: Dataset[Employee] = sparkSession.createDataset(emps)

        println("------------Dataset => RDD    两个数据模型的泛型是一样的-------------------------")
        val rdd1: RDD[Employee] = ds.rdd
        rdd1.foreach(emp=>println(emp.ename+"\t"+emp.job))

        println("------------Dataset => DataFrame   :本质就是将Dataset的泛型转成Row形式 ------------------------")
        val df: DataFrame = ds.toDF()
        df.where("mgr=1001").select("*").show()

        sparkSession.stop()
    }
    case class Employee(empno:Long,ename:String,job:String,mgr:Long)
}

3.4 读取数据以及数据的转存

3.5 sparksql与hive的整合

这个案例本来是通过main方法的参数传入路径的，但是我idea环境有问题，无法把新编出来的main方法打成jar。就每次打的jar都是今天敲的代码。我也去找了两个小时的资料，尝试了十几均失败。

然后我就自己把这个案例改了，就是把导数据的这个步骤写死了。（狗头保命）

因为没改代码的话，spark老找不到路径，无论我写的是绝对路径还是相对路径。

环境准备

把hive的conf中的hive-site.xml和hadoop的etc的hadoop中的core-site.xml、hdfs-site.xml放到resource文件夹中

core-site.xml

hdfs-site.xml

hive-site.xml

因为有这三个文件，spark才可以找hive的路径嘛

因为我拿的是推荐系统项目的环境，所以上面那个pmml文件本项目不需要，大家忽略一下

package com.qf.bigata.test
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.slf4j.LoggerFactory
object Demo01 {
  private val logger = LoggerFactory.getLogger(Demo01.getClass.getSimpleName)
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    //1. 控制输入参数
//    if (args == null || args.length != 2) {
//      println(
//        """
//          |Parameters error! Usage: 
//          |""".stripMargin)
//      System.exit(-1)
//    }
//
//    val Array(basicPath, infoPath) = args

    //2. 获取到sparksql的入口
    val spark: SparkSession = SparkSession.builder().appName("Demo01").master("local[*]")
      .enableHiveSupport().getOrCreate()
    import spark.implicits._ // Java和scala转换的隐式转换

    //3. 全程使用sql的方式编程
    //3.1 创建hive库
    spark.sql(
      """
        |create database if not exists hive
        |""".stripMargin)

    //3.2 创建basic和info表
    //3.2.1 teacher_basic
    spark.sql(
      """
        |create table if not exists hive.teacher_basic(
        |name string,
        |age int,
        |classes int
        |) row format delimited
        |fields terminated by ','
        |""".stripMargin)

    //3.2.2 teacher_info
    spark.sql(
      """
        |create table if not exists hive.teacher_info(
        |name string,
        |height double
        |) row format delimited
        |fields terminated by ','
        |""".stripMargin)

    //3.3 加载数据
    spark.sql(
      s"""
         |load data local inpath './data/teacher_basic.txt' into table hive.teacher_basic
         |""".stripMargin)

    spark.sql(
      s"""
         |load data local inpath './data/teacher_info.txt' into table hive.teacher_info
         |""".stripMargin)

    //3.4 join查询建立新表
    spark.sql(
      """
        |create table hive.teacher
        |as
        |select
        |b.name,
        |b.age,
        |b.classes,
        |i.height
        |from hive.teacher_basic as b left join hive.teacher_info as i
        |on b.name = i.name
        |""".stripMargin)


    //4. 释放资源
    spark.stop()
  }
}

然后就是打jar包

找那个有依赖，名字最长的jar包

并且把jar包上传到服务器里面

然后我们就创建一下数据表（在服务器中）

cd data

touch teacher_basic.txt

touch teacher_info.txt

有关 teacher_basic.txt

zs,25,2
ls,30,10
ww,34,1

有关 teacher_info.txt

zs,175.0

然后就是在服务器中运行程序

start-all.sh

hive --service metastore &

hive --service hiveserver2 &

${SPARK_HOME}/bin/spark-submit \
--name demo01 \
--conf spark.task.cpus=1 \
--conf spark.executor.cores=4 \
--conf spark.sql.shuffle.partitions=50 \
--master yarn \
--deploy-mode client \
--driver-memory 512M \
--executor-memory 3G \
--num-executors 1 \
--class com.qf.bigata.test.Demo01 \
/data/jar/spark.ja

注意上面的路径要根据自己的实际路径写哦

如果是这样有一半概率是成功了

我们来看看hive吧

hive (default)> show databases;
OK
app_news
default
dwb_news
dws_news
hive
ods_news
Time taken: 0.603 seconds, Fetched: 6 row(s)
hive (default)> use hive;
OK
Time taken: 0.03 seconds
hive (hive)> show tables;
OK
teacher
teacher_basic
teacher_info
Time taken: 0.031 seconds, Fetched: 3 row(s)
hive (hive)> select * from teacher;
OK
zs 25 2 NULL
Time taken: 0.324 seconds, Fetched: 1 row(s)
hive (hive)>

3.6 sparksql的自定义函数

3.6.1 自定义udf函数

一路输入，一路输出

下面这个案例就是统计字符串的长度

注意：

这个程序直接在idea本地上跑，不是放在服务器里面，一定要把resource中的hive-site.xml、hdfs-site.xml、core-site.xml删掉，不然程序根本就跑不完（因为它会一直找hive这边的资源）

package com.qf.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.slf4j.LoggerFactory
object Demo02 {
  private val logger = LoggerFactory.getLogger(Demo02.getClass.getSimpleName)

  def main(args: Array[String]): Unit = {
    val spark:SparkSession = SparkSession.builder().appName("Demo02").master("local[*]").getOrCreate()
    import spark.implicits._

    val lineRDD:RDD[String] = spark.sparkContext.parallelize(List(
      "sarkura asd asd sadsf",
      "sadsdxs sdsf asfxscf acf"
    ))
    //注册自定义的udf|udaf的函数
    spark.udf.register[Int,String]("myLength",myLength)
    val df: DataFrame = lineRDD.toDF("line")
    df.createOrReplaceTempView("test")
    spark.sql(
      """
        |select
        |line,
        |length(line)
        |from test
        |""".stripMargin
    ).show()
    //释放资源
    spark.stop()
  }
  //反射次方法的类型的Method
  //scala的反射中此方法类型就是Funtion1
  def myLength(str:String):Int = str.length

}

3.6.2 自定义UDAF函数

package com.qf.bigdata
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction, UserDefinedFunction}
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.slf4j.LoggerFactory
//UDAF函数
object Demo03 {
 private val logger = LoggerFactory.getLogger(Demo03.getClass.getSimpleName)
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    //获取入口
    val spark:SparkSession = SparkSession.builder().appName("Demo03").master("local[*]").getOrCreate()
    import spark.implicits._
    val stuRDD:RDD[Stu] = spark.sparkContext.parallelize(List(
      new Stu(1,"小黑锅",1,20),
      new Stu(2,"卑微小郭，在线哆嗦",1,21),
      new Stu(3,"琪琪",2,24)
    ))
    spark.udf.register("myAvg",new MyAvg)
    val ds:Dataset[Stu] = stuRDD.toDS()
    ds.createOrReplaceTempView("friends")
    spark.sql(
      """
        |select
        |avg(age) as avg_age,
        |myAvg(age) as my_avg
        |from friends
        |""".stripMargin).show()
  spark.stop()
  }
}
case class Stu(id: Int, name: String, gender: Int, age: Double)
//重写UDAF函数
class MyAvg extends UserDefinedAggregateFunction {

  /**
   * 指定用户自定义udaf输入参数的元数据
   * myavg(value:Double)
   */
  override def inputSchema: StructType = StructType(List(StructField("value", DataTypes.DoubleType, false)))

  /**
   * udaf返回值的类型
   */
  override def dataType: DataType = DataTypes.DoubleType

  /**
   * udaf函数求解过程中的临时变量的类型
   * 求平均数：1. 先求总的字段的个数：count 2. 求字段和：sum
   */
  override def bufferSchema: StructType = StructType(List(StructField("sum", DataTypes.DoubleType, false), StructField("count", DataTypes.IntegerType, false)))

  /**
   * 分区初始化操作，说白了就是上面的sum和count的临时变量赋初值
   */
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer.update(0, 0.0) // sum = 0.0
    buffer.update(1, 0) // count = 0
  }

  /**
   * 分区内的更新操作
   */
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer.update(0, buffer.getDouble(0) + input.getDouble(0)) // sum += age
    buffer.update(1, buffer.getInt(1) + 1) // count += 1
  }

  /**
   * 分区之间的合并
   */
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1.update(0, buffer1.getDouble(0) + buffer2.getDouble(0)) // sum1 += sum2
    buffer1.update(1, buffer1.getInt(1) + buffer2.getInt(1)) // count1 += count2
  }

  /**
   * 返回结果
   * avg = sum / count
   */
  override def evaluate(buffer: Row): Any = buffer.getDouble(0) / buffer.getInt(1)

  override def deterministic: Boolean = true
}

你可能感兴趣的:(大数据那些事,spark,bigdata,大数据开发)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
儿子开学报道第一天：我和公公一起送他去学校文又又
儿子今天是开学报道的的时光，儿子对于是谁送他去学校非常在意，他也想着自己一个人去学校，不要家长送，我们告诉他，可以等到他再大一点的话，就让他自己去学校。我还是一如既往的早起，5点闹钟响起，我的头还昏昏的，就窝在被子里看手机。看爆款文，看热点内容。还看了一会《明朝那些事》，看着看着，就觉得眼皮打架想要睡觉。可是我的潜意识还是提醒自己，起床吧，今天要6点钟起床，说好要叫儿子早起，今天他是8点钟要到学校
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
孕妈必备：怀孕第一周孕妈和准爸爸需要知道的那些事儿张女子育儿
对于新婚夫妻来说，怀孕第一周准妈妈和准爸爸都会感觉到既惊喜又有点不知所措吧！怀孕第一周孕妈有什么反应，怀孕第一周孕妈需要注意的事情有哪些呢？准爸爸又该如何照顾孕妇及其为孩子做些什么呢？今日小编就和大家说说怀孕第一周的诸多问题，让孕妈和准爸爸做好准备。怀孕第一周该如何计算呢？人们通常都说准妈妈要“怀胎10月”，但实际上按照阳历计算的话，胎儿在妈妈子宫内生活的时间是没有10个月的。准妈妈得知自己怀孕，
左手向娱，右手专精，永远年轻永远收割健身小白每天学点经济学
“来源于《互联网那些事》（ID：hlw0823)"不知道从什么时候开始，身边的人都像住进了健身房，朋友圈的人不是在健身房，就是在去健身房的路上。《2022国民健身趋势报告》显示：我国7岁及以上年龄人群中，每周至少参加1次体育锻炼的人数比例为67.5%。在有意识主动参与健身的人群中，平均每周进行1-3天健身人群占经常参加体育健身人群总数的75%，平均每周进行3天以上体育健身的人群占比25%。现在年轻
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
和大家聊聊跨境电子商务网购保税进口的那些事。万一我爱上你了呢
怎么知道自己购买的商品是否如商家宣传的那样，属于“正规方式”进口的跨境商品？可以通过查询个人跨境电商年度消费额度的方式进行验证：1.登录中国国际贸易单一窗口，进行用户注册或登录。2.找到相应入口，进入“公共服务”页面。如图所示，选择对应年份进行个人额度查询。3.在“已消费金额”一栏中，如果存在消费金额，还可以点击消费金额从而打开消费明细，列出消费者在跨境电商渠道购买，并正式向海关申报的跨境电商零售
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
丁俊贵之《“女人和男人”那些事》兴时态_198812
【“女人和男人”那些事】生活中，我们经常用性别来给很多现象和问题贴标签。比如：女性发脾气是常见的事情，所以不要跟她们讲道理，要让着她们；女性考虑问题总是比较感性，不如男性那么理性、严谨、全面；女生的数学成绩普遍比较差，因此选文科的女生更多；……许许多多像这样的认知，已经成为我们根深蒂固的信念。我们在生活中哪怕不会直接这样讲，但多多少少都会有类似的想法和感受，并且用这些信念去理解和认知他人。一、人世
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

“Spark三剑客”之SparkCore和SparkSql学习笔记（零基础入门）（一）

1 Spark的介绍

1.1 Spark的定义

1.2 Spark为什么比MapReduce快？

1.3 RDD 弹性式分布式数据集

1.4 MasterURL

1.5 Spark为什么很占内存？

1.6 SparkCount的典型案例（真我瞎写的，非官方）

1.7 spark代码的核心框架（指的是main方法里的）

2 RDD的那些事

2.1 介绍RDD

2.2 Transformation算子

2.2.1 map算子

2.2.2 flatmap算子

2.2.3 filter算子

2.2.4 sample

2.2.5 union

2.2.6 distinct

2.2.7 join

2.2.8 gourpByKey

2.3.9 reduceByKey

2.2.10 sortByKey

2.2.11 mapPartitions

2.2.12 groupByKey

2.2.13 reduceByKey

2.2.14 sortByKey

2.2.15 mapPartitions

2.2.16 coalesce和repartition

2.2.16 mapPartitionWithIndex

2.3 Action算子

2.3.1 foreach

2.3.2 count

2.3.3 take(n)

2.4.4 first

2.3.5 collect

2.3.6 reduce

2.3.7 countByKey

2.3.8 saveAsTextFile和saveAsHadoopFile和saveAsObjectFile和saveAsSequenceFile

2.4 “持久化”操作

2.4.1 spark持久化的含义

2.4.2 如何持久化

2.4.3 持久化策略

2.5 共享变量

2.5.1 广播变量

2.5.2 累加器

3 SparkSQL

3.1.1定义

3.1.2 rdd dataframe dataset

3.2编程入门

3.2.1 JavaBean存入Dataframe

3.2.2 JavaBean存入Dataset

3.2.3 动态编程 这里就拿dataframe做例子

3.3 RDD Dataframe DataSet之间的转换

3.4 读取数据以及数据的转存

3.5 sparksql与hive的整合

3.6 sparksql的自定义函数

3.6.1 自定义udf函数

3.6.2 自定义UDAF函数

你可能感兴趣的:(大数据那些事,spark,bigdata,大数据开发)

3.2.3 动态编程这里就拿dataframe做例子