qq_47721411

spark笔记

spark 分布式计算框架

spark 不是部署分布式的只是client而已 =》 hive
spark 支持分布式部署 =》 standalone
1.spark产生背景？
1.mr、hive批处理、离线处理存在一些局限性：
1.mr api 开发复杂
2.只能做离线计算不能做实时计算
3.性能不高
2.什么是spark？
1.spark.apache.org
1.计算引擎【不关注数据存储】
2.特点
1.Batch/streaming data =》批流一体
2.SQL analytics
3.Data science at scale
4.Machine learning
3.速度快：
1.spark基于内存计算
2.DAG 有向无环图
mr1=>mr2=>mr3
算子链式编程
3.pipline 【通道的】
4.编程模型线程级别的
4.易用性：
1.开发语言： java、scala、python、sql
2.封装好了多种外部数据源
3.80多个高级算子
5.通用性：
子模块
sparkcore =》离线计算
sparksql =》离线计算
sparkstreaming、structstreaming =》实时计算
mllib =》机器学习
图计算 =》图处理
spark的子模块之间可以进行交互式使用
6.运行作业的地方
1.yarn ***
2.mesos
3.k8s ***
4.standalone[spark本身集群 ]
3.hadoop生态圈 vs spark 生态圈
1.Batch：mr、hive vs sparkcore、sparksql
2.SQL：hive、impala vs sparksql
3.stream：storm vs sparkstreaming、sss
4.MLLib: Mahout vs MLlib
5.real 存储： HBase、cassandra vs DataSouce Api

sparkcore

rdd 开发降低开发人员的开发成本
什么是rdd ？
1.“弹性分布式数据集”
2.数据集：
partitions: 元素 =》一条一条的数据
3. 可以以并行的方式进行计算
1.弹性？容错 =》计算的时候可以重试
2.分布式？
1.存储
rdd: 1 2 3 4 5 6
partition1:1 2 3
partition2:4 5
partition3:6
2.计算
对rdd进行操作实际上是操作 rdd分区里面的数据
3.数据集：就是构建rdd本身的数据
4.immutable 不可变的
不可变=》 rdda 通过计算/操作得到一个新的rdd
5.partitioned collection of elements 【rdd 可以被分区存储/计算的】
一个rdd是由多个partition所构成
rdd数据存储是分布式的，是跨节点进行存储的
6.elements that can be operated on in parallel =》计算
对rdd进行操作就是对rdd底层partition里面的元素进行操作
abstract class RDD[T: ClassTag](
@transient private var sc: SparkContext,
@transient private var deps: Seq[Dependency[]]
) extends Serializable with Logging {
1.abstract
2.T 泛型 =》限定rdd里面数据是什么类型的
RDD[String]、RDD[Int] 、RDD[Student]
3.Serializable 序列化 =》数据经过网络传输
4.@transient 注解这个属性就不需要序列化【了解】

RDD五大特性[面试】

1.rdd底层存储一系列partition
2.针对rdd做计算/操作其实就是对rdd底层的partition进行计算/操作
3.rdd之间的依赖关系（血缘关系）
rdd 不可变 rdda => rddb => rddc
4.Partitioner => kv类型的rdd
默认分区：hash
5.数据本地性 =》减少数据传输的网络io
优先把作业调度在数据所在节点 =》【理想状况】
【常见计算】
作业调度在别的节点上，数据在另外一台节点上
只能把数据通过网络把数据传输到作业所在节点上去进行计算

构建sparkcore 作业

1.添加依赖：

org.apache.spark
spark-core_2.12
3.2.1

2.Initializing Spark：
1. SparkContext =》 sparkcore 程序入口
tells Spark how to access a cluster.
2.SparkConf =》指定 spark app 详细信息
1.AppName => 作业名字
2.Master =》作业运行在什么地方 spark作业的运行模式
local、yarn、standalone、k8s、mesos
1.local[k]模式 k 指的是线程数
2.standalone spark://HOST:PORT
3.yarn
yarn 两种模式： client模式
cluster模式
4.k8s k8s://HOST:PORT
3.创建rdd
1. parallelize existing collection =》已经存在的集合
2. makeRDD 已经存在的集合
2.referencing a dataset in an external storage system =》外部数据源 =》 textFile
1.外部数据源存储
hdfs、local、hbase、s3、cos、
2.数据文件类型：
text files, SequenceFiles, and any other Hadoop InputFormat
3.从已经存在rdd转换生成一个新的rdd

val conf: SparkConf = new SparkConf().setAppName("Spark01App").setMaster("local[2]")
val sc: SparkContext = new SparkContext(conf)
// 存在的集合方式创建rdd
val arr: Array[Int] = Array(1, 2, 3, 4, 5)// scala
val rdd: RDD[Int] = sc.parallelize(arr) // spark弹性分布式数据集
println(rdd.partitions.size)
val rddArr: Array[Int] = rdd.collect()// 将rdd变成数组输出
rddArr.foreach(println(_))
println("====================")
val rdd1: RDD[Int] = sc.parallelize(arr, 10) // 修改分区=>task
println(rdd1.partitions.size)
val rdd2array: Array[Int] = rdd1.collect()
rdd2array.foreach(println(_))
println("====================")
sc.stop()

	val conf: SparkConf = new SparkConf().setAppName("Spark01App").setMaster("local[2]")
	val sc: SparkContext = new SparkContext(conf)
// 外部存储系统的方式创建rdd
    val distFile: RDD[String] = sc.textFile("data/wc.data")
    println(distFile.partitions.size)
    distFile.collect().foreach(println(_))
    distFile.saveAsTextFile("file:home/hadoop/tmp/spark/spark01")
    distFile.saveAsTextFile("hdfs://bigdata12:9000/spark/spark01")
    println("======================")
    val distRdd2: RDD[String] = sc.textFile("data/wc.data", 10)
    println(distRdd2.partitions.size)
    distRdd2.collect().foreach(println(_))
    distRdd2.saveAsTextFile("file:home/hadoop/tmp/spark/spark02")
    distRdd2.saveAsTextFile("hdfs://bigdata12:9000/spark/spark02")
    sc.stop()

spark-shell

spark-shell :
–master spark作业运行环境
–deploy-mode yarn模式运行选择
–class spark作业包运行主类main class 包名
–name 指定spark作业的名字
–jars 指定第三方的依赖包
–conf 指定spark作业配置参数
yarn 参数补充：
–num-executors 指定申请资源的参数
–executor-memory 指定申请资源的参数
–executor-cores 指定申请资源的参数
–queue 指定作业运行在yarn的哪个队列上

spark-shell 交互式命令底层调用 =》 spark-submit
开发者主要使用的脚本用于提交用户自己开发的spark作业
为什么spark-shell webui名字是Spark shell?如何修改 --name
spark-core 如何触发作业的执行呢？
1、sparkcore里面触发作业的执行必须使用action算子
2.创建rdd 是不会触发作业的执行
task数为什么是2？
有多少个partition就有多少个task去处理我们的数据
跟我们运行模式有关系
spark =》 hdfs 生成的文件数量跟什么有关系?
spark => hdfs => tasks数 =》 parition数
rdd 里面parition有多少个 =》文件落地有多少个文件

封装

1.隐式转换添加功能

package com.dl2262.sparkcore.function
import org.apache.spark.rdd.RDD
object ImplictAsRdd {
  implicit def rdd2RichRdd[T](rdd:RDD[T]):RichRdd[T]={
    new RichRdd[T](rdd)
  }
}
class RichRdd[T](rdd:RDD[T]){
  def print(num:Int)={
    num match {
      case 0 => rdd.foreach(println(_));println("===========")
      case _ =>
    }
  }
}

2.封装重复代码

package com.dl2262.sparkcore.util
import org.apache.spark.{SparkConf, SparkContext}
object ContextUtils {
  def getSparkContext(appName:String,master:String="local[2]")={
    val conf: SparkConf = new SparkConf().setAppName(appName).setMaster(master)
    new SparkContext(conf)
  }
}

RDD 相关的操作

1.transformations 【转换操作】：create a new dataset from an existing one
1.All transformations in Spark are lazy =》懒加载
rdda => rddb =>rddc => 不会立即执行不会触发job的执行当有action才会执行
rdd.map().fitler =》 rdd 血缘关系
map相关的算子:
1.map : 一一映射处理rdd里面每一个元素

val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
// map
val rdd: RDD[Int] = sc.parallelize(List(3, 4, 5, 6))
val mapData: RDD[Int] = rdd.map(x => x * 2)
mapData.foreach(x => println(x))
println("====================")
val array: Array[Int] = mapData.collect()
array.foreach(x => println(x))
println("==============")
sc.stop()

2.filter

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
 	// filter
    val rdd1: RDD[Int] = sc.parallelize(1 to 10)
    val filterRdd: RDD[Int] = rdd1.filter(_ % 2 == 0).filter(_ > 8)
    filterRdd.foreach(println(_))
    println("================")
    val filterRdd2: RDD[Int] = rdd1.filter(x => x % 2 == 0 && x > 8)
    filterRdd2.foreach(println(_))
    println("==============")
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    filterRdd2.print(0)
    filterRdd2.print(1)
    filterRdd2.print(0)
    sc.stop()

3.mapPartitions 按分区处理数据调优比map

val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val rdd: RDD[Int] = sc.parallelize(List(1, 2, 4))
    val rdd2: RDD[Int] = sc.makeRDD(List(1, 2, 3))
    rdd.map(x=>{
      println("调用")
      x*2
    }).print(0)
    println(rdd.partitions.size)
    println("=========")
    rdd.mapPartitions(partition=>{
      println("调用")
      partition.map(x=>x*2)
    }).print(0)
    sc.stop()

需求： spark-core： map filter =》不让用如何实现其功能？实现底层MapPartitionsRDD

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    val rdd: RDD[Int] = sc.parallelize(1 to 10)
    new MapPartitionsRDD[Int,Int](rdd,(_,_,iter)=>iter.map(_*2)).foreach(println(_))
    sc.stop()

4.makeRDD = parallelize
5.mapPartitionsWithIndex 可以查看 rdd里面每个分区对应的数据

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val rdd: RDD[Int] = sc.parallelize(List(1, 2, 3, 4))
    rdd.mapPartitionsWithIndex((index,partition) => {
      partition.map(x => s"分区的下标${index},分区的元素${x}")
    }).foreach(println(_))
    println("=================")
    sc.stop()

6.mapvalues 针对kv类型对v做处理

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val rdd: RDD[Int] = sc.parallelize(List(1, 2, 3, 4))
    rdd.map(x => (x,1)).mapValues(v => v+1).print(0)
    sc.stop()

7.flatMap 一一映射底层也是MapPartitionsRDD
flatmap = flatten + map flatten => 压扁的
flatMap =》更改原始数据结构的 map 不会改变数据结构

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
	val rdd1: RDD[List[Int]] = sc.parallelize(List(List(1, 2), List(3, 4)))
    val value: RDD[List[Int]] = rdd1.map(x => x.map(_ * 2))
    val value1: RDD[Int] = rdd1.flatMap(x => x.map(_ * 2)) 
    sc.stop()

other算子:
1.glom ：把每一个分区的元素作为一个数组返回比mapPartitionsWithIndex

val value2: RDD[Array[Int]] = sc.parallelize(1 to 9).glom()
scala> value2.collect
res0: Array[Array[Int]] = Array(Array(1, 2, 3, 4), Array(5, 6, 7, 8, 9))

2.sample 抽样

sc.parallelize(1 to 20).sample(true,0.4,10).print(0)

3.union : 简单数据合并不去重不要与sql ： union union all弄混

val rdd2: RDD[Int] = sc.parallelize(1 to 3)
val rdd3: RDD[Int] = sc.parallelize(2 to 5)
rdd2.union(rdd3).print(0)

4.intersection 交集

val rdd2: RDD[Int] = sc.parallelize(1 to 3)
val rdd3: RDD[Int] = sc.parallelize(2 to 5)
rdd2.intersection(rdd3).print(0)

5.subtract 差集：显示a里面不含有b的元素

	val rdd2: RDD[Int] = sc.parallelize(1 to 3)
	val rdd3: RDD[Int] = sc.parallelize(2 to 5)
	rdd2.subtract(rdd3).print(0)
    rdd3.subtract(rdd2).print(0)

6.distinct 去重 *** 默认采用分区器： hash
hash分区:某个元素%分区总数

	sc.parallelize(List(4,4,4,5,5,5,6,6,6)).distinct().print(1)
    val rdd4: RDD[Int] = sc.parallelize(List(4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 8, 9, 10, 10))
    rdd4.distinct(4).mapPartitionsWithIndex((index,partition)=>{
      partition.map(x => s"分区号:${index},元素:${x}")
    }).print(0)
    case _ => map(x => (x, null)).reduceByKey((x, _) => x, numPartitions).map(_._1)// 底层调用map+reduceByKey+map完成对数据的key去重

需求： disctint =》不使用distinct 完成数据去重？

	val rdd5: RDD[Int] = sc.parallelize(List(1, 1, 1, 2, 2, 2, 3, 3, 3))
    rdd5.map(x => (x,null)).reduceByKey((x,y) =>{
      x
    }).map(x => x._1).print(0)

kv类型的算子
1.groupByKey 按key进行分组不要使用效率低不灵活， mapSideCombine = false 没有开启的发送数据网络io 没有变化的
预聚合mapSideCombine：减少map端输出的数据量 =》减少网络io
map :
(a,1)
(a,1)
(a,1)
(b,1)
(b,1)
combine: 预聚合按照map端输出的key进行聚合数据
(a,3)
(b,2)
reduce:
(a,3)
(b,2)
a,<3>
b,<2>
预聚合：前提： + - 操作 =》预聚合开启
求平均值操作 =》预聚合结果数据不对

	val wc: RDD[(String, Int)] = sc.parallelize(List(("a", 1), ("b", 2), ("c", 2), ("a", 10)))
    val groupbyData: RDD[(String, Iterable[Int])] = wc.groupByKey()
    groupbyData.print(0)
    (a,CompactBuffer(1, 10))
	(b,CompactBuffer(2))
	(c,CompactBuffer(2))
	groupbyData.mapValues(x => x.sum).print(0)
	(b,2)
	(a,11)
	(c,2)
	 wc.map(x =>(x._2,x._1)).groupByKey().print(0)
	 (1,CompactBuffer(a))
	(10,CompactBuffer(a))
	(2,CompactBuffer(b, c))

2.reduceByKey mapSideCombine = true + func，按照key进行分组对value进行操作

 	val wc: RDD[(String, Int)] = sc.parallelize(List(("a", 1), ("b", 2), ("c", 2), ("a", 10)))
 	wc.reduceByKey((x,y) => { //相同key后面的value
      x+y
    }).print(0)
    (b,2)
	(a,11)
	(c,2)

3.groupby 自定义分组

	val rdd6: RDD[String] = sc.parallelize(List("a", "a", "a", "a", "b", "b", "b"))
    rdd6.groupBy(x => x).print(0)
    val wc: RDD[(String, Int)] = sc.parallelize(List(("a", 1), ("b", 2), ("c", 2), ("a", 10)))
    wc.groupBy(x => x._1).print(0)
    (b,CompactBuffer(b, b, b))
	(a,CompactBuffer(a, a, a, a))
	===========
	(b,CompactBuffer((b,2)))
	(a,CompactBuffer((a,1), (a,10)))
	(c,CompactBuffer((c,2)))

4.sortByKey =》按照key进行排序分区排序默认升序
想要全局排序的前提是rdd的分区只有一个

	val rdd7: RDD[(String, Int)] = sc.parallelize(List(("zuan", 18), ("kaige", 20), ("doublehappy", 21)),1)
    rdd7.sortByKey().print(0)
    rdd7.sortByKey(false).print(0)
    rdd7.map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).print(0)
    (doublehappy,21)
	(kaige,20)
	(zuan,18)
	===========
	(zuan,18)
	(kaige,20)
	(doublehappy,21)
	===========
	(doublehappy,21)
	(kaige,20)
	(zuan,18)

5.sortby 自定义排序灵活

	val rdd7: RDD[(String, Int)] = sc.parallelize(List(("zuan", 18), ("kaige", 20), ("doublehappy", 21)),1)
	rdd7.sortBy(x => x._2,false).print(0)
    rdd7.sortBy(x => -x._2).print(0)
    (doublehappy,21)
	(kaige,20)
	(zuan,18)
	===========
	(doublehappy,21)
	(kaige,20)
	(zuan,18)

6.join

	val rdd7: RDD[(String, Int)] = sc.parallelize(List(("zuan", 18), ("kaige", 20), ("doublehappy", 21)))
    val rdd8: RDD[(String, String)] = sc.parallelize(List(("zuan", "广西"), ("kaige", "中国"), ("doublehappy", "大连")))
    rdd7.join(rdd8).print(0)
    (doublehappy,(21,大连))
	(zuan,(18,广西))
	(kaige,(20,中国))

7.cogroup

 	val rdd7: RDD[(String, Int)] = sc.parallelize(List(("zuan", 18), ("kaige", 20), ("doublehappy", 21)))
    val rdd8: RDD[(String, String)] = sc.parallelize(List(("zuan", "广西"), ("kaige", "中国"), ("doublehappy", "大连")))
    rdd7.cogroup(rdd8).print(0)
    (zuan,(CompactBuffer(18),CompactBuffer(广西)))
	(doublehappy,(CompactBuffer(21),CompactBuffer(大连)))
	(kaige,(CompactBuffer(20),CompactBuffer(中国)))

join vs cogroup
1.操作对象都是kv类型的
2.都是根据key进行关联
3.join返回值类型是RDD[(k,(option[v],option[w]))],cogroup的返回值类型是RDD[(k,(Iterable[v],Iterable[w]))],一个直接返回值，一个返回集合
4.join底层调用cogroup算子
scala:option 有就返回some 没有就返回none

 	val rdd7: RDD[(String, Int)] = sc.parallelize(List(("zuan", 18), ("kaige", 20), ("doublehappy1", 21)))
    val rdd8: RDD[(String, String)] = sc.parallelize(List(("zuan", "广西"), ("kaige", "中国"), ("doublehappy", "大连")))
    rdd7.join(rdd8).print(0)
    rdd7.cogroup(rdd8).print(0)
    (zuan,(18,广西))
	(kaige,(20,中国))
	===========
	(doublehappy,(CompactBuffer(),CompactBuffer(大连)))
	(kaige,(CompactBuffer(20),CompactBuffer(中国)))
	(zuan,(CompactBuffer(18),CompactBuffer(广西)))
	(doublehappy1,(CompactBuffer(21),CompactBuffer()))

转换算子常用的:map、flatmap、filter、mappartitions、distinct
kv:groupby、sortby、reducebykey、mapvalues
补充：zipWithIndex，生成kv,v是从0-n

val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
rdd9.zipWithIndex().print(0)
(3,2)
(1,0)
(4,3)
(2,1)
(5,4)

2.actions 【触发job执行的操作】把服务器上的rdd拉到driver上 action算子不能再接一个action算子
which return a value to the driver program 【spark client、控制台】after running a computation on the dataset【rdd】
1.collect() 把rdd数据集拉到控制台上以数组形式显示
2.foreach() => 输出 driver 循环输出每一个元素
1.控制台
2.hdfs 不这样用
3.db
3.foreachPartition 按照分区循环输出调优比foreach 获取链接次数少

 	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
    rdd9.foreach(x =>{
      println("调用")
      println(x)
    })
    println("==================")
    rdd9.foreachPartition(partition => {
      println("调用")
      partition.foreach(x => println(x))
    })

4.reduce

	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
	val res: Int = rdd9.reduce((x, y) => {
      x + y
    })
    println(res)
    15
    rdd9.reduce(_+_)

5.first 和take(n)取数据集里面第一个到第n个的元素
first底层调用的是take算子

	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
 	val first: Int = rdd9.first()
    println(first)

	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
	val arr: Array[Int] = rdd9.take(3)
    arr.foreach(print(_))

6.saveAsTextFile
7.top 和 takeOrdered 数据量不要太大控制台拉回过程中也需要进行数据存储的，存储到内存
top是降序取前n个数据集， takeOrdered 是升序取前n个数据集
top底层是takeOrdered实现的

	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
	val top: Array[Int] = rdd9.top(3)
    top.foreach(println(_))
    5
    4
    3

	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
	val array: Array[Int] = rdd9.takeOrdered(2)
    array.foreach(println(_))
    1
    2

8.countByKey 针对kv类型的rdd,按照key进行分组，统计key的数量

	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
	val countbykey: collection.Map[Int, Long] = rdd9.zipWithIndex().countByKey()
    countbykey.foreach(println(_))
    (5,1)
	(1,1)
	(2,1)
	(3,1)
	(4,1)

9.collectAsMap把rdd转换为map输出，对比collect将rdd转换为数组输出

	val rdd9: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))
	val collectasmap: collection.Map[Int, Long] = rdd9.zipWithIndex().collectAsMap()
    collectasmap.foreach(println(_))
    (2,1)
	(5,4)
	(4,3)
	(1,0)
	(3,2)

10.count 返回rdd里面元素的个数

	val rdd10: RDD[Int] = sc.parallelize(List(2, 5, 7, 9))
    val cnt: Long = rdd10.count()
    println(cnt)
    4

action常用的算子：foreach()、foreachpartition()
思考： spark-core xxxBykey算子都是转换算子对么？
大部分 xxxBykey算子 =》 transformation算子，除了countByKey() =》 aciton算子
源码里面：sparkcount.runjob => 触发作业的执行 =》 action算子

spark-core =》业务分析

商品名字商品价格库存数量
dior 300 1000
香奈儿 4000 2
螺蛳粉 200 98
3090显卡 200 10
按照商品的价格进行【desc】排序如果价格相同按照库存排序【asc】
rdd：
1.常用数据类型：
1.tuple 推荐
2.class 不推荐
1.object not serializable ?
如果作业和数据不在一个节点时，要把数据拉取到作业所在节点，数据拉取的过程中需要进行网络传输，经过网络传输首先你的数据一定要实现序列化，如果不实现序列化是无法进行网络传输的
解决： extends Serializable
2.输出格式不标准
override def toString
3.case class 推荐！！！
1.默认实现了序列化
2.重写了 tostring方法
3.不用new可以直接用

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("dior	300	1000",
      "香奈儿	4000	2",
      "螺蛳粉	200	98",
      "3090显卡	200	10"),1)
    val etlData: RDD[(String, Int, String)] = input.map(line => {
      val array: Array[String] = line.split("\t")
      val name: String = array(0)
      val price: Int = array(1).toInt
      val cnt: String = array(2)
      (name, price, cnt)
    })
    etlData.sortBy(x => (-x._2,x._3)).print(0)
    etlData.sortBy(x => (-x._2,x._3)).saveAsTextFile("hdfs://bigdata12:9000/spark/spar01")
    sc.stop()
    (香奈儿,4000,2)
	(dior,300,1000)
	(3090显卡,200,10)
	(螺蛳粉,200,98)

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("dior	300	1000",
      "香奈儿	4000	2",
      "螺蛳粉	200	98",
      "3090显卡	200	10"), 1)
    val etlData: RDD[Sku] = input.map(line => {
      val array: Array[String] = line.split("\t")
      val name: String = array(0)
      val price: Double = array(1).toDouble
      val cnt: Int = array(2).toInt
      new Sku(name, price, cnt)
    })
    etlData.sortBy(x => (-x.price,x.cnt)).print(0)
    etlData.sortBy(x => (-x.price,x.cnt)).saveAsTextFile("hdfs://bigdata12:9000/spark/spark01")
    sc.stop()
  }
  class Sku(val name:String,val price:Double,val cnt:Int) extends Serializable{
    override def toString: String = name + "\t" + price + "\t" + cnt
  }

 	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("dior	300	1000",
      "香奈儿	4000	2",
      "螺蛳粉	200	98",
      "3090显卡	200	10"), 1)
    val etlData: RDD[SKU] = input.map(line => {
      val array: Array[String] = line.split("\t")
      val name: String = array(0)
      val price: Double = array(1).toDouble
      val cnt: Int = array(2).toInt
      SKU(name, price, cnt)
    })
    etlData.sortBy(x => (-x.price,x.cnt)).print(0)
    //etlData.sortBy(x => (-x.price,x.cnt)).saveAsTextFile("hdfs://bigdata12:9000/spark/spark02")
    sc.stop()
  }
  case class SKU(val name:String,val price:Double,val cnt:Int)

按照对象本身进行排序：
1.实现排序的接口
Ordering =》 compareable
Ordered =》 comparetor
2.隐士转换普通类 =》 nb类

    val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("dior	300	1000",
      "香奈儿	4000	2",
      "螺蛳粉	200	98",
      "3090显卡	200	10"), 1)
    val etlData: RDD[SKu] = input.map(line => {
      val array: Array[String] = line.split("\t")
      val name: String = array(0)
      val price: Double = array(1).toDouble
      val cnt: Int = array(2).toInt
      new SKu(name, price, cnt)
    })
    etlData.sortBy(x => x).print(0)
    sc.stop()
  }
  class SKu(val name:String,val price:Double,val cnt:Int) extends Serializable with Ordered[SKu]{
    override def toString: String = name+"\t"+price+"\t"+cnt
    override def compare(that: SKu): Int = {
      if (-(this.price - that.price).toInt == 0){
        this.cnt - that.cnt
      } else {-(this.price - that.price).toInt}
    }
  }

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("dior	300	1000",
      "香奈儿	4000	2",
      "螺蛳粉	200	98",
      "3090显卡	200	10"), 1)
    val etlData: RDD[sku] = input.map(line => {
      val array: Array[String] = line.split("\t")
      val name: String = array(0)
      val price: Double = array(1).toDouble
      val cnt: Int = array(2).toInt
      new sku(name, price, cnt)
    })
    implicit def sku2Ordered(sku:sku):Ordered[sku]={
      new Ordered[sku] {
        override def compare(that: sku): Int = {
          if (-(sku.price-that.price).toInt==0){
            sku.cnt-that.cnt
          } else {
            -(sku.price-that.price).toInt
          }
        }
      }
    }
    etlData.sortBy(x => x).print(0)
    sc.stop()
  }
  class sku(val name:String,val price:Double,val cnt:Int) extends Serializable {
    override def toString: String = name+"\t"+price+"\t"+cnt
  }

案例

eg：
word,show,click
a,1,2
a,2,3
b,3,4
输出： a,3,5
b,3,4

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("a,1,2",
      "a,2,3",
      "b,3,4"))
    val etl: RDD[(String, (Int, Int))] = input.map(line => {
      val array: Array[String] = line.split(",")
      val word: String = array(0)
      val show: Int = array(1).toInt
      val click: Int = array(2).toInt
      (word, (show, click))
    })

    /**
     * a,(1,2)
     * a,(2,3)
     * a,<(1,2),(2,3)>
     */
    etl.reduceByKey((x,y) => {
      (x._1+y._1,x._2+y._2)
    }).map(x => (x._1+"\t"+x._2._1+"\t"+x._2._2)).print(0)
    sc.stop()
  }

核心概念

1.Application：spark作业
1.a driver program =》 driver
2.executors on the cluster =》 executors
spark作业：
1.sparkcontext
2. web ui
2.Application jar：通过代码生成的spark jar包
spark作业生成的jar包 =》包含spark作业里面含有main方法 =》开发完spark作业后部署服务器上
3.Driver program：
1.运行jar包里面的main 方法
2.创建sparkcontext
4.Cluster manager：通过集群获取资源 An external service for acquiring resources
5.Deploy mode：作业部署模式 spark jar 提交服务器去运行 =》 yarn yarn调度有两种模式
cluster： driver inside of the cluster driver跑在yarn所在的机器里面
client driver 运行在集群cluster之外，在哪提交作业的地方
6.Worker node：工作节点 can run application code 一个Worker node包含多个Executor
补充： spark作业 yarn
Worker node相当于yarn里面的nodemanager
7.Executor：相当于yarn里面的container：容器包含mem、cpu
1.runs tasks
2.keeps data in memory or disk storage
Each application has its own executors spark作业，每个作业运行过程中，都有自己的container，申请自己的资源
application1: 1driver + 2executor
application2: 1driver + 2executor 这两个executor是不一样的
8.Task: 任务等于rdd: partitions个数
9.Job:
action => job执行
spark作业 =》 Application
job =》 Application里面的jobs
10.Stage:
1.Each job gets divided into smaller sets of tasks => stage
2. depend on each other 依赖关系
总结：
一个application ：包含 1 到n 个job
一个job：包含 1到n个stage
rdda => rddb => rddc action => 一个job
01stage 02stage
一个stage：包含 1个到n个task
task 和 partition 一一对应

spark执行流程【面试】

1.spark作业运行在集群上有一系列进程
2.SparkContext 去协调这些进程
进程：
driver 1
executors
3.运行spark作业：
1.sc 去连接集群cluster manager
2.只要连接到集群，cluster manager 给spark作业分配资源
3.spark一旦连接上cluster
1.启动executor
2.executor =》计算和存储数据
4.
sparkcontext 发送代码给executor
sparkcontext 发送task 去executor 运行
补充： mem、CPU
1.worknode =》 nodemanager 所在的节点
executor=》 container：
task、store data
4.spark执行架构补充：
1.每个spark作业有自己的executor进程
app1: executors 1
app2: executors 1
好处：
1.资源隔离,这个作业申请的executor,别的作业不能用
2.调度的隔离，每个driver调度自己的任务
不同作业之间数据是不能进行共享的，除非把数据存储在外部存储系统上

案例

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("u01,英雄联盟|绝活&职业|云顶之一|女神,1,1",
      "u01,英雄联盟|绝活&职业|云顶之一|金铲铲,1,0",
      "u01,英雄联盟|绝活&职业|云顶之一|带粉上车,1,0",
      "u02,星秀|好声音|女团|小6,1,0",
      "u02,星秀|好声音|女团|三年一班,1,1",
      "u02,星秀|好声音|女团|姜恩惠Yommy,1,1"))
    val etlData: RDD[((String, String), (Int, Int))] = input.flatMap(line => {
      val array: Array[String] = line.split(",")
      val uid: String = array(0)
      val show: Int = array(2).toInt
      val click: Int = array(3).toInt
      val logtypes: String = array(1)
      val logs: Array[String] = logtypes.split("\\|")
      logs.map(log => ((uid, log), (show, click)))
    })
    etlData.reduceByKey((x,y) => {
      (x._1+y._1,x._2+y._2)
    }).map(line => {
      line._1._1+"\t"+line._1._2+"\t"+line._2._1+"\t"+line._2._2
    }).print(0)
    sc.stop()
  }

RDD持久化

rddb 持久化操作 =》调优的
操作：
1.persist() or cache() methods
2.触发action之后会对rdd数据进行持久化的
总结：
1.cache() 是lazy 是懒加载的不是action算子
rdda => action job
rdda => cache => action job => rdd持久化生效
rdda => action job rdda的数据从 rdd持久化的地方加载数据
rddb.cache 之后 rddb之后数据就不用从头开机计算提升计算效率
补充：对rdd做持久化就是对rdd里面的分区做持久化
好处： 1.much faster 【计算效率】
2. reuse 复用
cache vs persist(更好) 区别：【面试】
1.cache底层就是调用 persist算子
2.spark-core 持久化默认存储级别：StorageLevel.MEMORY_ONLY

存储级别

StorageLevel：
private var _useDisk: Boolean,
private var _useMemory: Boolean,
private var _useOffHeap: Boolean,
private var _deserialized: Boolean,
private var _replication: Int = 1
val NONE = new StorageLevel(false, false, false, false)
val DISK_ONLY = new StorageLevel(true, false, false, false)
val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
val DISK_ONLY_3 = new StorageLevel(true, false, false, false, 3)
val MEMORY_ONLY = new StorageLevel(false, true, false, true)
val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
val OFF_HEAP = new StorageLevel(true, true, true, false, 1)
存储级别选择：
1.MEMORY_ONLY 首选
2.MEMORY_ONLY_SER 次选（cpu充足时）
1.Java serialization: By default,
2.Kryo：注册 class 比java快
3.不建议选择磁盘
4.不要选择副本太占内存

object Spark14App {
  case class Info(name:String,age:Int,gender:String,address:String)
  def main(args: Array[String]): Unit = {
    val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val names: Array[String] = Array("金社子", "刘裕众", "小歪歪的狗子")
    val genders: Array[String] = Array("男", "女")
    val addresses: Array[String] = Array("大连", "广西", "北京")
    val infoes: ArrayBuffer[Info] = new ArrayBuffer[Info]()
    (1 to 30000).map(x => {
      val name: String = names(Random.nextInt(3))
      val gender: String = genders(Random.nextInt(2))
      val address: String = addresses(Random.nextInt(3))
      val age: Int = Random.nextInt(40)
      infoes += (Info(name,age,gender,address))
    })
    val data: RDD[Info] = sc.parallelize(infoes)
    data.persist()// 10.3M
    data.persist(StorageLevel.MEMORY_ONLY_SER)// 7.6M 默认是java 类需要序列化 样例类默认是实现序列化
    // Kryo 8.6M 性能比java高
    data.count()
    sc.stop()
  }
}

object ContextUtils {
  def getSparkContext(appName:String,master:String="local[2]")={
    //val conf: SparkConf = new SparkConf().set("spark.serializer","org.apache.spark.serializer.KryoSerializer").setAppName(appName).setMaster(master)
    val conf: SparkConf = new SparkConf().setAppName(appName).setMaster(master)
    conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
    conf.registerKryoClasses(Array(classOf[Info]))
    new SparkContext(conf)
  }
}

移除rdd持久化：
1.lru 会自动移除不常用的持久化数据
2.手动：【生产】
RDD.unpersist(true) 立即执行的 eager

血缘关系

lineage: rdda => rddb => rddc
一个rdd是如何从父rdd计算得来的
好处：容错(性能 + 容错)
rddb某个分区挂了时，直接从rdda对应的分区进行重新计算即可

而且本身持久化的数据集也支持容错重新进行计算

依赖关系

rdda => rddb
不同的依赖会导致生成rdd分区数发生变化的
分类：【面试】
1.宽依赖：
1.一个父rdd的parition会被子rdd的parition使用多次
2.会产生shuffle(数据重新洗牌) 会有新的stage产生
2.窄依赖：
1.一个父rdd的parition至多被子rdd的partition使用一次
2.不会产生shuffle，都是在一个stage里面完成的
宽依赖：
xxxbykey shuffle
其他：普通/reducejoin
窄依赖：
mapjoin、map filter flatmap union
spark： stage是如何划分？ ****
spark-core 产生宽依赖就会划分stage
算子：引起shuffle 就会划分stage
一个shuffle算子会划分2个stage,两个shuffle算子会产生3个stage

shuffle 算子

“生产上能使用窄依赖算子就不使用宽依赖算子”：
1.不准确
1.生产上大部分需求必须使用宽依赖的
2.容错的角度：
1.如果经过宽依赖之后的rdd的某一个分区数据挂掉
需要去父RDD分区重新计算会把父rdd里面的所有分区都会算一下才行
引起shuffle的算子：
1.xxxbykey =》
2. repartition and coalesce【不准确】
3. join：
map join 不会引发shuffle
reduce join /common join =》引起shuffle
生产上调整计算的并行度：【重要】
coalesce：一般用于减少rdd的分区数 =》窄依赖 =》不会引起shuffle 减少并行度task少了
data.coalesce(1)
repartition：增加rdd的分区数会引起shuffle data.repartition(3)
coalesce(num,shuffle=true)
思考：
可不可以使用coalesce 增加rdd分区数？可以的 data.coalesce(4,true)
repartition 减少rdd的分区数？不能
思考： coalesce 增加rdd分区数？走不走shuffle？必然走shuffle
思考：
rdd =》 hdfs 200个小文件变成10个文件
rdd.coalesce(10)

区分代码里的driver和executor

主要看操作对象
操作对象是rdd的就是executor
操作对象不是rdd的就是driver

案例

网站访问量排名：
domain uid flow
www.baidu.com,uid01,1
www.baidu.com,uid01,10
www.baidu.com,uid02,3
www.baidu.com,uid02,5
www.github.com,uid01,11
www.github.com,uid01,10
www.github.com,uid02,30
www.github.com,uid02,50
www.bibili.com,uid01,110
www.bibili.com,uid01,10
www.bibili.com,uid02,2
www.bibili.com,uid02,3
需求：每个域名每个用户的访问量的top2

 	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("www.baidu.com,uid01,1",
      "www.baidu.com,uid01,10",
      "www.baidu.com,uid02,3",
      "www.baidu.com,uid02,5",
      "www.github.com,uid01,11",
      "www.github.com,uid01,10",
      "www.github.com,uid02,30",
      "www.github.com,uid02,50",
      "www.bibili.com,uid01,110",
      "www.bibili.com,uid01,10",
      "www.bibili.com,uid02,2",
      "www.bibili.com,uid02,3"))
    val etlData: RDD[((String, String), Int)] = input.map(line => {
      val array: Array[String] = line.split(",")
      val domain: String = array(0)
      val uid: String = array(1)
      val flow: Int = array(2).toInt
      ((domain, uid), flow)
    })
    val res1: RDD[((String, String), Int)] = etlData.reduceByKey((x, y) => {
      x + y
    })
    res1.groupBy(x => x._1._2).mapValues(x => x.toList.sortBy(x => -x._2).map(x => (x._1._1,x._2)).take(2)).print(0)
    sc.stop()

存在安全隐患： x.toList 数据太大时会直接导致List存不下
sparkcore 进行数据分析： rdd进行操作不要使用scala里面的集合进行存储
思想：分而治之类似 mr 分组

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val input: RDD[String] = sc.parallelize(List("www.baidu.com,uid01,1",
      "www.baidu.com,uid01,10",
      "www.baidu.com,uid02,3",
      "www.baidu.com,uid02,5",
      "www.github.com,uid01,11",
      "www.github.com,uid01,10",
      "www.github.com,uid02,30",
      "www.github.com,uid02,50",
      "www.bibili.com,uid01,110",
      "www.bibili.com,uid01,10",
      "www.bibili.com,uid02,2",
      "www.bibili.com,uid02,3"))
    val etlData: RDD[((String, String), Int)] = input.map(line => {
      val array: Array[String] = line.split(",")
      val domain: String = array(0)
      val uid: String = array(1)
      val flow: Int = array(2).toInt
      ((domain, uid), flow)
    })
    //val uids: Array[String] = Array("uid01", "uid02")
    // collect只有在这种情况下才使用,适用于数据量小
    val uids: Array[String] = etlData.map(_._1._2).distinct().collect()
    for (elem <- uids) {
      etlData.filter(x => x._1._2 == elem).reduceByKey(_+_).sortBy(x => -x._2).take(2).foreach(println(_))
    }
    sc.stop()

案例二

需求：
spark-core =》 wc
input：hdfs
todo：wc
output：hdfs
在resources里面添加core-site.xml和hdfs-site.xml

	val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val in: String = "hdfs://bigdata12:9000/input/"
    val out: String = "hdfs://bigdata12:9000/output/"
    val input: RDD[String] = sc.textFile(in)
    FileUtils.deletePath(sc.hadoopConfiguration,out)
    input.flatMap(line => {
      line.split(",")
    }).map(x => (x,1)).reduceByKey(_+_).saveAsTextFile(out)
    sc.stop()

def deletePath(conf:Configuration,outpath:String)={
    val fs: FileSystem = FileSystem.get(conf)
    val out: Path = new Path(outpath)
    if (fs.exists(out)){
      fs.delete(out,true)
    }
  }

部署spark作业：
1.jar
2.spark-submit 提交作业
local法一：

def main(args: Array[String]): Unit = {
    if (args.size != 2){
      logError("请正确输入两个参数: ")
      System.exit(0)
    }
    val in: String = args(0)
    val out: String = args(1)
    val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
//    val in: String = "hdfs://bigdata12:9000/input/"
//    val out: String = "hdfs://bigdata12:9000/output/"

    val input: RDD[String] = sc.textFile(in)
    FileUtils.deletePath(sc.hadoopConfiguration,out)
    input.flatMap(line => {
      line.split(",")
    }).map(x => (x,1)).reduceByKey(_+_).saveAsTextFile(out)
    sc.stop()
  }

spark-submit \
--class com.dl2262.sparkcore.day01.WCAPP \
--master local[2] \
--name wordcount \
/home/hadoop/project/spark/spark-2262-1.0.jar \
hdfs://bigdata12:9000/input/ hdfs://bigdata12:9000/output/

local法二：

def main(args: Array[String]): Unit = {
    val sc: SparkContext = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    import com.dl2262.sparkcore.function.ImplictAsRdd._
    val in: String = sc.getConf.get("spark.input.path", "hdfs://bigdata12:9000/input/")
    val out: String = sc.getConf.get("spark.output.path", "hdfs://bigdata12:9000/output/")
    val input: RDD[String] = sc.textFile(in)
    FileUtils.deletePath(sc.hadoopConfiguration,out)
    input.flatMap(line => {
      line.split(",")
    }).map(x => (x,1)).reduceByKey(_+_).saveAsTextFile(out)
    sc.stop()
  }

spark-submit \
--class com.dl2262.sparkcore.day01.WCAPP \
--master local[2] \
--name wordcount \
--conf spark.input.path=hdfs://bigdata12:9000/input/1 \
--conf spark.output.path=hdfs://bigdata12:9000/output1/ \
/home/hadoop/project/spark/spark-2262-1.0.jar.0

sparksql

1.什么是sparksql?
sparksql 主要处理结构化数据
什么是结构化数据？
“带有schema信息的数据” 【schema ：table 字段的名称、字段的类型】eg：mysql
半结构化数据： csv(可以用excel打开)、json、orc、parquet
非结构化数据： nosql – redis、hbase
2.在spark里面 Spark SQL 模块：不仅仅是sql 、还有dataframe
3.sparksql 有哪些特性？
0.sparksql dataframe api vs 同时sparkcore里面使用的算子在sparksql里面也可以使用的
1.Sparksql= sql + dataframe api 处理结构化数据
2.Uniform data access 【外部数据源】
SparkSQL 是能够处理多种不同的数据源的数据：
Hive, Avro, Parquet, ORC, JSON, and JDBC text 数据
HDFS/s3(亚马逊)/oss(阿里)/cos(腾讯) 数据存储系统
3.Hive integration [整合hive(数据仓库)]
SparkSQL访问hive的元数据库即可利用sparksql查询hive里面的数据
注意：
1.Sparksql 不仅仅是sql
2. hive on spark vs spark on hive
hive on spark : hive查询引擎是 mr=》 spark 【几乎不用，bug很多】
spark on hive ：可以使用sparksql 去hive上查询数据【可能hive 引擎是mr】【99.953%】

概述

概述：
1.sparksql 处理数据的性能比 spark rdd 方式的处理性能高
1.more information about the structure of both the data 【schema】
2.sparksql架构有关
sparksql底层跑的还是 Sparkcore rdd ，只是spark框架底层给我们做了优化
sparkcore：编程模型 rdd
sparksql： rdd[数据集] +schema[字段字段的类型] =》 table
2.Spark SQL including SQL and the Dataset API
3.Datasets and DataFrames：
Dataset
1.Dataset 也是一个分布式数据集
2.比rdd多出的优势：
1.强类型
2.Dataset 也可以使用算子
3.optimized execution engine. 执行性能高【sparksql架构 catelyst 做了很多优化】
4.Dataset 是Spark 1.6 之后诞生的
3.Dataset API ：scala java进行开发
DataFrame：
1.DataFrame 也是一个dataset
A DataFrame is a Dataset organized into named columns
2.DataFrame四种创建方式：
structured data files, tables in Hive, external databases, or existing RDDs
3. DataFrame is represented by a Dataset of Rows：
DataFrame = Dataset[Row]
Row => 一行数据仅仅包含 named columns
DataFrame =》 table
sparkcore=> rdd 数据集
sparksql=》 DataFrame /df 数据集【数据集 + 额外的信息【schema】】
rdd + schema => table
Sparksql:
1.0: schemaRDD : rdd（存数据）+ schema(数据的(额外信息:元数据)：字段、字段类型) =》 table
=》1.2/3
=> DataFrame =>schemaRDD 变过来的
=》1.6
=》 DataSet =》 DataFrame 变过来的
DataFrame /df vs rdd：
区别：
1.rdd ：不同的语言开发的 rdd ，执行性能是不一样
java和scala(会被语言转换为jvm去运行)、python(pathon会转化成自己的运行时数据区去运行,pathon开发rdd性能没有java和scala高)
2.DataFrame/df：使用不同的开发语言执行性能是一样的 (spark底层逻辑优化=》物理执行计划=》rdd执行，此时执行性能和语言就没有关系了)，df比rdd开发简单
java、scala、python、r

开发 DF

1.idea里面开发sparksql
引入 sparksql依赖：

org.apache.spark
spark-sql_2.12
3.2.1

2.SparkSQL程序开发入口：
1.rdd =》 SparkContext
2.SQL =》 SparkSession
获取df后会立即触发job，不是懒加载
3.SparkSQL进行数据分析：
1.sql方式【好维护】
2.api方式【不好维护】
开发df：
1.sql 【idea api+sql 或者 hive sql文件】
2.api 【一般用于开发平台、工具】
1.api方式 =》
api =》 sql 一一对应
1.加载df中某个字段
select(“字段名字”) =》 string
select(col: String, cols: String*)：
1. select(“字段名字”) =》推荐
2. select($“字段名字”) + 隐士转换 import spark.implicits._
可以调用sql里面的函数
补充： df.select('age)
select(cols: Column*)：
import org.apache.spark.sql.functions._
df.select(col(“age”))

 	 val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    // val spark: SparkSession = SparkSession.builder().appName("SparkSQL01").master("local[2]").getOrCreate()
    val df: DataFrame = spark.read.text("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\wc.data")
    df.select("age").show()
    df.select("age","name").show()
    import spark.implicits._
    df.select($"age").show()
    df.select($"age",$"name"+1).show()
    df.select('age).show()
    import org.apache.spark.sql.functions._
    df.select(col("age")).show()
    spark.stop()

2.sql方式进行操作
spark.sql(“select count(1) as cnt from test”).show()
开发数仓：
1.sql文件维护数仓 =》推荐好维护
2.idea ：不好维护 udf函数比较方便
1.sql方式维护数仓 =》有公司这么干的【滴滴】
2.api方式维护数仓 =》有公司这么干的
1.通用性的代码来维护 code开发能力有要求难度大

案例

df.show(2) 显示2条数据默认显示20条数据
df.show(2,false) 显示2条数据，显示所有字符串长度，默认截至字符串20字节
df.printSchema() 显示数据集的字段名字和字段类型
需求分析
1、table中数据条数
2.table中所有人薪资总和

	val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    val df: DataFrame = spark.read.json("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\emp.json")
    df.show(2)
    df.printSchema()
    import spark.implicits._
    df.groupBy().count().select($"count".as("cnt")).show()

    df.groupBy().sum("salary").select($"sum(salary)".as("sum_sal")).show()

    df.createOrReplaceTempView("tmp")
    spark.sql(
      """
        |select count(1) as cnt from tmp
        |""".stripMargin).show()
    spark.sql(
      """
        |select sum(salary) as sum_sal from tmp
        |""".stripMargin).show()
    spark.stop()

构建dataframe

三种方式：
existing RDD, from a Hive table, or from Spark data sources.
1.existing RDD
RDD =》dataframe 有两种方式：
1.反射的方式
2.编程的方式
1.RDD[Row]
2.schema
3.createDataFrame =>df
rdd + schema => table
schema: table 元数据【字段名字、字段的类型】 =》 StructType
fileds：一个字段的元数据 =》 StructField
反射的方式创建：

object SparkSQL03 {
  case class Info(uid:String,name:String,age:Int)
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    val sc: SparkContext = spark.sparkContext
    val input: RDD[String] = sc.textFile("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\info.txt")
    // rdd里面的数据结构case class 和tuple
    val inputDF: DataFrame = input.map(line => {
      val array: Array[String] = line.split(",")
      val uid: String = array(0)
      val name: String = array(1)
      val age: Int = array(2).toInt
      Info(uid, name, age)
    }).toDF()
    inputDF.show(5,false)
    inputDF.printSchema()
    val inputDF2: DataFrame = input.map(line => {
      val array: Array[String] = line.split(",")
      val uid: String = array(0)
      val name: String = array(1)
      val age: Int = array(2).toInt
      (uid, name, age)
    }).toDF("uid","name","age")
    inputDF2.show(5,false)
    inputDF2.printSchema()
    spark.stop()
  }
}

编程方式创建：

val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    val sc: SparkContext = spark.sparkContext
    val input: RDD[String] = sc.textFile("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\info.txt")
    val rowRDD: RDD[Row] = input.map(line => {
      val array: Array[String] = line.split(",")
      val uid: String = array(0)
      val name: String = array(1)
      val age: Int = array(2).toInt
      Row(uid, name, age)
    })
    val schema: StructType = StructType(Array(StructField("uid", StringType), StructField("name", StringType), StructField("age", IntegerType)))
    val inputDF: DataFrame = spark.createDataFrame(rowRDD, schema)
    inputDF.show(10,false)
    inputDF.printSchema()
    spark.stop()

相互转换【面试】

如何把rdd转变成df、ds？
rdd =》 toDF / => toDS
如何把 df/ds => rdd ?
df/ds.rdd
df 如何转变成ds ?
df.as[数据类型] =》 ds

 	  val inputDS: Dataset[(String, String, Int)] = input.map(line => {
      val array: Array[String] = line.split(",")
      val uid: String = array(0)
      val name: String = array(1)
      val age: Int = array(2).toInt
      (uid, name, age)
    }).toDS()

    val rdd: RDD[Row] = inputDF2.rdd

    val dataset: Dataset[Info] = inputDF.as[Info]

构建 DataFrame

1.rdd
2.hive ***
3.外部数据源 *** json、csv、jdbc/odbc
1.读数据 api
spark.read.format(“text”).load(paths : _) =》 df
spark.read.format(“json”).load(paths : _)
spark.read.textFile(path) =》ds
2.写数据 api
df.write.mode(SaveMode.Overwrite).format(“text”).save(path)
df.write.mode(SaveMode.Append).format(“json”).save(path)

text文件

本身是不带有schema信息【字段 value string 】
text 比 json csv 带有的schema信息偏少,只有一个value字段
1.text文件加载进来之后需要解析数据需要引入隐式转换
2.文本类型不支持Int类型
3.写数据时
Text data source supports only a single column, and you have 3 columns.
Text仅仅支持一列(一个字段)输出不支持多列输出
使用sparksql 支持text多列输出？
1.自定义外部数据源 =》难度
2.df 转变成rdd方式进行输出 =》常用的手段
spark.read.text:

package com.dl2262.sparkcore.day02

import com.dl2262.sparkcore.util.{ContextUtils, FileUtils}
import org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession}

object DataSource01 {
  def text(spark: SparkSession, path: String) = {
    import spark.implicits._
    val df: DataFrame = spark.read.format("text").load(path)
    df.show(false)
    df.printSchema()
    val data: DataFrame = df.map(row => {  // df.map之后是dataset
      val line: String = row.getString(0) // 读取第一个字段,text里面只有value一个字段
      val array: Array[String] = line.split(",")
      val uid: String = array(0)
      val name: String = array(1)
      val age:String = array(2)
      (uid, name, age)
    }).toDF("uid", "name", "age")
    data.show(false)
    data.printSchema()
    val outpath: String = "hdfs://bigdata12:9000/spark/spark02"
    FileUtils.deletePath(spark.sparkContext.hadoopConfiguration,outpath)
    data.rdd.map(row => row.getString(0)+","+row.getString(1)+","+row.getString(2)).saveAsTextFile(outpath)
    //data.write.mode(SaveMode.Overwrite).format("text").save("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\out-text")
  }

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    // text df
    text(spark,"file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\info.txt")
    spark.stop()
  }
}

spark.read.textFile:

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.{ContextUtils, FileUtils}
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object DataSourceText02 {

  def text(spark: SparkSession, path: String) = {
    import spark.implicits._
    val ds: Dataset[String] = spark.read.textFile(path)
    ds.show()
    ds.printSchema()
    val data: DataFrame = ds.map(line => {
      val array: Array[String] = line.split(",")
      val uid: String = array(0)
      val name: String = array(1)
      val age: String = array(2)
      (uid, name, age)
    }).toDF("uid", "name", "age")
    data.printSchema()
    data.show()
    val outpath: String = "hdfs://bigdata12:9000/spark/spark02"
    FileUtils.deletePath(spark.sparkContext.hadoopConfiguration,outpath)
    data.rdd.map(row => row.getString(0)+","+row.getString(1)+","+row.getString(2)).saveAsTextFile(outpath)
  }

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    // text ds
    text(spark,"file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\info.txt")
    spark.stop()
  }
}

json

1.普通json
2.嵌套json：
1.api：
struct：打点
array：expolde + struct：打点
2.sql：
hive
struct：打点
array：expolde + struct：打点
3.不规范json =》udf函数来解决
数据输出：
数据写出方式：
1.覆盖 overwrite
2.追加 append
普通json:

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object DataSourceJson01 {

  def json(spark: SparkSession, path: String) = {
    import spark.implicits._
    val input: DataFrame = spark.read.format("json").load(path)
    input.show()
    input.printSchema()
    input.createOrReplaceTempView("city_info")
    spark.sql(
      """
        |select count(1) as cnt from city_info
        |""".stripMargin).write.mode(SaveMode.Overwrite).format("json").save("hdfs://bigdata12:9000/spark/spark03")
  }

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    // 普通json
    json(spark,"file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\city_info.json")
    spark.stop()
  }
}

嵌套json API:

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object DataSourceJson02 {


  def json(spark: SparkSession, path: String) = {
    import spark.implicits._
    var jsonData: DataFrame = spark.read.format("json").load(path)
    jsonData.show(false)
    jsonData.printSchema()
    import org.apache.spark.sql.functions._
    jsonData=jsonData.withColumn("color",col("store.bicycle.color")) // 增加一个列或替代以及存在的一列
    jsonData=jsonData.withColumn("price",col("store.bicycle.price"))
    jsonData=jsonData.withColumn("fruit",explode(col("store.fruit")))
    jsonData=jsonData.withColumn("type",col("fruit.type"))
    jsonData=jsonData.withColumn("weight",col("fruit.weight"))
    jsonData=jsonData.drop("store","fruit")
    jsonData.show(false)
    jsonData.printSchema()
  }

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    // 嵌套json API
    json(spark,"file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\store.json")
    spark.stop()
  }
}

嵌套json sql:

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.{DataFrame, SparkSession}

object DataSourceJsonSQL {

  def json(spark: SparkSession, path: String) = {
    val data: DataFrame = spark.read.format("json").load(path)
    data.show(false)
    data.printSchema()
    data.createOrReplaceTempView("store_json")
    val etl: DataFrame = spark.sql(
      """
        |select
        |email,
        |owner,
        |store.bicycle.color as color,
        |store.bicycle.price as price,
        |fruit.type as type,
        |fruit.weight as weight
        |from store_json
        |lateral view explode(store.fruit) as fruit
        |""".stripMargin)
    etl.show(false)
    etl.printSchema()
  }

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    // 嵌套json sql
    json(spark,"file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\store.json")
    spark.stop()
  }
}

csv

csv文件 excel=> spark-excel
1.可以使用excel打开
2.默认字段之间的分割符 , [可以进行更改]
常用参数：
read:
1.sep 分割符 ,
2.header 第一行作为table中的字段
3.inferSchema 类型推断功能
4.encoding 指定读取的csv文件的字符集默认utf-8
write：
compression
sep
encoding

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object DataSourceCSV01 {

  def csv(spark: SparkSession, path: String) = {
    val data: DataFrame = spark.read.option("sep",";")
      .option("header","true")
      .option("inferSchema","true")
      .format("csv").load(path)
    import spark.implicits._
    data.show(false)
    data.printSchema()
    data.createOrReplaceTempView("csv")
    spark.sql(
      """
        |select
        |city_id,city_name,area
        |from csv
        |where lower(city_name)='beijing'
        |""".stripMargin)
    data.write.option("compression","gzip").mode(SaveMode.Overwrite).format("csv").save("hdfs://bigdata12:9000/spark/spark04")
  }

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    // csv
    csv(spark,"file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\city_info.csv")
    spark.stop()
  }
}

jdbc

1.目前这种写法：
加载数据性能不高：
1.直接表table 数据全部加载过来，再进行筛选性能不高
加载数据：谓词下压：首选！！！先进性where 加载数据性能高
2.写数据：
1.在mysql上先创建一个table
CREATE TABLE rpt_zihang_sum (
uid varchar(20) DEFAULT NULL,
name varchar(20) DEFAULT NULL,
sku varchar(20) DEFAULT NULL,
os varchar(20) DEFAULT NULL,
cnt int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
2.write

mysql
mysql-connector-java
5.1.49

package com.dl2262.sparksql.day02

import java.util.Properties

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object DataSourceJDBC01 {

  def jdbc(spark: SparkSession) = {
    val inputsql =
      """
        |select *
        |from dept
        |where deptno=10
        |""".stripMargin
    val data: DataFrame = spark.read.format("jdbc")
      .option("url", "jdbc:mysql://bigdata12:3306/bigdata")
      .option("dbtable", s"($inputsql) as tmp")
      .option("user", "root")
      .option("password", "123456")
      .load()
    data.show(false)
    data.printSchema()
    val url = "jdbc:mysql://bigdata12:3306/bigdata"
    val table = "dept01"
    val properties: Properties = new Properties()
    properties.setProperty("user","root")
    properties.setProperty("password","123456")
    data.write.mode(SaveMode.Append).jdbc(url,table,properties)
  }

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    jdbc(spark)
    spark.stop()
  }
}

sparksql整合hive

1.linux环境 spark 整合hive 【生产集群环境配置】
2.代码开发 idea
1.生产环境
placing your hive-site.xml,
core-site.xml (for security configuration), and
hdfs-site.xml (for HDFS configuration) file in conf/.
把hive-site.xml, core-site.xml ，hdfs-site.xml 放置spark安装目录 conf文件下即可
之前spark 跑yarn上：已经配置了hadoop配置文件路径的参数，core-site.xml ，hdfs-site.xml是不需要再次配置在conf目录下
1.可以的 [不推荐]：cp hive_home/conf/hive-site.xml spark_home/conf/
2.最好使用软连接：[hadoop@bigdata12 conf]$ ln -s /home/hadoop/app/hive/conf/hive-site.xml ./hive-site.xml
spark-shell =》 hive ：报错：没有mysql驱动
spark整合hive，只需要spark作业能够访问hive metastore即可，hive的metastore在mysql里
spark作业添加mysql驱动：
1.linux环境变量里面添加 mysql驱动包【不常用】
2.当前spark作业添加mysql驱动即可
spark：
driver
executor 每个executor都要有 mysql驱动jar包
启动spark-sql 脚本：
spark-sql --master local[2]
–jars /home/hadoop/software/mysql-connector-java-5.1.28.jar
–driver-class-path /home/hadoop/software/mysql-connector-java-5.1.28.jar
测试：
spark.sql(“show databases”).show()
spark.sql(“show tables in bigdata”).show()
spark.sql(“select * from bigdata.city_info”).show()
select count(1),city_name from city_info group by city_name
spark.sql(“select count(1),city_name from bigdata.city_info group by city_name”).show()
spark-shell => test
spark-submit => 用于提交用户自己开发spark作业 jar
spark-sql => 类比于 hive
启动spark-sql 脚本：
spark-sql --master local[2]
–jars /home/hadoop/software/mysql-connector-java-5.1.28.jar
–driver-class-path /home/hadoop/software/mysql-connector-java-5.1.28.jar
补充： database namespace 都是指数据库
数据分析：数仓里面的数据
ad-hoc: 临时查询、测试
hive 脚本：
分析少用
建表
spark-sql脚本：分析用
建议不要建表【sparksql hive 建表有小问题可以用】
hive function =》 spark绝对有
spark里面有的东西 =》 hive 未必有
维护数仓：数据导入到xxl、airflow
hive -e/-f xxx.sql => mr
spark-sql -e/-f xxx.sql => sparksql => 推荐的方式离线数仓好维护简单
=》 idea api 方式不太推荐离线数仓不好维护

idea

1.在resources里面导入hive-site.xml并导入hive依赖包

org.apache.spark
spark-hive_2.12
3.2.1

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.SparkSession

object DataSourceHive01 {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    import org.apache.spark.sql.functions._
    val data = spark.sql(
      """
        |select * from bigdata.city_info
        |""".stripMargin)
    data.printSchema()
    data.show(false)
    spark.stop()
  }
}

案例

id visit_dt visit_cnt
u01 2017/1/21 5
u02 2017/1/23 6
u03 2017/1/22 8
u04 2017/1/20 3
u01 2017/1/23 6
u01 2017/2/21 8
u02 2017/1/23 6
u01 2017/2/22 4

create table user_log (
uid string,
visit_dt string,
visit_cnt int
)
row format delimited fields terminated by ','
load data local inpath '/home/hadoop/tmp/user.log' overwrite into table user_log;

需求：
要求使用sql 统计出每个用户的累计访问次数
uid 月份(month) cnt 累计cnt
u01 2017-01 11 11
u01 2017-02 12 23
1.每个用户每个月的访问次数
2.累计访问次数

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.SparkSession

object DataSourceHive02 {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    import org.apache.spark.sql.functions._
    val data = spark.sql(
      """
        |select
        |uid,
        |month,
        |cnt,
        |sum(cnt) over(partition by uid order by month) as total_cnt
        |from(
        |select
        |uid,
        |date_format(replace('visit_dt','/','-'),'yyyy-MM') as month,
        |sum(visit_cnt) as cnt
        |from bigdata.user_log
        |group by uid,month
        |) as a
        |""".stripMargin)
    data.show(false)
    data.printSchema()
    spark.stop()
  }
}

案例

需求：
mysql数据：
city_info、城市表
product_info 商品表
{“product_status”:1}
1表示自营
0表示第三方
日志数据：user_click.txt
1.按照区域求最受欢迎【点击次数】的商品的 top3
2.统计每个城市每个商品状态[自营/非自营]的最受欢迎的商品
1.使用sparksql 代码的方式做需求，并把结果数据写入mysql
2.需求需要部署在xxl上进行调度，调度周期 t+1
3.将结果数据进行可视化展示，使用superset：
1.可视化要求：必须要使用下拉框，其他图表任意使用
4.整理整个需求的思路架构图
临时需求：
1.数据源在不同位置：
1.把多种数据源数据全部放到 hive 统一进行处理【推荐】
2.sparksql 集成code 把各种各样的数据源都加载sparksql里形成dataframe 不同dataframe可以进行数据交互一般用于临时开发
input:
mysql：2table =》 sparksql =》 2df
日志数据:hdfs => sparksql => df
todo:
1.按照区域求最受欢迎【点击次数】的商品的 top3
2.统计每个城市每个商品状态[自营/非自营]的最受欢迎的商品
output: mysql
部署： xxl： T+1 报警
spark-submit jar
数据可视化： superset
idea 打包方式：
瘦包仅仅把编好的代码打入到 jar里面，版本升级时不需要进行改动
胖包：除了打入编好的代码之外还会打入需要的依赖到jar里面
缺点： 160M * 1000 =》 linux 数据量太大
不建议：把需要的jar包直接导入到spark里面的jars里，会脏了 spark 环境，导入的jar包很容易和spark里面的jar包冲突，导致spark用不了了，或版本升级后可能会导致jar包冲突

package com.dl2262.sparksql.day03

import java.util.Properties

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession}

object UserLogApp {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    import org.apache.spark.sql.functions._
    val city_info: DataFrame = spark.read.format("jdbc")
      .option("url", "jdbc:mysql://bigdata12:3306/bigdata")
      .option("dbtable", "city_info")
      .option("user", "root")
      .option("password", "123456")
      .load()
    val product_info: DataFrame = spark.read.format("jdbc")
      .option("url", "jdbc:mysql://bigdata12:3306/bigdata")
      .option("dbtable", "product_info")
      .option("user", "root")
      .option("password", "123456")
      .load()
    city_info.show(false)
    product_info.show(false)
    //spark.read.format("text").load("hdfs://bigdata12:9000//user/hive/warehouse/bigdata.db/user_click/")
    val logData: Dataset[String] = spark.read.textFile("hdfs://bigdata12:9000//user/hive/warehouse/bigdata.db/user_click/")
    val userLog: DataFrame = logData.map(line => {
      val splits: Array[String] = line.split(",")
      val uid: String = splits(0)
      val session_id: String = splits(1)
      val dt: String = splits(2)
      val city_id: String = splits(3)
      val product_id: String = splits(4)
      (uid, session_id, dt, city_id, product_id)
    }).toDF("uid", "session_id", "dt", "city_id", "product_id")
    userLog.show(3,false)
    city_info.createOrReplaceTempView("city_info")
    product_info.createOrReplaceTempView("product_info")
    userLog.createOrReplaceTempView("user_log")
    spark.sql(
      """
        |drop table if exists bigdata.dws_user_log
        |""".stripMargin)
    spark.sql(
      """
        |create table bigdata.dws_user_log as
        |select
        |a.city_id,
        |a.product_id,
        |area,
        |product_name
        |from(
        |select
        |city_id,
        |product_id
        |from user_log
        |) as a left join(
        |select
        |city_id,
        |area
        |from city_info
        |) as b
        |on a.city_id=b.city_id
        |left join(
        |select
        |product_id,
        |product_name
        |from product_info
        |)as c
        |on a.product_id=c.product_id
        |""".stripMargin)
    spark.sql(
      """
        |drop table if exists bigdata.rpt_user_log_click_rank
        |""".stripMargin)
    spark.sql(
      """
        |create table bigdata.rpt_user_log_click_rank as
        |select
        |area,
        |product_name,
        |cnt,
        |row_number() over(partition by area order by cnt desc) as rk
        |from(
        |select
        |area,
        |product_name,
        |count(*) as cnt
        |from bigdata.dws_user_log
        |group by area,product_name
        |) as a
        |""".stripMargin)
    val rpt = spark.sql(
      """
        |select
        |area,
        |product_name,
        |cnt,
        |rk
        |from bigdata.rpt_user_log_click_rank
        |where rk <= 3
        |""".stripMargin)
    rpt.show(false)
    val url = "jdbc:mysql://bigdata12:3306/bigdata"
    val table = "rpt_cnt_top3"
    val properties: Properties = new Properties()
    properties.setProperty("user","root")
    properties.setProperty("password","123456")
    rpt.write.mode(SaveMode.Append).jdbc(url,table,properties)
    spark.stop()
  }
}

def getSparkSession(appName:String,master:String="local[2]")={
    SparkSession.builder()
      //.appName(appName).master(master)
      .enableHiveSupport().getOrCreate()
  }

spark-submit \
--master local[2] \
--name userlog \
--class com.dl2262.sparksql.day03.UserLogApp \
--jars /home/hadoop/software/mysql-connector-java-5.1.28.jar \
--driver-class-path /home/hadoop/software/mysql-connector-java-5.1.28.jar \
/home/hadoop/project/spark/spark-2262-1.0.jar.1

以yarn方式进行部署【面试】

 client ： driver   =》 client机器(提交机器)
 cluster： driver  =》 集群内部的

2.提交作业有关
cluster ：
提交作业 client作业提交 client就可以关闭了对spark作业是没有影响的
client：
提交作业 client作业提交如果client关闭了 driver process 挂了对spark作业有影响的
3.输出日志
client =》可以直接查看日志
cluster =》 yarn上去看运行日志

spark-submit \
--master yarn \
--deploy-mode client \
--name userlog \
--executor-memory 1G \
--num-executors 1 \
--executor-cores 1 \
--class com.dl2262.sparksql.day03.UserLogApp \
--jars /home/hadoop/software/mysql-connector-java-5.1.28.jar \
--driver-class-path /home/hadoop/software/mysql-connector-java-5.1.28.jar \
/home/hadoop/project/spark/spark-2262-1.0.jar.1

spark-submit \
--master yarn \
--deploy-mode cluster \
--name userlog \
--executor-memory 1G \
--num-executors 1 \
--executor-cores 1 \
--class com.dl2262.sparksql.day03.UserLogApp \
--jars /home/hadoop/software/mysql-connector-java-5.1.28.jar \
--driver-class-path /home/hadoop/software/mysql-connector-java-5.1.28.jar \
--driver-library-path /home/hadoop/software/mysql-connector-java-5.1.28.jar \
/home/hadoop/project/spark/spark-2262-1.0.jar.1

数据写入hive

1.sql方式： hivesql
普通表
1.hive创建一张普通表
2.insert ：
insert into
insert overwrite 【常用】

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.SparkSession

object DataSourceHive02 {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    import org.apache.spark.sql.functions._
    val data = spark.sql(
      """
        |select
        |uid,
        |month,
        |cnt,
        |sum(cnt) over(partition by uid order by month) as total_cnt
        |from(
        |select
        |uid,
        |date_format(replace('visit_dt','/','-'),'yyyy-MM') as month,
        |sum(visit_cnt) as cnt
        |from bigdata.user_log
        |group by uid,month
        |) as a
        |""".stripMargin)
    data.show(false)
    data.printSchema()

    /**
     * sql方式写入数据
     * 1.在hive里建普通表
     * 2.insert进hive表里
     */
    data.createOrReplaceTempView("result")
//    spark.sql(
//      """
//        |--不推荐 ctas
//        |create table bigdata.result01 as
//        |select * from result
//        |""".stripMargin)
//    spark.sql(
//      """
//        |insert into table bigdata.result01
//        |select * from result
//        |""".stripMargin)
    spark.sql(
      """
        |insert overwrite table bigdata.result01
        |select * from result
        |""".stripMargin)
    spark.stop()
  }
}

分区表：
1.hive创建一张分区表
2.insert ：
into
overwrite
静态分区：
动态分区：

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.SparkSession

object WriteHive02 {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    import org.apache.spark.sql.functions._
    val data = spark.sql(
      """
        |select
        |uid,
        |month,
        |cnt,
        |sum(cnt) over(partition by uid order by month) as total_cnt
        |from(
        |select
        |uid,
        |date_format(replace('visit_dt','/','-'),'yyyy-MM') as month,
        |sum(visit_cnt) as cnt
        |from bigdata.user_log
        |group by uid,month
        |) as a
        |""".stripMargin)
    data.show(false)
    data.printSchema()

    /**
     * sql方式写入数据
     * 1.在hive里面建分区表
     * 2.insert进hive表里
     */
    data.createOrReplaceTempView("result")
//    spark.sql(
//      """
//        |--1.静态分区
//        |insert overwrite table bigdata.result02 partition(month='2017-01')
//        |select
//        |uid,
//        |cnt,
//        |total_cnt
//        |from result
//        |where month='2017-01'
//        |""".stripMargin)
    spark.conf.set("hive.exec.dynamic.partition","true")
    spark.conf.set("hive.exec.dynamic.partition.mode","nonstrict")
    spark.sql(
      """
        |--1.动态分区
        |insert overwrite table bigdata.result02 partition(month)
        |select
        |uid,
        |cnt,
        |month,
        |total_cnt
        |from result
        |""".stripMargin)
    spark.stop()
  }
}

2.api方式
	table： 
		普通表
		分区表
	写入方式： 
		append
		overwrite

package com.dl2262.sparksql.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.{SaveMode, SparkSession}

object WriteApiHive01 {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    import org.apache.spark.sql.functions._
    val data = spark.sql(
      """
        |select
        |uid,
        |month,
        |cnt,
        |sum(cnt) over(partition by uid order by month) as total_cnt
        |from(
        |select
        |uid,
        |date_format(replace('visit_dt','/','-'),'yyyy-MM') as month,
        |sum(visit_cnt) as cnt
        |from bigdata.user_log
        |group by uid,month
        |) as a
        |""".stripMargin)
    data.show(false)
    data.printSchema()

    /**
     * Api写入数据
     */
    // 普通表
    // saveAsTable普通表会自动建表
     data.write.mode(SaveMode.Append).format("hive").saveAsTable("bigdata.result03") data.write.mode(SaveMode.Overwrite).format("hive").saveAsTable("bigdata.result03")

    data.createOrReplaceTempView("tmp")
    val mon_data=spark.sql(
      """
        |select * from tmp where month='2017-01'
        |""".stripMargin)
    // 分区表
    // saveAsTable(不能用!!!):会自动建表 api默认是动态分区
    spark.conf.set("hive.exec.dynamic.partition","true")
    spark.conf.set("hive.exec.dynamic.partition.mode","nonstrict")
    
    data.write.mode(SaveMode.Overwrite)
     .partitionBy("month")
     .format("hive")
      .saveAsTable("bigdata.result04")
      
    // SaveMode.Overwrite更新整个表,不是某个分区
    mon_data.write.mode(SaveMode.Overwrite)
        .partitionBy("month")
        .format("hive")
        .saveAsTable("bigdata.result04")
        
    // insertInto不能和partitionBy连用  不能用于写入分区表！！！
    mon_data.write.mode(SaveMode.Overwrite)
        .partitionBy("month")
        .format("hive")
        .insertInto("bigdata.result04")


    /**
     * 解决手段：
     * 把你的数据写入到hdfs对应的table path下面即可
     * 等同于通过sqoop和datax直接把mysql里面的数据同步到hdfs
     * hive里面的table能不能直接使用呢
     * 普通表写到hdfs上之后，是可以直接read的
     * 分区表写到hdfs上之后，不能直接读
     * 因为hdfs上数据是ok的，但元数据是不ok的，会导致hive元数据和数据没有关联上
     * 解决方法修复table中的元数据
     */
    spark.stop()
  }
}

	文件存储格式： 
		text(单列输出)【有问题】、orc、parquet

create table bigdata.result05(
uid string,
cnt bigint,
total_cnt bigint
)
partitioned by(month string)
row format delimited fields terminated by ","
stored as orc

 // 解决方法 分区表 不过更新的还是整张表
    data.write.mode(SaveMode.Overwrite).partitionBy("month")
      //.format("orc").save("")
        .orc("hdfs://bigdata12:9000/user/hive/warehouse/bigdata.db/result05/")
    spark.sql(
      """
        |msck repair table bigdata.result05
        |""".stripMargin)
       
     mon_data.write.mode(SaveMode.Overwrite).partitionBy("month")
      //.format("orc").save("")
      .orc("hdfs://bigdata12:9000/user/hive/warehouse/bigdata.db/result05/")
    spark.sql(
      """
        |msck repair table bigdata.result05
        |""".stripMargin)

如果想使用api的方式SaveMode.overwrite绝对用不了！！！SaveMode.overwrite操作的是table,不是具体的partition
解决方法：用SaveMode.Append，修改分区dt的过滤条件 select * from tmp where month=‘2017-01’

mon_data.write.mode(SaveMode.Append).partitionBy("month")
      //.format("orc").save("")
      .orc("hdfs://bigdata12:9000/user/hive/warehouse/bigdata.db/result05/")
    spark.sql(
      """
        |msck repair table bigdata.result05
        |""".stripMargin)

但是SaveMode.Append相同分区再次修改会出现数据重复，要解决幂等性的问题
解决方法：
1.删除对应分区hdfs上数据 =》hdfs api
2.删除对应分区元数据 =》 alter table xxx drop partition
3.api 写入对应分区 hdfs 上数据 =》sparksql api
4.api 加上对应分区元数据 =》alter table xxx add partition或者msck repair table xxx

spark-hive udf catalog

catalog

hive元数据 mysql里面：
spark2.0之前 spark 想要访问hive元数据要通过jdbc 连接，取数据
spark2.0之后调用catalog 就可以拿到 hive元数据的内容
拿到hive元数据=》做什么事情？
1.大数据平台：哪些表是热表哪些表是冷表，哪些表什么时间段进来数据什么时间段出去数据，数据分析平台都可以利用元数据去取数据

val ct =spark.catalog
ct.listDatabases.show(5,false)
ct.listTables("bigdata").show(5,false)
ct.listFunctions().show(100,false)
ct.listColumns("bigdata.test1").show(false)

思考： spark-shell 以yarn方式运行 client/cluster都能启动嘛【面试题】

spark-shell \
--master yarn \
--deploy-mode client \
--name dl2262 \
--executor-memory 1G \
--num-executors 1 \
--executor-cores 1 \
--jars /home/hadoop/software/mysql-connector-java-5.1.28.jar \
--driver-class-path /home/hadoop/software/mysql-connector-java-5.1.28.jar

client可以，cluster不可以
因为spark-shell是交互式脚本，它的driver就在提交机器上，client的driver也在提交机器上，而cluster的driver在集群内部

udf

1.idea 代码的方式定义 udf函数
2.hive udf 可以在sparksql里面直接使用：
使用场景： xxx.sql
hive jar： add jar xx.jar
create function 方法名字 as copy reference

package com.dl2262.sparksql.day03

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.sql.SparkSession

import scala.util.Random

object Udf {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    import spark.implicits._
    import org.apache.spark.sql.functions._
    val data = spark.sql(
      """
        |select
        |uid,
        |month,
        |cnt,
        |sum(cnt) over(partition by uid order by month) as total_cnt
        |from(
        |select
        |uid,
        |date_format(replace('visit_dt','/','-'),'yyyy-MM') as month,
        |sum(visit_cnt) as cnt
        |from bigdata.user_log
        |group by uid,month
        |) as a
        |""".stripMargin)
    data.show(false)
    data.createOrReplaceTempView("tmp")

    /**
     * udf:f(x)
     * 添加一个随机数前缀
     * u01 => 9_u01
     */
    spark.udf.register("addRandom",(input:String) => {
      Random.nextInt(10)+"_"+input
    })
    spark.sql(
      """
        |select
        |addRandom(uid) as uid_alias,month,cnt,total_cnt
        |from tmp
        |""".stripMargin).show(false)
    spark.stop()
  }
}

sparkstreamig

spark 提供的实时计算的模块：SparkStreaming、structuredStreaming
1.流处理 /实时计算
实时：storm、flink （来一条数据处理一条数据） event基于事件的方式进行计算真正的实时计算
近实时：SparkStreaming 来一批数据处理一批数据源源不断的来 mini-batch
2.批处理/离线计算
一次性处理某一个批次的数据数据是有始有终的
流处理：
水龙头数据是远远不断的来数据没有始终
技术选型：
1.生产上：
SparkStreaming、structuredStreaming 10% spark
flink 90%
storm 2% 几乎不用
开发角度：
code代码角度:flick开发简单
flick里面还支持sql方式处理实时计算
sparkstreaming也能用sql,但是不是所有代码都是通过sql开发的，所以诞生了structuredStreaming(基于spark-sql进行开发)，structuredStreaming开发角度比sparkstreaming更简单
业务：
1.实时指标
spark和flick都差不多
2.实时数仓
1.代码 =》 spark和flick都差不多【都不好维护】
2.sql文件：
只有flinksql 能做到维护实时数仓
sparkstreaming:
1.Easy to use
2.sparkstreaming可以调用 sparksql 进行开发
SparkStreaming
1.Spark Streaming is an extension of the core Spark API
SparkStreaming开发与sparkcore 算子开发差不多
2.spark Streaming 数据源：Kafka, TCP sockets ,flume,hdfs =》 input
3.处理：算子的方式进行处理 =》 todo
4. pushed out to filesystems, databases, hdfs,and live dashboards =》 output
数据源：
kafka **** 流式引擎 + kafka 【重要数据源】数据存储在topic里进行缓冲
flume 可以使用一般不用没有数据缓冲的作用
hdfs 很少使用
tcp sockets =》测试代码 +运营商数据(早期采集数据方式 )
总结：建议不要使用flume作为spark的数据源，因为flume缓冲能力很弱之后数据计算直接把数据干到 spark里面会导致 spark计算程序挂掉
spark/flick对接kafka,流式处理系统会有自己吞吐量的处理能力
数据积压：kafka数据多，spark消费能力不足，导致kafka数据大量积压
解决方法：提高spark消费能力，提高吞吐量
SparkStreaming运行：
1. receives live input data streams 接收数据
2.divides the data into batches 把接收数据拆分成batches
sparkstreaming编程模型：DStream
a DStream is represented as a sequence of RDDs.
sparkcore：rdd
sparksql ：ds、df
如何构建DStream？
1.外部数据源【kafka】
2.高阶算子方式转换
Stream data 按照时间把数据拆分一个一个的 batch(batch就是一个一个的rdd )
流式处理：
对 DStream进行转换操作
实际上就是对 DStream里面的rdd进行操作
对rdd进行操作就是对 rdd里面分区的元素进行操作
总结：程序入口
sparkstreaming ：StreamingContext
sparkcore： sparkcontext
sparksql： sparksession
实时计算处理数据的qps是多少？
qps指的是计算程序每秒钟处理的数据是多少条
虚拟机上构建StreamingContext

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._ 
val ssc = new StreamingContext(sc, Seconds(5))
val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(_.split(" "))
val pairs = words.map(word => (word, 1))
val wordCounts = pairs.reduceByKey(_ + _)
wordCounts.print()
ssc.start()

idea构建StreamingContext

org.apache.spark spark-streaming_2.12 3.2.1 总结：打印的东西： 1.spark处理当前批次的数据的结果 2.不能处理累计批次的数据累计批次：多个批次之间又联系的 ```scala package com.dl2262.sparkstreaming.day01

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object sss01 {
def main(args: Array[String]): Unit = {
val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
val lines = ssc.socketTextStream(“bigdata12”, 9999)
val words = lines.flatMap(.split(" "))
val pairs = words.map(word => (word, 1))
val wordCounts = pairs.reduceByKey( + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
}
}


```scala
 /**
   * 获取StreamingContext
   */
  def getStreamingContext(appName:String,batch:Int,master:String="local[2]")={
    val conf = new SparkConf().setMaster(master).setAppName(appName)
    new StreamingContext(conf, Seconds(batch))
  }

如何构建DStream？
1.Input DStreams 【输入流 kafka】 *****
2.Receivers 【接收流测试使用生产上不用】：为面试准备
并不是所有的接收数据都需要接收器
1.Receivers：底层DStream前面带Receiver的就是接收流
1.socketTextStream：
底层调用socketStream
底层调用SocketInputDStream
Receiver：master =》 local[2] => local[1] code能否处理数据？【面试】
sparkstreaming： 1 cpu =》 1 core
1.接收流式数据 ok 需要1core去接收数据
2.流式数据切分成 batch进行处理 no ok cpu不够你的数据没有资源进行处理
要求：master cpu 个数一定要大于Receiver 数量
什么是Receiver? 指的就是接收数据形成的流看底层返回值底层DStream前面带Receiver的就是接收流接收器
2.转换算子
1.transform ***
2.updateStateByKey
sparkstreaming处理数据的方式：
1.默认仅仅是计算当前批次的数据只是计算10s一个批次的数据
需求：
统计从现在时间点开始 b出现的累计次数？
updateStateByKey 用于解决有状态问题
对于累计批次的需求？官方引出一个概念状态
状态：State：
1.有状态前后批次有联系的
2.无状态前后批次是没有联系的
累计批次的需求？
1.updateStateByKey 算子解决
1.Define the state
2.Define the state update function
注意：
1.得指定 The checkpoint directory has not been set

package com.dl2262.sparkstreaming.day01

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.streaming.StreamingContext

object sss02 {
  def main(args: Array[String]): Unit = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    ssc.checkpoint("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\checkpoint")
    val lines = ssc.socketTextStream("bigdata12", 9999)
    val words = lines.flatMap(_.split(" "))
    val pairs = words.map(word => (word, 1))
    val wordCounts = pairs.updateStateByKey(updateFunction)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }
  /**
   * Option some none
   * @param newValues 最新批次的数据 (a,<1,1,1>)
   * @param preValues 以前批次的一个累加值 (a,3)
   * @return
   */
  def updateFunction(newValues: Seq[Int], preValues: Option[Int]): Option[Int] = {
    val curr_sum: Int = newValues.sum
    val pre_sum: Int = preValues.getOrElse(0)// 取到了就取到了，取不到就给个0
    Some(curr_sum+pre_sum)
  }
}

总结：
1.为什么要指定checkpoint？
1.维护当前批次和以前的累计批次的数据state
2.checkpoint 目录生产上得指定到 hdfs上进行存储？
存在问题：
1.checkpoint 每个批次都会产生文件 =》 hdfs 扛不住挂掉的风险
checkpoint 的作用针对sparkstreaming来说
【checkpoint这个东西生产上用不了了解它即可面试准备】
1.作用：
1.为了容错
2.恢复作业【实时计算作业挂掉之后可以恢复起来】

package com.dl2262.sparkstreaming.day01

import com.dl2262.sparkcore.util.ContextUtils
import com.dl2262.sparkstreaming.day01.sss02.updateFunction
import org.apache.spark.streaming.StreamingContext

object sss03 {
  def main(args: Array[String]): Unit = {
    val ssc = StreamingContext.getOrCreate("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\checkpoint", functionToCreateContext)
    ssc.start()
    ssc.awaitTermination()
  }
  def functionToCreateContext(): StreamingContext = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    val lines = ssc.socketTextStream("bigdata12", 9999)
    val words = lines.flatMap(_.split(" "))
    val pairs = words.map(word => (word, 1))
    val wordCounts = pairs.updateStateByKey(updateFunction)
    wordCounts.print()
    ssc.checkpoint("file:///F:\\bigdata\\ideaProject\\spark-2262\\data\\checkpoint")
    ssc
  }
}

2.checkpoint存储的东西：
	1.Metadata 元数据 
		Configuration  作业里面配置信息
		DStream operations  作业code里面的算子操作
		Incomplete batches  未完成的批次
	2.Data
		每个批次里面真正传过来的数据 +stateful转换
3.使用场景
	1.Usage of stateful transformations
	2.Recovering from failures of the driver running the application 
		恢复作业
4.如何正确使用checkpint? 
	如果你想要 恢复application 需要 正确编写 checkpoint设置代码 
注意： 
	checkpoint缺点：
		1.小文件多
		2.修改代码程序就用不了【修改业务逻辑代码】
checkpoint 用不了生产上 =》 累计批次指标统计问题 updateStateByKey这个算子 也用不了！！！
那么如何实现 累计批次统计需求？ 
	一： 100%来处理 
		1.把每个批次数据 写到外部存储 
		2.然后利用外部存储系统再统计即可
	二：90%都没有解决 
		checkpoint 【解决 checkpoint 导致修改代码 报错问题+小文件问题解决】

3.输出算子：
1.print
2.foreachRDD =》 db
需求： wc案例结果写mysql里面
1.mysql创建一个表
create table wc(
word varchar(10),
cnt int(10)
);
Serialization stack:
- object not serializable (class: java.lang.Object, value: java.lang.Object@4c03b7b3)
1.某个东西没有进行序列化？
1.MySQL连接驱动没有进行序列化【做不了】
2.ClosureCleaner
Closure 闭包的意思
闭包的：方法内使用了方法外的变量
2.正确写法：
rdd.foreachPartition{
mysql 连接次数会减少 rdd有多少个分区就有多少个连接
}

package com.dl2262.sparkstreaming.day01

import java.sql.Connection

import com.dl2262.sparkcore.util.{ContextUtils, MySQLUtil}
import com.dl2262.sparkstreaming.day01.sss02.updateFunction
import org.apache.spark.streaming.StreamingContext

object sss04 {
  def main(args: Array[String]): Unit = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    val lines = ssc.socketTextStream("bigdata12", 9999)
    val words = lines.flatMap(_.split(" "))
    val pairs = words.map(word => (word, 1))
    val wordCounts = pairs.reduceByKey(_+_)
    wordCounts.print()
    //data output => mysql
    wordCounts.foreachRDD(rdd => {
      // mysql clickhouse drios phoenix
      // 只有mysql连接不支持序列化，其他三个都支持
//      rdd.foreach(pair => {// executor
//        val conn: Connection = MySQLUtil.getConnection()
//        val sql = s"insert into wc(word,cnt) values('${pair._1}','${pair._2}')"
//        conn.createStatement().execute(sql)
//        conn.close()
//      })
      //rdd.coalesce(10).foreachPartition()
      // 如果连接有序列化可以把连接放在这
      rdd.foreachPartition(partition => {
        val conn: Connection = MySQLUtil.getConnection()
        partition.foreach(pair => {
          val sql = s"insert into wc(word,cnt) values('${pair._1}','${pair._2}')"
          conn.createStatement().execute(sql)
        })
        conn.close()
      })
    ssc.start()
    ssc.awaitTermination()
  })
}
}

3.如果 rdd.foreachPartition 写数据存在存储性能问题：【一般不用，可以使用！！！】
1.可以使用连接池
2.rdd.coalse =》减少rdd分区数
4.sparksql的方式写出 =》

package com.dl2262.sparkstreaming.day01

import java.sql.Connection
import java.util.Properties

import com.dl2262.sparkcore.util.{ContextUtils, MySQLUtil}
import com.dl2262.sparkstreaming.day01.sss02.updateFunction
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
import org.apache.spark.streaming.StreamingContext

object sss04 {
  def main(args: Array[String]): Unit = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    val lines = ssc.socketTextStream("bigdata12", 9999)
    val words = lines.flatMap(_.split(" "))
    val pairs = words.map(word => (word, 1))
    val wordCounts = pairs.reduceByKey(_+_)
    wordCounts.print()
    //data output => mysql
    wordCounts.foreachRDD(rdd => {
      // mysql clickhouse drios phoenix
      // 只有mysql连接不支持序列化，其他三个都支持
//      rdd.foreach(pair => {// executor
//        val conn: Connection = MySQLUtil.getConnection()
//        val sql = s"insert into wc(word,cnt) values('${pair._1}','${pair._2}')"
//        conn.createStatement().execute(sql)
//        conn.close()
//      })
      //rdd.coalesce(10).foreachPartition()
      // 如果连接有序列化可以把连接放在这
//      rdd.foreachPartition(partition => {   // 推荐
//        val conn: Connection = MySQLUtil.getConnection()
//        partition.foreach(pair => {
//          val sql = s"insert into wc(word,cnt) values('${pair._1}','${pair._2}')"
//          conn.createStatement().execute(sql)
//        })
//        conn.close()
      // sparksql的方式写出 推荐
      val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
      import spark.implicits._
      val df: DataFrame = rdd.toDF("word", "cnt")
      df.printSchema()
      df.show()
      val url = "jdbc:mysql://bigdata12:3306/bigdata"
      val table = "rpt_cnt_top3"
      val properties: Properties = new Properties()
      properties.setProperty("user","root")
      properties.setProperty("password","123456")
      df.write.mode(SaveMode.Append).jdbc(url,table,properties)
      })
    ssc.start()
    ssc.awaitTermination()
  }
}

转换算子transform

transform =》 DStream 和 rdd之间数据进行交互的算子
需求：
流处理数据源：
一个数据来自于 mysql数据/hdfs上文本数据【量小】维表
一个数据来自于 kafka sss 读取形成 DStream数据【量大】主业务 =》主表
案例：弹幕过滤的功能 /黑名单的功能
离线：

package com.dl2262.sparkstreaming.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

object SparkSQLBlackListApp {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = ContextUtils.getSparkSession(this.getClass.getSimpleName)
    val sc: SparkContext = spark.sparkContext
    import spark.implicits._
    import org.apache.spark.sql.functions._
    /**
     * 主表数据：弹幕日志数据
     * 维表书局：需要过滤的弹幕 =》 黑名单
     */
    val log: RDD[String] = sc.parallelize(List(
      "好看",
      "不好看",
      "垃圾",
      "男主好帅",
      "女主好漂亮",
      "666",
      "男主演技拉跨",
      "女主演技拉跨",
      "台词拉跨"
    ))
    val black: RDD[String] = sc.parallelize(List(
      "男主演技拉跨",
      "女主演技拉跨",
      "台词拉跨"
    ))
    val log_kv: RDD[(String, Int)] = log.map(line => (line, 1))
    val black_kv: RDD[(String, Boolean)] = black.map(line => (line, true))
    log_kv.leftOuterJoin(black_kv)
        .filter(_._2._2.getOrElse(false) != true)
        .map(_._1).foreach(println(_))
    spark.stop()
  }
}

实时：

package com.dl2262.sparkstreaming.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

object SparkStreamingBlackApp {
  def main(args: Array[String]): Unit = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    val sc: SparkContext = ssc.sparkContext
    /**
     * socket
     * 主表数据:弹幕日志数据 DStream
     * mysql/hdfs
     * 维表数据：需要过滤的弹幕 =》 黑名单  rdd
     */
    val logs: ReceiverInputDStream[String] = ssc.socketTextStream("bigdata12", 9527)
    val black: RDD[String] = sc.parallelize(List(
      "男主演技拉跨",
      "女主演技拉跨",
      "台词拉跨"
    ))
    // 弹幕显示
    val log_kv: DStream[(String, Int)] = logs.map(word => (word, 1))
    val black_kv: RDD[(String, Boolean)] = black.map(line => (line, true))
    val result: DStream[String] = log_kv.transform(rdd => {
      rdd.leftOuterJoin(black_kv)
        .filter(_._2._2.getOrElse(false) != true)
        .map(_._1)
    })
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

sparkstreaming + kafka 整合

kafka 数据源=》 sparkstreaming 消费
spark 2.x ：
kafka版本：
0.8
0.10.0 or higher ok
spark 3.x => kafka :
1.kafka版本：
0.10.0 or higher ok
spark 去kafka读取数据的方式：
1.kafka 0.8 reciver方式读取kafka数据【效率低、代码开发复杂】
2.kafka 0.10.0版本之后 direct stream的方式加载kafka数据【效率高、代码开发简单】
kafka：
版本也有要求：
0.11.0 版本之后
交付语义： consumer producer
producer 默认就是精准一次
consumer 交付语义取决于 consumer 框架本身
交付语义: consumer
至多一次数据丢失问题
至少一次数据不会丢失，数据重复消费
精准一次数据不会丢失数据也不会重复消费
spark 整合kafka 版本 0.10.0版本之后：
1.kafka 0.11.0之后 reciver => direct stream
2.sparkstreaming 默认消费kafka数据交付语义：至少一次

spark消费kafka， DStream 【rdd 分区数】 =》 kafka topic 分区数是一一对应的
1:1 correspondence between Kafka partitions and Spark partitions
2.spark整合kafka api：
1.simple API =》过时不用了
2. new Kafka consumer API 整合 kafka 主流
3.引入依赖： org.apache.spark spark-streaming-kafka-0-10_2.12 3.2.1 不需要引入 kafka-clients 依赖

spark整合kafka操作

zkServer.sh start
zkServer.sh status
kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties
查看kafka topic命令：
kafka-topics.sh --list
–zookeeper bigdata12:2181/kafka

kafka-topics.sh --create
–zookeeper bigdata12:2181/kafka
–topic spark-kafka01
–partitions 3
–replication-factor 1

producer:
kafka-console-producer.sh
–broker-list bigdata12:9092
–topic dl2262

consumer:
kafka-console-consumer.sh
–bootstrap-server bigdata12:9092
–topic dl2262
–from-beginning

package com.dl2262.sparkstreaming.day02

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.kafka010.KafkaUtils
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

object ss01 {
  def main(args: Array[String]): Unit = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    /**
     * 加载kafka数据
     * ssl权限校验
     */
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "bigdata12:9092",//kafka地址
      "key.deserializer" -> classOf[StringDeserializer],//反序列化
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "dl2262",//指定一个消费者组id
      "auto.offset.reset" -> "latest",//从哪个地方开始消费数据 偏移量
      "enable.auto.commit" -> (false: java.lang.Boolean)//offset提交 选择不自动提交 手动管理
    )
    val topics = Array("dl2262")
    val stream = KafkaUtils.createDirectStream[String, String](
      ssc,
      PreferConsistent,//【面试】数据的存储策略:kafka数据均匀分布在各个executor上
      Subscribe[String, String](topics, kafkaParams)//固定写法
    )
    stream.map(record => record.value()).print()
    ssc.start()
    ssc.awaitTermination()
  }
}

需求：消费kafka数据 wc 将结果写到 mysql里面

package com.dl2262.sparkstreaming.day02

import java.util.Properties

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka010.KafkaUtils
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

object ss02 {
  def main(args: Array[String]): Unit = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    /**
     * 加载kafka数据
     * ssl权限校验
     * input
     */
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "bigdata12:9092",//kafka地址
      "key.deserializer" -> classOf[StringDeserializer],//反序列化
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "dl2262",//指定一个消费者组id
      "auto.offset.reset" -> "latest",//从哪个地方开始消费数据 偏移量
      "enable.auto.commit" -> (false: java.lang.Boolean)//offset提交 选择不自动提交 手动管理
    )
    val topics = Array("dl2262")
    val stream = KafkaUtils.createDirectStream[String, String](
      ssc,
      PreferConsistent,//【面试】数据的存储策略:kafka数据均匀分布在各个executor上
      Subscribe[String, String](topics, kafkaParams)//固定写法
    )

    /**
     * to do
     */
    stream.map(record => record.value()).print()
    val wc_result: DStream[(String, Int)] = stream.map(record => record.value())
      .flatMap(line => line.split(","))
      .map(word => (word, 1))
      .reduceByKey(_ + _)

    /**
     * output
     */
    wc_result.foreachRDD(rdd => {
      //foreachPartition
      //sparksql
      val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
      import spark.implicits._
      val wc: DataFrame = rdd.toDF("word", "cnt")
      wc.show()
      wc.printSchema()
      //sink mysql
      val url = "jdbc:mysql://bigdata12:3306/bigdata"
      val table = "wc"
      val properties: Properties = new Properties()
      properties.setProperty("user","root")
      properties.setProperty("password","123456")
      wc.write.mode(SaveMode.Append).jdbc(url,table,properties)
    })
    ssc.start()
    ssc.awaitTermination()
  }
}

模拟：spark作业挂掉 =》重启
“消费完kafka的数据程序重启之后接着从上次消费的位置接着消费 ”
目前： code不能满足
1.目前代码这两个参数不能动
“auto.offset.reset” -> “earliest”
“enable.auto.commit” -> (false: java.lang.Boolean)
2.主要原因：
spark作业消费kafka数据：
1.获取kafka offset =》处理kafka数据 =》 “提交offset的操作” 没有
解决：
1.获取kafka offset // todo
2. 处理kafka数据
3.提交offset的操作 // todo
1.获取kafka offset // todo
1. kafka offset 信息
2.spark rdd分区数和 kafka topic 的分区数是不是一对一
报错：
org.apache.spark.rdd.ShuffledRDD cannot be cast to org.apache.spark.streaming.kafka010.HasOffsetRanges
ShuffledRDD =》 HasOffsetRanges 说明代码有问题
sparkstreaming里面：开发模式：！！！
1.获取kafka 流数据
2. 流 Dstream =》调用foreachRDD算子进行输出：
0.获取offset 信息
1.做业务逻辑
2.结果数据输出
3.提交offset信息
offset解释：
01 batch：
rdd的分区数：3
topic partition fromOffset untilOffset
spark-kafka01 0 0 1
spark-kafka01 1 0 1
spark-kafka01 2 0 0

02 batch：
rdd的分区数：3
topic partition fromOffset untilOffset
spark-kafka01 0 1 1
spark-kafka01 1 1 1
spark-kafka01 2 0 0

此时 kafka 里面数据已经消费完了 fromOffset=untilOffset
3.提交offset信息
2.存储offset信息
spark流式处理默认消费语义：至少一次
精准一次：
1.output + offset
1.Checkpoints =》不能用
2.Kafka itself =》至少一次 =》
推荐使用 =》简单高效
90% 都可以解决但不支持事务

package com.dl2262.sparkstreaming.day02

import java.util.Properties

import com.dl2262.sparkcore.util.ContextUtils
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.kafka010.{CanCommitOffsets, HasOffsetRanges, KafkaUtils, OffsetRange}
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

object ss03 {
  def main(args: Array[String]): Unit = {
    val ssc: StreamingContext = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)
    /**
     * 加载kafka数据
     * ssl权限校验
     * input
     */
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "bigdata12:9092",//kafka地址
      "key.deserializer" -> classOf[StringDeserializer],//反序列化
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "dl2262",//指定一个消费者组id
      "auto.offset.reset" -> "earliest",//从哪个地方开始消费数据 偏移量
      "enable.auto.commit" -> (false: java.lang.Boolean)//offset提交 选择不自动提交 手动管理
    )
    val topics = Array("dl2262")
    val stream = KafkaUtils.createDirectStream[String, String](
      ssc,
      PreferConsistent,//【面试】数据的存储策略:kafka数据均匀分布在各个executor上
      Subscribe[String, String](topics, kafkaParams)//固定写法
    )

    stream.map(record => record.value()).print()

    /**
     * output
     * 0.get offset
     * 1.todo
     * 2.output
     * 3.提交offset
     */
    stream.foreachRDD(rdd => {
      //rdd分区数和kafka分区数是不是一一对应的
      println(s"rdd分区数:${rdd.partitions.size}")
      //获取kafka数据的offset信息 =》 当前批次
      val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      println("topic  partition  fromoffset  untiloffset")
      offsetRanges.foreach(offset => {
        println(offset.topic+"\t"+offset.partition+"\t"+offset.fromOffset+"\t"+offset.untilOffset)
      })

      /**
       * spark代码
       */
      val spark: SparkSession = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
      import spark.implicits._
      val wcRDD: RDD[(String, Int)] = rdd.map(_.value()).flatMap(_.split(","))
        .map((_, 1))
        .reduceByKey(_ + _)
      val wcDF: DataFrame = wcRDD.toDF("word", "cnt")
      wcDF.show()
      wcDF.printSchema()

      //sink mysql
      val url = "jdbc:mysql://bigdata12:3306/bigdata"
      val table = "wc"
      val properties: Properties = new Properties()
      properties.setProperty("user","root")
      properties.setProperty("password","123456")
      wcDF.write.mode(SaveMode.Append).jdbc(url,table,properties)

      //提交offset
      stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
    })
    ssc.start()
    ssc.awaitTermination()
  }
}

		 10% 精准一次
	3.Your own data store： =》 开发大量代码 =》 
		mysql、redis、hbase都支持事务
		至少一次
		精准一次

用mysql存储：
获取offset
todo
output
提交offset
spark作业挂了 =》启动spark作业：
1.从mysql里面获取offset
todo
output
提交offset
kafka消费语义：
1.至多一次【丢数据】
2.至少一次【不会丢数据可能会重复消费数据】
3.精准一次【不丢、不重复消费】
offset信息提交：
1.spark todo ：
至少一次：
1 2 3 4
offset get
业务逻辑 output db
提交offset
在提交offset时挂掉，下次再获取offset时，会再次获取上次的offset，再次输出到数据库从而导致数据重复
精准一次：output + 提交offset 一起发生 =》事务来实现
事务：一次操作要么都成功要么都失败，失败时会发生回滚操作
存储offset：
kafka 本身：
offset 信息存储在哪？
kafka 某个topic下：
__consumer_offsets =》 spark作业消费kafka topic offset 信息存储的地方

你可能感兴趣的:(spark)

python捕获异常青云游子 python
try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql("""insertintotabledim.aaaselect'1','666','{name}','{id}',null,null,null,null,current_times
Spark任务提交流程尘世壹俗人大数据Spark技术大数据
当包含在applicationmaster中的spark-driver启动后，会与资源调度平台交互获取其他执行器资源，并通过反向注册通知对应的node节点启动执行容器。此外，还会根据程序的执行规划生成两个非常重要的东西，一个是根据spark任务执行计划生成n个ADG有向无环图，另一个是根据有向无环图生成对应的taskset，也可以统称为stage，ADG和taskset由于宽窄依赖以及程序的复杂度
spark读取、写入Clickhouse以及遇到的问题 Alex_81D 大数据基础大数据从入门到精通 clickhouse spark
最近需要处理Clickhouse里面的数据，经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。具体Clickhouse的讲解本篇不做讲解，后面专门讲解这个。一、clickhouse代码操作话不多说直接看代码1.引入依赖：ru.yandex.clickhouseclickhouse-jdbc0.2.40.2.4这个版本用的比较多一点2.spark对象创建valspark
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
Java爬虫——使用Spark进行数据清晰 Future_yzx java 爬虫 spark
1.依赖引入 org.apache.spark spark-core_2.13 3.5.3 org.apache.spark spark-sql_2.13 3.5.32.数据加载从MySQL数据库中加载jobTest表中的数据，使用Spark的JDBC功能连接到数据库。代码片段：//数据库连接信息StringjdbcUrl="jdbc:mysql://82.157.185.251:3306/
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS _Jordan 自己写的数据仓库
参考：万字详解数仓分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用，减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark等组件为中心的架构体系数据架构：顶层设计
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
CDP中的Hive3之Hive Metastore（HMS）对许 #Hive #Spark hive cdp
CDP中的Hive3之HiveMetastore（HMS）1、CDP中的HMS2、HMS表的存储（转换）3、HWC授权1、CDP中的HMSCDP中的HiveMetastore（HMS）是一种服务，用于在后端RDBMS（例如MySQL或PostgreSQL）中存储与ApacheHive和其他服务相关的元数据。Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Apache PAIMON 学习潇锐killer 学习
参考：ApachePAIMON：实时数据湖技术框架及其实践数据湖不仅仅是一个存储不同类数据的技术手段，更是提高数据分析效率、支持数据驱动决策、加速AI发展的基础设施。新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。ApachePAIMON是一个支持大规模实时数据更新的存储和分析
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换（四）青云交大数据新视界 Java 大视界 Spark RDD 数据转换大数据数据分区性能优化社交网络 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之 Spark Streaming 实时数据处理框架：案例与实践青云交大数据新视界 #Spark 之道 Spark Streaming 大数据新视界实时数据处理案例分析实践技巧框架比较应用场景
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam