燃烧的岁月_

王家林Spark笔记

王家林Spark笔记
第一讲：Scala光速入门
本期内容
1、Scala的重大价值
2、Scala基础语法入门实战
3、Scala函数入门实战
4、Scala中Array、Map、Tuple实战
5、综合案例及Spark源码解析

kafka 消息中间件
val name:String = null
import scala.math._
min(20,4)
Array(1,2,3,4)
val array = Array(1,2,3,4)
array
val array = Array.apply(1,2,3,4)
array

val age:Int = 0
val name:String = null
val age1,age2,age3 = 0

1+1
1.+(1)

import scala.math._
min(20,4)

if(age >= 18) "adult"

val:不可变变量
var：可变变量
一般情况下用val

val result = if(age>=18){}
val age = 19
res9.toInt
if(age >= 18) "adult" else "child"
val result = if(age >=18) "adult" else "child"

val result = if(age >=18){
"adult"
buffered = 10
buffered
}
println("Spark")
print("\nSpark")
printf(" %s is the future of Big Data Computation Framework.\n","Spark") 格式占位符

-----------输入--读取内容：---------------------
readLine(" Please enter your password : ")
readInt
----------------------------------------------
-------循环----------------
while(element > 10){
println(element)
element -= 1
}

0 to element
for(i <- 0 to element) println(i)
for(i<-0 to element if i%2 ==0){println(i)}
for(i <- 0 to element if i%2 ==0){println(i)}
import scala.util.control.Breaks._
for(i <- 1 to 10){
if(i == 4) break
}

val n = 10
def f1:Int = {
for(i <- 1 to 20)
{
if(i == n) return 9
println(i)
}
}

val n = 10
def f1:Any = {
for(i<- 1 to 10){
if(i==0) return i
println(i)
}
}

println _
def f2 = println _

import scala.io.Source._
import scala.io._
try{
val content = fromFile("/root/1.scala").mkString
}catch{
case _:FileNotFoundException => println("Oops!!!File not found")
}finally{
println("Byebye world!")
}

val arr = new Array[Int](5)
val arr1 = Array("scala","spark")

import scala.collection.mutable.ArrayBuffer
val arrBuffer = ArrayBuffer[Int]()
arrBuffer += 10
arrBuffer
arrBuffer += (12,13,14,15,16,17)
arrBuffer ++= Array(1,2,3,4)

arrBuffer.trimEnd
arrBuffer.trimStart
arrBuffer.insert(5,100) 从指定位置插入数据
arrBuffer.insert(7,1100,200,300,400,500,600)
arrBuffer.remove(10) 指定位置进行移除
arrBuffer.toArray

val arr2 = arrBuffer.toArray
arr2.toBuffer

for (elem <- arr2) println(elem)
arr2

for(i<-0 until(arr2.length,1))println(arr2(i))
for(i<-0 until(arr2.length,2))println(arr2(i))
for(i<-(0 until arr2.length).reverse) println(arr2(i))
arr2.sum
arr2.max
scala.until.Sorting.quickSort(arr2)
scala.util.Sorting.quickSort(arr2)
arr2.mkString
arr2.mkString(", ")
val arr3 = for(i <- arr2) yield i*i
val arr3 = for(i <- arr2 if i % 3 == 0) yield i*i
arr2.filter(_%3 ==0).map(i => i*i)
arr2.filter{_%3 == 0}.map{i => i*i}

def f3(param1:String,param2:Int =30) = param1 + param2
f3("Spark")
f3(param2=100,param1="Scala")
def sum(numbers: Int*) = {var result = 0;for(element <- numbers) result += element;result}
sum(1,2,3,4,5,6,7,8,9,10)
sum(1 to 100: _*)
def morning(content:String) = "Good" + content
def morning(content:String):Unit = "Good" + content

import scala.io.
val arr3 = for(i <- arr2) yield i * i
val arr3 = for(i <- arr2 if i % 3 == 0) yield i*i
val person = scala.collection.immutable.SortedMap("Spark" -> 6,"Hadoop" -> 11)
val persons = Map("Spark" ->6,"Hadoop" -> 11)

for(elem <- arr2) println(elem)

作业一：移除一个数组中第一个负数后的所有负数
val persons = scala.collection.mutable.Map("Spark"->6,"Hadoop"->11)
persons += ("Flink" -> 5)
persons -= "Flink"
val sparkValue = if(persons.contains("Spark")) persons("Spark") else 1000
val sparkValue = persons.getOrElse("Spark",1000)
for((key,value) <- persons) println(key + " : " + value)
for(key <- persons.keySet) println(key + ":")

val persons = scala.collection.immutable.SortedMap("Spark"->6,"Hadoop"->11)
val tuple = ("Spark",6,99.0)
tuple._1
tuple._2
--------------------------------------------
第二节
class HiScala{
private var name = "Spark"
def sayName(){println(name)}
def getName = name
}
val scal = new Hiscala
scal.sayName
scal.getName

------------------------------------
第三节函数式编程
def fun1(name:String){println(name)}
val fun1_v =fun1 _
fun1("Spark")
fun1_v("Spark")
fun1_v("Spark")
val fun2 = (content:String)=>println(content)

val xm="西门大官人"
val jl="金莲"
def makelove(status:Int){
if (status == 1) println ("雄风再起")
else println("偃旗息鼓")
println("金莲鄙视地说：还以为你真的那么强呢，不嗑药和大郎也差不多少啊！")
println("西门大官人骂道：你个贱货！我不是早和你说过，老爷我今天有些感冒吗……")
}
makelove(0)

高阶函数
val xm="西门大官人"
val jl="金莲"

val say = (content:String) => println(content)

def makelove(func:(String)=>Unit,status:Int){
if (status == 1) println ("雄风再起")
else println("偃旗息鼓")
func(jl+"鄙视地说：还以为你真的那么强呢，不嗑药和大郎也差不多少啊\n"+xm+"骂道：你个贱货！我不是早和你说过，老爷我今天有些感冒吗……")
}
makelove(say,0)

abstract class Love(val man:String,val woman:String){
def make;
}

class goodLove(man:String,woman:String) extends Love(man,woman){
def make={
println(s"$man:Let me drink something,....")
println(s"$woman: Great!")
println(" .....wa,wa,....,(about 30000 words are omitted).....");
println(s"$woman: Your knife is sharp as many years ago....");

}
}

class badLove (man:String,woman:String) extends Love(man,woman){
def make={
println(s" $woman:Let me drink something,....")
println(s" $man: That's ok,but I have forgotten something......")
println(" .....wa,wa,....,(about 30 words are omitted).....");

println(s"$woman: why you stop?!");
println(s"$man: 你个贱人，爷今儿个感冒了，你不知道啊？！！");

}
}

def main(status:Int){
if(status == 1)
new goodLove("西门庆","潘金莲").make
else
new badLove("西门庆","潘金莲").make

}
main(0)

------------------------
val hiScala = (content:String) => println(content)

def bigData(func:(String)=>Unit,content:String){
func(content)
}
bigData(hiScala,"Spark")
--------------------------------
array.map(item =>2 * item)
array.map(item => 2 * item)

def func_Returned(content:String)=(message:String)=>println(message)
func_Returned("Spark")

def func_Returned(content:String) =(message:String)=>println(content + " " + message)

val returned = func_Returned("Spark")

returned("Scala")

如果在函数的函数体中只使用了一次函数的输入参数的值此时我们可以将函数的输入参数的名称省略掉用下划线来代替。
def spark(func:(String)=>Unit,name:String){func(name)}
spark((name:String) => println(name),"Scala")
spark(name => println(name),"Scala")
spark(println,"Scala")
spark(println(_),"Scala")
array.map(2*_).filter(_ > 10).foreach(println)

闭包：函数的变量超出他的有效作用域的时候，还能够对函数的内部变量进行访问。
def scala(content:String)=(message:String) => println(content + ":" + message)
val funcResult = scala("Spark")
funcResult("Flink")

sum_Curring_Better(1)(3)
(1 to 100).reduceLeft(_+_)
val list = List("Scala","Spark","Fink")
list.map("The content is :" + _)
list.map(println)
val cal = list.map("The content is :" + _)
list.flatMap(_.split)
cal
cal.flatMap(_.split(" "))
cal.flatMap(_.split(" ")).foreach(print)
list.zip(List(10,6,5))

第四节：Scala模式匹配、类型系统
def bigData(data:String){
data match{
case "Spark" => println("WoW!!!")
case "Hadoop" => println("Ok")

case _ if data == "Flink" => println("Cool")
case _ => println("Something others")
}
}

bigData("Hadoop")
bigData("Flink")

import java.io._
def exception(e:Exception){
e match{
case fileException: FileNotFoundException => println("File not found:" + fileException)
case _:Exception => println("Exception getting thread dump from executor SexecutorId",e)
}
}

exception(new FileNotFoundException("oop"))

def data(array:Array[String]){
array match{
case Array("Scala") => println("Scala")
case Array(spark,hadoop,flink)=>println(spark + ":" + hadoop + ":" + flink)
case Array("Spark",_*) => println("Spark ...")
case _ => println("Unknow")
}
}

data(Array("Scala"))
data(Array("Scala","Spark","Kafka"))

case class Person(name:String)

class Compare[T : Ordering](val n1:T,val n2:T){
def bigger(implicit ordered:Ordering[T]) = if(ordered.compare(n1,n2) > 0) n1 else n2
}
作业：阅读Spark源码RDD hadoopRDD SparkContext Master Worker的源码，并分析里面使用的所有模式匹配和类型参数的内容。

-嵌套类------------------------
class A{class B}
val a1 = new A
val a2 = new A
val b1 = new a1.B
val b2 = new a2.B

A$B
b1.getClass
b1.getClass == b2.getClass

typeOf[a1.B] == typeOf[a2.B]

class Person[T](val content : T)

val p = new Person[String]("Spark")
p.getContent("Scala")
p.getContent(100)
val p = new Person[String(2.3)]

ViewBounds 语法 <%

第五节：Scala隐式转换和并发编程

val result = 3 * Fraction(4,5)

import scala.math.abs

class Fraction(n: Int, d: Int) {
private val num: Int = if (d == 0) 1 else n * sign(d) / gcd(n, d);
private val den: Int = if (d == 0) 0 else d * sign(d) / gcd(n, d);

override def toString = num + "/" + den

def sign(a: Int) = if (a > 0) 1 else if (a < 0) -1 else 0

def gcd(a: Int, b: Int): Int = if (b == 0) abs(a) else gcd(b, a % b)

def +(other:Fraction):Fraction={
newFrac((this.num * other.den) + (other.num * this.den),this.den * other.den)
}

def -(other:Fraction):Fraction={
newFrac((this.num * other.den) - (other.num * this.den),this.den * other.den)
}

def *(other:Fraction):Fraction={
newFrac(this.num * other.num,this.den * other.den)
}

def /(other:Fraction):Fraction={
newFrac(this.num * other.den,this.den * other.num)
}

private def newFrac(a:Int,b:Int):Fraction={
val x:Int = if (b == 0) 1 else a * sign(b) / gcd(a, b);
val y:Int = if (b == 0) 0 else b * sign(b) / gcd(a, b);
new Fraction(x,y)
}
}

object Test extends App{
val f = new Fraction(15,-6)
val p = new Fraction(20,60)
println(f)
println(p)
println(f + p)
println(f - p)
println(f * p)
println(f / p)
}

class Level(val level:Int)
def toWorker(name:String)(implicit level : Level){
println(name + ":" + level)
}
implicit val level = new Level(8)
toWorker("Spark")

implicit val level = new Level(8)
class Level(val level:Int)
def toWorker(name:String)(implicit l:Level) = println(name + ":" + l.level)

import scala.actors.Actor
class HiActor extends Actor{
def act(){
while(true){
receive{
case name:String => println(name)
}
}
}
}
val actor = new HiActor
actor.start()
actor ! "Spark"

case class Basic(name: String,age: Int)
case class Worker(name: String,age: Int)

class basicActor extends Actor{
def act(){
while(true){
receive{
case Basic(name,age) => println("Basic Information:" + name + " : " + age)
case Worker(name,age) => println("Basic Information:" + name + " : " + age)
}
}
}
}

val b = new basicActor
b.start
b ! Basic("Scala",13)
b ! Worker("Spark",7)
val result = b !? Worker("Spark",7)

sc.textFile("hdfs://192.168.1.30:9000/spark/input/access_2013_05_30.log").flatMap(_.split(" ")).map(word => (word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("hdfs://192.168.1.30:9000/spark/output4/")

---------------------------------------
第十二课Spark集群工作原理
Spark高可用HA实战
-----------------------------------------------------------------------------------------------------
|---------------------------------------|
| zookeeper |
|---------------------------------------|
^ ^
| |
| |
Driver <---->Master(active) Master(standby)
^ ^
| |
| |
| V
| worker worker
| ^ ^
| | |
| | |
| v V
v executor executor
-------------------------------------------------------------------------------------------
2014年6月以前都是两台active standby集群资源分配
以后都是三台：一台active 两台standby 通过zookeeper选出leader
zookeeper：包含的元数据有Worker、Driver、Application。

切换Master：程序在运行之前已经向Master申请过资源 Driver和executor进行通信这种情况下不需要Master参与。除非executor出现故障。
弊端：
粗粒度：
优点：一次性资源的分配后，不用关心资源的分配。而让Drive和executor进行交互完成作业。
弊端：Job 一百万个任务有一个没有完成就等待在哪里。资源不会释放，闲置在那里。
细粒度：
优点：你有这个计算资源就分配给计算任务。
弊端：任务启动慢、没有办法复用。
一般都是使用粗粒度。

spark-shell --master spark://master:7077,slave1:7077,slave2:7077
-------------------------------------------------------------------------------------------------------------------------------------
第十三课：Spark内核架构
Spark Runtime

Driver <-------------> Worker(RAM、Input Data)
results tasks
<------------->
--------------------------------------------------------------------------------------------------------------------------
Driver部分的代码：SparkConf + SparkContext
Drive运行Application的main函数，创建的SparkContext是整个程序运行调度的核心，SparkContext要有高层调度器DagScheduler、底层调度器TestScheduler，也有SchedulerBackend
向Master注册程序，注册成功后，Master会分配资源，根据action触发的job job里有一系列的RDD
从后向前推发现如果是宽依赖：发放给不同的stage，stage发放给底层调度器TestScheduler
一般表示standalone模式

应用程序有两个层面：
Application = driver + executor
Driver部分的代码：SparkConf + SparkContext
Worker管理当前节点的计算资源并接受Master指令来分配具体的计算资源Executor（在新的进程中分配）
ExecutorRunner

spark优势：
1、基于内存计算
2、调度和容错

窄依赖：一对一的，固定个数的依赖

stage：计算逻辑完全一样只是计算的数据不同。
问题：一个ｐａｒｔｉｔｉｏｎ是否精准的等于一个ｂｌｏｃｋ大小？不是

一个Ａｐｐｌｉｃａｔｉｏｎ里可以有多个ｊｏｂ。
checkpoint也可以导致Job

专门用来提交Spark程序，这台机器一般一定和Spark Cluster在同样的网络环境中（Driver频繁和Executor通信），且其配置和普通的worker一致
Application（各种依赖的外部资源，例如：*.soFile）,使用sparkSubmit去运行程序（可以配置运行时候的各种参数，例如memory cores。。。）实际生产环境下写Shell脚本自动化配置
和提交程序，当然当前的机器一定要安装了Spark，只不过是这里安装的Spark不属于集群。

Driver（核心是SparkContext）
--supervise 当Driver挂掉后，集群可重新启动Driver。
SparkContent:创建DAGScheduler、TaskScheduler、SchedulerBackend
在实例化过程中Register注册当前程序的Master，Master接受注册，如果没有问题，Master合为当前程序分配Appid并分配计算资源。
一般情况下通过action触发job时SparkConext会通过DAGScheduler来把Job中的RDD构成的DAG划分成不同的Stage，每个Stage内部是一系列业务逻辑完全相同但是处理数据不同的Task，构成了
TaskSet
TaskScheduler和SchedulerBackend负责具体Task的运行(遵循数据本地性)

--------------------------------------------------------------------------------------------------------------------
Spark的程序的运行有两种模式：Client Cluster
Spark Cluster
Master：接受用户提交的作业并发送指令给Worker为当前程序分配计算资源。每个Worker所在节点默认为当前程序分配一个Executor，在Executor中通过线程池并发执行
Master通知Worker接受要求启动Executor
Worker Node
Worker进程，通过一个Prox为ExecutorRunner的对象实例来远程启动ExecutorBackend进行
ExecutorBackend进程里面有Executor
实际在工作的时候通过TaskRunner来封装Task，然后从ThreadPool中获取一条线程执行Task，执行完后线程被回收复用。

ThreadPool
最后一个Stage中Task称为ResultTask，产生Job的结果，其他前面的Stage中的Task都是ShuffleMapTask，为下一阶段的Stage做数据准备，相当于MapReduce中的Mapper

整个Spark程序的运行，就是DAGScheduler把Job划分成不同的Stage，提交TaskSet的TaskScheduler，进而提交给Executor执行（符合数据本地性），每个Task会计算RDD中的一个
Partition，基于该Partition来具体执行我们定义的一系列同一个Stage内部函数，依次类推直到整个程序运行完成。
1、spark-env.sh spark-default.sh
2、spark-submit提供的参数
3、程序中SparkConf配置的参数
----------------------------------------------------------------------------------------------------------------
第十四课 RDD解密
1、RDD：基于工作集的应用抽象
2、RDD内幕
3、RDD思考
基于数据流不适合的场景
1、不适合大量的迭代
2、交互式查询
重点是：基于数据流的方式，不能够复用曾经的结果或者中间计算结果
RDD是基于工作集的
RDD：Resillient Distributed Dataset
弹性之一：自动的进行内存和磁盘数据存储的切换
弹性之二：基于Lineage的高效容错性
弹性之三：Task如果失败会自动进行特定次数的重试
弹性之四：Stage如果失败会自动进行特定次数的重试，而且只会只计算失败的分片
弹性之五：checkpoint和persist
弹性之六：数据调度弹性：DAG、TASK和资源、管理无关
弹性之七：数据分片的高度弹性

RDD：是分布式函数式编程的抽象
RDD通过记录数据更新的方式为何很高效。
1、RDD不可变的 + lazy
2、RDD是粗粒度的

RDD写是粗粒度的
但是RDD的操作可以使粗粒度也可以是细粒度的。
Spark要统一数据计算领域，除了实时事务性处理

RDD不支持细粒度的写操作以及增量迭代计算
--------------------------------------------------
第十五课 RDD创建内幕
第一个RDD：代表了Spark应用程序输入数据的来源
通过Tranformation来对RDD进行各种算子的转换
1、使用程序中的集合创建RDD
2、使用本地文件系统创建RDD
3、使用HDFS创建RDD
4、基于DB创建RDD
5、基于NoSql，例如Hbase
6、基于S3创建RDD
7、基于数据流创建RDD

1、通过集合创建RDD的实际意思：测试
2、使用本地文件系统创建RDD的作用，
3、使用HDFS来创建RDD 生产环境最常用的RDD创建方式

实例：基于集合来创建RDD
object RDDBasedOnCollections{
def main(args: Array[String]){
val conf = new SparkConf() //创建SparkConf对象
conf.setAppName("RDDBasedOnCollections")
conf.setMaster("local")
val sc = new SparkContext(conf)
//val number = 1 to 100
//val rdd = sc.parallelize(number)
//val sum = rdd.reduce(_ + _)
//println("1+2+3...+99" + sum)

val rdd = sc.textFile("D://data//SogouQ//")
val linelength = rdd.map(line =>line.length)
val sum = linelength.reduce(_ + _)
println("the total=" + sum)
}
}
Local模式默认情况下如果失败了就是失败了
实际上Spark的并行度到底应该设置多少呢？
每个Core可以承载2-4个partition 64-128之间
----------------------------------------
第十六课 RDD实战
1、RDD实战
2、RDD的Transformation与Action
3、RDD执行手动绘图

action触发job shuffle触发stage

Transformations and Actions
|---------------------------------------------------------------------------------------------
|Transformations map(f:T=>U) : RDD[T] => RDD[U]
| filter(f:T=>Bool) : RDD[T] => RDD[T]
| flatMap(f:T => Seq[U]) : RDD[T] => RDD[U]
| sample(raction: Float) : RDD[T] = > RDD[T](Deterministic sampling)
| groupByKey() : RDD(K,V) => RDD[(K,Seq[V])]
| reduceByKey(f:(V,V)=>V) : RDD(K,V)=>RDD[(K,V)]
| union() : (RDD[T],RDD[T])=>RDD[T]
| join() :(RDD|(K,V),RDD(K,W)) => RDD[(K,(V,W))]
| cogroup() : (RDD[K,V],RDD[K,W]) => RDD[K,(Seq[V],Seq[W])]
| crossProduct() : (RDD[T],RDD[U]) => RDD[(T,U)]
| mapValues(f:V => W) : RDD[(K,V)](Preserves partitioning)
| sort(c:Comparator[K]) : RDD[(K,V)]=>RDD[(K,V)]
| partitionBy(p:Partitioner[K]): RDD[(K,V)]=>RDD[(K,V)]
|Actions count() : RDD[T] => Long
| collect() : RDD[T] =>Seq[T]
| reduce(f:(T:T)=>T) : RDD[T] => T
| lookup(k:K) : RDD[(K,V)]=>Seq[V](On hash/range partitioned RDDs)
| save(path : String) : Output RDD to a storage system.e.g.HDFS
|-----------------------------------------------------------------------------------------------

-----------------------------------------------------
第十七课
1、map、filter、flatMap操作回顾
2、reduceByKey、groupByKey
3、join、cogroup

object Tranformations{
def main(args: Array[String]){
val sc = new SparkContext("Tranformation Operation")
mapTranformation(sc)
filterTranformation(sc)
flatMapTranformation(sc)

groupByKeyTranformations(sc)
reduceByKeyTranformation(sc)

sc.stop()
}

def sparkContext(name:String)={
val conf = new SparkConf().setAppName("Tranformation").setMaster("local")
val sc = new SparkContext(conf)

}

def mapTranformation(sc:SparkContext){
val nums = sc.parallelize(1 to 10)
val mapped = nums.map(item => 2*item)
mapped.collect.foreach(println) //收集计算结果并循环打印
}

def filterTransformation(sc:SparkContext){
val nums = sc.parallelize(1 to 20)
val filtered = nums.filter(item => item%2 ==0)
filtered.collect.foreach(println)
}

def flatMapTranformation(sc: SparkContext){
val bigData = Array("Scala Spark","Java Hadoop","Java Tachyon")//实例化字符串类型的Array
val bigDataString = sc.parallelized(bigData) //创建以字符串为元素类型的ParallelCollectionRDD
val words = bigDataString.flatMap(line => line.split(" "))
words.collect.foreach(println)
}

def groupByKeyTranformation(sc:SparkContext){
val lines = sc.textFile("")
val words = lines.flatMap{line => line.split(" ")}
val pairs = words.map{word =>(word,1)}
val wordCountsOdered = pairs.reduceByKey(_+_)
wordCountsOdered.collect.foreach(wordNumberPair => println(wordNumberPair._1 + " : " + wordNumberPair._2))
}

def joinTranformation(sc: SparkContext){
val studentNames = Array(
Tuple2(1,"Spark"),
Tuple2(2,"Spark"),
Tuple2(3,"Spark"),
)
val studentScores = Array(
Tuple2(1,100),
Tuple2(2,95),
Tuple2(3,65),
)
val name = sc.parallelize(studentNames)
val scores = sc.parallelize(studentScores)

val studentNameAndScore = name.join(scores)
studentNameAndScore.collect.foreach(println)
}
}

def join[W](other:RDD)[(K,W)],partitioner:Partitioner):RDD[(K,(V,W))] = self.withScope{
this.cogroup(other,partitioner).flatMapValues(pair => for(v <- pair._1.iterator;
w <- pair._2.iterator) yield(v,w)
)
}

-java-实现
JavaSparkContext sc = new JavaSparkContext(conf)
List> namesList = Arrays.asList(
new Tuple2(1,"Spark"),
new Tuple2(2,"Tachyon"),
new Tuple2(3,"Hadoop")
);

List> scoresList = Arrays.asList(
new Tuple2(1,100),
new Tuple2(2,90),
new Tuple2(3,70),
new Tuple2(1,110),
new Tuple2(2,95),
new Tuple2(2,60),
);
JavaRDD> names = sc.parallelizePairs(namesList);
JavaRDD> scores = sc.parallelizePairs(scoresList);
names.cogroup(scores);

JavaPairRDD,Iterable>> nameScores = names.cogroup(scores);
nameScores.foreach(new VoidFunction,Iterable>>(){
private static final long seriaVersionUID = 1L;
public void call(Tuple2,Iterable>> t) throws Exception{
System.out.println("Student ID:" + t._1)
System.out.println("Name:" + t._2._1)
System.out.println("Score:" + t._2._1)
System.out.println("==============================")
}
})

join和cogroup是所有Spark学习者必须掌握的内容，没有任何商量的余地
---------------------------
第十八课RDD持久化、广播、累加器
val numbers = src.parllelize(1 to 100)
numbers.reduce(_+_)
val result = numbers.map(2*_)
val data = result.collect
如果想在命令终端中看到结果，就必须collect
persist
1、某步骤计算特别好使
2、计算链条特别长的情况
3、checkpoint要在RDD也一定要持久化数据
4、shuffle之后
5、shuffle之前（框架默认帮助我们把数据持久化到本地磁盘）

cache之后不能有其他算子
persist是lazy级别的
unpersist是eager级别的

广播是由Driver发给前Application分配的所有Executor内存级别的只读变量。
executor中的线程池中线程共享该全局变量，极大的减少了网络传输（否则的话每个Task都要传输一次该变量）并极大的节省了内存，
当然也隐形的提高的CPU的有效工作。

累加器：Accumulator:对于Executor只能修改但不可读，只对Driver可读。
val sum = sc.accumulator(0)
val data = sc.parallelize(1 to 100)
data.foreach(item => sum += item)
val result = data.foreach(item => sum += item)
println(sum)
-------------------------------------------------------------
第十九课 Spark高级排序
public class SecondarySortApp{
public static void main(String[] args){
SparkConf conf = new SparkConf().setAppName("SecondarySortApp").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD lines = sc.textFile("")
JavaPairRDD pairs = lines.mapToPair(new PairFunction){
private static final long serialVersionUID = 1L;
public Tuple2 call(String line) throws Exception{
String[] splited = line.split(" ")
SecondarySortKey key = new SecondarySortKey(Integer.valueOf(splited[0]),Integer.valueOf(splited[1]));
return new Tuple2(key,line);
}
}

JavaPairRDD sorted = pairs.sortByKey(); //完成二次排序
//过滤掉排序后自定的Key，保留排序的结果
JavaRDD
sorted.map(new Function,String>(){
public String call(Tuple2 sortedContent) throws Exception{
return sortedContent._2;
}
})
}

}

--scala实现--
class SecondarySortKey(val first:Int,val second:Int) extends Ordered[SecondarySortKey] with Serializable{
def compare(other:SecondarySortKey):Int={
if(this.first - other.first != 0){
this.first -other.first
}else{
this.second - other.second
}
}
}

object SecondarySortApp{
def main(args:Array[String]){
val conf = new SparkConf().setAppName("SecondarySortApp").setMaster("local")
val sc = new SparkContext(conf)
val lines = sc.textFile("")
val pairWithSortKey = lines.map(line =>(
new SecondarySortKey(line.split(" ")(0).toInt,line.split(" ")(1).toInt),line
))

val sorted = pairWithSortKey.sortByKey(false)
val sortedResult = sorted.map(sortedLine => sortedLine._2)
sortedResult.collect().foreach(println)
}
}
-----------------------------------------
第二十一课从Spark架构中透视Job

worker：负责当前节点cpu和内存资源的使用
spark-shell默认情况下没有任何的Job
默认的资源分配方式在每个worker上为当前程序分配一个ExecutorBackend进行，且默认情况下会最大化的使用Core和Memory
Executor会并发线程池来运行Task

CoarseGrainedExecutorBackend:里面有executor，executor会通过并发线程池线和复用的方式来执行我们的Task
在一个Executor中一次性最多能够运行多少并发的task取决于当前Executor能够使用的Cores的数量
由于线程不关心具体Task中运行什么代码，所以Task和Thread是解耦合的，所以Thread是可以被复用的。

当Spark集群启动的时候，首先启动Master进程负责整个集群资源的管理和分配并接受作业的提交且为作业分配计算计算资源，每个工作节点默认情况下都会启动一个
Worker Process来管理当前节点的Memory,CPU等计算资源并且向Master汇报Worker还能够正常工作。
Worker还能够正常工作，当用户提交作业给Master的时候，Master会为程序分配ID并且分配计算资源，默认情况下会为当前的应用程序在每个WorkerProcess下面分配一个
CoarseGranedExceptionBackend进程，该进程默认情况下会最大化的使用当前节点上的内存和CPU

我们说Worker Process管理当前节点的内存和CPU的计算资源，实质上是通过Master管理每台机器上的计算资源的。
WorkerProcess会接受Master的指令为当前要运行的应用程序来分配CoarseGranedExceptionBackend进程

Stage0是Stage1的Mapper
Stage1是Stage2的Mapper
Stage1是Stage0的reduce
Stage2是Stage1的reduce
Spark是一个更加精致和高效的MapReduce思想的具体实现
最后一个Stage里面的Task是Result Task类型
前面所有的Stage中Task的类型都是ShuffleMap Task类型

Stage里面的内容一定是在Executor中执行的！
而且Stage必须从前往后执行

Spark的一个应用程序中可以因为不同的Action产生众多的job，每个Job至少有一个Stage
--------------------------------------------------------------------------------
第二十二课 RDD的依赖关系
1、窄依赖：是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用，例如：map、filter等都会产生窄依赖
2、宽依赖：是指一个父RDD的Partition会被多个子RDD的Partition所使用，例如groupByKey、reduceByKey、sortByKey等操作都会产生宽依赖

总结：如果父RDD的一个Partition被一个RDD的Partition所使用就是窄依赖，否则的话是宽依赖。如果子RDD中的Partition对父RDD的Partition依赖的数量不会随着RDD数量规模
的改变而改变的话，就是窄依赖，否则的话就是宽依赖。

特别说明：对join操作有两种情况，如果说join操作的使用每个partition仅仅和已知的Partition进行join，这次是join操作就是窄依赖，其他情况的join操作就是宽依赖
因为是确定的partition数据的依赖关系，所有就是窄依赖，得出一个推论，窄依赖不仅包含一对一的窄依赖，还包含一对固定个数的窄依赖（也就是说对父RDD的依赖的partition
的数量不会随着RDD数量规模的改变而改变）

遇到Shuffle级别的依赖关系必须计算依赖的RDD的所有Partition 并且都发生在一个Task中计算
上面两种假设的核心问题都是在遇到shuffle依赖的时候无法进行pipeline

注意：
1、从后往前推理遇到宽依赖就断开，遇到窄依赖就把当前的RDD加入到该Stage中；
2、每个Stage里面的Task数量是由该Stage中最后一个RDD的Partition的数量所决定。
3、最后一个Stage里面的任务的类型是ResulTask,前面其他所有的Stage里面的任务的类型就是ShuffleMapTask
补充：Hadoop中的MapReduce操作中的Mapper和Reducer在Spark中基本等量算子是：map、reduceByKey；

表面上是数据流动，实质上算子在流动
1、数据不动代码动
2、在一个Stage内幕算子为何会流动（Pipline）？首先是算子合并，也就是所谓的函数式编程的执行的时候最终进行函数的展开从而把一个Stage内部的多个算子合并成为一个大算子
（其内部包含了当前Stage中所有算子对数据的计算逻辑）；其次是由于Tranformation操作的Lazy特性！在具体算子交给集群的Executor计算之前首先会通过Spark Framework（DAGScheduler）
进行算子的优化（基于数据本地性的pipeline）

-----------------------------------------------------------------------
第二十三课从物理执行角度透视Spark
一、再次思考pipeline
即使采用pipeline的方式，函数f对依赖的RDD中的数据集合的操作也会有两种方式：
1、f(record),f作用于集合的每一条记录，每次只作用于一条记录；
2、f(record),f一次性作用于集合的全部数据
Spark采用是第一种方式，原因：
1、无需等待，可以最大化的使用集群的计算资源
2、减少OOM的发生；
3、最大化的有利于并发；
4、可以精准的控制每一Partition本身(Dependency)及其内部的计算(compute);
5、基于lineage的算子流动式函数式编程，节省了中间结果的产生，并且可以最快的恢复；
疑问：会不会增加网络通信？当然不会！因为在pipeline

二、思考Spark Job 具体的物理执行
Spark Application里面可以产生1个或者多个Job,例如spark-shell默认启动的时候内部就没有Job,只是作为资源的分配程序，可以在spark-shell里面写代码产生若干个Job，
普通程序中一般而言可以有不同的Action，每个Action一般也会触发一个Job
Spark是MapReduce思想的一种更加精致和高效的实现，MapReduce有很多具体不同的实现，例如Hadoop的MapReduce基本的计算流程如下：首先是以JVM为对象的并发的Mapper，
Mapper中map的执行会产生输出数据，输出数据会经过Pariitioner指定的规则放到LocalFileSystem中，然后在经由Shuffle、Sort、Aggregate变成Reducer中的reduce的输入，
执行reduce产生最终的执行结果。Hadoop MapReduce执行的流程虽然简单，但是过于死板，尤其是在构造复杂算法（迭代）时候非常不利于算法的实现，且执行效率极为低下！

Spark算法构造和物理执行时最基本的核心：最大化pipeline
基于Pipeline的思想，数据被使用的时候才开始计算，从数据流动的视角来说，是数据流到计算的位置！实质上从逻辑的角度来看，是算子在数据上流动！
从算法构建的角度而言：肯定是算子作用于数据，所以是算子在数据上流动；方便算法的构建！

从物理执行的角度而言：是数据流动到计算的位置；方便系统最为高效的运行！
对于pipeline而言，数据计算的位置就是每个Stage中最后的RDD，一个震撼人心的内幕真相就是：每个Stage中除了最后一个RDD算子是真实的以外，前面的算子都是假的！
由于计算的Lazy特性，导致计算从后往前回溯，形成Computing Chain，导致的结果就是需要首先计算出具体一个Stage内部左侧的RDD中本次计算依赖的Partition

三、窄依赖的物理执行内幕
一个Stage内部的RDD都是窄依赖，窄依赖计算本身是逻辑上看是从Stage内部最左侧的RDD开始立即计算的，根据Computing Chain，数据从一个计算步骤流动到下一个结算步骤，
以此类推，直到计算到Stage内部的最后一个RDD来产生计算结果。
Computing Chain的构建是从后往前回溯构建而成，而实际的物理计算则是让数据从前往后在算子上流动，直到流动到不能再流动位置才开始计算下一个Record。

四、宽依赖物理执行内幕
必须等到依赖的父Stage中的最后一个RDD全部数据彻底计算完毕，才能能够经过shuffle来计算当前Stage。
-----------------
第二十四课 Spark Hash Shuffle内幕彻底解密
一：到底什么是Shuffle？
Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。

你可能感兴趣的:(spark)

Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
探索数据科学新边界：Apache Livy 开源项目详解毕艾琳
探索数据科学新边界：ApacheLivy开源项目详解incubator-livyApacheLivyisanopensourceRESTinterfaceforinteractingwithApacheSparkfromanywhere.项目地址:https://gitcode.com/gh_mirrors/in/incubator-livyApacheLivy是一个为ApacheSpark提供的
大数据公司 Databricks 详解 Bj陈默大数据
Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark大数据处理系统的多位创始人联合创立，包括AliGhodsi、AndyKonwinski、IonStoica、PatrickWendell、ReynoldXin、MateiZaharia、A
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！小白的大数据历程 Spark源码解析开发语言 spark 大数据分布式 scala
后一篇链接在这接上一章请先看解读序列化抽象类第一部分（这是一个链接）目录接上一章请先看解读序列化抽象类第一部分2.Java序列化实现类JavaSerializer(1)JavaSerializationStream类代码实际例子1：序列化(2)JavaDeserializationStream代码实际例子2：反序列化Spark源码下类图在学习过程中，抓住主要问题，请思考问题为什么Kryo序列化更加
Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（java序列化部分完结，正在更新RpcEnv部分~）小白的大数据历程 Spark源码解析 spark java python
目录(3)JavaSerializerInstance定义了一个Java序列化实例(1)构造方法参数(2)方法1：serializeStream(3)方法2：deserializeStreamdefaultClassLoader(4)方法3：deserializeStreamloader(5)方法4：serialize(6)方法5：deserializeloader(7)方法6：deseriali
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
pyspark 中删除hdfs的文件夹 TDengine （老段）大数据 spark hadoop hdfs mapreduce
在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法，是通过调用shell命令hadoopfs-rm-f来删除，这个方法感觉不怎么好，所以继续找。后来通过查找hadoophdfs的源代码发现hdfs是通过java的包org.appache.had
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
python捕获异常青云游子 python
try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql("""insertintotabledim.aaaselect'1','666','{name}','{id}',null,null,null,null,current_times
Spark任务提交流程尘世壹俗人大数据Spark技术大数据
当包含在applicationmaster中的spark-driver启动后，会与资源调度平台交互获取其他执行器资源，并通过反向注册通知对应的node节点启动执行容器。此外，还会根据程序的执行规划生成两个非常重要的东西，一个是根据spark任务执行计划生成n个ADG有向无环图，另一个是根据有向无环图生成对应的taskset，也可以统称为stage，ADG和taskset由于宽窄依赖以及程序的复杂度
spark读取、写入Clickhouse以及遇到的问题 Alex_81D 大数据基础大数据从入门到精通 clickhouse spark
最近需要处理Clickhouse里面的数据，经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。具体Clickhouse的讲解本篇不做讲解，后面专门讲解这个。一、clickhouse代码操作话不多说直接看代码1.引入依赖：ru.yandex.clickhouseclickhouse-jdbc0.2.40.2.4这个版本用的比较多一点2.spark对象创建valspark
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
Java爬虫——使用Spark进行数据清晰 Future_yzx java 爬虫 spark
1.依赖引入 org.apache.spark spark-core_2.13 3.5.3 org.apache.spark spark-sql_2.13 3.5.32.数据加载从MySQL数据库中加载jobTest表中的数据，使用Spark的JDBC功能连接到数据库。代码片段：//数据库连接信息StringjdbcUrl="jdbc:mysql://82.157.185.251:3306/
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS _Jordan 自己写的数据仓库
参考：万字详解数仓分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用，减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark等组件为中心的架构体系数据架构：顶层设计
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
CDP中的Hive3之Hive Metastore（HMS）对许 #Hive #Spark hive cdp
CDP中的Hive3之HiveMetastore（HMS）1、CDP中的HMS2、HMS表的存储（转换）3、HWC授权1、CDP中的HMSCDP中的HiveMetastore（HMS）是一种服务，用于在后端RDBMS（例如MySQL或PostgreSQL）中存储与ApacheHive和其他服务相关的元数据。Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Apache PAIMON 学习潇锐killer 学习
参考：ApachePAIMON：实时数据湖技术框架及其实践数据湖不仅仅是一个存储不同类数据的技术手段，更是提高数据分析效率、支持数据驱动决策、加速AI发展的基础设施。新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。ApachePAIMON是一个支持大规模实时数据更新的存储和分析
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换（四）青云交大数据新视界 Java 大视界 Spark RDD 数据转换大数据数据分区性能优化社交网络 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之 Spark Streaming 实时数据处理框架：案例与实践青云交大数据新视界 #Spark 之道 Spark Streaming 大数据新视界实时数据处理案例分析实践技巧框架比较应用场景
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri