ly的学习笔记

$05[SparkCore(Action_序列化_依赖关系_持久化)]

第一章.Action行动算子

1.reduce

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}
import org.junit.Test

class $01_Action {

  val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))

  /**
   * reduce(func:(RDD元素类型,RDD元素类型)=>RDD元素类型):对一个RDD所有元素聚合
   * reduce是通过函数在每个分区中对分区内的所有数据先聚合,然后将每个分区的聚合结果发给driver,又driver汇总聚合
   */
  @Test
  def reduce():Unit={
    val rdd = sc.parallelize(List(1,4,3,2,8,10,9,7))
    val result = rdd.reduce((agg,curr)=>{
      println(s"${Thread.currentThread().getName}  agg=${agg} curr=${curr}")
      agg+curr
    })
    println(result)
    Thread.sleep(100000)

  }

}

2.collect

  /**
   * collect:收集Rdd每个分区的数据返回给Driver<重点>
   *   如果RDD分区数据比较大,Driver内存默认只有1G,所以
   */
  @Test
  def collect():Unit={
    val rdd = sc.parallelize(List(1,4,3,2,8,10,9,7))
    println(rdd.collect().toList)
  }

3.count

  /**
   * count:统计RDD元素个数
   */
  @Test
  def count():Unit={
    val rdd = sc.parallelize(List(1,4,3,2,8,10,9,7))
    println(rdd.count())
  }

4.first

/**
   * first:获取RDD第一个元素
   *
   */
  @Test
  def first():Unit={
    val rdd1 = sc.parallelize(List(10,4,3,2,8,10,9,7))
    rdd1.mapPartitionsWithIndex((index,it)=>{
      println(s"rdd1 index=${index} data=${it.toList}")
      it
    }).collect()
    println(rdd1.first())

    val rdd2 = rdd1.map(x => (x, x))
      .partitionBy(new HashPartitioner(3))
    rdd2.mapPartitionsWithIndex((index,it)=>{
      println(s"rdd2 index=${index} data=${it.toList}")
      it
    }).collect()
    println(rdd2.first())

  }

5.take

/**
   * take:获取前N个元素
   */
  @Test
  def take():Unit={
    val rdd1 = sc.parallelize(List(10,4,3,2,8,10,9,7))
    println(rdd1.take(3).toList)
  }

6.takeOrdered

  /**
   * takeOrdered:对RDD元素排序之后取前N个元素
   *
   */
  @Test
  def takeOrdered():Unit={
    val rdd1 = sc.parallelize(List(10,4,3,2,8,10,9,7))
    println(rdd1.takeOrdered(3).toList)
  }

7.aggregate

  /**
   * aggregate(默认值)(seqop:(默认值类型,RDD元素类型)=>默认值类型,comop:(默认值类型,默认值类型)=>默认值类型):
   * 先对每个分区所有数据聚合,然后将所有分区的聚合结果发给driver汇总
   * seqop:在每个分区中对分区的所有数据进行聚合,每个分区第一次聚合的时候,函数第一个参数的初始值=默认值
   * comop:在Driver中对每个分区汇总结果再次全局汇总,Driver第一次计算的时候,函数的第一个参数的初始值=默认值
   */
  @Test
  def aggregate():Unit={
    val rdd = sc.parallelize(List(10,4,3,2,8,10,9,7))
    rdd.mapPartitionsWithIndex((index,it)=>{
      println(s"rdd index=${index} data=${it.toList}")
      it
    }).collect()

    rdd.aggregate(1000)((agg,curr)=>{
      println(s"分区汇总过程: agg=${agg} curr=${curr}")
      agg+curr
    }, (agg,curr)=>{
      println(s"driver汇总过程: agg=${agg} curr=${curr}")
      agg+curr
      })

  }

8.fold

/**
   * fold与aggreate的区别
   *   aggreate的分区间与Driver汇总计算逻辑可以不一样
   *   fold的分区间与Driver汇总计算逻辑一样
   */
  @Test
  def fold():Unit= {
    val rdd = sc.parallelize(List(10, 4, 3, 2, 8, 10, 9, 7))

    val rdd2 = rdd.fold(1000)((agg,curr)=>{
        println(s"汇总过程: agg=${agg} curr=${curr}")
        agg+curr
     })


  }

9.countByKey

/**
   * countByKey:统计每个Key的个数
   *   countByKey一般结合sample使用,工作中出现数据倾斜以后一般先用sample采集样本数据,
   *   然后使用countByKey统计样本数据中每个key的个数,从而判断哪些key出现了数据倾斜,从而判断哪些key使用了数据倾斜
   */

  @Test
  def countByKey()={
    val rdd = sc.parallelize(List("aa"->10,"bb"->20,"aa"->3,"aa"->4,"cc"->50,"bb"->1))
    println(rdd.countByKey)
  }

10.save

/**
   * save:保存RDD数据到磁盘
   */
  @Test
  def save()={
    val rdd = sc.parallelize(List("aa"->10,"bb"->20,"aa"->3,"aa"->4,"cc"->50,"bb"->1))
    rdd.saveAsTextFile("output/text")

  }

11.foreach

/**
   * foreach(func:RDD元素类型=>Unit):遍历
   *   foreach与map的区别
   *     map是转换算子,会生成新的RDD
   *     foreach是行动算子,没有返回值
   * foreach里面的函数是针对元素操作,RDD有多少元素,函数就调用多少次
   */
  @Test
  def foreach()={
    val rdd = sc.parallelize(List("aa"->10,"bb"->20,"aa"->3,"aa"->4,"cc"->50,"bb"->1))
    rdd.foreach(x=>println(x))
  }

11.foreachPartition

/**
   * foreachPartition(func:Iterator[RDD元素类型]=>Unit):Unit<常用>
   *   foreachPartition一般用于将数据保存在mysql,hbase,redis等地方
   */
  @Test
  def foreachPartition():Unit={
   val rdd = sc.parallelize(List("zhangsan"->10,"lisi"->20,"wangwu"->3,"zhaoliu"->4))
   rdd.foreachPartition(it=>{
     var connection:Connection = null
     var statement:PreparedStatement = null

     try{
       connection = DriverManager.getConnection(".....")
       statement = connection.prepareStatement("insert into .. values(?,?)")
       var i = 0
       it.foreach(x=>{
         statement.setString(1,x._1)
         statement.setInt(2,x._2)
         statement.addBatch()
         if(i%1000==0){
           //提交一个批次的数据
           statement.executeBatch()
           statement.clearBatch()
         }
          i=i+1
       })
       //提交最后一个不满1000条的批次数据
       statement.executeBatch()


     }catch{
       case e:Exception => e.printStackTrace()
     }finally{
       if(statement!=null)
         statement.close()
       if(connection!=null)
         connection.close()
     }
   })

  }

第二章.RDD序列化

1.闭包

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}
import org.junit.Test

class $02_closePackage {
  /**
   * 闭包:函数体中调用外部变量的函数称之为闭包
   */
  @Test
  def m(): Unit ={
    val y = 10
    //闭包函数
    val func = (x:Int)=>x+y
    println(func(100))

    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    val rdd = sc.parallelize(List(1,4,3,2,8,9,5,7))
    //Spark算子里面的代码是在executor中执行的,算子外面的代码是在Driver中执行的
    //此时y是Int类型,底层实现了序列化
    val rdd2 = rdd.map(x => {
      x * y
    })
    println(rdd2.collect().toList)
  }



}

2.Spark序列化

闭包使用未序列化的外部变量时

 @Test
  def n()={
    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    val rdd = sc.parallelize(List(1,4,3,2,8,9,5,7))
    val p = new Person
    //Spark算子里面的代码是在executor中执行的,算子外面的代码是在Driver中执行的
    //此时p是person类型,是在driver里面定义的,p并没有序列化
    val rdd2 = rdd.map(x => {
      x * p.y
    })
    println(rdd2.collect().toList)
  }


  class Person{
    var y = 10
  }

运行结果报错:

driver中使用的变量可以序列化时

@Test
  def p()={
    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    val rdd = sc.parallelize(List(1,4,3,2,8,9,5,7))
    val p = new Person1
    //Spark算子里面的代码是在executor中执行的,算子外面的代码是在Driver中执行的
    //此时a是局部变量,是Int类型,可以被序列化
    val rdd2 = p.cover(rdd)

    println(rdd2.collect().toList)
  }


  class Person1{
    var y = 10
    def cover(rdd:RDD[Int])={
      val a:Int = y
      rdd.map(x=>x*a)
    }
  }

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aj4UUm5t-1657550355591)(https://z3.ax1x.com/2021/09/11/hvXZU1.png#id=bX5P4&originHeight=294&originWidth=868&originalType=binary&ratio=1&status=done&style=none)]

使用样例类,样例类底层实现了序列化接口

package com.atguigu.spark.day05


import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object $03_closePackage {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    val rdd = sc.parallelize(List(1, 4, 3, 2, 8, 9, 5, 7))
    val p = new Person2
    //Spark算子里面的代码是在executor中执行的,算子外面的代码是在Driver中执行的
    //此时a是局部变量,是Int类型,可以被序列化
    val rdd2 = p.cover(rdd)

    println(rdd2.collect().toList)
  }


  case class Person2() {
    var y = 10

    def cover(rdd: RDD[Int]) = {
      val a: Int = y
      rdd.map(x => x * y)
    }

  }
}

Spark序列化方式

spark为什么要序列化?(重点)

spark算子里面的代码是在Executor中执行,算子外面的代码是在Driver中执行,如果算子里面有使用Driver定义的对象,此时需要将Driver定义的对象序列化之后传给Task使用

spark序列化分为两种

java序列化方式:spark默认使用

使用java序列化时会将类的全类名,继承信息,属性信息,属性的类型信息,其他信息全部都会序列化

Kryo序列化方式

使用Kryo序列化时只会序列化类的基本信息,比如类名,属性名,属性类型

kryo序列化性能上比java序列化高10倍左右

工作中一般使用kryo序列化

spark如何使用序列化?(重点)

需要在sparkConf中配置spark序列化的默认方式: new SparkConf().set(“spark.serializer”,“org.apache.spark.serializer.KryoSerializer”) 【spark优化】

配置哪些类的对象后续使用kryo序列化[可选]: conf.registerKryoClasses(Array(classOf[Student]))

验证kryo序列化比java序列化方式性能高

java序列化

package com.atguigu.spark.day05

import org.junit.Test

import java.io.{FileOutputStream, ObjectOutputStream}
import scala.beans.BeanProperty

class $03_Ser {

  /**
   * java序列化
   */
  @Test
  def javaSer():Unit={
    val student = new Student
    student.setName("lisi")
    student.setAge(20)
    val oos = new ObjectOutputStream(new FileOutputStream("d:/java.txt"))
    oos.writeObject(student)
    oos.flush()
    oos.close()

  }

}
class Student extends Serializable{
  @BeanProperty
  var name:String = _
  @BeanProperty
  var age:Int = _

}

kryo序列化

package com.atguigu.spark.day05


import com.esotericsoftware.kryo.Kryo
import com.esotericsoftware.kryo.io.Output
import org.junit.Test

import java.io.{FileOutputStream, ObjectOutputStream}
import scala.beans.BeanProperty

class $04_Ser {

 
  /**
   * kryo序列化
   */
  @Test
  def kryoSer():Unit={
    val student = new Student
    student.setName("lisi")
    student.setAge(20)
    val kryo = new Kryo()
    val output = new Output(new FileOutputStream("d:/kryo.txt"))
    kryo.writeObject(output,student)
    output.flush()
    output.close()

  }

}
class Student extends Serializable{
  @BeanProperty
  var name:String = _
  @BeanProperty
  var age:Int = _

}

读取kryo序列化的对象

package com.atguigu.spark.day05


import com.esotericsoftware.kryo.Kryo
import com.esotericsoftware.kryo.io.{Input, Output}
import org.junit.Test

import java.io.{FileInputStream, FileOutputStream, ObjectOutputStream}
import scala.beans.BeanProperty

class $04_Ser {

 
  /**
  读取kryo序列化的对象
  
  */
  @Test
  def kryoRead():Unit={
    val kryo = new Kryo()
    val input = new Input(new FileInputStream("d:/kryo.txt"))
    val student = kryo.readObject(input,classOf[Student])
    println(student.name)
    println(student.age)
  }

}
class Student extends Serializable{
  @BeanProperty
  var name:String = _
  @BeanProperty
  var age:Int = _

}

Spark配置序列化

package com.atguigu.spark.day05


import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object $03_closePackage {
  def main(args: Array[String]): Unit = {
    //val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    /**
    *  Spark配置序列化
    */
    val conf = new SparkConf().set("spark.serializer","org.apache.spark.serializer.KryoSerializer").setMaster("local[4]").setAppName("test")
    conf.registerKryoClasses(Array(classOf[Student]))
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(List(1, 4, 3, 2, 8, 9, 5, 7))
    val p = new Person2
    //Spark算子里面的代码是在executor中执行的,算子外面的代码是在Driver中执行的
    //此时a是局部变量,是Int类型,可以被序列化
    val rdd2 = p.cover(rdd)

    println(rdd2.collect().toList)
  }


  case class Person2() {
    var y = 10

    def cover(rdd: RDD[Int]) = {
      val a: Int = y
      rdd.map(x => x * y)
    }

  }
}

第三章.RDD依赖关系

1.血统

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 血统:是指一个job中一系列RDD的依赖关系,是指一个家族之间的关系
 * 可以通过toDebugString查看RDD 的血统
 */
object $05_Lineage {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))

    val rdd1 = sc.textFile("datas/wc.txt")
    val rdd2 = rdd1.flatMap(_.split(" "))
    val rdd3 = rdd2.map(x => (x, 1))
    val rdd4 = rdd3.reduceByKey(_ + _)
    println(rdd4.toDebugString)
    println(rdd4.collect().toList)
  }

}

2.依赖关系

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 依赖关系:父子RDD的关系
 */
object $04_Dependcy {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    println("-" * 100)
    val rdd1 = sc.textFile("datas/wc.txt")
    println(rdd1.dependencies)
    println("-" * 100)
    val rdd2 = rdd1.flatMap(_.split(" "))
    println(rdd2.dependencies)
    println("-" * 100)
    val rdd3 = rdd2.map(x => (x, 1))
    println(rdd3.dependencies)
    println("-" * 100)
    val rdd4 = rdd3.reduceByKey(_ + _)
    println(rdd4.dependencies)
    println("-" * 100)
    println(rdd4.collect().toList)
  }

}

Spark之间的RDD依赖关系有两种

宽依赖:有shuffle操作的称之为宽依赖[父RDD一个分区的数据被子RDD多个分区所使用]

窄依赖:没有shuffle操作的称之为窄依赖[父RDD一个分区的数据只被子RDD一个分区所使用]

job进行stage切分的时候是根据最后一个RDD的依赖关系依次从后往前查询,遇到宽依赖就切分stage,然后再次向前查询,直到查询到第一个RDD为止

job中stage执行的时候是从前往后执行的,因为后面stage的输入数据是前面stage的输出数据

Application:应用[一个Sparkcontext为一个应用]

job :任务[一个action算子产生一个job]

stage:阶段[一个job中stage的个数=shuffle个数+1]

task:子任务[一个stage中task个数=该stage中最后一个RDD的分区数]

一个Application中多个job之间并行

一个job中多个stage串行

一个stage中多个task是并行的

3.stage切分源码

val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)
//this是调用collect算子的rdd
	runJob(rdd, func, 0 until rdd.partitions.length)
		runJob(rdd, (ctx: TaskContext, it: Iterator[T]) => cleanedFunc(it), partitions)
			runJob[T, U](rdd, func, partitions, (index, res) => results(index) = res)
				dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)
					//提交job
					val waiter = submitJob(rdd, func, partitions, callSite, resultHandler, properties)
							//将job信息放入消息池中,由专门的线程统一处理
							eventProcessLoop.post(JobSubmitted(jobId, rdd, func2, partitions.toArray, callSite, waiter,Utils.cloneProperties(properties)))
								//处理job提交
								dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties)
									//切分stage并返回最后一个stage
									finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)
										//切分stage
										val parents = getOrCreateParentStages(rdd, jobId)
											//获取最靠近当前rdd的shuffle依赖
											getShuffleDependencies(rdd)
											//创建stage
											getOrCreateShuffleMapStage(shuffleDep, firstJobId)
												//根据shuffle依赖再次向前找其他shuffle
												getMissingAncestorShuffleDependencies(shuffleDep.rdd)
												//创建stage
												createShuffleMapStage(shuffleDep, firstJobId)
													//创建stage对象
													val stage = new ShuffleMapStage(id, rdd, numTasks, parents, jobId, rdd.creationSite, shuffleDep, mapOutputTracker)
										//创建最后一个stage
										val stage = new ResultStage(id, rdd, func, partitions, parents, jobId, callSite)
									//提交stage
									submitStage(finalStage)
										//获取当前stage的所有父stage，并根据id排序
										val missing = getMissingParentStages(stage).sortBy(_.id)
										//执行stage
										submitMissingTasks(stage, jobId.get)
											//将stage转成task
											val tasks: Seq[Task[_]] = ....
											//提交task
											taskScheduler.submitTasks(new TaskSet(tasks.toArray, stage.id, stage.latestInfo.attemptNumber, jobId, properties))
												//调度执行
												backend.reviveOffers()
													//给Driver发送提交task的指令
													  override def reviveOffers(): Unit = {
														driverEndpoint.send(ReviveOffers)
													  }
														//Driver接受到提交task指令,开始提交task
														case ReviveOffers => makeOffers()
															//提交task
															launchTasks(taskDescs)
																//向executor发送执行task指令
																executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))
									

//val rdd1 = sc.textFile("...")
//val rdd2 = rdd1.flatMap(_.split(" "))
//val rdd3 = rdd2.map(x=>(x,1))
//val rdd4 = rdd3.reduceByKey(_+_)
//val rdd5 = rdd4.coalesce(1)
//rdd5.collect

//获取最靠近当前rdd的shuffle依赖
private[scheduler] def getShuffleDependencies(
      rdd: RDD[_]): HashSet[ShuffleDependency[_, _, _]] = {
	//创建一个装载shuffle依赖的容器
    val parents = new HashSet[ShuffleDependency[_, _, _]]
	//创建一个装载访问过的rdd的容器
    val visited = new HashSet[RDD[_]]
	//创建一个状态待访问的RDD的容器
    val waitingForVisit = new ListBuffer[RDD[_]]
	//将当前rdd放入待访问容器中
    waitingForVisit += rdd
	//判断是否有带访问的RDD
    while (waitingForVisit.nonEmpty) {
		//从带访问容器中取出第一个rdd进行访问
      val toVisit = waitingForVisit.remove(0)
	  //判断该rdd之前是否被访问过
      if (!visited(toVisit)) {
		//将目前待访问的rdd放入已访问的容器中,后续在遇到该rdd就不用再访问了
        visited += toVisit
		//获取当前待访问rdd的依赖
        toVisit.dependencies
		//遍历每个依赖
		.foreach {
			//shuffle依赖
          case shuffleDep: ShuffleDependency[_, _, _] =>
            parents += shuffleDep
			//窄依赖
          case dependency =>
            waitingForVisit.prepend(dependency.rdd)
        }
      }
    }
    parents
  }

第四章.RDD持久化

1.RDD持久化的原因

未使用RDD持久化

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}

object $06_Cache {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    sc.setLogLevel("error")

    val rdd1 = sc.textFile("datas/wc.txt")
    val rdd2 = rdd1.flatMap(line=>{
      println(s"----------------------->${line}")
      line.split(" ")
    })
    val rdd3 = rdd2.map(x => (x, 1))
    val rdd4 = rdd2.map(x=>x.length)
    rdd3.collect()
    rdd4.collect()

  }

}

使用RDD持久化

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}

/**
 * RDD持久化的原因:如果同一个RDD在多个job中重复使用,那么默认情况下,该RDD之前的步骤会执行多次,会影响效率,所以需要在
 * 第一个job执行完成之后将该RDD数据持久化到磁盘,后续其他job需要该RDD数据的时候直接从磁盘获取数据,不用重复计算了
 *
 * RDD持久化使用场景:
 *      1.同一个RDD在job中重复使用的时候,可以减少该RDD重复计算的次数
 *      2.一个job中RDD依赖链条太长的时候,可以使用RDD持久化防止计算出错导致重新计算花费大量的时间
 *
 * RDD持久化方式
 *      1.缓存
 *        数据保存的位置: 内存/分区所在主机的本地磁盘
 *        如何使用缓存:
 *            1.rdd.cache()
 *            2.rdd.persist
 *            cache与persist的区别:
 *               cache的数据只保存在内存中
 *               persist可以设置数据保存在哪里[内存/磁盘]
 *        存储级别
 *              NONE: 代表不存储
 *                 DISK_ONLY： 只保存在磁盘中
 *                 DISK_ONLY_2: 只保存在磁盘中，数据保存两份
 *                 MEMORY_ONLY: 数据只保存在内存中
 *                 MEMORY_ONLY_2：  数据只保存在内存中，数据保存两份
 *                 MEMORY_ONLY_SER： 数据只保存在内存中以序列化形式存储
 *                 MEMORY_ONLY_SER_2 ： 数据只保存在内存中以序列化形式存储，数据保存两份
 *                 MEMORY_AND_DISK : 数据一部分保存在内存一部分在磁盘
 *                 MEMORY_AND_DISK_2 : 数据一部分保存在内存一部分在磁盘,数据保存两份
 *                 MEMORY_AND_DISK_SER : 数据一部分保存在内存一部分在磁盘以序列化形式存储
 *                 MEMORY_AND_DISK_SER_2 : 数据一部分保存在内存一部分在磁盘以序列化形式存储,数据保存两份
 *                 OFF_HEAP: 数据保存在堆外内存中
 *              工作常用的存储级别: MEMORY_AND_DISK<用于大数据量场景>、MEMORY_ONLY<用于小数据量场景>
 *       2.chackpoint
 *
 *
 */

object $06_Cache {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    sc.setLogLevel("error")

    val rdd1 = sc.textFile("datas/wc.txt")
    val rdd2 = rdd1.flatMap(line=>{
      println(s"----------------------->${line}")
      line.split(" ")
    })
    //将RDD数据缓存下来,供后续job直接使用
    //val rdd21 = rdd2.cache()
    val rdd21 = rdd2.persist()
    val rdd3 = rdd21.map(x => (x, 1))
    val rdd4 = rdd21.map(x=>x.length)
    rdd3.collect()
    rdd4.collect()

  }

}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-igoXsWPx-1657550355599)(https://z3.ax1x.com/2021/09/12/4pijzQ.png#id=ceCrs&originHeight=560&originWidth=919&originalType=binary&ratio=1&status=done&style=none)]

2.CheckPoint(检查点)

checkpoint

原因:缓存数据是保存在分区所在机器的磁盘/内存中,数据可能丢失,如果数据丢失需要重新计算,影响效率,所以最好将数据保存在可靠存储介质[HDFS]中

数据存储位置:数据存储在HDFS上

如何使用checkpoint

设置数据持久化路径: sc.setCheckpointDir(…)

持久化RDD

checkpoint持久化时机:等到RDD所在的第一个job执行完成之后,会出发该RDDcheckpoint操作[该操作会重新出发一个新的job,该job执行当前RDD之前的数据处理步骤]

可以在checkpoint之前将RDD缓存起来避免重复执行

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}

object $07_CheckPoint {
  def main(args: Array[String]): Unit = {

      val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
      sc.setLogLevel("error")
      //设置数据持久化路径
      sc.setCheckpointDir("checkpoint")

      val rdd1 = sc.textFile("datas/wc.txt")
      val rdd2 = rdd1.flatMap(line => {
        println(s"----------------------->${line}")
        line.split(" ")
      })

      rdd2.cache()
      rdd2.checkpoint()
      val rdd3 = rdd2.map(x => (x, 1))
      val rdd4 = rdd2.map(x => x.length)
      rdd3.collect()
      rdd4.collect()
    }


}

3.缓存与checkpoint的区别

缓存与checkpoint的区别

数据持久化的位置不一样

缓存是将数据持久化到分区所在主机的内存/本地磁盘

checkpoint是将数据持久化到HDFS中

依赖关系是否切除不一样

缓存是将数据持久化到分区所在主机的内存/本地磁盘,如果服务器宕机,数据丢失之后需要根据RDD的依赖关系重新计算得到数据

checkpoint是将数据持久化到HDFS中,数据不会丢失,此时RDD的依赖关系会切除

4.shuffle与缓存

package com.atguigu.spark.day05

import org.apache.spark.{SparkConf, SparkContext}

/**
 * shuffle算子的数据会落盘相当于自带缓存操作
 */

object $08_Shuffle {
  def main(args: Array[String]): Unit = {

    val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test"))
    sc.setLogLevel("error")


    val rdd1 = sc.textFile("datas/wc.txt")
    val rdd2 = rdd1.flatMap(line => {
      println(s"----------------------->${line}")
      line.split(" ")
    })


    val rdd3 = rdd2.map(x => (x, 1))
    val rdd4 = rdd3.reduceByKey(_+_)
    val rdd5 = rdd4.map(x => (x._1, x._2 + 100))
    val rdd6 = rdd4.map(x => (x._1, x._2 + 1000))
    rdd5.collect()
    rdd6.collect()
  }

}

你可能感兴趣的:(#,spark基础,scala,spark,开发语言)

【Spark征服之路-3.7-Spark-SQL核心编程（六）】 qq_46394486 spark sql ajax
数据加载与保存：通用方式：SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet加载数据：spark.read.load是加载数据的通用方法。如果读取不同格式的数据，可以对不同的数据格式进行设定。spark.read.format("…")[.option("…")].
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
Spark RDD 之 Partition 博弈史密斯
SparkRDD怎么理解RDD的粗粒度模式？对比细粒度模式SparkRDD的task数量是由什么决定的？一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度支持保存点(checkpoint)虽然RDD可以通过lineage实现faultrecove
C#实现24种数据校验算法的综合指南及工具包.zip 语嫣凝冰
本文还有配套的精品资源，点击获取简介：在数据通信和网络编程中，数据的完整性和准确性是至关重要的。C#作为一种流行的开发语言，提供了强大的工具来实现各类数据校验算法。本压缩包包含了一个名为“WindowsFormsApp”的C#应用程序，用于展示和实验24种数据校验方法，涵盖从简单到复杂的各种算法。这包括CRC校验、MD5、SHA系列、Adler32、Checksum、ParityBit、LRC、H
Flink：处理有界流数据的wordcount 小易学编程 flink 大数据
数据源：helloworldhelloflinkhelloscala有界流：packagechapter02importorg.apache.flink.streaming.api.scala._/***ClassName:BoundedStreamWordCount*Package:chapter02*Description:**@Author小易日拱一卒*@Create2025-06-272:
Grafana Loki Helm Chart从2.x升级到3.0的完整指南芮川琨Jack
GrafanaLokiHelmChart从2.x升级到3.0的完整指南前言GrafanaLoki3.0版本的HelmChart是一个重要的里程碑版本，它整合了之前两个独立的Chart（loki和loki-simple-scalable）为一个统一的解决方案。本文将详细介绍如何从2.x版本平滑升级到3.0版本，帮助用户理解升级过程中的关键变化和注意事项。升级前的准备工作在进行任何升级操作前，请务必：
RDS Proxy提高数据库可扩展性可用性GenAI taibaili2023 AWS
亚马逊云科技-RDSProxy改善数据库可扩展性GenAI关键字:[yt,AmazonRDSProxy,DatabaseScalability,RdsProxy,ConnectionPooling,SeamlessFailover,IamAuthentication]本文字数:400,阅读完需:2分钟导读演讲者介绍了”亚马逊云科技-RDSProxy改善数据库可扩展性GenAI”。在演讲中,他阐释了
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
自己开发FT4222上位机软件 - USB转SPI EE工程师嵌入式系统 python 单片机模块测试
写作背景最近公司有个项目，让开发一个能够同时进行千兆网接收和SPI配置的上位机软件，开发语言不限，所以作者选择Python+PyQt作开发，做嵌入式固件开发的读者可能知道还需要一块USB转SPI的模块才能进行上下位机正常SPI读写，项目团队成员建议模块从淘宝网购买就好，作者经过调研对比，感觉从芯片质量到开发配套上来讲，FTDI的FT4222模块是最优选择。但令作者感到不快的是淘宝商家不提供模块
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction zzfive 生成模型论文阅读 kotlin 开发语言 android
论文链接：VisualAutoregressiveModeling:ScalableImageGenerationviaNext-ScalePrediction文章目录简介预测下一个token自回归模型范式分析VAR详解分词实现细节幂律缩放定律零样本泛化能力结论简介本文提出的视觉自回归建模/VAR这种新范式，其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与常规的
Saprk中RDD詳解文子轩
一.常用的transfromRDD算子通過並行化scala創建RDDvalrdd1=sc.parallelize(Array(1,2,3,4,5,6,7,8))查看該RDD的分區數量rdd1.partitions.lengthres23:Int=4使用filter算子valrdd2=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(*2).sortBy(
Github 2024-06-07开源项目日报 Top10
根据GithubTrendings的统计，今日(2024-06-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目3C++项目3JavaScript项目2JupyterNotebook项目1TypeScript项目1Vue项目1比特币核心：开源比特币软件创建周期：4919天开发语言：C++协议类型：MITLicenseStar数量：76760个F
AI日报-20250620：华为云重磅发布盘古大模型5.5！宇树科技C轮融资引爆资本圈！Genspark AI Pod震撼发布！未来世界2099 AI日报人工智能华为云科技业界资讯
1、昆仑万维开源Skywork-SWE-32B：32B模型刷新代码修复SOTA，性能直逼闭源巨头2、腾讯AILab开源音乐生成大模型SongGeneration，人人皆可创作音乐！3、重磅！ManusAIWindows版免码开放，职场效率革命来袭！4、B站618商单效率飙升5倍！通义千问3助力AI选人功能大爆发5、HailuoVideoAgent震撼发布：零门槛生成专业级视频，创意秒变现实！6、中
Python+Selenium自动化
1，什么是seleniumselenium是一个开源的自动化测试框架，主要适用WEB测试，可以支持多种语言(Java,C#,Python,php等)，既然支持多语言开发，那跨平台自然就不用多说啦，selenium有几个版本，一个是seleniumIDE(是一个安装在火狐浏览器上的一个插件，可以用来录制脚本，然后导出自动生成对应的开发语言文件)，seleniumGrid(自动化辅助工具，楼主还没深入
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
大前端几种开发语言对比 Fighting Horse 开发语言 flutter swift kotlin
项目概述语言特性备注基本类型BasicOperators整数、浮点数C++整数类型宽度不固定，如int，自动数值类型转换Java没有无符号整数，存在装箱Box类型C#Swift基本tuple类型KotlinT?是Box的支持原生类型数组IntArray等无符号整数是Beta的，通过内联类实现Dart运算符BasicOperators赋值、流程、算术、位、逻辑、关系运算符下标、后缀、前缀运算符三元条
感受大师的代码风格_opencv源代码结构分析一
最近在调用opencv的时候,我总是去看看opencv的原代码.在那些烦琐的宏定义里面感觉自己还是很有意思的.cvGet2D(constCvArr*arr,inty,intx);//第一个坐标是y坐标,第二个是x坐标CV_IMPLCvScalarcvGet2D(constCvArr*arr,inty,intx)//CV_IMPL宏定义extern"C"{CvScalarscalar={{0,0,0
Opencv学习_2 （opencv结构&显示图像）
opencv结构：1：主要包含：cxcorecvmachinelearninghighguicvcamcvaux2：cxcore:基础结构:CvPoint,CvSize,CvScalar等数组结构:cvCreateImage,cvCreateMat等动态结构:CvMemStorage,CvMemBlock等绘图函数:cvLine,cvRectangle等数据保存和运行时类型信息：CvFileSto
24.park和unpark方法卷土重来… java并发编程 java
1.park方法可以暂停线程，线程状态为wait。2.unpark方法可以恢复线程，线程状态为runnable。3.LockSupport的静态方法。4.park和unpark方法调用不分先后，unpark先调用，park后执行也可以恢复线程。publicclassParkDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
国产替代Spring Boot框架的最佳之选——Solon 遇码开发工具 spring boot 后端 java solon
Java很好。SpringBoot也很好。有没有可以与SpringBoot对标的国产框架？请你记住，它叫Solon。本文推荐Solon，是因为我自己的一段经历。我主要使用的开发语言是Python，本着技多不压身的伟大指导思想，很早就想要征服SpringBoot，无奈尝试多次始终不得其要领，也就草草收场。前段时间因为项目需要，偶然了解到Solon，不仅可以平替SpringBoot，还是国产，还有我喜
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
HTB academy -- Linux Privilege Escalation --Service-based Privilege Escalation 网络安全小吗喽 linux 服务器网络安全测试工具
VulnerableServices#!/bin/bash#screenroot.sh#setuidscreenv4.5.0localrootexploit#abusesld.so.preloadoverwritingtogetroot.#bug:https://lists.gnu.org/archive/html/screen-devel/2017-01/msg00025.html#HACKTH
网络安全核心技术解析：权限提升（Privilege Escalation）攻防全景
引言在网络安全攻防对抗中，权限提升（PrivilegeEscalation）是攻击链条中关键的「破局点」。攻击者通过突破系统权限壁垒，往往能以有限权限为跳板，最终掌控整个系统控制权。本文将从攻击原理、技术路径、实战案例到防御体系，全方位解析这一网络空间的「钥匙窃取」艺术。一、权限提升的本质与分类1.1核心定义权限提升指攻击者通过技术手段，将当前运行进程或用户的权限等级突破系统预设的访问控制机制，获
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Embabel：下一代企业级JVM AI智能体框架的革命引言：AI时代的Java生态新机遇 DZSpace 软件开发 jvm 人工智能 java
在生成式AI（如ChatGPT、Claude、Gemini）席卷全球的背景下，Python凭借其丰富的AI工具链（如PyTorch、LangChain）成为主流开发语言。然而，在企业级软件开发领域，Java和JVM生态（如Kotlin、Scala）长期以来占据主导地位，尤其是在金融、电信、电商等对稳定性、可扩展性、事务管理要求极高的场景。RodJohnson（Spring框架创始人）敏锐地发现了这
Spring AI 教程（一）概述 PG Thinker Spring AI Spring ChatGPT 人工智能 spring java Spring AI
前言我在23年11月那会儿关注了SpringAI项目，当时我恰好正热衷于大语言模型的开发，然而当时主流的开发语言只有Python，Java生态中并没有强大的框架供我们使用。我当时也是靠一些封装OpenAI接口的SDK包来玩ChatGPT的，但是整体的体验较差。好在我通过一些技术交流群了解了一个正在处于实验阶段的项目：SpringAI。于是果断前往它的Github仓库进行学习，而我也恰好见证了S
Scala实现网页数据采集示例
Scala可以轻松实现简单的数据采集任务，结合AkkaHTTP（高效HTTP客户端）和Jsoup（HTML解析库）是常见方案。Scala因为受众比较少，而且随着这两年python的热门语言，更让Scala不为人知，今天我将结合我所学的知识实现一个简单的Scala爬虫代码示例。以下就是我整理的一个完整示例，演示如何抓取网页标题和链接：示例代码importakka.actor.ActorSystemi
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多