zhou_yuefei

16.Spark Streaming源码解读之数据清理机制解析

原创文章，转载请注明:转载自听风居士博客(http://zhou-yuefei.iteye.com/)

本期内容：

一、Spark Streaming 数据清理总览

二、Spark Streaming 数据清理过程详解

三、Spark Streaming 数据清理的触发机制

Spark Streaming不像普通Spark 的应用程序，普通Spark程序运行完成后,中间数据会随着SparkContext的关闭而被销毁,而Spark Streaming一直在运行，不断计算，每一秒中在不断运行都会产生大量的中间数据，所以需要对对象及元数据需要定期清理。每个batch duration运行时不断触发job后需要清理rdd和元数据。下面我们就结合源码详细解析一下Spark Streaming程序的数据清理机制。

一、数据清理总览

Spark Streaming 运行过程中,随着时间不断产生Job,当job运行结束后,需要清理相应的数据(RDD,元数据信息,Checkpoint数据),Job由JobGenerator定时产生,数据的清理也是有JobGenerator负责。

JobGenerator负责数据清理控制的代码位于一个消息循环体eventLoop中：

 
      eventLoop =newEventLoop[JobGeneratorEvent]("JobGenerator"){ 
    
      override protected def onReceive(event:JobGeneratorEvent):Unit= processEvent(event) 
    
      override protected def onError(e:Throwable):Unit={ 
    
      jobScheduler.reportError("Error in job generator", e) 
    
     } 
    
     } 
    
      eventLoop.start()

其中的核心逻辑位于processEvent(event )函数中:

 
      /** Processes all events */ 
     
      private def processEvent(event:JobGeneratorEvent){ 
     
       logDebug("Got event "+ event) 
     
       event match { 
     
      caseGenerateJobs(time)=> generateJobs(time) 
     
      caseClearMetadata(time)=> clearMetadata(time) 
     
      caseDoCheckpoint(time, clearCheckpointDataLater)=> 
     
       doCheckpoint(time, clearCheckpointDataLater) 
     
      caseClearCheckpointData(time)=> clearCheckpointData(time) 
     
      } 
     
      }

可以看到当JobGenerator收到ClearMetadata(time) 和 ClearCheckpointData(time)是会进行相应的数据清理,其中 clearMetadata ( time ) 会清理RDD数据和一些元数据信息, C learCheckpointData ( time ) 会清理Checkpoint数据。

二、数据清理过程详解

2.1 ClearMetaData 过程详解

首先看一下clearMetaData函数的处理逻辑：

 
      /** Clear DStream metadata for the given `time`. */ 
     
      private def clearMetadata(time:Time){ 
     
       ssc.graph.clearMetadata(time) 
     
      // If checkpointing is enabled, then checkpoint, 
     
      // else mark batch to be fully processed 
     
      if(shouldCheckpoint){ 
     
       eventLoop.post(DoCheckpoint(time, clearCheckpointDataLater =true)) 
     
      }else{ 
     
      // If checkpointing is not enabled, then delete metadata information about 
     
      // received blocks (block data not saved in any case). Otherwise, wait for 
     
      // checkpointing of this batch to complete. 
     
       val maxRememberDuration = graph.getMaxInputStreamRememberDuration() 
     
       jobScheduler.receiverTracker.cleanupOldBlocksAndBatches(time - maxRememberDuration) 
     
       jobScheduler.inputInfoTracker.cleanup(time - maxRememberDuration) 
     
       markBatchFullyProcessed(time) 
     
      } 
     
      }

首先调用了DStreamGraph的clearMetadata方法:

 
       def clearMetadata(time:Time){ 
     
       logDebug("Clearing metadata for time "+ time) 
     
      this.synchronized{ 
     
       outputStreams.foreach(_.clearMetadata(time)) 
     
      } 
     
       logDebug("Cleared old metadata for time "+ time) 
     
      }

这里调用了所有OutputDStream (关于DStream 的分类请参考 http://blog.csdn.net/zhouzx2010/article/details/51460790 )的clearMetadata方法

 
      private[streaming] def clearMetadata(time:Time){ 
     
       val unpersistData = ssc.conf.getBoolean("spark.streaming.unpersist",true) 
     
       //获取需要清理的RDD 
     
       val oldRDDs = generatedRDDs.filter(_._1 <=(time - rememberDuration)) 
     
       logDebug("Clearing references to old RDDs: ["+ 
     
       oldRDDs.map(x => s"${x._1} -> ${x._2.id}").mkString(", ")+"]") 
     
       //将要清除的RDD从generatedRDDs 中清除  
     
       generatedRDDs --= oldRDDs.keys 
     
      if(unpersistData){ 
     
       logDebug(s"Unpersisting old RDDs: ${oldRDDs.values.map(_.id).mkString(",")}") 
     
       oldRDDs.values.foreach { rdd => 
     
          //将RDD 从persistence列表中移除 
     
       rdd.unpersist(false) 
     
      // Explicitly remove blocks of BlockRDD 
     
       rdd match { 
     
      case b:BlockRDD[_]=> 
     
       logInfo(s"Removing blocks of RDD $b of time $time") 
     
       //移除RDD的block 数据 
     
       b.removeBlocks() 
     
      case _ => 
     
      } 
     
      } 
     
      } 
     
       logDebug(s"Cleared ${oldRDDs.size} RDDs that were older than "+ 
     
       s"${time - rememberDuration}: ${oldRDDs.keys.mkString(",")}") 
     
       //清除依赖的DStream 
     
       dependencies.foreach(_.clearMetadata(time)) 
     
      }

关键的清理逻辑在代码中做了详细注释,首先清理DStream对应的RDD的元数据信息,然后清理RDD的数据,最后对DStream所依赖的DStream进行清理。

回到JobGenerator的clearMetadata函数：

 
      if(shouldCheckpoint){ 
     
       eventLoop.post(DoCheckpoint(time, clearCheckpointDataLater =true)) 
     
      }else{ 
     
      // If checkpointing is not enabled, then delete metadata information about 
     
      // received blocks (block data not saved in any case). Otherwise, wait for 
     
      // checkpointing of this batch to complete. 
     
       val maxRememberDuration = graph.getMaxInputStreamRememberDuration() 
     
       jobScheduler.receiverTracker.cleanupOldBlocksAndBatches(time - maxRememberDuration) 
     
       jobScheduler.inputInfoTracker.cleanup(time - maxRememberDuration) 
     
       markBatchFullyProcessed(time) 
     
      }

调用了ReceiverTracker的 cleanupOldBlocksAndBatches 方法，最后调用了clearupOldBatches方法：

 
       def cleanupOldBatches(cleanupThreshTime:Time, waitForCompletion:Boolean):Unit=synchronized{ 
     
       require(cleanupThreshTime.milliseconds < clock.getTimeMillis()) 
     
       val timesToCleanup = timeToAllocatedBlocks.keys.filter { _ < cleanupThreshTime }.toSeq 
     
       logInfo(s"Deleting batches: ${timesToCleanup.mkString("")}") 
     
      if(writeToLog(BatchCleanupEvent(timesToCleanup))){ 
     
        //将要删除的Batch数据清除 
     
       timeToAllocatedBlocks --= timesToCleanup 
     
       //清理WAL日志 
     
       writeAheadLogOption.foreach(_.clean(cleanupThreshTime.milliseconds, waitForCompletion)) 
     
      }else{ 
     
       logWarning("Failed to acknowledge batch clean up in the Write Ahead Log.") 
     
      } 
     
      }

可以看到 ReceiverTracker的 clearupOldBatches方法清理了Receiver数据,也就是Batch数据和WAL日志数据。

最后对InputInfoTracker信息进行清理：

 
      def cleanup(batchThreshTime:Time):Unit=synchronized{ 
    
      val timesToCleanup = batchTimeToInputInfos.keys.filter(_ < batchThreshTime) 
    
      logInfo(s"remove old batch metadata: ${timesToCleanup.mkString("")}") 
    
      batchTimeToInputInfos --= timesToCleanup 
    
     }

这简单的清除了 batchTimeToInputInfos 的输入信息。

2.2 ClearCheckPoint 过程详解

看一下clearCheckpointData的处理逻辑:

 
      /** Clear DStream checkpoint data for the given `time`. */ 
     
      private def clearCheckpointData(time:Time){ 
     
       ssc.graph.clearCheckpointData(time) 
     
      // All the checkpoint information about which batches have been processed, etc have 
     
      // been saved to checkpoints, so its safe to delete block metadata and data WAL files 
     
       val maxRememberDuration = graph.getMaxInputStreamRememberDuration() 
     
       jobScheduler.receiverTracker.cleanupOldBlocksAndBatches(time - maxRememberDuration) 
     
       jobScheduler.inputInfoTracker.cleanup(time - maxRememberDuration) 
     
       markBatchFullyProcessed(time) 
     
      }

后面的ReceiverTraker和InputInforTracker的清理逻辑和ClearMetaData的相同,这分析DStreamGraph的clearCheckpointData方法:

 
       def clearCheckpointData(time:Time){ 
     
       logInfo("Clearing checkpoint data for time "+ time) 
     
      this.synchronized{ 
     
       outputStreams.foreach(_.clearCheckpointData(time)) 
     
      } 
     
       logInfo("Cleared checkpoint data for time "+ time) 
     
      }

同样的调用了 DStreamGraph中所有OutputDStream的clearCheckPiontData 方法:

 
      private[streaming] def clearCheckpointData(time:Time){ 
     
       logDebug("Clearing checkpoint data") 
     
       checkpointData.cleanup(time) 
     
       dependencies.foreach(_.clearCheckpointData(time)) 
     
       logDebug("Cleared checkpoint data") 
     
      }

这里的核心逻辑在 checkpointData .cleanup(time) 方法,这里的CheckpointData 是 DStreamCheckpointData对象, DStreamCheckpointData的clearup方法如下:

 
      def cleanup(time:Time){ 
     
      // 获取需要清理的Checkpoint 文件 时间 
     
       timeToOldestCheckpointFileTime.remove(time) match { 
     
      caseSome(lastCheckpointFileTime)=> 
     
       //获取需要删除的文件 
     
       val filesToDelete = timeToCheckpointFile.filter(_._1 < lastCheckpointFileTime) 
     
       logDebug("Files to delete:\n"+ filesToDelete.mkString(",")) 
     
       filesToDelete.foreach { 
     
      case(time, file)=> 
     
      try{ 
     
       val path =newPath(file) 
     
      if(fileSystem ==null){ 
     
       fileSystem = path.getFileSystem(dstream.ssc.sparkContext.hadoopConfiguration) 
     
      } 
     
       // 
        删除文件   
          
       fileSystem.delete(path,true) 
     
       timeToCheckpointFile -= time 
     
       logInfo("Deleted checkpoint file '"+ file +"' for time "+ time) 
     
      }catch{ 
     
      case e:Exception=> 
     
       logWarning("Error deleting old checkpoint file '"+ file +"' for time "+ time, e) 
     
       fileSystem =null 
     
      } 
     
      } 
     
      caseNone=> 
     
       logDebug("Nothing to delete") 
     
      } 
     
      }

可以看到checkpoint的清理,就是删除了指定时间以前的checkpoint文件。

三、数据清理的触发

3 .1 ClearMetaData 过程的触发

JobGenerator 生成job后,交给JobHandler执行, JobHandler的run方法中,会在job执行完后给JobScheduler 发送JobCompleted消息:

 
      _eventLoop = eventLoop 
    
     if(_eventLoop !=null){ 
    
      _eventLoop.post(JobCompleted(job, clock.getTimeMillis())) 
    
     }

JobScheduler 收到 JobCompleted 消息调用 handleJobCompletion 方法,源码如下:

 
      private def processEvent(event:JobSchedulerEvent){ 
     
      try{ 
     
       event match { 
     
      caseJobStarted(job, startTime)=> handleJobStart(job, startTime) 
     
      caseJobCompleted(job, completedTime)=> handleJobCompletion(job, completedTime) 
     
      caseErrorReported(m, e)=> handleError(m, e) 
     
      } 
     
      }catch{ 
     
      case e:Throwable=> 
     
       reportError("Error in job scheduler", e) 
     
      } 
     
      }

在 JobScheduler 的handleJobCompletion方法中会调用JobGenerator的 onBatchCompletion 方法,我们看一下 JobGenerator的 onBatchCompletion 方法的源码:

 
       def onBatchCompletion(time:Time){ 
     
       eventLoop.post(ClearMetadata(time)) 
     
      }

可以看到 JobGenerator的 onBatchCompletion 方法给自己发送了ClearMetadata消息从而触发了ClearMetaData操作。

3.2 ClearCheckPoint 过程的触发

清理CheckPoint数据发生在CheckPoint完成之后,我们先看一下CheckPointHandler的run方法:

 
      // All done, print success 
     
       val finishTime =System.currentTimeMillis() 
     
       logInfo("Checkpoint for time "+ checkpointTime +" saved to file '"+ checkpointFile + 
     
      "', took "+ bytes.length +" bytes and "+(finishTime - startTime)+" ms") 
     
       //调用JobGenerator的方法进行checkpoint数据清理 
     
       jobGenerator.onCheckpointCompletion(checkpointTime, clearCheckpointDataLater) 
     
      return

可以看到在checkpoint完成后,会调用JobGenerator的onCheckpointCompletion方法进行checkpoint数据清理,我查看 JobGenerator的onCheckpointCompletion方法源码:

 
       def onCheckpointCompletion(time:Time, clearCheckpointDataLater:Boolean){ 
     
      if(clearCheckpointDataLater){ 
     
       eventLoop.post(ClearCheckpointData(time)) 
     
      } 
     
      }

可以看到 JobGenerator的onCheckpointCompletion方法中首先对传进来的 clearCheckpointDataLater 参数进行判断,如果该参数为true,就会给JobGenerator的eventLoop循环体发送ClearCheckpointData消息,从而触发 clearCheckpointData 方法的调用,进行Checkpoint数据的清理。

什么时候该参数会true呢？

我们回到JobGenerator的 ClearMetadata 方法：

 
      private def clearMetadata(time:Time){ 
     
       ssc.graph.clearMetadata(time) 
     
      if(shouldCheckpoint){ 
     
       //发送DoCheckpoint消息,并进行相应的Checkpoint数据清理 
     
       eventLoop.post(DoCheckpoint(time, clearCheckpointDataLater =true)) 
     
      }else{ 
     
       val maxRememberDuration = graph.getMaxInputStreamRememberDuration() 
     
       jobScheduler.receiverTracker.cleanupOldBlocksAndBatches(time - maxRememberDuration) 
     
       jobScheduler.inputInfoTracker.cleanup(time - maxRememberDuration) 
     
       markBatchFullyProcessed(time) 
     
      } 
     
      }

可以看到在clearMetadata方法中,发送了DoCheckpoint消息,其中参数 clearCheckpointDataLater 为ture。Generator的eventLoop收到该消息后调用 doCheckpoint 方法：

 
      private def doCheckpoint(time:Time, clearCheckpointDataLater:Boolean){ 
     
      if(shouldCheckpoint &&(time - graph.zeroTime).isMultipleOf(ssc.checkpointDuration)){ 
     
       logInfo("Checkpointing graph for time "+ time) 
     
       ssc.graph.updateCheckpointData(time) 
     
       checkpointWriter.write(newCheckpoint(ssc, time), clearCheckpointDataLater) 
     
      } 
     
      }

这里关键一步：调用了CheckpointWriter的write方法,注意此时参数 clearCheckpointDataLater 为true。我们进入该方法：

 
       def write(checkpoint:Checkpoint, clearCheckpointDataLater:Boolean){ 
     
      try{ 
     
       val bytes =Checkpoint.serialize(checkpoint, conf) 
     
       //将参数clearCheckpointDataLater传入CheckpoitWriteHandler 
     
       executor.execute(newCheckpointWriteHandler( 
     
       checkpoint.checkpointTime, bytes, clearCheckpointDataLater)) 
     
       logInfo("Submitted checkpoint of time "+ checkpoint.checkpointTime +" writer queue") 
     
      }catch{ 
     
      case rej:RejectedExecutionException=> 
     
       logError("Could not submit checkpoint task to the thread pool executor", rej) 
     
      } 
     
      }

可以看到此时参数 clearCheckpointDataLater 传入 CheckpointWriteHandler 。这样Checkpoint完成之后就会发送 ClearCheckpointData 消息给JobGenerator进行Checkpoint数据的清理。

原创文章，转载请注明: 转载自听风居士博客(http://zhou-yuefei.iteye.com/ )

你可能感兴趣的:(spark,Spark,Streaming,源码解析,RDD,数据清理)

Flink：处理有界流数据的wordcount 小易学编程 flink 大数据
数据源：helloworldhelloflinkhelloscala有界流：packagechapter02importorg.apache.flink.streaming.api.scala._/***ClassName:BoundedStreamWordCount*Package:chapter02*Description:**@Author小易日拱一卒*@Create2025-06-272:
微信推客系统小程序开发上线全攻略：从源码部署到社交裂变运营 v_qutudy 推客系统开发推客小程序
一、前言：为什么选择微信推客系统？在社交电商的浪潮中，微信推客系统凭借"自用省钱、分享赚钱"的裂变模式，成为商家低成本获客的利器。本文将深度解析如何从零开发一套支持独立部署的推客小程序，涵盖技术架构、源码解析、部署实战及运营策略，助力开发者快速搭建高转化率的社交电商系统。二、技术架构设计：打造稳定可扩展的推客系统1.整体架构分层前后端分离架构前端：采用Taro跨端框架开发微信小程序端，适配多端展示
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
FunASR Paraformer-zh：高效中文端到端语音识别方案全解
项目简介FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱，集成了多种语音识别、语音活动检测（VAD）、说话人识别等模块。其中paraformer-zh和paraformer-zh-streaming是针对中文语音识别任务优化的端到端模型，分别适用于离线和流式场景。Paraformer采用并行Transformer架构，兼具高精度和低延迟，广泛应用于智能客服、会议转写、语音助手等场景。主要特点
Saprk中RDD詳解文子轩
一.常用的transfromRDD算子通過並行化scala創建RDDvalrdd1=sc.parallelize(Array(1,2,3,4,5,6,7,8))查看該RDD的分區數量rdd1.partitions.lengthres23:Int=4使用filter算子valrdd2=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(*2).sortBy(
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
MTK CAMERA ISP6S SFP YoonAphrodite mtk camera mtk
1,mtkcam3/pipeline/pipeline/PipelineContextImpl.cpplaunchOneNode()2.mtkcam3/pipeline/pipeline/NodeActorImpl.cppinit()-->onInit()3.mtkcam3/pipeline/hwnode/p2/P2_StreamingNode.cppinit()4.mtkcam3/pipelin
openGauss数据库源码解析 | openGauss简介(七） openGauss小助手数据库 openGauss
1.5.5数据库安全1.访问控制管理用户对数据库的访问控制权限涵盖数据库系统权限和对象权限。openGauss数据库支持基于角色的访问控制机制（role-basedaccesscontrol，RBAC），将角色和权限关联起来，通过将权限赋予给对应的角色，再将角色授予给用户，可实现用户访问控制权限管理。其中登录访问控制通过用户标识和认证技术来共同实现，而对象访问控制则基于用户在对象上的权限，通过对象
AI日报-20250620：华为云重磅发布盘古大模型5.5！宇树科技C轮融资引爆资本圈！Genspark AI Pod震撼发布！未来世界2099 AI日报人工智能华为云科技业界资讯
1、昆仑万维开源Skywork-SWE-32B：32B模型刷新代码修复SOTA，性能直逼闭源巨头2、腾讯AILab开源音乐生成大模型SongGeneration，人人皆可创作音乐！3、重磅！ManusAIWindows版免码开放，职场效率革命来袭！4、B站618商单效率飙升5倍！通义千问3助力AI选人功能大爆发5、HailuoVideoAgent震撼发布：零门槛生成专业级视频，创意秒变现实！6、中
Tinker源码分析(一):TinkerApplication 俞其荣
本系列Tinker源码解析基于Tinkerv1.9.12自动生成TinkerApplication接入Tinker第一步就是改造Application。官方推荐是利用@DefaultLifeCycle动态生成Application@DefaultLifeCycle(application="tinker.sample.android.app.SampleApplication",flags=Sha
JAVA打手俱乐部护航陪玩小程序+APP+公众号+h5 源码陪玩系统 2401_89605681 嗖微miui52086 java 小程序开发语言微信小程序 uni-app
万亿游戏社交蓝海：JAVA打手俱乐部护航陪玩系统源码解析（小程序+APP+H5全端覆盖）在电竞产业爆发与社交需求升级的双重驱动下，全球游戏陪玩市场规模突破120亿美元（2025年Newzoo数据），而传统平台面临信任危机、匹配低效、变现单一等痛点。JAVA打手俱乐部护航陪玩系统源码以SpringBoot+MyBatisPlus+MySQL为核心，通过Uni-app跨端开发实现小程序/APP/公众号
JAVA打手俱乐部护航陪玩小程序+APP+公众号+h5 源码陪玩系统源码_V_saaskw 嗖微miui52086 java 小程序开发语言 uni-app 微信小程序微信公众平台
万亿游戏社交蓝海：JAVA打手俱乐部护航陪玩系统源码解析（小程序+APP+H5全端覆盖）在电竞产业爆发与社交需求升级的双重驱动下，全球游戏陪玩市场规模突破120亿美元（2025年Newzoo数据），而传统平台面临信任危机、匹配低效、变现单一等痛点。JAVA打手俱乐部护航陪玩系统源码以SpringBoot+MyBatisPlus+MySQL为核心，通过Uni-app跨端开发实现小程序/APP/公众号
JAVA打手俱乐部护航陪玩小程序+APP+公众号+h5 源码陪玩系统狂团商城小师妹嗖微miui52086 java 小程序开发语言微信小程序 javascript
万亿游戏社交蓝海：JAVA打手俱乐部护航陪玩系统源码解析（小程序+APP+H5全端覆盖）在电竞产业爆发与社交需求升级的双重驱动下，全球游戏陪玩市场规模突破120亿美元（2025年Newzoo数据），而传统平台面临信任危机、匹配低效、变现单一等痛点。JAVA打手俱乐部护航陪玩系统源码以SpringBoot+MyBatisPlus+MySQL为核心，通过Uni-app跨端开发实现小程序/APP/公众号
JAVA无人系统台球室源码自助开台约球交友系统源码小程序
全域无人化运营革命：JAVA无人系统台球室源码解析（支持茶室/棋牌/KTV多业态）在共享经济与无人化浪潮的推动下，全球自助娱乐市场规模突破千亿美元，传统台球室、棋牌室面临人力成本高、运营效率低、用户粘性弱等痛点。JAVA无人系统台球室源码以SpringBoot+MyBatisPlus+MySQL为核心技术栈，通过Uni-app跨端开发实现小程序/H5/APP全渠道覆盖，集成AI裁判、社交裂变、多支
[spring6: AspectJAdvisorFactory & AspectJProxyFactory]-源码解析 idolyXyz spring6-源码阅读 spring
推荐阅读：[spring6:AspectMetadata&AspectInstanceFactory]-源码解析[spring6:TargetSource&AopProxyFactory&AdvisorChainFactory&ProxyFactory]-源码分析AspectJAdvisorFactoryAspectJAdvisorFactory接口用于从使用AspectJ注解语法的类中创建Spr
LinkedList集合源码解析小北m java
LinkedList集合LinkedList是一个基于双向链表实现的集合类LinkedList实现了以下接口：List:表明它是一个列表，支持添加、删除、查找等操作，并且可以通过下标进行访问。Deque：继承自Queue接口，具有双端队列的特性，支持从两端插入和删除元素，方便实现栈和队列等数据结构。Cloneable：表明它具有拷贝能力，可以进行深拷贝或浅拷贝操作。Serializable:表明它
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
高效能人士的学习法，期待对你有所帮助廖斋笔谈
学习美国物理学费曼(RichardDFeynman)在大学教授物理学时，他总是能够深入浅出地将复杂的专业理论讲得通俗易懂，无论多么抽象、晦涩的概念，都能用非常生活化的例子表达出来，非常风趣幽默。后来，越来越多的人便采用他的这种方法学习，最终形成了人们众所周知的「费曼学习法」。具体步骤「费曼学习法」可以用四个关键词来概括：概念(Concept)、以教代学(Teach)、评价(Review)、简化(S
4-Spring源码解析之this()(1)——AnnotatedBeanDefinitionReader 想当厨子的程序媛 Spring注解源码解析 spring
1.程序入口AnnotationConfigApplicationContextapplicationContext=newAnnotationConfigApplicationContext(MainConfig.class);2.AnnotationConfigApplicationContext类有参构造器其中MainConfig类是自己写的配置类，我们从这一行代码来开始分析。Spring容
bug：定时任务因数据库时间滞后导致数据清理失效问题刘火锅 java spring cloud spring 后端 mybatis
问题背景：在数据清理定时任务中，发现理应被删除的数据未被正确清理。经排查发现：定时任务配置在每日00:00:00执行删除数据SQL语句逻辑正常应用服务器时间准确数据库服务器时间比应用服务器慢15秒数据清理SQL使用CURDATE()获取当前日期问题原因分析：当应用服务器在00:00:00触发任务时：应用服务器时间：2025-07-1800:00:00数据库服务器时间：2025-07-1723:59
C#-Linq源码解析之Concat 黑哥聊dotNet DotNet-Linq详解 linq c#
前言在Dotnet开发过程中，Concat作为IEnumerable的扩展方法，十分常用。本文对Concat方法的关键源码进行简要分析，以方便大家日后更好的使用该方法。使用Concat连接两个序列。假如我们有这样的两个集合，我们需要把两个集合进行连接！List lst = new List { "张三", "李四" };List lst2 = new List { "王麻子" };不使用Linq大
C# Linq源码解析之Aggregate 黑哥聊dotNet DotNet-Linq详解 c#linq list
前言在Dotnet开发过程中，Aggregate作为IEnumerable的扩展方法，十分常用。本文对Aggregate方法的关键源码进行简要分析，以方便大家日后更好的使用该方法。使用Aggregate是对序列应用累加器的函数。看下面一段代码:List lst = new List() { "张三", "李四", "王麻子" };给了我们这样的一个list集合，我们想要得到"张三哈哈哈李四哈哈哈王
【Bluedroid】蓝牙启动之 btm_acl_device_down 流程源码解析 byte轻骑兵 Android C++Bluedriod Andriod
本文详细分析Android蓝牙协议栈在设备故障时的处理流程。当蓝牙设备发生硬件故障或系统异常时，协议栈通过btm_acl_device_down触发多层次的资源清理和状态重置，包括ACL连接终止、L2CAP通道释放、SCO连接清理、BLE拓扑更新、设备数据库重置等关键操作，确保系统安全恢复。一、概述1.1蓝牙核心控制块与故障处理框架蓝牙协议栈通过全局控制块tBTM_CB实现跨模块状态管理，其整合了
24.park和unpark方法卷土重来… java并发编程 java
1.park方法可以暂停线程，线程状态为wait。2.unpark方法可以恢复线程，线程状态为runnable。3.LockSupport的静态方法。4.park和unpark方法调用不分先后，unpark先调用，park后执行也可以恢复线程。publicclassParkDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->
Java 领域 MyBatis 与数据库连接池的搭配使用 Java技术栈实战 java mybatis 数据库 ai
Java领域MyBatis与数据库连接池的搭配使用关键词：MyBatis、数据库连接池、Java持久层、性能优化、Druid、HikariCP、Spring集成摘要：本文深入探讨Java领域中MyBatis框架与数据库连接池的搭配使用原理和实践。文章从基础概念入手，详细分析MyBatis的工作原理和数据库连接池的核心机制，重点讲解两者如何协同工作以提升应用性能。通过源码解析、性能对比和实际项目案例
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
OkHttp3源码解析--设计模式 2401_84413396 程序员设计模式
}//在创建OkHttpClient的时候OkHttpClientclient=newOkHttpClient.Builder().cache(/创建cache对象/).build();工厂模式====直接看代码：publicinterfaceCallextendsCloneable{Requestrequest();Responseexecute()throwsIOException;voide
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一