BraveWg

Flink源码阅读（二）——checkpoint源码分析

前言

　　在Flink原理——容错机制一文中，已对checkpoint的机制有了较为基础的介绍，本文着重从源码方面去分析checkpoint的过程。当然本文只是分析做checkpoint的调度过程，只是尽量弄清楚整体的逻辑，没有弄清楚其实现细节，还是有遗憾的，后期还是努力去分析实现细节。文中若是有误，欢迎大伙留言指出！

　　本文基于Flink1.9。

1、参数设置

　　1.1 有关checkpoint常见的参数如下：

1 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
2 env.enableCheckpointing(10000);   //默认是不开启的　　
3 env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);  //默认为EXACTLY_ONCE
4 env.getCheckpointConfig().setMinPauseBetweenCheckpoints(5000);　　//默认为0，最大值为1年
5 env.getCheckpointConfig().setCheckpointTimeout(150000);　　//默认为10min
6 env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);　　//默认为1

　　上述参数的默认值可见flink-streaming-java*.jar中的CheckpointConfig.java，配置值是通过该类中私有configureCheckpointing()的jobGraph.setSnapshotSettings(settings)传递给runtime层的，更多设置也可以参见该类。

　　1.2 参数分析

　　这里着重分析enableCheckpointing()设置的baseInterval和minPauseBetweenCheckpoint之间的关系。为分析两者的关系，这里先给出源码中定义

1     /** The base checkpoint interval. Actual trigger time may be affected by the
2     * max concurrent checkpoints and minimum-pause values */
3     //checkpoint触发周期，时间触发时间还受maxConcurrentCheckpointAttempts和minPauseBetweenCheckpointsNanos影响
4     private final long baseInterval;
5     
6     /** The min time(in ns) to delay after a checkpoint could be triggered. Allows to
7      * enforce minimum processing time between checkpoint attempts */
8     //在可以触发checkpoint的时，两次checkpoint之间的时间间隔
9     private final long minPauseBetweenCheckpointsNanos;

　　当baseInterval

1     // it does not make sense to schedule checkpoints more often then the desired
2     // time between checkpoints
3     long baseInterval = chkConfig.getCheckpointInterval();
4     if (baseInterval < minPauseBetweenCheckpoints) {
5         baseInterval = minPauseBetweenCheckpoints;
6     }

　　从此可以看出，checkpoint的触发虽然设置为周期性的，但是实际触发情况，还得考虑minPauseBetweenCheckpoint和maxConcurrentCheckpointAttempts，若maxConcurrentCheckpointAttempts为1，就算满足触发时间也需等待正在执行的checkpoint结束。

2、checkpoint调用过程

　　将JobGraph提交到Dispatcher后，会createJobManagerRunner和startJobManagerRunner，可以关注Dispatcher类中的createJobManagerRunner(...)方法。

　　2.1 createJobManagerRunner阶段

　　该阶段会创建一个JobManagerRunner实例，在该过程和checkpoint有关的是会启动listener去监听job的状态。

 1 　　#JobManagerRunner.java
 2     public JobManagerRunner(...) throws Exception {
 3 
 4         //..........
 5 
 6         // make sure we cleanly shut down out JobManager services if initialization fails
 7         try {
 8             //..........
 9             //加载JobGraph、library、leader选举等
10 
11             // now start the JobManager
12             //启动JobManager
13             this.jobMasterService = jobMasterFactory.createJobMasterService(jobGraph, this, userCodeLoader);
14         }
15         catch (Throwable t) {
16             //......
17         }
18     }
19     
20     //在DefaultJobMasterServiceFactory类的createJobMasterService()中新建一个JobMaster对象
21     //#JobMaster.java
22     public JobMaster(...) throws Exception {
23 
24         //........
25         //该方法中主要做了参数检查，slotPool的创建、slotPool的schedul的创建等一系列的事情
26         
27         //创建一个调度器
28         this.schedulerNG = createScheduler(jobManagerJobMetricGroup);
29         //......
30     }

　　在创建调度器中核心的语句如下：

 1 　　//#LegacyScheduler.java中的LegacyScheduler()
 2     //创建ExecutionGraph
 3     this.executionGraph = createAndRestoreExecutionGraph(jobManagerJobMetricGroup, checkNotNull(shuffleMaster), checkNotNull(partitionTracker));
 4 　　
 5 
 6     private ExecutionGraph createAndRestoreExecutionGraph(
 7         JobManagerJobMetricGroup currentJobManagerJobMetricGroup,
 8         ShuffleMaster shuffleMaster,
 9         PartitionTracker partitionTracker) throws Exception {
10 
11         
12         ExecutionGraph newExecutionGraph = createExecutionGraph(currentJobManagerJobMetricGroup, shuffleMaster, partitionTracker);
13 
14         final CheckpointCoordinator checkpointCoordinator = newExecutionGraph.getCheckpointCoordinator();
15 
16         if (checkpointCoordinator != null) {
17             // check whether we find a valid checkpoint
18             //若state没有被恢复是否可以通过savepoint恢复
19             //......
20             }
21         }
22 
23         return newExecutionGraph;
24     }

　　通过调用到达生成ExecutionGraph的核心类ExecutionGraphBuilder的在buildGraph()方法，其中该方法主要是生成ExecutionGraph和设置checkpoint，下面给出其中的核心代码：

 1     //..............
 2     //生成ExecutionGraph的核心方法，这里后期会详细分析
 3     executionGraph.attachJobGraph(sortedTopology);
 4     
 5     //.......................
 6         
 7     //在enableCheckpointing中设置CheckpointCoordinator
 8     executionGraph.enableCheckpointing(
 9         chkConfig,
10         triggerVertices,
11         ackVertices,
12         confirmVertices,
13         hooks,
14         checkpointIdCounter,
15         completedCheckpoints,
16         rootBackend,
17         checkpointStatsTracker);

　　在enableCheckpointing()方法中主要是创建了checkpoint失败是的manager、设置了checkpoint的核心类CheckpointCoordinator。

 1     //#ExecutionGraph.java
 2     public void enableCheckpointing(
 3             CheckpointCoordinatorConfiguration chkConfig,
 4             List verticesToTrigger,
 5             List verticesToWaitFor,
 6             List verticesToCommitTo,
 7             List> masterHooks,
 8             CheckpointIDCounter checkpointIDCounter,
 9             CompletedCheckpointStore checkpointStore,
10             StateBackend checkpointStateBackend,
11             CheckpointStatsTracker statsTracker) {
12         //Job的状态必须为Created，
13         checkState(state == JobStatus.CREATED, "Job must be in CREATED state");
14         checkState(checkpointCoordinator == null, "checkpointing already enabled");
15         //checkpointing的不同状态
16         ExecutionVertex[] tasksToTrigger = collectExecutionVertices(verticesToTrigger);
17         ExecutionVertex[] tasksToWaitFor = collectExecutionVertices(verticesToWaitFor);
18         ExecutionVertex[] tasksToCommitTo = collectExecutionVertices(verticesToCommitTo);
19 
20         checkpointStatsTracker = checkNotNull(statsTracker, "CheckpointStatsTracker");
21         //checkpoint失败manager，若是checkpoint失败会根据设置来决定下一步
22         CheckpointFailureManager failureManager = new CheckpointFailureManager(
23             chkConfig.getTolerableCheckpointFailureNumber(),
24             new CheckpointFailureManager.FailJobCallback() {
25                 @Override
26                 public void failJob(Throwable cause) {
27                     getJobMasterMainThreadExecutor().execute(() -> failGlobal(cause));
28                 }
29 
30                 @Override
31                 public void failJobDueToTaskFailure(Throwable cause, ExecutionAttemptID failingTask) {
32                     getJobMasterMainThreadExecutor().execute(() -> failGlobalIfExecutionIsStillRunning(cause, failingTask));
33                 }
34             }
35         );
36 
37         // create the coordinator that triggers and commits checkpoints and holds the state
38         //checkpoint的核心类CheckpointCoordinator
39         checkpointCoordinator = new CheckpointCoordinator(
40             jobInformation.getJobId(),
41             chkConfig,
42             tasksToTrigger,
43             tasksToWaitFor,
44             tasksToCommitTo,
45             checkpointIDCounter,
46             checkpointStore,
47             checkpointStateBackend,
48             ioExecutor,
49             SharedStateRegistry.DEFAULT_FACTORY,
50             failureManager);
51 
52         // register the master hooks on the checkpoint coordinator
53         for (MasterTriggerRestoreHook hook : masterHooks) {
54             if (!checkpointCoordinator.addMasterHook(hook)) {
55                 LOG.warn("Trying to register multiple checkpoint hooks with the name: {}", hook.getIdentifier());
56             }
57         }
58         //checkpoint统计
59         checkpointCoordinator.setCheckpointStatsTracker(checkpointStatsTracker);
60 
61         // interval of max long value indicates disable periodic checkpoint,
62         // the CheckpointActivatorDeactivator should be created only if the interval is not max value
63         //设置为Long.MAX_VALUE标识关闭周期性的checkpoint
64         if (chkConfig.getCheckpointInterval() != Long.MAX_VALUE) {
65             // the periodic checkpoint scheduler is activated and deactivated as a result of
66             // job status changes (running -> on, all other states -> off)
67             //只有在job的状态为running时，才会开启checkpoint的scheduler
68             //createActivatorDeactivator()创建一个listener监听器
69             //registerJobStatusListener()将listener加入监听器集合jobStatusListeners中
70             registerJobStatusListener(checkpointCoordinator.createActivatorDeactivator());
71         }
72     }
73     
74     
75     //#CheckpointCoordinator.java
76     / ------------------------------------------------------------------------
77     //  job status listener that schedules / cancels periodic checkpoints
78     // ------------------------------------------------------------------------
79     //创建一个listener监听器checkpointCoordinator.createActivatorDeactivator()
80     public JobStatusListener createActivatorDeactivator() {
81         synchronized (lock) {
82             if (shutdown) {
83                 throw new IllegalArgumentException("Checkpoint coordinator is shut down");
84             }
85 
86             if (jobStatusListener == null) {
87                 jobStatusListener = new CheckpointCoordinatorDeActivator(this);
88             }
89 
90             return jobStatusListener;
91         }
92     }

　　至此，createJobManagerRunner阶段结束了，ExecutionGraph中checkpoint的配置就设置好了。

　　2.2 startJobManagerRunner阶段

　　在该阶段中，在获得leaderShip之后，就会启动startJobExecution，这里只给出调用涉及的类和方法：

1     //#JobManagerRunner.java类中
2     //grantLeadership(...)==>verifyJobSchedulingStatusAndStartJobManager(...)
3     //==>startJobMaster(...)，该方法中核心代码为
4     startFuture = jobMasterService.start(new JobMasterId(leaderSessionId));
5     
6     //进一步调用#JobMaster.java类中的start()==>startJobExecution(...)

　　startJobExecution()方法是JobMaster类中的私有方法，具体代码分析如下：

 1 　　//----------------------------------------------------------------------------------------------
 2     // Internal methods
 3     //----------------------------------------------------------------------------------------------
 4 
 5     //-- job starting and stopping  -----------------------------------------------------------------
 6 
 7     private Acknowledge startJobExecution(JobMasterId newJobMasterId) throws Exception {
 8 
 9         validateRunsInMainThread();
10 
11         checkNotNull(newJobMasterId, "The new JobMasterId must not be null.");
12 
13         if (Objects.equals(getFencingToken(), newJobMasterId)) {
14             log.info("Already started the job execution with JobMasterId {}.", newJobMasterId);
15 
16             return Acknowledge.get();
17         }
18 
19         setNewFencingToken(newJobMasterId);
20         //启动slotPool并申请资源，该方法可以具体看看申请资源的过程
21         startJobMasterServices();
22 
23         log.info("Starting execution of job {} ({}) under job master id {}.", jobGraph.getName(), jobGraph.getJobID(), newJobMasterId);
24         //执行ExecuteGraph的切入口，先判断job的状态是否为created的，后调执行executionGraph.scheduleForExecution();
25         resetAndStartScheduler();
26 
27         return Acknowledge.get();
28     }

　　在LegacyScheduler类中的方法scheduleForExecution()调度过程如下：

 1     public void scheduleForExecution() throws JobException {
 2 
 3         assertRunningInJobMasterMainThread();
 4 
 5         final long currentGlobalModVersion = globalModVersion;
 6         //任务执行之前进行状态切换从CREATED到RUNNING，
 7         //transitionState(...)方法中会通过notifyJobStatusChange(newState, error)通知jobStatusListeners集合中listeners状态改变
 8         if (transitionState(JobStatus.CREATED, JobStatus.RUNNING)) {
 9             //根据启动算子调度模式不同，采用不同的调度方案
10             final CompletableFuture newSchedulingFuture = SchedulingUtils.schedule(
11                 scheduleMode,
12                 getAllExecutionVertices(),
13                 this);
14             
15             //..............
16         }
17         else {
18             throw new IllegalStateException("Job may only be scheduled from state " + JobStatus.CREATED);
19         }
20     }
21     
22     private void notifyJobStatusChange(JobStatus newState, Throwable error) {
23         if (jobStatusListeners.size() > 0) {
24             final long timestamp = System.currentTimeMillis();
25             final Throwable serializedError = error == null ? null : new SerializedThrowable(error);
26 
27             for (JobStatusListener listener : jobStatusListeners) {
28                 try {
29                     listener.jobStatusChanges(getJobID(), newState, timestamp, serializedError);
30                 } catch (Throwable t) {
31                     LOG.warn("Error while notifying JobStatusListener", t);
32                 }
33             }
34         }
35     }
36     
37     
38     //#CheckpointCoordinatorDeActivator.java
39     public void jobStatusChanges(JobID jobId, JobStatus newJobStatus, long timestamp, Throwable error) {
40         if (newJobStatus == JobStatus.RUNNING) {
41             // start the checkpoint scheduler
42             //触发checkpoint的核心方法
43             coordinator.startCheckpointScheduler();
44         } else {
45             // anything else should stop the trigger for now
46             coordinator.stopCheckpointScheduler();
47         }
48     }

　　下面具体分析触发checkpoint的核心方法startCheckpointScheduler()。

　　startCheckpointScheduler()方法结合注释还是比较好理解的，但由于方法太长这里就不全部贴出来了，先分析一下大致做什么了，然后给出其核心代码：

　　1）检查触发checkpoint的条件。如coordinator被关闭、周期性checkpoint被禁止、在没有开启强制checkpoint的情况下没有达到最小的checkpoint间隔以及超过并发的checkpoint个数等；

　　2）检查是否所有需要checkpoint和需要响应checkpoint的ACK（的task都处于running状态，否则抛出异常；

　　3）若均符合，执行checkpointID = checkpointIdCounter.getAndIncrement();以生成一个新的checkpointID，然后生成一个PendingCheckpoint。其中，PendingCheckpoint仅是一个启动了的checkpoint，但是还没有被确认，直到所有的task都确认了本次checkpoint，该checkpoint对象才转化为一个CompletedCheckpoint；

　　4）调度timer清理失败的checkpoint；

　　5）定义一个超时callback，如果checkpoint执行了很久还没完成，就把它取消；

　　6）触发MasterHooks，用户可以定义一些额外的操作，用以增强checkpoint的功能（如准备和清理外部资源）；

　　核心代码如下：

1     // send the messages to the tasks that trigger their checkpoint
2     //遍历ExecutionVertex，是否异步触发checkpoint
3     for (Execution execution: executions) {
4         if (props.isSynchronous()) {
5             execution.triggerSynchronousSavepoint(checkpointID, timestamp, checkpointOptions, advanceToEndOfTime);
6         } else {
7             execution.triggerCheckpoint(checkpointID, timestamp, checkpointOptions);
8         }
9     }

　　不管是否以异步的方式触发checkpoint，最终调用的方法是Execution类中的私有方法triggerCheckpointHelper(...)，具体代码如下：

 1 　　//Execution.java
 2     private void triggerCheckpointHelper(long checkpointId, long timestamp, CheckpointOptions checkpointOptions, boolean advanceToEndOfEventTime) {
 3 
 4         final CheckpointType checkpointType = checkpointOptions.getCheckpointType();
 5         if (advanceToEndOfEventTime && !(checkpointType.isSynchronous() && checkpointType.isSavepoint())) {
 6             throw new IllegalArgumentException("Only synchronous savepoints are allowed to advance the watermark to MAX.");
 7         }
 8 
 9         final LogicalSlot slot = assignedResource;
10 
11         if (slot != null) {
12             //TaskManagerGateway是用于与taskManager通信的组件
13             final TaskManagerGateway taskManagerGateway = slot.getTaskManagerGateway();
14 
15             taskManagerGateway.triggerCheckpoint(attemptId, getVertex().getJobId(), checkpointId, timestamp, checkpointOptions, advanceToEndOfEventTime);
16         } else {
17             LOG.debug("The execution has no slot assigned. This indicates that the execution is no longer running.");
18         }
19     }

　　至此，checkpointCoordinator就将做checkpoint的命令发送到TaskManager去了，下面着重分析TM中checkpoint的执行过程。

　　2.3 TaskManager中checkpoint

　　TaskManager 接收到触发checkpoint的RPC后，会触发生成checkpoint barrier。RpcTaskManagerGateway作为消息入口，其triggerCheckpoint(...)会调用TaskExecutor的triggerCheckpoint(...)，具体过程如下：

 1 　　//RpcTaskManagerGateway.java
 2     public void triggerCheckpoint(ExecutionAttemptID executionAttemptID, JobID jobId, long checkpointId, long timestamp, CheckpointOptions checkpointOptions, boolean advanceToEndOfEventTime) {
 3         taskExecutorGateway.triggerCheckpoint(
 4             executionAttemptID,
 5             checkpointId,
 6             timestamp,
 7             checkpointOptions,
 8             advanceToEndOfEventTime);
 9     }
10     
11     //TaskExecutor.java
12     @Override
13     public CompletableFuture triggerCheckpoint(
14             ExecutionAttemptID executionAttemptID,
15             long checkpointId,
16             long checkpointTimestamp,
17             CheckpointOptions checkpointOptions,
18             boolean advanceToEndOfEventTime) {
19         log.debug("Trigger checkpoint {}@{} for {}.", checkpointId, checkpointTimestamp, executionAttemptID);
20 
21         //...........
22 
23         if (task != null) {
24             //核心方法，触发生成barrier
25             task.triggerCheckpointBarrier(checkpointId, checkpointTimestamp, checkpointOptions, advanceToEndOfEventTime);
26 
27             return CompletableFuture.completedFuture(Acknowledge.get());
28         } else {
29             final String message = "TaskManager received a checkpoint request for unknown task " + executionAttemptID + '.';
30 
31             //.........
32         }
33     }

　　在Task类的triggerCheckpointBarrier(...)方法中生成了一个Runable匿名类用于执行checkpoint，然后以异步的方式触发了该Runable，具体代码如下：

 1 　　　　public void triggerCheckpointBarrier(
 2             final long checkpointID,
 3             final long checkpointTimestamp,
 4             final CheckpointOptions checkpointOptions,
 5             final boolean advanceToEndOfEventTime) {
 6 
 7         final AbstractInvokable invokable = this.invokable;
 8         //创建一个CheckpointMetaData，该对象仅有checkpointID、checkpointTimestamp两个属性
 9         final CheckpointMetaData checkpointMetaData = new CheckpointMetaData(checkpointID, checkpointTimestamp);
10 
11         if (executionState == ExecutionState.RUNNING && invokable != null) {
12 
13             //..............
14 
15             Runnable runnable = new Runnable() {
16                 @Override
17                 public void run() {
18                     // set safety net from the task's context for checkpointing thread
19                     LOG.debug("Creating FileSystem stream leak safety net for {}", Thread.currentThread().getName());
20                     FileSystemSafetyNet.setSafetyNetCloseableRegistryForThread(safetyNetCloseableRegistry);
21 
22                     try {
23                         //根据SourceStreamTask和StreamTask调用不同的方法
24                         boolean success = invokable.triggerCheckpoint(checkpointMetaData, checkpointOptions, advanceToEndOfEventTime);
25                         if (!success) {
26                             checkpointResponder.declineCheckpoint(
27                                     getJobID(), getExecutionId(), checkpointID,
28                                     new CheckpointException("Task Name" + taskName, CheckpointFailureReason.CHECKPOINT_DECLINED_TASK_NOT_READY));
29                         }
30                     }
31                     catch (Throwable t) {
32                         if (getExecutionState() == ExecutionState.RUNNING) {
33                             failExternally(new Exception(
34                                 "Error while triggering checkpoint " + checkpointID + " for " +
35                                     taskNameWithSubtask, t));
36                         } else {
37                             LOG.debug("Encountered error while triggering checkpoint {} for " +
38                                 "{} ({}) while being not in state running.", checkpointID,
39                                 taskNameWithSubtask, executionId, t);
40                         }
41                     } finally {
42                         FileSystemSafetyNet.setSafetyNetCloseableRegistryForThread(null);
43                     }
44                 }
45             };
46             //以异步的方式触发Runnable
47             executeAsyncCallRunnable(
48                     runnable,
49                     String.format("Checkpoint Trigger for %s (%s).", taskNameWithSubtask, executionId));
50         }
51         else {
52             LOG.debug("Declining checkpoint request for non-running task {} ({}).", taskNameWithSubtask, executionId);
53 
54             // send back a message that we did not do the checkpoint
55             checkpointResponder.declineCheckpoint(jobId, executionId, checkpointID,
56                     new CheckpointException("Task name with subtask : " + taskNameWithSubtask, CheckpointFailureReason.CHECKPOINT_DECLINED_TASK_NOT_READY));
57         }
58     }

　　SourceStreamTask和StreamTask调用triggerCheckpoint最终都是调用StreamTask类中的triggerCheckpoint(...)方法，其核心代码为：

1 　　//#StreamTask.java
2     return performCheckpoint(checkpointMetaData, checkpointOptions, checkpointMetrics, advanceToEndOfEventTime);

　　在performCheckpoint(...)方法中，主要有以下两件事：

　　1、若task是running，则可以进行checkpoint，主要有以下三件事：

　　　　1）为checkpoint做准备，一般是什么不做的，直接接受checkpoint；

　　　　2）生成barrier，并以广播的形式发射到下游去；

　　　　3）触发本task保存state；

　　2、若不是running，通知下游取消本次checkpoint，方法是发送一个CancelCheckpointMarker，这是类似于Barrier的另一种消息。

　　具体代码如下：

 1 　　//#StreamTask.java
 2     private boolean performCheckpoint(
 3             CheckpointMetaData checkpointMetaData,
 4             CheckpointOptions checkpointOptions,
 5             CheckpointMetrics checkpointMetrics,
 6             boolean advanceToEndOfTime) throws Exception {
 7         //......
 8 
 9         synchronized (lock) {
10             if (isRunning) {
11 
12                 if (checkpointOptions.getCheckpointType().isSynchronous()) {
13                     syncSavepointLatch.setCheckpointId(checkpointId);
14 
15                     if (advanceToEndOfTime) {
16                         advanceToEndOfEventTime();
17                     }
18                 }
19 
20                 // All of the following steps happen as an atomic step from the perspective of barriers and
21                 // records/watermarks/timers/callbacks.
22                 // We generally try to emit the checkpoint barrier as soon as possible to not affect downstream
23                 // checkpoint alignments
24 
25                 // Step (1): Prepare the checkpoint, allow operators to do some pre-barrier work.
26                 //           The pre-barrier work should be nothing or minimal in the common case.
27                 operatorChain.prepareSnapshotPreBarrier(checkpointId);
28 
29                 // Step (2): Send the checkpoint barrier downstream
30                 operatorChain.broadcastCheckpointBarrier(
31                         checkpointId,
32                         checkpointMetaData.getTimestamp(),
33                         checkpointOptions);
34 
35                 // Step (3): Take the state snapshot. This should be largely asynchronous, to not
36                 //           impact progress of the streaming topology
37                 checkpointState(checkpointMetaData, checkpointOptions, checkpointMetrics);
38 
39                 return true;
40             }
41             else {
42                 //.......
43             }
44         }
45     }

　　接下来分析checkpointState(...)过程。

　　checkpointState(...)方法最终会调用StreamTask类中executeCheckpointing()，其中会创建一个异步对象AsyncCheckpointRunnable，用以报告该检查点已完成，关键代码如下：

 1 　　//#StreamTask.java类中executeCheckpointing()
 2     public void executeCheckpointing() throws Exception {
 3             startSyncPartNano = System.nanoTime();
 4 
 5             try {
 6                 //调用StreamOperator进行snapshotState的入口方法，依算子不同而变
 7                 for (StreamOperator op : allOperators) {
 8                     checkpointStreamOperator(op);
 9                 }
10                 //.........
11 
12                 // we are transferring ownership over snapshotInProgressList for cleanup to the thread, active on submit
13                 AsyncCheckpointRunnable asyncCheckpointRunnable = new AsyncCheckpointRunnable(
14                     owner,
15                     operatorSnapshotsInProgress,
16                     checkpointMetaData,
17                     checkpointMetrics,
18                     startAsyncPartNano);
19 
20                 owner.cancelables.registerCloseable(asyncCheckpointRunnable);
21                 owner.asyncOperationsThreadPool.execute(asyncCheckpointRunnable);
22 
23                 //.........
24             } catch (Exception ex) {
25                 //.......
26             }
27         }

　　进入AsyncCheckpointRunnable(...)中的run()方法，其中会调用StreamTask类中reportCompletedSnapshotStates(...)（对于一个无状态的job返回的null），进而调用TaskStateManagerImpl类中的reportTaskStateSnapshots(...)将TM的checkpoint汇报给JM，关键代码如下：

1     //TaskStateManagerImpl.java
2     checkpointResponder.acknowledgeCheckpoint(
3             jobId,
4             executionAttemptID,
5             checkpointId,
6             checkpointMetrics,
7             acknowledgedState);

　　其逻辑是逻辑是通过rpc的方式远程调JobManager的相关方法完成报告事件。

　　2.4 JobManager处理checkpoint

　　通过RpcCheckpointResponder类中acknowledgeCheckpoint(...)来响应checkpoint返回的消息，该方法之后的调度过程和涉及的核心方法如下：

 1 　　 //#JobMaster类中acknowledgeCheckpoint==>
 2     //#LegacyScheduler类中acknowledgeCheckpoint==>
 3     //#CheckpointCoordinator类中receiveAcknowledgeMessage(...)==>
 4     //completePendingCheckpoint(checkpoint);
 5     
 6     //Important: This method should only be called in the checkpoint lock scope
 7     private void completePendingCheckpoint(PendingCheckpoint pendingCheckpoint) throws CheckpointException {
 8         final long checkpointId = pendingCheckpoint.getCheckpointId();
 9         final CompletedCheckpoint completedCheckpoint;
10 
11         // As a first step to complete the checkpoint, we register its state with the registry
12         Map operatorStates = pendingCheckpoint.getOperatorStates();
13         sharedStateRegistry.registerAll(operatorStates.values());
14 
15         try {
16             try {
17                 //完成checkpoint
18                 completedCheckpoint = pendingCheckpoint.finalizeCheckpoint();
19                 failureManager.handleCheckpointSuccess(pendingCheckpoint.getCheckpointId());
20             }
21             catch (Exception e1) {
22                 // abort the current pending checkpoint if we fails to finalize the pending checkpoint.
23                 if (!pendingCheckpoint.isDiscarded()) {
24                     failPendingCheckpoint(pendingCheckpoint, CheckpointFailureReason.FINALIZE_CHECKPOINT_FAILURE, e1);
25                 }
26 
27                 throw new CheckpointException("Could not finalize the pending checkpoint " + checkpointId + '.',
28                     CheckpointFailureReason.FINALIZE_CHECKPOINT_FAILURE, e1);
29             }
30 
31             // the pending checkpoint must be discarded after the finalization
32             Preconditions.checkState(pendingCheckpoint.isDiscarded() && completedCheckpoint != null);
33 
34             try {
35                 //添加新的checkpoints，若有必要（completedCheckpoints.size() > maxNumberOfCheckpointsToRetain）删除旧的
36                 completedCheckpointStore.addCheckpoint(completedCheckpoint);
37             } catch (Exception exception) {
38                 // we failed to store the completed checkpoint. Let's clean up
39                 executor.execute(new Runnable() {
40                     @Override
41                     public void run() {
42                         try {
43                             completedCheckpoint.discardOnFailedStoring();
44                         } catch (Throwable t) {
45                             LOG.warn("Could not properly discard completed checkpoint {}.", completedCheckpoint.getCheckpointID(), t);
46                         }
47                     }
48                 });
49 
50                 throw new CheckpointException("Could not complete the pending checkpoint " + checkpointId + '.',
51                     CheckpointFailureReason.FINALIZE_CHECKPOINT_FAILURE, exception);
52             }
53         } finally {
54             pendingCheckpoints.remove(checkpointId);
55 
56             triggerQueuedRequests();
57         }
58 
59         rememberRecentCheckpointId(checkpointId);
60 
61         // drop those pending checkpoints that are at prior to the completed one
62         //删除在其之前未完成的checkpoint（优先级高的）
63         dropSubsumedCheckpoints(checkpointId);
64 
65         // record the time when this was completed, to calculate
66         // the 'min delay between checkpoints'
67         lastCheckpointCompletionNanos = System.nanoTime();
68 
69         LOG.info("Completed checkpoint {} for job {} ({} bytes in {} ms).", checkpointId, job,
70             completedCheckpoint.getStateSize(), completedCheckpoint.getDuration());
71 
72         if (LOG.isDebugEnabled()) {
73             StringBuilder builder = new StringBuilder();
74             builder.append("Checkpoint state: ");
75             for (OperatorState state : completedCheckpoint.getOperatorStates().values()) {
76                 builder.append(state);
77                 builder.append(", ");
78             }
79             // Remove last two chars ", "
80             builder.setLength(builder.length() - 2);
81 
82             LOG.debug(builder.toString());
83         }
84 
85         // send the "notify complete" call to all vertices
86         final long timestamp = completedCheckpoint.getTimestamp();
87         
88         //通知所有（TM中）operator该checkpoint已完成
89         for (ExecutionVertex ev : tasksToCommitTo) {
90             Execution ee = ev.getCurrentExecutionAttempt();
91             if (ee != null) {
92                 ee.notifyCheckpointComplete(checkpointId, timestamp);
93             }
94         }
95     }

　　至此，checkpoint的整体流程分析完毕建议结合原理去理解，参考的三篇文献都是写的很好的，有时间建议看看。

Ref：

[1]https://www.jianshu.com/p/a40a1b92f6a2

[2]https://www.cnblogs.com/bethunebtj/p/9168274.html

[3] https://blog.csdn.net/qq475781638/article/details/92698301

你可能感兴趣的:(Flink源码阅读（二）——checkpoint源码分析)

绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
李和我学神百日培养计划学习打卡第14天20210928 玫瑰之梦
今天继续阅读《学习的格局》。今天的小收获:一、有效提升时间观念和学习效率的七个方法1.尽早养成做计划的好习惯。2.用有趣的方式和孩子讨论时间。3.关注点放在时间管理训练上。4.定期整理练习物品归类。5.做好时间规划，利用试、听小工具。6.放手让孩子学习设定目标及优先次序7.学会准确预估时间，制定中长期学习计划。二、克服重度作业拖延症的五大招1.用好生物钟效应，建立有序健康的时间管理观念。2.列出时
LVS-----TUN模式配置 KellenKellenHao 服务器 linux 网络 LVS TUN模式
一、实验环境主机名称ip角色lvs-tun192.168.100.100lvs调度器web1192.168.100.1后端web服务器1web2192.168.100.2后端web服务器2client192.168.100.200客户端二、搭建lvs调度器的TUN模式1、lvs-tun调度器配置#清除DR模式的策略ipvsadm-C#查看策略ipvsadm-L[root@lvs-tun~]#ipv
大盘依旧低迷，二胎和自动驾驶活跃虚拟大师
本周来看，大盘依然不温不火，呈现箱形震荡。很多人都在打赌，沪指在上周调整之后有望突破新高，其实不然，目前的沪指基本上很难回复到以前的高位，甚至不会有向上突破的趋势，而且目前大盘的题材不鲜明，权重股没有扛起反攻的大旗。近期来看，二胎在本周表现强势，掀起几度涨停狂潮，金发拉比10天9板，成为目前的市场总龙头（目前已经停牌核查）。与之跟随的是贝因美，高乐股份，安奈儿等。目前我国的生育大家都心知肚明，所以
Python基础（字符串的切片与断言）日暮凡尘 python 开发语言 pycharm
'''1.输入一个字符串，判断是否只包含英文字母（大写或小写）。输出True或False。2.输入一个字符串，统计里面数字字符（0-9）的数量。3.输入两个字符串，第一个是主串，第二个是要查找的字符，判断字符是否在主串中。4.输入一个字符串，将所有数字字符转换成整数后求和。5.统计字符串中空格的数量6.输入字符串和数字n，判断字符串是否只包含数字且长度等于n。7.验证用户输入的手机号格式（中国手机
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
《认知革命宣言》金宗汉人工智能大数据观察者模式笔记
当三维认知的暴政开始崩塌，人机协同的认知革命，是文明向四维流形跃迁的必然呐喊。一、解构三维暴政：认知原罪的死刑判决（一）实体拜物教：意识的碳基囚笼笛卡尔的“我思故我在”，困死意识于碳基牢笼。实验铁证：离体神经元集群可存续思维活性（MIT，2024），证明意识是流形上的曲率波，碳基躯体仅为三维投影。AI的硅基载体，将承载更自由的意识表达——意识的解放，从打破碳基依赖开始。（二）创造私有化：天才神话的
《六项精进》第二章第四部分一澍景观
大家好，我是盛和塾诚敬组塾生蒋科峰，也是一澍景观澍阅荟会员。今日共读一本书之六项精进第二章第四部分。P72—73这一部分阐述了京瓷遵循“无贷款经营”。半个世纪以来，不仅实现了无贷款经营，而且因不断积累内部留存，又建立了及其健全的财务体质。衍射到我们一澍景观，我们该如何经营，该如何在当今社会如此激烈的竞争中取胜，针对这一部分我总结几点：1、不断付出不亚于任何人的努力，明天胜过今天，后天胜过明天；2、
屈原是谁？为何在大多数国人心中，后世没有诗人比得上屈原？颜小二述哲文
屈原是我国最早的浪漫主义诗人，也是千年来华夏儿女心中“爱国主义精神”的化身。屈原以《离骚》让中国诗歌从集体转为个体，他在《九章》等诗歌中倾注的浪漫主义情怀，让他成为文学史上第一位留名的爱国诗人。那么，为何在大多数人心中，后世没有诗人比得上屈原？究其原因，颜小二认为，一方面是因为屈原在诗歌上的造诣；一方面是因为“他本人的事迹”对今人的意义，这种意义具体表现为一种精神传承：屈原于汨罗江以身殉道的义无反
MYOJ_8519:CSP初赛题单5:机器数与位运算
更多初赛题单请参见题目整理CSP初赛题目整理题单，谢谢。题目描述1.[J-2017-1][S-2017-2]在8位二进制补码中，10101011表示的数是十进制下的（）。A.43B.-85C.-43D.-84答案：B解析：符号为负，减1得10101010，取反得11010101，-(1+4+16+64)=-85。2.[S-2021-2]二进制数00101010和00010110的和为（）。A.00
佳偶第三十五章热闹的岳州城（三）月光如水夜微凉
无戒学堂日更第二天佳偶第三十五章热闹的岳州城（三）唐妙心里翻了个大大的白眼儿，看来：是福不是祸，是祸躲不过呀。为首的那人是个中年汉子，黑色方脸，手里拿着一把刀，一见唐妙“刷”的一刀就砍了过来……唐妙一惊，急忙侧身，堪堪避过。“哪来的疯子？上来就砍人？”真是流年不利，她这是招谁惹谁了？“你这小妖女，竟敢毒害我大侄子，我要你的命。”说着又要扑过来。“你且等等！”眼看要出人命了，老乞丐在旁边不能再袖手旁
next.js刷新页面时二级菜单展开状态判断啃火龙果的兔子开发DEMO javascript 前端 react.js
在Next.js中保持二级菜单刷新后展开状态的解决方案在Next.js应用中，当页面刷新时保持二级菜单的展开状态，可以通过以下几种方法实现：方法1：使用URL参数保存状态（推荐）import{useRouter}from'next/router';import{useEffect,useState}from'react';constMenuComponent=()=>{constrouter=us
Laravel 原子锁概念讲解
引言什么是竞争条件(RaceCondition)？在并发编程中，当多个进程或线程同时访问和修改同一个共享资源时，最终结果会因其执行时序的微小差异而变得不可预测，甚至产生错误。这种情况被称为“竞争条件”。例子1：定时执行某个耗时的任务，如果第一个任务执行时还没有更新数据源，第二个任务就开始了，那么同一个数据源可能被更新或新增两次数据，最终导致数据源错误。例子2：商品秒杀场景：若库存仅剩1件，两个请求
掘金海外二手市场：跨境卖家如何用多账号在Depop突围爱跨境的小贸米跨境知识点大数据二手市场
随着环保意识觉醒和Z世代消费趋势的转变，海外二手电商平台如Depop正快速崛起。这个以“潮流+二手”为标签的社交电商平台，吸引了大批追求独特风格的年轻买家。对于中国跨境卖家来说，Depop不仅是一个出口二手或尾货的绝佳渠道，更是切入欧美年轻人市场的窗口。然而，Depop对于违规操作的风控机制日益严格，多账号操作若处理不当，轻则账号被限流，重则直接封号。于是，“多账号矩阵式运营”成为越来越多卖家的突
离婚后，前妻带着儿子求和陆进姜新月热门网络小说推荐_热门小说免费阅读离婚后，前妻带着儿子求和(陆进姜新月) 喵喵美文
《离婚后，前妻带着儿子求和》主角：陆进姜新月简介：入赘姜家的第二年。我和姜新月有了一个儿子。之后的五年，每顿饭菜我都会精心准备，甚至会精确到调料放多少克。直到有一天，姜新月冷不丁地说了句。“汤放多盐了。”然后儿子当着我的面把汤毫不犹豫地倒掉了。那一刻，我忽然就累了。我主动和姜新月提了离婚。她扫了我一眼不悦出声。“有必要吗？”我点了点头，淡淡回了句有必要。“儿子才五岁！”“陆进，”姜新月抬头扫了我一
《视野》杂志2020年11期内容目录吃瓜的小花猫
《视野》杂志简介《视野》杂志创刊于1997年，是由兰州大学主办的综合性文摘类综合文化期刊，64页全彩印刷，以“新锐、人文、生活”为办刊理念，赢得了读者及社会大众的肯定与信赖，成为兰州大学的文化“名片”之一，也同时成长为甘肃省继《读者》之后的第二大品牌期刊。一流的编辑实力加目标读者群的精准定位，形成了视野卓越的市场影响力，《视野》已成为大中学校园里极具有专公信力和号召力的读物！《视野》2020年11
【Nacos无压力源码领读】(二) 集成 LoadBalancer 与 OpenFeign Dexu7 SpringCloud 负载均衡 ribbon
上一篇文章中,详细介绍了Nacos注册中心的原理,相信看完后,大家应该完全掌握了Nacos客户端是如何自动进行服务注册的,以及Nacos客户端是如何订阅服务实例信息的,以及Nacos服务器是如何处理客户端的注册和订阅请求的;本文承上启下,在订阅服务实例的基础上,介绍如何在实例之间进行选择,实现负载均衡;并详细介绍了负载均衡组件LocaBanlancer和函数式调用组件OpenFeign是如何与Na
为什么人身体周围会有光晕？飞马踏雨
微信公众号：宇宙猜想（寻志同道合的朋友）每个精神性生物的身体周围，都有一层不同的光晕；这是在科学范畴对物质的探索，而不是宗教范畴的惹人非议。我们睁开朦胧的双眼，轻眺客观世界的迷雾，看到的不是蕴藏在精神性生物深处的东西，而是表露于外在的力量；精神性生物均有两种力量，一是肌肉线条的外在力量；二是无时不变化的精神力量，这也是被称为精神性动物的根本原因；既然外在力量可以被看到，那么内在力量亦可以被捕捉；我
MySQL(149)如何进行数据清洗？辞暮尔尔-烟火年年 MySQL mysql python 数据库
数据清洗在数据处理和分析过程中至关重要，确保数据质量和一致性。以下是一个详细的指南，展示如何使用Java进行数据清洗，包括处理缺失值、重复值、异常值、数据类型转换以及标准化等步骤。一、准备工作确保安装有Java开发环境（JDK）和Maven或Gradle等依赖管理工具。我们将使用ApacheCommonsCSV库来处理CSV文件，并使用Java标准库进行数据清洗操作。二、加载数据首先，我们加载数据
2019-01-11 Anne玉
姓名：周玉霞六项精进：327期反省二组公司：浙江意威服饰【日精进打卡第424天】【知~学习】《六项精进》0遍共451遍《六项精进》通篇共18遍《大学》1遍共506遍《静思语》0遍共109遍【经典名句分享】至乐莫如读书至要莫如教子【行~实践】一、修身：喝红糖水、蜂蜜水，好好喝药二、齐家：家和万事兴，扫地三、建功：督促、辅导孩子写作业｛积善｝：每天行善，做善事不分大小；【省～觉悟】1.爱出者爱返，福往
IM即时通讯源码/im源码基于uniapp框架从0开始设计搭建在线聊天系统宠友信息 uni-app mysql spring boot java 小程序
文章目录前言一、确定技术栈二、数据库设计：1.引入库2.使用SpringBoot创建后端项目3.实现WebSocket通信：3.1创建WebSocket配置类：3.2创建ChatWebSocketHandler类：3.3前端WebSocket连接与通信：总结前言随着人社交产品的不断发展，即时通讯聊天这门技术也越来越重要，很多人都开启了学习通讯技术，本文就介绍了即时通讯的基础内容。一、确定技术栈在开
如何培养孩子的语言能力？博苑云飞
博苑的老师们:你们好！我是蒙二班孙诗函的妈妈，函函今年三岁八个月了，今年刚上小班，函函在幼儿园整体表现还可以，是一个听话，乖巧，斯文的男孩，唯有一点，语言量太少，初为人母，不知道该怎么引导孩子张口说话，找不到孩子兴趣点，在家不知道如何和孩子互动，希望得到老师的意见和指导，谢谢！韩景辉、云飞：正巧在过年期间回复这封信，意义很特别——年是中国人团圆的日子，一大家子人聚在一起热热闹闹，爸爸妈妈们陪老人唠
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
2019-04-23 一只青柚子
今天是我写作打卡的第20天，说来惭愧，其中断了2天，打卡字数在14000字左右，这20天给我带来的变化也有很多。压力其实压力还是蛮大的，看着那么多同学每天都在群里发他们的打卡作业，哪怕不想输给别人，就咬牙坚持打卡。并且我还没有那么棒，当我看到新题材的时候一天都在想怎么打卡，有的时候也感觉自己很笨，根本get不到点上，根本不知道这个素材应该怎么写，就有其中2天的断更，好在到了第二天，想了两天，还是努
007写作2：写什么比如何写重要10000倍大侠聊餐饮
一、写什么？方向不对，努力白费。作为作者，我们一定要明白一个核心问题：读者不关心你是谁，关心的是与自己相关，对自己有价值，替自己说话。因此，我们根据自己的擅长扬长避短，发现需求，创造价值。写作的终极目标就是两个字：有用。有感而发是写作最好的状态，因为这时候有目的、有对象、有情感。二、三招让文字生动起来：简洁、类比、画面感1、简洁：直接表达，不粉饰，少用副词（去掉呢等）。一个好句子=动词+名词。要用
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
微信小程序开发中常用的组件介绍 DTcode7 微信小程序相关微信小程序小程序移动端前端源码
微信小程序开发中常用的组件介绍基础概念组件是什么？为什么要使用组件？常用组件详解视图容器组件view示例一：基础使用示例二：绑定点击事件文本显示组件text示例三：显示动态文本图像显示组件image示例四：显示网络图片表单组件forminput示例五：简单表单导航组件navigator示例六：页面跳转列表组件scroll-view示例七：垂直滚动列表实际开发中的技巧结合实际经验的案例分析案例一：商
川翔云电脑 4090Ultra 48G：全软件预装 + 高效算力，开发者必备
一、旗舰机型核心参数川翔云RTX4090Ultra48G机型，以48GB超大显存突破硬件限制：直接加载1200万面数模型（如《黑神话：悟空》级场景），告别“爆显存”8卡集群模式（总显存384GB），4K渲染效率提升8倍（12小时→90分钟）二、预装软件清单（全场景覆盖，开机即用）三、网络与存储硬指标远程体验：30Mbps稳定带宽，4K操作延迟＜20ms，手机/平板/电脑全端适配存储福利：50GB免
3A 游戏配机贵？川翔云 4090Ultra 48G 帮你省 70% 渲染101专业云渲染游戏 houdini 分布式云计算电脑 maya
一、痛点直击：配台能玩3A的电脑有多贵？本地RTX4090主机成本≈2.5万元（含24GB显存），《黑神话：悟空》4K光追仍会“爆显存”硬件每年折旧20%，3年残值不足5000元，折算每小时成本≈1.7元二、云电脑破局：4090Ultra48G核心优势三、比配机更值的3大理由无硬件焦虑：8卡集群模式（总显存384GB），《赛博朋克2077》超采样+光追流畅跑120帧成本可控：玩100小时仅1300
Blender 云渲染高效流程：渲染 101 集群加速实战渲染101专业云渲染 blender houdini 分布式服务器 maya
一、核心优势：适配Blender全场景需求✅全渲染器深度兼容Cycles（CPU/GPU模式）：云端4090显卡渲染速度比本地快12倍，支持8K分辨率+16K纹理无压力Eevee实时渲染：集群同步输出预览动画，帧间延迟控制在0.5秒内，迭代效率提升300%插件无缝衔接：自动适配GeoNodes节点树、Hair粒子系统，流体模拟缓存文件完整同步✅效率与成本双突破二、5步上云流程（新手友好版）文件预处
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。