long1657

Flink一致性保证实现剖析

概述

Flink通过快照机制和Barrier来实现一致性的保证，当任务中途crash或者cancel之后，可以通过checkpoing或者savepoint来进行恢复，实现数据流的重放。从而让任务达到一致性的效果，这种一致性需要开启exactly_once模式之后才行。需要记住的是这边的Flink exactly_once只是说在Flink内部是exactly_once的，并不能保证与外部存储交互时的exactly_once，如果要实现外部存储连接后的exactly_once，需要进行做一些特殊的处理。Flink定义的checkpiont支持两种模式（CheckpointingMode):

EXACTLY_ONCE
AT_LEAST_ONCE

EXACTLY ONCE

该模式意味着系统在进行恢复时，每条记录将在Operator状态中只被重现/重放一次。例如在一段数据流中，不管该系统crash或者重启了多少次，该统计结果将总是跟流中的元素的真实个数一致。

当然EXACTLY_ONCE并不是说毫无确定，相比较AT_LEAST_ONCE,整体的处理速度会相对比较慢，因为在开启EXACTLY_ONCE后，为了保证一致性开启了数据对齐，从而影响了一些性能。

AT LEAST ONCE

该模式意味着系统将以一种更加简单的方式来对operator的状态进行快照，系统crash或者cancel后恢复时，operator的状态中有一些记录可能会被重放多次。

例如，以上面的例子讲说，失败后恢复时，统计值将等于或者大于流中元素的真实值。这种模式因为不需要对齐所有对延迟产生的影响很小，处理速度也更加快速，通常应用于接收低延时并且能够容忍重复消息的场景。

一致性实现原理

虽然上面讲到了一致性的保证是通过快照和Brrier机制来实现的，那他们具体是如何实现的呢？阅读中可以通过带入以下几点来进行考虑：

快照中保存的是什么？
什么时候触发系统进行执行快照？
如何在流式计算中既要执行快照又要保证整体的处理速度？

CHECKPOINT

快照记录了系统当前各个task/Operator的状态，这些状态保存了正常处理的元素。这些快照将被定期的删除和更新，系统出现crash后，进行恢复时就会从这些快照中读取数据，恢复crash之前的状态，那么该如何理解状态（STATE)呢？

STATE

State 可以理解为某task/operator在某时刻的一个中间结果，比如在flatmap中在这段时刻处理的数据，State可以被记录，在系统失败的情况可以进行恢复。STATE主要有两种类型operator state和keyed state。

OPERATOR STATE和KEYED STATE

Operator state是一个与key无关，并且在全局中唯一绑定到特定的operator中的state,比如有source或者map算子，如果需要保存这些operator的状态，就可以在这些operator添加状态的处理机制，具体可以看下面的例子。

Operator state只有一种数据结构ListState,具体checkpoint过程中会把该数据结构的数据写入到hdfs中，用于保存该operator在当前的状态。

Keyed State:

基于KeyStream之上的状态，如dataStream.keyBy()
keyby之后的operator state

keyed state的数据结构：

ValueState
LisstState
ReducingState
MapState

CHECKPOINT实现例子

这是operator state实现的例子

public class BufferingSink implements SinkFunction>,CheckpointedFunction {
    private final int threshold;
    private transient ListState> checkpointedState;
    private List> bufferedElements;

    public BufferingSink(int threshold) {
        this.threshold = threshold;
        this.bufferedElements = new ArrayList>();
    }
    @Override
    public void invoke(Tuple2 value, Context context) throws Exception {
        bufferedElements.add(value);
        if(bufferedElements.size() == threshold){
            for(Tuple2 element:bufferedElements){
                //send it to the sink
            }
            bufferedElements.clear();
        }
    }
    @Override
    public void snapshotState(FunctionSnapshotContext functionSnapshotContext) throws Exception {
        /**定期实现checkpoint*/
        checkpointedState.clear();
        for(Tuple2 element:bufferedElements){
            checkpointedState.add(element);
        }
    }
    /**恢复初始化的时候从保存的快照中获取数据，用于恢复到crash之前的状态*/
    @Override
    public void initializeState(FunctionInitializationContext context) throws Exception {
        ListStateDescriptor> descriptor = new ListStateDescriptor>
                ("buffered-elements",TypeInformation.of(new TypeHint>() {
        }));
        checkpointedState = context.getOperatorStateStore().getListState(descriptor);
        if(context.isRestored()){
            for(Tuple2 element:checkpointedState.get()){
                bufferedElements.add(element);
            }
        }
    }
}

这是keyed state实现的例子：

public static class StateMachineMapper extends RichFlatMapFunction {

	/** 为当前key创建一个keyed state. */
	private ValueState currentState;
	@Override
	public void open(Configuration conf) {
		// 启动时从checkpoint中加载保存的state
		currentState = getRuntimeContext().getState(
					new ValueStateDescriptor<>("state", State.class));
	}
	@Override
	public void flatMap(Event evt, Collector out) throws Exception {
		// 获取当前key的state值，如果没有则初始化
		State state = currentState.value();
		if (state == null) {
			state = State.Initial;
		}
		// 根据给定的事件询问状态机我们应该进入什么状态
		State nextState = state.transition(evt.type());
		if (nextState == State.InvalidTransition) {
			out.collect(new Alert(evt.sourceAddress(), state, evt.type()));
		} else if (nextState.isTerminal()) {
			currentState.clear();
		} else {
			currentState.update(nextState);
		}
	}
}

BARRIER

相对于checkpoint并没有需要很高深的理解，因为这种机制在spark，hdfs等需要高容错机制的系统都会涉及，Flink的高效一致性保证的核心概念之一是Barrier，这个Barrier是用来解决上面提到的问题2（什么时候触发快照）。它就是一个屏障，一个关卡，用来把无界流的流式数据变为有界流，每隔一段时间处理一段有界流，当开启EXACTLY_ONCE后，Barrier会被注入到输入流中随着数据一起向下流动，当所有的operator得到是Barrier类型的数据流时就会进行实现SNAPSHOT,并且Barriers永远不会超过记录，数据流严格有序。每个Barrier都带有一个long型的checkpointId,当operator执行完SNAPSHOT后，会ack当前operator的checkpointId给JobManager，JobManager收集齐所有的当前checkpointId时，才会放开下一批的数据进行处理。

Barrier在数据输入流源处被注入并行数据流中。SNAPSHOTn的Barriers被插入的位置（Sn)是SNAPSHOT所包含的数据在数据源中最大位置，例如在kafka中，此位置将是分区中最后一条记录的偏移量。将该位置Sn报告给checkpoint协调器。然后Barrier向下游动。当一个中间operator从其他所有输入流中受到SNAPSHOTn的barriers时，他会成为SNAPSHOTn发出barriers进入其所有输出流中。一旦sink操作算子（流失DAG的末端）从其所有输入流接收到barrier n，它就向checkpoint协调器确认SNAPSHOTn完成。在所有sink确认快照后，意味着快照已经完成。一旦完成SNAPSHOTn，job将永远不再向数据源请求sn之前的数据，因为此时这些记录（及其后续记录）将已经通过整个数据流拓扑，也即是已经被处理结束啦。

接收多个输入流的运算符需要基于快照barrier对齐输入流。上图说明了这一点：

一旦operator从一个输入流接收到快照barrier n,它就不能处理来自该流的任何记录，知道它从其他输入接收到barrier n为止，否则，它会搞混属于快照n的记录和属于快照n+1的记录
barrier 你所属的流暂时会被搁置，从这些流接收的记录不会被处理，而是放入输入缓冲区。
一旦从最后一个流接收到barrier n,操作算子就会发送所有挂起的向后传送的记录，然后自己发出SNAPSHOTn的barriers
之后，它恢复处理来自所有输入流的记录，在处理来自流的记录之前有限处理来自缓冲区的记录。

讲述完Barrier可以看下图，checkpointing的过程：

算子在他们从输入流接收到所有SNAPSHOT障碍时，以及在向其输出流发出障碍之前对其状态进行SNAPSHOT。此时，将根据障碍之前的记录对状态进行所有更新，并且在应用障碍之后不依赖于记录的更新。由于SNAPSHOT的状态可能很大，因此它存储在可配置的状态后台中。默认情况下，这是JobManager的内存，但对于生产使用，应配置分布式可靠存储（例如HDFS）。在存储状态之后，算子确认检查点，将SNAPSHOT屏障发送到输出流中，然后继续。

生成的SNAPSHOT现在包含：

对于每个并行流数据源，启动SNAPSHOT时流中的偏移/位置

对于每个算子，指向作为SNAPSHOT的一部分存储的状态的指针

BARRIER核心代码解析

上面讲到Flink的一致性保证的核心之一就是Barrier，下面会对barrier的核心代码BarrierBuffer进行讲解，BarrierBuffer用于提供EXACTLY_ONCE一致性保证，其作用是：它将以barrier阻塞输入知道所有的输入都接收到基于某个检查点的barrier，也就是之前讲到的对齐，为了避免反压输入流（这可能导致分布式死锁），BarrierBuffer将从被阻塞的channel中持续地接收buffer并在内部存储它们，知道阻塞被解除。

CheckpointCoordinator

在讲BarrierBuffer之前，可以先看下checkpoint是什么时候触发创建的，可以从CheckpointCoordinator这个Checkpoint协调器的startCheckpointScheduler()这个方法看出，在该方法创建了一个线程用来定时发送checkpoint的方法。

public void startCheckpointScheduler() {
	synchronized (lock) {
		if (shutdown) {
			throw new IllegalArgumentException("Checkpoint coordinator is shut down");
		}

		// make sure all prior timers are cancelled
		stopCheckpointScheduler();

		periodicScheduling = true;
		long initialDelay = ThreadLocalRandom.current().nextLong(
			minPauseBetweenCheckpointsNanos / 1_000_000L, baseInterval + 1L);
		//按照baseInterval定时启动触发器
		currentPeriodicTrigger = timer.scheduleAtFixedRate(
				new ScheduledTrigger(), initialDelay, baseInterval, TimeUnit.MILLISECONDS);
	}
}

private final class ScheduledTrigger implements Runnable {

	@Override
	public void run() {
		try {
		    //触发checkpoint
			triggerCheckpoint(System.currentTimeMillis(), true);
		}
		catch (Exception e) {
			LOG.error("Exception while triggering checkpoint for job {}.", job, e);
		}
	}
}

//在triggerCheckpoint方法中会调用所有具有checkpoint的Execution方法triggerCheckpoint
// send the messages to the tasks that trigger their checkpoint
for (Execution execution: executions) {
	execution.triggerCheckpoint(checkpointID, timestamp, checkpointOptions);
}

BarrierBuffer

介绍了checkpoint的触发方式后，再回来看BarrierBuffer类，该类有几个核心的方法，下面将进行一一解释。 getNextNonBlocked getNextNonBlocked方法用于获取待operator处理的下一条（非阻塞）的记录。该方法以多种机制阻塞当前调用上下文，直到获取到下一个非阻塞的记录。

@Override
public BufferOrEvent getNextNonBlocked() throws Exception {
	while (true) {
		//获得下一个待缓存的buffer或者barrier事件
		// process buffered BufferOrEvents before grabbing new ones
		Optional next;
		//如果当前的缓冲区为null，则从输入端获得
		if (currentBuffered == null) {
			next = inputGate.getNextBufferOrEvent();
		}
		//如果缓冲区不为空，则从缓冲区中获得数据
		else {
			next = Optional.ofNullable(currentBuffered.getNext());
			//如果缓冲区获取的数据不存在，则表示缓冲区中已经没有更多地数据了
			if (!next.isPresent()) {
				//清空当前缓冲区，获取已经新的缓冲区并打开它
				completeBufferedSequence();
				//递归调用，处理下一条数据
				return getNextNonBlocked();
			}
		}
		//获取到一条记录，表示该数据存在
		if (!next.isPresent()) {
			//输入流的结束。stream继续处理缓冲数据
			if (!endOfStream) {
				// end of input stream. stream continues with the buffered data
				endOfStream = true;
				releaseBlocksAndResetBarriers();
				return getNextNonBlocked();
			} else {
				// final end of both input and buffered data
				return null;
			}
		}
		BufferOrEvent bufferOrEvent = next.get();
		//如果获取到的记录所在的channel已经处于阻塞状态，则该记录会被加入缓冲区
		if (isBlocked(bufferOrEvent.getChannelIndex())) {
			// if the channel is blocked, we just store the BufferOrEvent
			bufferBlocker.add(bufferOrEvent);
			checkSizeLimit();
		}
		//如果该记录是一个正常的记录，而不是一个barrier事件，则直接返回
		else if (bufferOrEvent.isBuffer()) {
			return bufferOrEvent;
		}
		//如果是一个barrier事件
		else if (bufferOrEvent.getEvent().getClass() == CheckpointBarrier.class) {
			//并且当前流还未处于结束桩体，则处理该barrier
			if (!endOfStream) {
				// process barriers only if there is a chance of the checkpoint completing
				processBarrier((CheckpointBarrier) bufferOrEvent.getEvent(), bufferOrEvent.getChannelIndex());
			}
		}
		//它发出信号，表示应该取消某个检查点。需要取消该检查点的任何正在进行的对齐，并恢复常规处理。
		else if (bufferOrEvent.getEvent().getClass() == CancelCheckpointMarker.class) {
			processCancellationBarrier((CancelCheckpointMarker) bufferOrEvent.getEvent());
		} else {
			//如果它是一个EndOfPartitionEvent，表示当前已经到达分区末尾
			if (bufferOrEvent.getEvent().getClass() == EndOfPartitionEvent.class) {
				processEndOfPartition();
			}
			return bufferOrEvent;
		}
	}
}

private void processEndOfPartition() throws Exception {
	//以关闭的channel计数器加一
	numClosedChannels++;
	//此时已经没有机会完成该检查点，则解除阻塞
	if (numBarriersReceived > 0) {
		// let the task know we skip a checkpoint
		notifyAbort(currentCheckpointId, new InputEndOfStreamException());

		// no chance to complete this checkpoint
		releaseBlocksAndResetBarriers();
	}
}

当checkpoint完成之后会调用releaseBlocksAndResetBarriers()方法，该方法释放所有通道上的块并且重置barrier计数，确保下一次使用的时候能够正常使用。

/** * Releases the blocks on all channels and resets the barrier count. * Makes sure the just written data is the next to be consumed. * 释放所有通道上的块并重置屏障计数。确保下一个使用的是刚刚写好的数据。 */
private void releaseBlocksAndResetBarriers() throws IOException {
	LOG.debug("{}: End of stream alignment, feeding buffered data back.",
		inputGate.getOwningTaskName());

	for (int i = 0; i < blockedChannels.length; i++) {
		//将所有channel的阻塞标志设置为false
		blockedChannels[i] = false;
	}
	//如果当前的缓冲区中数据为空
	if (currentBuffered == null) {
		// common case: no more buffered data
		//初始化新的缓冲区读写器
		currentBuffered = bufferBlocker.rollOverReusingResources();
		//打开缓冲区读写器
		if (currentBuffered != null) {
			currentBuffered.open();
		}
	}
	else {
		// uncommon case: buffered data pending
		// push back the pending data, if we have any
		LOG.debug("{}: Checkpoint skipped via buffered data:" +
				"Pushing back current alignment buffers and feeding back new alignment data first.",
			inputGate.getOwningTaskName());

		// since we did not fully drain the previous sequence, we need to allocate a new buffer for this one
		//缓冲区中还有数据，则初始化一块新的存储空间来存储新的缓冲数据
		BufferOrEventSequence bufferedNow = bufferBlocker.rollOverWithoutReusingResources();
		if (bufferedNow != null) {
			//打开新的缓冲区读写器
			bufferedNow.open();
			//将当前没有处理完的数据加入队列中
			queuedBuffered.addFirst(currentBuffered);
			numQueuedBytes += currentBuffered.size();
			//将新开辟的缓冲区读写器置为新的当前缓冲区。
			currentBuffered = bufferedNow;
		}
	}

	if (LOG.isDebugEnabled()) {
		LOG.debug("{}: Size of buffered data: {} bytes",
			inputGate.getOwningTaskName(),
			currentBuffered == null ? 0L : currentBuffered.size());
	}

	// the next barrier that comes must assume it is the first
	// 将接受到的barrier累加值重置为0
	numBarriersReceived = 0;

	if (startOfAlignmentTimestamp > 0) {
		latestAlignmentDurationNanos = System.nanoTime() - startOfAlignmentTimestamp;
		startOfAlignmentTimestamp = 0;
	}
}

还有一个很重要的方法processBarrier()方法，用来处理当接收一个Barrier事件时的具体处理方法。

private void processBarrier(CheckpointBarrier receivedBarrier, int channelIndex) throws Exception {
	final long barrierId = receivedBarrier.getId();
	// 单通道情况下的快速路径
	if (totalNumberOfInputChannels == 1) {
		if (barrierId > currentCheckpointId) {
			// new checkpoint
			currentCheckpointId = barrierId;
			notifyCheckpoint(receivedBarrier);
		}
		return;
	}
	// -- general code path for multiple input channels --
	//获取接收到的barrierId
	//接收到的barrier数目>0，说明当前正在处理某个检查点的过程中
	if (numBarriersReceived > 0) {
		// this is only true if some alignment is already progress and was not canceled
		//当前某个检查点的某个后续的barrierId
		if (barrierId == currentCheckpointId) {
			// regular case 处理barrier
			onBarrier(channelIndex);
		}
		//barrier Id>当前检查点
		else if (barrierId > currentCheckpointId) {
			// we did not complete the current checkpoint, another started before
			//我们没有完成当前的检查点，之前又开始了一个
			LOG.warn("{}: Received checkpoint barrier for checkpoint {} before completing current checkpoint {}. " +
					"Skipping current checkpoint.",
				inputGate.getOwningTaskName(),
				barrierId,
				currentCheckpointId);

			// let the task know we are not completing this
			//让任务知道我们没有完成这项任务
			notifyAbort(currentCheckpointId, new CheckpointDeclineSubsumedException(barrierId));

			// abort the current checkpoint
			//中止当前检查点,当前检查点已经没有机会完成了，则解除阻塞
			releaseBlocksAndResetBarriers();

			// begin a the new checkpoint
			beginNewAlignment(barrierId, channelIndex);
		}
		else {
			// ignore trailing barrier from an earlier checkpoint (obsolete now)
			return;
		}
	}
	else if (barrierId > currentCheckpointId) {
		// 说明这是一个新检查点的初始barrier
		beginNewAlignment(barrierId, channelIndex);
	}
	else {
		//忽略之前（跳过的）检查点的未处理的barrier
		// either the current checkpoint was canceled (numBarriers == 0) or
		// this barrier is from an old subsumed checkpoint
		return;
	}
	//检查我们是否有所有的障碍——因为被取消的检查点总是没有障碍
	//这只能发生在一个未取消的检查点上
	// check if we have all barriers - since canceled checkpoints always have zero barriers
	// this can only happen on a non canceled checkpoint
	if (numBarriersReceived + numClosedChannels == totalNumberOfInputChannels) {
		// actually trigger checkpoint
		if (LOG.isDebugEnabled()) {
			LOG.debug("{}: Received all barriers, triggering checkpoint {} at {}.",
				inputGate.getOwningTaskName(),
				receivedBarrier.getId(),
				receivedBarrier.getTimestamp());
		}
		releaseBlocksAndResetBarriers();
		notifyCheckpoint(receivedBarrier);
	}
}

BarrierTracker

在AT_LEAST_ONCE的模式下，调用BarrierTracker类中的getNextNonBlocked()方法，从该方法可以看出，Barrier不会进行对齐，连续不断的从inputGate中getNextBufferOrEvent().

@Override
public BufferOrEvent getNextNonBlocked() throws Exception {
	while (true) {
		Optional next = inputGate.getNextBufferOrEvent();
		if (!next.isPresent()) {
			// buffer or input exhausted
			return null;
		}

		BufferOrEvent bufferOrEvent = next.get();
		if (bufferOrEvent.isBuffer()) {
			return bufferOrEvent;
		}
		else if (bufferOrEvent.getEvent().getClass() == CheckpointBarrier.class) {
			processBarrier((CheckpointBarrier) bufferOrEvent.getEvent(), bufferOrEvent.getChannelIndex());
		}
		else if (bufferOrEvent.getEvent().getClass() == CancelCheckpointMarker.class) {
			processCheckpointAbortBarrier((CancelCheckpointMarker) bufferOrEvent.getEvent(), bufferOrEvent.getChannelIndex());
		}
		else {
			// some other event
			return bufferOrEvent;
		}
	}
}

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

Flink一致性保证实现剖析

概述

一致性实现原理

你可能感兴趣的:(Flink)