迷路剑客

Flink学习-DataStream-HDFSConnector(StreamingFileSink)

Flink系列文章

更多Flink系列文章请点击Flink系列文章
更多大数据文章请点击大数据好文推荐

摘要

本文主要介绍Flink中的DataStream之HDFSConnector(StreamingFileSink)，包含概念介绍、源码解读、实际Demo，已经更新到最新的Flink 1.10。

可参考：

Flink-1.10-StreamingFileSink
Flink-master-StreamingFileSink
有详细使用配置等文档
Flink-master-StreamingFileSink-API

更多Flink API内容可参考Flink学习3-API介绍-SQL

1 Hadoop FileSystem Connector

可参考 Hadoop FileSystem Connector

注意：官网说了，这个版本的BucketingSink已经在Flink1.9中废弃了，会在后面的release版本中移除。建议用StreamingFileSink。

BucketingSink其实就是按时间和parallel-task为粒度来写到定义的base-path目录下的各个文件中，可按时间和大小进行滚动，可自定义时间粒度。

2 File System

可参考File Systems

2.1 概述

Flink使用文件系统来读写数据，比如app运行结果、容错信息、恢复等。这里说的文件系统有很多种，用路径前的URI Schema表示，包括本地（如file:///home/user/text.txt）、Hadoop及兼容的（如hdfs://namenode:50010/data/user/text.txt）、亚马逊S3、阿里云 OSS等。

2.2 文件系统实例创建时机

文件系统实例在每个进程启动时实例化一次，然后进行缓存/池化，以避免每次流创建时的文件系统配置开销，并强制执行某些约束，例如连接/流限制。

2.3 文件系统的选择

2.3.1 本地文件系统

Flink内嵌，可直接使用
支持NFS/SAN
URI schema以file//开头

2.3.2 HDFS/Hadoop兼容的其他文件系统

只要是Flink找不到支持的文件系统目录，则会统一回退到Hadoop schema模式。只要Flink运行时和Hadoop的jar包在classpath就能使用该类文件系统。

将Hadoop配置放在和Hadoop类库相同的路径可使得Hadoop文件系统采用该配置。也可以通过环境变量HADOOP_CONF_DIR来设定Hadoop配置，或是参考Flink configuration指定fs.hdfs.hadoopconf表示Hadoop配置目录来让Flink查找core-site.xml 和 hdfs-site.xml（官方不推荐这种方式，已经deprecated）。

2.3.3 目前支持的可插拔的文件系统

详见Pluggable File Systems

包括亚马逊S3、阿里云 OSS等

使用可插拔的其他文件系统时，请将对应Jar包从$FLINK_HOME/opt拷贝到$FLINK_HOME/plugins。

例子：

mkdir $FLINK_HOME/plugins/s3-fs-hadoop
cp $FLINK_HOME/opt/flink-s3-fs-hadoop-1.9.0.jar $FLINK_HOME/plugins/s3-fs-hadoop/

2.3.4 新增可插拔的其他文件系统

详见Adding a new pluggable File System implementation

2.4 文件系统配置

请参考FileSystem Common Configurations

2.4.1 默认Schema

在$FLINK_HOME/conf/flink-conf.yaml文件的fs.default-scheme项设置，不设置时默认将没有URI schema的地址都解析为本地文件系统file:///。比如要改为某个HDFS schema，可设为：hdfs://mynamenode:12345。则当指定路径为/user/chengc时，其实就是hdfs://mynamenode:12345/user/chengc

2.4.2 限制连接数

Flink支持限制连接到文件系统连接数，以免打满甚至挤垮文件系统连接handler（比如同一时段内大量Flink作业做checkpoint写文件到HDFS，需要发送大量连接）。

配置如下：

# 最多允许并发打开的stream数，超过就阻塞直到有其他stream关闭
fs.<scheme>.limit.total: (数字, 0/-1 代表无限制)
fs.<scheme>.limit.input: (数字, 0/-1 代表无限制)
fs.<scheme>.limit.output: (number, 数字, 0/-1 代表无限制)
# 如果开启stream的时间超过此值，就fail
fs.<scheme>.limit.timeout: (milliseconds, 0 代表无穷大)
# 如果某个streams在此时间内未有任何读写，则强制关闭，以免失效stream占满资源
fs.<scheme>.limit.stream-timeout: (milliseconds, 0 代表无穷大)

以上限制在每个TaskManager /文件系统的基础上执行。由于文件系统的创建是按schema和权限进行的，因此不同的权限具有独立的连接池。例如hdfs://myhdfs:50010和hdfs://anotherhdfs:4399将具有单独的池。

3 Streaming File Sink

3.1 概述

3.1.1 简介

可参考：

Flink-1.9-StreamingFileSink
Flink-master-StreamingFileSink
有详细使用配置等文档
Flink-master-StreamingFileSink-API
Bucket
StreamingFileSink可向由Flink FileSystem抽象支持的文件系统写入分区文件（因为是流式写入，数据被视为无界）。该分区行为可配，默认按时间，具体来说每小时写入一个Bucket，该Bucket包括若干文件，内容是这一小时间隔内流中收到的所有record。
PartFile
每个Bukcket内部分为多个PartFile来存储输出数据，该Bucket生命周期内接收到数据的sink的每个子任务至少有一个PartFile。而额外文件滚动由可配的滚动策略决定，默认策略是根据文件大小和打开超时（文件可以被打开的最大持续时间）以及文件最大不活动超时等决定是否滚动。Bucket和SubTask、PartFile关系如下图：
Checkpoint
当使用StreamingFileSink时，必须开启Checkpoint，因为只能在Checkpoint成功后正确关闭PartFile；如果没有开启Checkpoint，则会导致PartFile永远处于in-progress或pendiing状态，不能被下游系统安全读取。

3.1.2 源码

3.1.2.1 重要概念

Bucket
管理一个Bucket目录的对象实例
Buckets
管理多个Bucket实例
Bucket、Checkpoint和exactly once
StreamingFileSink将受到的元素按一定规则发送到对应Bucket，他与Checkpoint机制集成后提供exactly once语义保证。关于此原理，请点击这里

Bucket的新建其实是在每条消息来时调用Buckets#onElement方法时。具体来说，会根据该条消息的Value调用bucketAssigner#getBucketId方法得到BucketId，然后判断这个Bucket路径是否已经存在，不存在就用bucketFactory#getNewBucket创建一个Bucket并放入Buckets.activeBuckets缓存起来。
BucketAssigner
StreamingFileSink会使用BucketAssigner来决定每个输入的element应该输出到哪个Bucket。默认使用DateTimeBucketAssigner，可以通过StreamingFileSink#withBucketAssigner进行设置。
bucketCheckInterval
默认StreamingFileSink会1分钟检查关闭in-progress part file，可以通过StreamingFileSink#withBucketCheckInterval方法进行设置。

个人认为这个名字取得不贴切，我之前一直以为是用来设置检查是否需要新建Bucket的时间间隔。
PartFile
PartFile默认使用DefaultRollingPolicy策略来滚动。使用BulkEncoding时只能用OnCheckpointRollingPolicy。
BulkWriter.Factory
批量模式下的Wrtier工厂,如ParquetWriterFactory，可创建输出Writer
BucketFactory
Bucket工厂，创建Bucket实例

3.1.2.2 StreamingFileSink重要属性和构造方法

// IN为输入元素的类型
public class StreamingFileSink<IN>
		extends RichSinkFunction<IN>
		implements CheckpointedFunction, CheckpointListener, ProcessingTimeCallback {

	private static final long serialVersionUID = 1L;

	// -------------------------- state descriptors ---------------------------

	private static final ListStateDescriptor<byte[]> BUCKET_STATE_DESC =
			new ListStateDescriptor<>("bucket-states", BytePrimitiveArraySerializer.INSTANCE);

	private static final ListStateDescriptor<Long> MAX_PART_COUNTER_STATE_DESC =
			new ListStateDescriptor<>("max-part-counter", LongSerializer.INSTANCE);

	// ------------------------ configuration fields --------------------------

	// 检查是否需要关闭in-progress part file的时间间隔
	private final long bucketCheckInterval;
	
	// 用来构建Bucekt的基类，目前分为BulkFormatBuilder和RowFormatBuilder
	// IN为输入元素的类型
	private final StreamingFileSink.BucketsBuilder<IN, ?> bucketsBuilder;

	// --------------------------- runtime fields -----------------------------

	// 管理所有活跃的Buckets，负责所有Bucket相关操作
	// IN为输入元素的类型
	private transient Buckets<IN, ?> buckets;

	// 定义当前processingTime，并处理相关操作（比如已注册的Timer，会在未来运行)
	private transient ProcessingTimeService processingTimeService;

	// --------------------------- State Related Fields -----------------------------

	// 保存所有ActiveBucket状态
	private transient ListState<byte[]> bucketStates;

	// 保存Part文件计数器状态。具体来说，就是各个Bucket中文件数量最大值
	private transient ListState<Long> maxPartCountersState;

	/**
	 * 构建StreamingFileSink的构造函数
	 */
	protected StreamingFileSink(
			final StreamingFileSink.BucketsBuilder<IN, ?> bucketsBuilder,
			final long bucketCheckInterval) {
		
		// bucketCheckInterval必须大于0
		Preconditions.checkArgument(bucketCheckInterval > 0L);
		
		this.bucketsBuilder = Preconditions.checkNotNull(bucketsBuilder);
		this.bucketCheckInterval = bucketCheckInterval;
	}

3.1.2.3 StreamingFileSink.BucketsBuilder

	// ------------------------------------------------------------------------

	// --------------------------- Sink Builders  -----------------------------

	/**
	 * Creates the builder for a {@code StreamingFileSink} with row-encoding format.
	 * @param basePath the base path where all the buckets are going to be created as sub-directories.
	 * @param encoder the {@link Encoder} to be used when writing elements in the buckets.
	 * @param  the type of incoming elements
	 * @return The builder where the remaining of the configuration parameters for the sink can be configured.
	 * In order to instantiate the sink, call {@link RowFormatBuilder#build()} after specifying the desired parameters.
	 */
	public static <IN> StreamingFileSink.RowFormatBuilder<IN, String> forRowFormat(
			final Path basePath, final Encoder<IN> encoder) {
		return new StreamingFileSink.RowFormatBuilder<>(basePath, encoder, new DateTimeBucketAssigner<>());
	}

	/**
	 * 以批量编码模式创建一个StreamingFileSink.BulkFormatBuilder
	 * @param basePath bucket所在的basePath
	 * @param writerFactory 写入bucket中文件的BulkWriter.Factory
	 * @param  输入元素的类型
	 * @return StreamingFileSink.BulkFormatBuilder，可继续使用配置其他参数如.withBucketAssigner.
	 * 最后调用build方法即可
	 */
	public static <IN> StreamingFileSink.BulkFormatBuilder<IN, String> forBulkFormat(
			final Path basePath, final BulkWriter.Factory<IN> writerFactory) {
		return new StreamingFileSink.BulkFormatBuilder<>(basePath, writerFactory, new DateTimeBucketAssigner<>());
	}

	/**
	 * 用来构建Bucekt的基类，目前分为BulkFormatBuilder和RowFormatBuilder
	 */
	protected abstract static class BucketsBuilder<IN, BucketID> implements Serializable {

		private static final long serialVersionUID = 1L;
			
		// 根据子任务inedx创建Bukcet方法
		abstract Buckets<IN, BucketID> createBuckets(final int subtaskIndex) throws IOException;
	}

	/**
	 * A builder for configuring the sink for row-wise encoding formats.
	 */
	@PublicEvolving
	public static class RowFormatBuilder<IN, BucketID> extends StreamingFileSink.BucketsBuilder<IN, BucketID> {

		private static final long serialVersionUID = 1L;

		private final long bucketCheckInterval;

		private final Path basePath;

		private final Encoder<IN> encoder;

		private final BucketAssigner<IN, BucketID> bucketAssigner;

		private final RollingPolicy<IN, BucketID> rollingPolicy;

		private final BucketFactory<IN, BucketID> bucketFactory;

		RowFormatBuilder(Path basePath, Encoder<IN> encoder, BucketAssigner<IN, BucketID> bucketAssigner) {
			this(basePath, encoder, bucketAssigner, DefaultRollingPolicy.create().build(), 60L * 1000L, new DefaultBucketFactoryImpl<>());
		}

		private RowFormatBuilder(
				Path basePath,
				Encoder<IN> encoder,
				BucketAssigner<IN, BucketID> assigner,
				RollingPolicy<IN, BucketID> policy,
				long bucketCheckInterval,
				BucketFactory<IN, BucketID> bucketFactory) {
			this.basePath = Preconditions.checkNotNull(basePath);
			this.encoder = Preconditions.checkNotNull(encoder);
			this.bucketAssigner = Preconditions.checkNotNull(assigner);
			this.rollingPolicy = Preconditions.checkNotNull(policy);
			this.bucketCheckInterval = bucketCheckInterval;
			this.bucketFactory = Preconditions.checkNotNull(bucketFactory);
		}

		public StreamingFileSink.RowFormatBuilder<IN, BucketID> withBucketCheckInterval(final long interval) {
			return new RowFormatBuilder<>(basePath, encoder, bucketAssigner, rollingPolicy, interval, bucketFactory);
		}

		public StreamingFileSink.RowFormatBuilder<IN, BucketID> withBucketAssigner(final BucketAssigner<IN, BucketID> assigner) {
			return new RowFormatBuilder<>(basePath, encoder, Preconditions.checkNotNull(assigner), rollingPolicy, bucketCheckInterval, bucketFactory);
		}

		public StreamingFileSink.RowFormatBuilder<IN, BucketID> withRollingPolicy(final RollingPolicy<IN, BucketID> policy) {
			return new RowFormatBuilder<>(basePath, encoder, bucketAssigner, Preconditions.checkNotNull(policy), bucketCheckInterval, bucketFactory);
		}

		public <ID> StreamingFileSink.RowFormatBuilder<IN, ID> withBucketAssignerAndPolicy(final BucketAssigner<IN, ID> assigner, final RollingPolicy<IN, ID> policy) {
			return new RowFormatBuilder<>(basePath, encoder, Preconditions.checkNotNull(assigner), Preconditions.checkNotNull(policy), bucketCheckInterval, new DefaultBucketFactoryImpl<>());
		}

		/** Creates the actual sink. */
		public StreamingFileSink<IN> build() {
			return new StreamingFileSink<>(this, bucketCheckInterval);
		}

		@Override
		Buckets<IN, BucketID> createBuckets(int subtaskIndex) throws IOException {
			return new Buckets<>(
					basePath,
					bucketAssigner,
					bucketFactory,
					new RowWisePartWriter.Factory<>(encoder),
					rollingPolicy,
					subtaskIndex);
		}

		@VisibleForTesting
		StreamingFileSink.RowFormatBuilder<IN, BucketID> withBucketFactory(final BucketFactory<IN, BucketID> factory) {
			return new RowFormatBuilder<>(basePath, encoder, bucketAssigner, rollingPolicy, bucketCheckInterval, Preconditions.checkNotNull(factory));
		}
	}

	/**
	 * 用来配置批量编码格式的Sink,如Parquet
	 */
	@PublicEvolving
	public static class BulkFormatBuilder<IN, BucketID> extends StreamingFileSink.BucketsBuilder<IN, BucketID> {

		private static final long serialVersionUID = 1L;

		private final long bucketCheckInterval;

		private final Path basePath;
		
		// 批量Wrtier工厂,如ParquetWriterFactory，可创建输出Writer
		private final BulkWriter.Factory<IN> writerFactory;
		
		// Bucket分配者,StreamingFileSink会使用BucketAssigner来决定
		// 每个输入的element应该输出到哪个Bucket。默认使用DateTimeBucketAssigner
		private final BucketAssigner<IN, BucketID> bucketAssigner;

		// 批量Bucket工厂，创建Bucket实例
		private final BucketFactory<IN, BucketID> bucketFactory;
		
		// 两个BulkFormatBuilder构造函数
		BulkFormatBuilder(Path basePath, BulkWriter.Factory<IN> writerFactory, BucketAssigner<IN, BucketID> assigner) {
			this(basePath, writerFactory, assigner, 60L * 1000L, new DefaultBucketFactoryImpl<>());
		}

		private BulkFormatBuilder(
				Path basePath,
				BulkWriter.Factory<IN> writerFactory,
				BucketAssigner<IN, BucketID> assigner,
				long bucketCheckInterval,
				BucketFactory<IN, BucketID> bucketFactory) {
			this.basePath = Preconditions.checkNotNull(basePath);
			this.writerFactory = writerFactory;
			this.bucketAssigner = Preconditions.checkNotNull(assigner);
			this.bucketCheckInterval = bucketCheckInterval;
			this.bucketFactory = Preconditions.checkNotNull(bucketFactory);
		}
		
		// 指定withBucketCheckInterval
		public StreamingFileSink.BulkFormatBuilder<IN, BucketID> withBucketCheckInterval(long interval) {
			return new BulkFormatBuilder<>(basePath, writerFactory, bucketAssigner, interval, bucketFactory);
		}

		// 指定withBucketAssigner
		public <ID> StreamingFileSink.BulkFormatBuilder<IN, ID> withBucketAssigner(BucketAssigner<IN, ID> assigner) {
			return new BulkFormatBuilder<>(basePath, writerFactory, Preconditions.checkNotNull(assigner), bucketCheckInterval, new DefaultBucketFactoryImpl<>());
		}

		// 指定BucketFactory，默认实现为DefaultBucketFactoryImpl
		StreamingFileSink.BulkFormatBuilder<IN, BucketID> withBucketFactory(final BucketFactory<IN, BucketID> factory) {
			return new BulkFormatBuilder<>(basePath, writerFactory, bucketAssigner, bucketCheckInterval, Preconditions.checkNotNull(factory));
		}

		// 使用BulkFormatBuilder构建StreamingFileSink
		public StreamingFileSink<IN> build() {
			return new StreamingFileSink<>(this, bucketCheckInterval);
		}

		// 根据子任务inedx创建Bukcet方法
	    // 注意批量模式只能用OnCheckpointRollingPolicy
	    // 本方法由initializeState方法调用
		@Override
		Buckets<IN, BucketID> createBuckets(int subtaskIndex) throws IOException {
			return new Buckets<>(
					basePath,
					bucketAssigner,
					bucketFactory,
					new BulkPartWriter.Factory<>(writerFactory),
					OnCheckpointRollingPolicy.build(),
					subtaskIndex);
		}
	}

3.1.2.4 StreamingFileSink重要方法

	/**
	 * 实现自CheckpointedFunction的方法。
	 * 该接口为stateful转换函数的核心接口，维护跨流记录的有状态函数。
	 * 该接口特点是在管理`keyed state`和`operator state`时提供最大的弹性。
	 * 
	 * 会在分布式程序执行期间创建并行函数实例时调用本方法，
	 * 经典使用场景：
	 * 函数使用此方法来设置其State存储数据结构。
	 * 
	 * context是用来初始化本算子的上下文
	 * 
	 * 1.这里StreamingFileSink的各子任务实例分别调用本方法，创建了Buckets管理实例。
	 * 2.如果是初次启动，会分别注册独有的任务实例级别的两个ListState：
	 * 	2.1 记录 Bucket状态的的bucketStates
	 * 	2.2 记录 PartFile数量状态的maxPartCountersState
	 *  
	 * 3.如果本次从checkpoint内恢复，则会从两个state中恢复：
	 * 	3.1 恢复maxPartCounter，设置为所有Bucket的文件数量的最大值
	 * 	3.2 恢复bucketStates，使用其中记录的所有Bucket信息来分别重建ActiveBucket，
	 * 		对每个Bucket具体做如下恢复操作：
	 * 		3.2.1 新建Bucket对象
	 * 		3.2.2 将snapshot阶段持久化的inprogress文件恢复，并继续将该文件作为写入目标inprogress文件
	 * 		3.2.3 将snapshot阶段已经变为pending状态的文件提交，变为finished状态
	 * 		3.2.4 如果activeBuckets中存在该bucketID的bucket,就与之merge；否则放入activeBuckets
	 * 		3.2.5 merge过程将当前Bucket inprogress文件持久化转为pending状态，并放入旧有Bucket的pendingPartsForCurrentCheckpoint保存。注意，当前Bucket没有再加入activeBuckets不再被管理了。
	 * 	
	 */
	@Override
	public void initializeState(FunctionInitializationContext context) throws Exception {
		final int subtaskIndex = getRuntimeContext().getIndexOfThisSubtask();
		this.buckets = bucketsBuilder.createBuckets(subtaskIndex);

		final OperatorStateStore stateStore = context.getOperatorStateStore();
		bucketStates = stateStore.getListState(BUCKET_STATE_DESC);
		maxPartCountersState = stateStore.getUnionListState(MAX_PART_COUNTER_STATE_DESC);

		if (context.isRestored()) {
			buckets.initializeState(bucketStates, maxPartCountersState);
		}
	}
	
	/**
	 * 实现自CheckpointListener的notifyCheckpointComplete方法
	 * 本方法会在收到分布式Checkpoint成功完成通知后调用
	 * 会在AbstractUdfStreamOperator#notifyCheckpointComplete中调用
	 *  
	 * 注意！该方法执行过程中发生异常也不会导致Checkpoint失败，因为Checkpoint已经完成
	 * 
	 * 这里StreamingFileSink使用本方法来通知Bucket实例完成活跃的Bucket的文件滚动
	 * 即Pending状态的PartFile->Finished
	 * 具体来说，遍历ActiveBuckets，对每一个Bucket都做以下处理：
	 * 	1.遍历其pendingPartsPerCheckpoint，将所有pending状态文件恢复并提交，转为finish状态
	 * 	2.从pendingPartsPerCheckpoint中移除该原pending文件
	 * 	3.如果该bucket不再有文件写入或pending文件，则从ActiveBuckets中移除该Bucket
	 * 至此，checkpoint完成，主要是将pending状态文件转为了finish状态，对读可见
	 */
	@Override
	public void notifyCheckpointComplete(long checkpointId) throws Exception {
		buckets.commitUpToCheckpoint(checkpointId);
	}

	/**
	 * 实现自CheckpointedFunction的方法。
	 * 当开始触发分布式Checkpoint快照时，将调用此方法。 
	 * 这作为函数的钩子，以确保在初始化函数时通过FunctionInitializationContext
	 * 在之前或者现在由FunctionSnapshotContext本身提供的方式来暴露所有State。
	 * 
	 * context：是用来为算子制作快照的上下文
	 * 
	 * 这里StreamingFileSink做的事情如下：
	 * 1. 清理了bucketStates和maxPartCountersState
	 * 2. 更新bucketStates，具体来说会将对所有activeBuckets中的每个Bucket做以下处理：
	 * 	2.1 对于CheckpointRollingPolicy，如果存在inprogressFile，就会关闭该文件，触发ParquetWriter.close
	 * 	2.2 对于shouldRollOnCheckpoint，如果存在inprogressFile且文件大小超过阈值就关闭文件
	 * 	2.3 关闭inprogressFile时，会将现临时文件名和未来要重命名的文件名记入pendingPartsForCurrentCheckpoint list。此时，此时该文件处于pending状态，等待checkpoint时被提交以使得下游消费者可读（此时不可读）
	 * 	2.4 关闭文件后，再以该次checkpointId为key，pendingPartsForCurrentCheckpoint为value记入pendingPartsPerCheckpoint，然后清空重置pendingPartsForCurrentCheckpoint list，以便下次checkpoint时使用
	 * 	2.5 如果此时恰好又有记录写入了该Bucket的新PartFile或该文件没有滚动，则会做该文件持久化，但此时对读不可见。
	 * 	2.6 用以上信息组装BucketState，序列化后放入bucketStates保存
	 * 3. 更新maxPartCountersState为当前maxPartCounter
	 */
	@Override
	public void snapshotState(FunctionSnapshotContext context) throws Exception {
		Preconditions.checkState(bucketStates != null && maxPartCountersState != null, "sink has not been initialized");

		buckets.snapshotState(
				context.getCheckpointId(),
				bucketStates,
				maxPartCountersState);
	}
		
	/**
	 * 继承自AbstractRichFunction的方法。
	 * 表示该函数的初始化方法。
	 * 在真正执行类似map join之类的算子之前调用本方法，所以适合做一次性配置工作。
	 * 
	 * parameters：传递给该函数的配置对象可用于配置和初始化。 
	 * 该配置包含程序组合中在功能上配置的所有参数。
	 * 
	 * 这里StreamingFileSink只是利用此方法做了ProcessingTime Timer注册工作
	 * 具体来说，注册了在下一个bucketCheckInterval间隔后的时间触发onProcessingTime事件
	 */
	@Override
	public void open(Configuration parameters) throws Exception {
		super.open(parameters);
		this.processingTimeService = ((StreamingRuntimeContext) getRuntimeContext()).getProcessingTimeService();
		long currentProcessingTime = processingTimeService.getCurrentProcessingTime();
		processingTimeService.registerTimer(currentProcessingTime + bucketCheckInterval, this);
	}

	/**
	 * 实现自ProcessingTimeCallback的方法。
	 * 会在配置processingTimeService.registerTimer的时间到了时触发
	 * 如果由于某种原因延迟了触发（如触发计时器被阻止，JVM由于GC而STW），
	 * 则为此函数提供的timestamp将仍然是计划触发的原始timestamp。
	 * 
	 * timestamp：配置触发的时间戳
	 * 
	 * 这里StreamingFileSink先将活跃Bucket做适当处理
	 * 比如DefaultRollingPolicy根据当前ProcessingTime和配置的阈值比较确定是否滚动PartFile
	 * 而OnCheckpointRollingPolicy永远不做操作因为只会在checkpoint时roll file。
	 * 
	 * 最后，重新根据时间注册bucket timer
	 */
	@Override
	public void onProcessingTime(long timestamp) throws Exception {
		final long currentTime = processingTimeService.getCurrentProcessingTime();
		buckets.onProcessingTime(currentTime);
		processingTimeService.registerTimer(currentTime + bucketCheckInterval, this);
	}


	/**
	 * 实现自SinkFunction的方法。
	 * 用来写入数据到Sink。
	 * 每条记录输入时都会调用本方法。
	 * 
	 * value：输入的记录
	 * context：输入记录的额外上下文信息
	 * 
	 * 这里StreamingFileSink将做以下事情：
	 * 1.更新bucketerContext状态。
	 * 2.bucketAssigner调用getBucketId方法，根据value和bucketerContext获取bucketId
	 * 3.获取或创建这个Bucket实例
	 * 4.将该条value写入这个bucket
	 * 5.写入时按需决定是否滚动part-file。
	 * 	5.1 首次进入会根据part-file路径来创建RecoverableFsDataOutputStream，然后创建 
	 * 		PartFileWriter（BulkPartWriter）-> BulkWriter（ParquetBulkWriter）-> ParquetWriter
	 * 	5.2 其他时候，OnCheckpointRollingPolicy不会滚动文件；
	 * 		DefaultRollingPolicy会判断inprogress文件大小是否超过阈值，如果超过就关闭原文件开启新part-file
	 * 	5.3 滚动文件后，将本Bucket的partCounter加1
	 * 6.使用PartFileWriter（BulkPartWriter）-> BulkWriter（ParquetBulkWriter）-> ParquetWriter写入数据
	 * 7.最后，比较本次写入的Bucket part文件数和所有Buckets中最大值，如果更大则更新maxPartCounter
	 */
	@Override
	public void invoke(IN value, SinkFunction.Context context) throws Exception {
		buckets.onElement(value, context);
	}

	/**
	 * 继承自AbstractRichFunction的方法。
	 * 表示该函数的关闭方法。
	 * 在最后一次执行类似map join之类的算子之后调用本方法，所以适合做一次性配置工作。
	 * 本方法一般用来作资源清理工作。
	 * 
	 * 这里StreamingFileSink只是利用此方法做activeBuckets关闭工作
	 * 具体来说是优雅关闭所有in-progress的partFile
	 */
	@Override
	public void close() throws Exception {
		if (buckets != null) {
			buckets.close();
		}
	}
}

3.1.2.5 数据写入

初始时，会初始化ParquetWriter，以及InternalParquetRecordWriter，此时会调用initStore:

private void initStore() {
  // 构建ColumnChunk的Writer
  pageStore = new ColumnChunkPageWriteStore(compressor, schema, props.getAllocator());
  // 构建RowGroup的Writer，初始化后allocatedSize=5280 byte，bufferedSize=0
  columnStore = props.newColumnWriteStore(schema, pageStore);
  MessageColumnIO columnIO = new ColumnIOFactory(validating).getColumnIO(schema);
  this.recordConsumer = columnIO.getRecordWriter(columnStore);
  writeSupport.prepareForWrite(recordConsumer);
}

上面说过，StreamingFileSink.invoke方法负责写入数据，调用栈为:

StreamingFileSink.invoke(IN value, SinkFunction.Context context)
Buckets.onElement(final IN value, final SinkFunction.Context context)
Bucket.write(IN element, long currentTime)
(PartFileWriter)BulkPartWriter.write(IN element, long currentTime)
(BulkWriter)ParquetBulkWriter.addElement(T datum)
ParquetWriter.write(T object)

InternalParquetRecordWriter.write(T value)

public void write(T value) throws IOException, InterruptedException {
  // 实现对象与Parquet模式之间的转换，这里使用的是`AvroWriteSupport`
  // 内部使用(RecordConsumer)MessageColumnIO来将数据转换，将数据写入内存中
  // 调用后会增加bufferedSize和allocatedSize
  writeSupport.write(value);
  // record数量自增
  ++ recordCount;
  checkBlockSizeReached();
}

数据在write阶段格式转换、写入内存，随后会在一定时机（比如checkpoint，或在写入时发现数据累积超过一个动态调整的阈值（根据当前批record数，区间100-10000）且当前RowGroup已使用的Buffer中的已编码的二进制数据大小超过超过了parquet.block.size（默认128MB））将内存中的RowGroup刷入磁盘中：

private void flushRowGroupToStore()
      throws IOException {
  recordConsumer.flush();
  LOG.info("Flushing mem columnStore to file. allocated memory: {}", columnStore.getAllocatedSize());
  if (columnStore.getAllocatedSize() > (3 * rowGroupSizeThreshold)) {
    LOG.warn("Too much memory used: {}", columnStore.memUsageString());
  }

  if (recordCount > 0) {
    // 开启Parquet文件一个Block(RowGroup)
    parquetFileWriter.startBlock(recordCount);
    // 将所有RowGroup数据刷入磁盘
    columnStore.flush();
    pageStore.flushToFileWriter(parquetFileWriter);
    recordCount = 0;
    // 该Block结束
    parquetFileWriter.endBlock();
    this.nextRowGroupSize = Math.min(
        parquetFileWriter.getNextRowGroupSize(),
        rowGroupSizeThreshold);
  }
	
  columnStore = null;
  pageStore = null;
}

注意这里columnStore的内存占用并未被立刻回收，而是会等待GC。

有两类日志：

只有Flushing mem columnStore to file. allocated memory: 117884452
跟随Checkpoint触发，每个Bucket的每个RollPartFile触发一次
mem size 134577395 > 134217728: flushing 2220100 records to disk.
Flushing mem columnStore to file. allocated memory: 117884452

这种就是检查到数据累积超过一个动态调整的阈值导致的flush。

3.2 BucketAssigner-桶分配策略

3.2.1 BucketAssigner

桶分配逻辑定义了如何将数据结构化后写入BasePath中的子目录。

具体来说，StreamingFileSink使用BucketAssigner来确定每条输入的数据应该被放入哪个Bucket，最简单的方式就是用本地系统时间来确定Bucket。而且StreamingFileSink可以同时管理和写入若干活跃的Bucket。

/**
 * @param  输入元素的类型
 * @param  getBucketId方法返回的BucketId类型，必须重写hashCode和equals方法。
 /
public interface BucketAssigner extends Serializable {

	/**
	 * 根据element判断，返回应该放入的BucketId。
	 * @param element 目标element
	 * @param context StreamingFileSink使用的SinkFunction.Context
	 *
	 * @return 返回应该放入的BucketId.
	 * 最终确定的Bucket路径是由初始化StreamingFileSink时传入的BasePath和BucketId连接而成
	 */
	BucketID getBucketId(IN element, BucketAssigner.Context context);

	/**
	 * @return 一个SimpleVersionedSerializer，可以序列化/反序列化BucketId类型的元素。
	 */
	SimpleVersionedSerializer<BucketID> getSerializer();

	/**
	 * BucketAssigner用来获取输入元素的额外信息的Context
	 * 
	 * 请注意只能在BucketAssigner#getBucketId方法内使用，不要保存然后在后面使用！
	 */
	@PublicEvolving
	interface Context {
		/**
		 * 返回当前ProcessingTime.
		 */
		long currentProcessingTime();

		/**
		 * 返回当前EventTime WaterMark
		 */
		long currentWatermark();

		/**
		 * 返回当前输入元素的时间戳，或该元素没有分配时间戳时返回null
		 */
		@Nullable
		Long timestamp();
	}
}

3.2.2 指定BucketAssigner

我们可以在StreamingFileSink上调用 .withBucketAssigner(assigner)来实现自定义的BucketAssigner， Flink 有两个内置的：

DateTimeBucketAssigner
默认使用，基于时间的分配器
BasePathBucketAssigner
将所有PartFile存储在BasePath中（此时只有单个全局Bucket）

3.2.3 BasePathBucketAssigner

将所有PartFile存储在BasePath中（此时只有单个全局Bucket）。

先看看BasePathBucketAssigner的源码，方便继续学习DateTimeBucketAssigner：

@PublicEvolving
public class BasePathBucketAssigner<T> implements BucketAssigner<T, String> {

	private static final long serialVersionUID = -6033643155550226022L;

	/**
	 * BucketId永远为""，即Bucket全路径为用户指定的BasePath
	 */
	@Override
	public String getBucketId(T element, BucketAssigner.Context context) {
		return "";
	}

	/**
	 * 用SimpleVersionedStringSerializer来序列化BucketId
	 */
	@Override
	public SimpleVersionedSerializer<String> getSerializer() {
		// in the future this could be optimized as it is the empty string.
		return SimpleVersionedStringSerializer.INSTANCE;
	}

	@Override
	public String toString() {
		return "BasePathBucketAssigner";
	}
}

3.2.4 DateTimeBucketAssigner

Row格式和Bulk格式编码都使用DateTimeBucketAssigner作为默认BucketAssigner。默认情况下，DateTimeBucketAssigner 基于系统默认时区每小时以格式yyyy-MM-dd--HH来创建一个Bucket，Bucket路径为/{basePath}/{dateTimePath}/。

basePath是指StreamingFileSink.forRowFormat(new Path(outputPath)时的路径
dateTimePath中的日期格式和时区都可在初始化DateTimeBucketAssigner时配置

public class DateTimeBucketAssigner<IN> implements BucketAssigner<IN, String> {
	
	private static final long serialVersionUID = 1L;

	// 默认的时间格式字符串
	private static final String DEFAULT_FORMAT_STRING = "yyyy-MM-dd--HH";

	// 时间格式字符串
	private final String formatString;

	// 时区
	private final ZoneId zoneId;
	
	// DateTimeFormatter被用来通过当前系统时间和DateTimeFormat来生成时间字符串
	private transient DateTimeFormatter dateTimeFormatter;

	/**
	 * 使用默认的`yyyy-MM-dd--HH`和系统时区构建DateTimeBucketAssigner
	 */
	public DateTimeBucketAssigner() {
		this(DEFAULT_FORMAT_STRING);
	}

	/**
	 * 通过能被SimpleDateFormat解析的时间字符串和系统时区
	 * 来构建DateTimeBucketAssigner
	 */
	public DateTimeBucketAssigner(String formatString) {
		this(formatString, ZoneId.systemDefault());
	}

	/**
	 * 通过默认的`yyyy-MM-dd--HH`和指定的时区
	 * 来构建DateTimeBucketAssigner
	 */
	public DateTimeBucketAssigner(ZoneId zoneId) {
		this(DEFAULT_FORMAT_STRING, zoneId);
	}

	/**
	 * 通过能被SimpleDateFormat解析的时间字符串和指定的时区
	 * 来构建DateTimeBucketAssigner
	 */
	public DateTimeBucketAssigner(String formatString, ZoneId zoneId) {
		this.formatString = Preconditions.checkNotNull(formatString);
		this.zoneId = Preconditions.checkNotNull(zoneId);
	}

	/**
	 * 使用指定的时间格式和时区来格式化当前ProcessingTime，以获取BucketId
	 */
	@Override
	public String getBucketId(IN element, BucketAssigner.Context context) {
		if (dateTimeFormatter == null) {
			dateTimeFormatter = DateTimeFormatter.ofPattern(formatString).withZone(zoneId);
		}
		return dateTimeFormatter.format(Instant.ofEpochMilli(context.currentProcessingTime()));
	}

	@Override
	public SimpleVersionedSerializer<String> getSerializer() {
		return SimpleVersionedStringSerializer.INSTANCE;
	}

	@Override
	public String toString() {
		return "DateTimeBucketAssigner{" +
			"formatString='" + formatString + '\'' +
			", zoneId=" + zoneId +
			'}';
	}
}

3.3 PartFile

3.3.1 概述

前面提到过，每个Bukcket内部分为多个部分文件，该Bucket内接收到数据的sink的每个子任务至少有一个PartFile。而额外文件滚动由可配的滚动策略决定。

关于顺序性
对于任何给定的Flink子任务，PartFile索引都严格增加（按创建顺序）。但是，这些索引并不总是顺序的。当作业重新启动时，所有子任务的下一个PartFile索引将是max PartFile索引+ 1，其中max是指在所有子任务中对所有计算的索引最大值。
```
return new Path(bucketPath, outputFileConfig.getPartPrefix() + '-' + subtaskIndex + '-' + partCounter + outputFileConfig.getPartSuffix());
```

3.3.2 生命周期

PartFile生命周期有三个状态：

In-progress
PartFile正在被写入
Pending
由于RollingPolicy而被关闭的PartFile，等待被提交以使得下游消费者可读（此时不可读）
Finished
到了下一个Chekpoint成功后，Pending PartFile转变为Finished状态，对下游下消费者安全可读，此后该文件不再会被修改。

在每个活跃的Bucket期间，每个Writer的子任务在任何时候都只会有一个单独的In-progress PartFile，但可有多个Peding和Finished状态文件。

一个Sink的两个Subtask的PartFile分布情况实例如下:

初始状态，两个inprogress文件正在被两个subtask分别写入

└── 2019-08-25--12
    ├── part-0-0.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334
    └── part-1-0.inprogress.ea65a428-a1d0-4a0b-bbc5-7a436a75e575

当part-1-0因文件大小超过阈值等原因发生滚动时，变为Pending状态等待完成但此时不会被重命名。注意此时Sink会创建一个新的PartFile即part-1-1：

└── 2019-08-25--12
    ├── part-0-0.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334
    ├── part-1-0.inprogress.ea65a428-a1d0-4a0b-bbc5-7a436a75e575
    └── part-1-1.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11

待下次checkpoint成功后，part-1-0完成变为Finished状态，被重命名：

└── 2019-08-25--12
    ├── part-0-0.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334
    ├── part-1-0
    └── part-1-1.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11

下一个Bucket周期到了，创建新的Bucket目录，不影响之前Bucket内的的in-progress文件，依然要等待文件RollingPolicy以及checkpoint来改变状态：

└── 2019-08-25--12
    ├── part-0-0.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334
    ├── part-1-0
    └── part-1-1.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11
└── 2019-08-25--13
    └── part-0-2.inprogress.2b475fec-1482-4dea-9946-eb4353b475f1

3.3.3 PartFile命名设置

默认，PartFile命名规则如下：

In-progress / Pending
part--.inprogress.uid
Finished
part--

比如part-1-17表示1号子任务已完成的17号文件。

可以使用OutputFileConfig来改变前缀和后缀，代码示例如下：

val config = OutputFileConfig
 .builder()
 .withPartPrefix("prefix")
 .withPartSuffix(".ext")
 .build()
            
val sink = StreamingFileSink
 .forRowFormat(new Path(outputPath), new SimpleStringEncoder[String]("UTF-8"))
 .withBucketAssigner(new KeyBucketAssigner())
 .withRollingPolicy(OnCheckpointRollingPolicy.build())
 .withOutputFileConfig(config)
 .build()

得到的PartFile示例如下：

└── 2019-08-25--12
    ├── prefix-0-0.ext
    ├── prefix-0-1.ext.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334
    ├── prefix-1-0.ext
    └── prefix-1-1.ext.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11

3.3.4 RollingPolicy-PartFile滚动策略

RollingPolicy即滚动策略，定义了指定的in-progress状态PartFile在何时关闭，并将其变为pending状态，随后变为finished状态。

finished状态的PartFile是指那些已经准备好被读取且保证包含的数据有效（即使出错数据也不会再回退）。

滚动策略与Checkpoint的时间间隔（pending文件会在下一个Checkpoint上变为finished）相结合，可控制PartFile对下游消费者可用的时效性，以及这些PartFile的大小和数量。

Flink内置滚动策略：

DefaultRollingPolicy
OnCheckpointRollingPolicy
需要注意的是，使用Bulk Encoding时，Filnk1.9版本的文件滚动就只能使用OnCheckpointRollingPolicy的策略，该策略在每次checkpoint时滚动part-file。

3.3.5 PartFile序列化编码

StreamingFileSink支持两种编码格式：

行编码格式
StreamingFileSink.forRowFormat(basePath, rowEncoder)
批量编码格式（如Parquet）
StreamingFileSink.forBulkFormat(basePath, bulkWriterFactory)

3.3.5.1 Row Encoding

此时，StreamingFileSink会以每条记录为单位进行编码和序列化。

必须配置项：

输出数据的BasePath
序列化每行数据写入PartFile的Encoder

使用RowFormatBuilder可选配置项：

自定义RollingPolicy
默认使用DefaultRollingPolicy来滚动文件，可自定义
bucketCheckInterval
默认1分钟。该值单位为毫秒，指定按时间滚动文件间隔时间

例子如下：

import org.apache.flink.api.common.serialization.SimpleStringEncoder
import org.apache.flink.core.fs.Path
import org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink

// 1. 构建DataStream
val input: DataStream[String] = ...
// 2. 构建StreamingFileSink，指定BasePath、Encoder、RollingPolicy
val sink: StreamingFileSink[String] = StreamingFileSink
    .forRowFormat(new Path(outputPath), new SimpleStringEncoder[String]("UTF-8"))
    withRollingPolicy(
        DefaultRollingPolicy.builder()
            .withRolloverInterval(TimeUnit.MINUTES.toMillis(15))
            .withInactivityInterval(TimeUnit.MINUTES.toMillis(5))
            .withMaxPartSize(1024 * 1024 * 1024)
            .build())
    .build()
// 3. 添加Sink到InputDataSteam即可
input.addSink(sink)

以上例子构建了一个简单的拥有默认Bucket构建行为（继承自BucketAssigner的DateTimeBucketAssigner）的StreamingFileSink，每小时构建一个Bucket，内部使用继承自RollingPolicy的DefaultRollingPolicy，以下三种情况任一发生会滚动PartFile：

PartFile包含至少15分钟的数据
在过去5分钟内没有接收到新数据
在最后一条记录写入后，文件大小已经达到1GB

除了使用DefaultRollingPolicy，也可以自己实现RollingPolicy接口来实现自定义滚动策略。

3.3.5.2 Bulk Encoding

3.3.5.2.1 概述

要使用批量编码，请将StreamingFileSink.forRowFormat()替换为StreamingFileSink.forBulkFormat()，注意此时必须指定一个BulkWriter.Factory而不是行模式的Encoder。BulkWriter在逻辑上定义了如何添加、fllush新记录以及如何最终确定记录的bulk以用于进一步编码。

需要注意的是，使用Bulk Encoding时，Filnk1.9版本的文件滚动就只能使用OnCheckpointRollingPolicy的策略，该策略在每次checkpoint时滚动part-file。

Flink有三个内嵌的BulkWriter：

ParquetAvroWriters
有一些静态方法来创建ParquetWriterFactory。
SequenceFileWriterFactory
CompressWriterFactory

3.3.5.2.2 Parquet

Flink有内置方法可用于为Avro数据创建Parquet writer factory。

要使用ParquetBulkEncoder，需要添加以下Maven依赖：

<dependency>
  <groupId>org.apache.flinkgroupId>
  <artifactId>flink-parquet_2.11artifactId>
  <version>1.11-SNAPSHOTversion>
dependency>

<dependency>
	<groupId>org.apache.avrogroupId>
	<artifactId>avroartifactId>
	<version>1.8.2<version>
dependency>

<dependency>
	<groupId>org.apache.parquetgroupId>
	<artifactId>parquet-avroartifactId>
	<exclusions>
		<exclusion>
			<groupId>org.apache.hadoopgroupId>
			<artifactId>hadoop-clientartifactId>
		exclusion>
		<exclusion>
			<groupId>it.unimi.dsigroupId>
			<artifactId>fastutilartifactId>
		exclusion>
	exclusions>
	<version>1.10.0version>
dependency>

从Kafka读数据，并写入Parquet文件例子：

import org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink
import org.apache.flink.formats.parquet.avro.ParquetAvroWriters
import org.apache.avro.Schema

  def main(args: Array[String]) {
 	// read parameter from command line
    val parameter = ParameterTool.fromArgs(args)

    // 1. set up the streaming execution environment
    val env = StreamExecutionEnvironment.getExecutionEnvironment
      // checkpoint every 5 minute
      .enableCheckpointing(5 * 60 * 1000)
	  .setStateBackend(new RocksDBStateBackend(path, true))
	  
    val checkpointConfig = env.getCheckpointConfig
    checkpointConfig.setMinPauseBetweenCheckpoints(2 * 60 * 1000)
    checkpointConfig.setCheckpointTimeout(3 * 60 * 1000)
    checkpointConfig.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)

    // 2. kafka consumer`s config
    val kafkaConsumerConfig = new Properties()
    kafkaConsumerConfig.setProperty("bootstrap.servers", parameter.get("bootstrap-servers","192.168.1.1:9092"))
    kafkaConsumerConfig.setProperty("group.id", parameter.get("groupid","Kafka2hive"))
    kafkaConsumerConfig.setProperty("auto.offset.reset", parameter.get("offset","latest"))
    // 动态分区默认关闭，需要设置,以下表示10秒探测一次
    kafkaConsumerConfig.setProperty("flink.partition-discovery.interval-millis", "10000")

    // 3. create a kafka consumer
    val kafkaConsumer = new FlinkKafkaConsumer(
      "test_topic",
      new JSONKeyValueSilentDeserializationSchema,
      kafkaConsumerConfig)
    // 设置为用groupId放在ZK的offset，如果找不到就用配置文件中的auto.offset.reset来决定
    // 注意，该方法不影响此行为：从checkpoint/savepoint恢复时用存在这里面的offset消费
    .setStartFromGroupOffsets()
    // 1.9.0版本必须设这个值，虽然默认true，但是实测中并未提交offset到kafka
    // 设为true后已经观察到offset正常提交到kafka，便于监控
    .setCommitOffsetsOnCheckpoints(true)

    // 4. create the stream with kafka source, test_topic must return Student!
    val kafkaStream: DataStream[Student] = env
      .addSource(kafkaConsumer)

	 // 5. 构建StreamingFileSink，指定BasePath和序列化Encoder
	val sink: StreamingFileSink[Student] = StreamingFileSink
	    .forBulkFormat(outputBasePath, ParquetAvroWriters.forReflectRecord(classOf[Student]))
	    .withBucketAssigner(new EventDateTimeBucketAssigner("yyyyMMdd"))
	    .build()
	
	// 6. 添加Sink到InputDataSteam即可
    kafkaStream.addSink(sink)

    // 7. execute program
    env.execute("Kafka to Parquet")
  }

重点如下：

JSONKeyValueSilentDeserializationSchema
该类十分重要。他继承自KafkaDeserializationSchema（他可用来访问Kafka消息的key、value和元数据。），负责解析FlinkKafkaConsumer从Kafka中读取到的ConsumerRecord。具体来说，会调用其deserialize方法。我们可以自定义处理逻辑，将其转为一个特定类型，再交由下一个算子处理。这里，我们是解析为了一个自定义Java Bean再由StreamingFileSink。

关于此类，有几点值得注意：
- 如果出现读Kafka数据中文乱码，可尝试按如下方式解析：
```
new String(record.value, StandardCharsets.UTF_8)
```
- 一定要做异常处理，出错时务必返回null来跳过该条异常记录。否则会造成报错=>程序重启=>继续消费这条记录=>再次报错=>再次重启。。。的死循环中。
ParquetAvroWriters是以Avro格式来定义Parquet元数据，写入Parquet文件。
如果要配合Hive使用，则在建表时直接指定STORED AS parquet即可（具体看hive版本）
Bucket为按yyyyMMdd天格式生成，可以和Hive表分区目录配合。而且这里我们是自定义的EventDateTimeBucketAssigner，其他都跟BucketAssigner相同除了getBucketId方法自己实现根据特定字段获取BucketId:

public class EventDateTimeBucketAssigner implements BucketAssigner<Student, String> {
	@Override
    public String getBucketId(Student element, Context context) {
        if (dateTimeFormatter == null) {
            dateTimeFormatter = DateTimeFormatter.ofPattern(formatString).withZone(zoneId);
        }
        try {
        	// Student类中的特定字段的get方法
            Long eventTime = element.getTime();
            if(eventTime != null && eventTime > 0){
                return dateTimeFormatter.format(Instant.ofEpochMilli(eventTime));
            }
        } catch (Exception e) {
            LOGGER.error("an error happened while dateTimeFormatter.format context.timestamp():", e);
        }
        return dateTimeFormatter.format(Instant.ofEpochMilli(context.currentProcessingTime()));
    }
}

ParquetAvroWriters.forReflectRecord(classOf[Student])
以Student类来生成该Avro的schema，用来生成Parquet的元数据。定义Student类时，请extends Serializable。如果有字段为空，务必记得使用来自Avro项目的@Nullable注解允许有空值，否则遇到空值将会报错！

如果使用scala，可以使用@BeanProperty字段注解。

关于Parquet更多内容，可参考:
- HDFS-Parquet

如果要写入Avro以外的Parquet兼容的数据格式，请实现ParquetBuilder接口来创建ParquetWriterFactory。

如果使用Parquet后还想要压缩，需要自己实现，没有现成API，可参考：

Flink-StreaimingFileSink-自定义序列化-Parquet批量压缩
StreamingFileSink Avro batch size and compression
Flink 如何读取 kafka 数据后以 gzip 压缩格式写入hdfs？
How to do failure tolerance for Flink to sink data to hdfs as gzip compression?

3.3.5.2.3 Hadoop SequenceFile

Maven依赖：

<dependency>
  <groupId>org.apache.flinkgroupId>
  <artifactId>flink-sequence-fileartifactId>
  <version>1.11-SNAPSHOTversion>
dependency>

例子：

import org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink
import org.apache.flink.configuration.GlobalConfiguration
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.io.LongWritable
import org.apache.hadoop.io.SequenceFile
import org.apache.hadoop.io.Text;

val input: DataStream[(LongWritable, Text)] = ...
val hadoopConf: Configuration = HadoopUtils.getHadoopConfiguration(GlobalConfiguration.loadConfiguration())
val sink: StreamingFileSink[(LongWritable, Text)] = StreamingFileSink
  .forBulkFormat(
    outputBasePath,
    // 还有别的参数重载的构造函数，来指定压缩配置
    new SequenceFileWriterFactory(hadoopConf, LongWritable.class, Text.class))
	.build()

input.addSink(sink)

3.3.5.2.4 Compress

可以以指定的Hadoop压缩格式批量将记录压缩：

val sink = StreamingFileSink
      .forBulkFormat(new Path("file:///Users/chengc/compress"),
      CompressWriters.forExtractor(new DefaultExtractor[String]).withHadoopCompression("Gzip"))
      .withBucketAssigner(new DateTimeBucketAssigner("yyyyMMdd"))
      .build()

目前没有在生产环境使用，在本地报错java.io.NotSerializableException: org.apache.hadoop.io.compress.GzipCodec。

3.3.6 PartFile与Exactly Once

PartFile的三种状态可以和Chekpoint机制联合提供Exactly Once语义和容错性。

具体来说，StreamingFileSInk会在异常情况下回滚至最后一次成功Checkpoint时的状态。恢复时，最后一次成功snapshot时的pending状态文件会被转移至finished，而其他in-progress状态文件会被回滚（这样就不包含我们恢复的checkpoint之后到达的数据），也就说那部分pending和in-progress文件就被永远忽略了，永远对读不可见。

想想，这个时候由于offset保存在checkpoint，虽然有部分数据被重复消费，但由于这部分数据被忽略永远对读不可见，所以仍然是Exactly Once！

3.4 注意事项

Flink的Sink和UDF不能区分正常作业结束（比如是有限输入流）还是失败导致的终止
因此就算是正常执行完的作业的最后一个in-progress文件也不会被转为finished状态。
Flink和StreamingFileSink永远不会覆盖已提交的数据。、
鉴于此，当尝试从旧的检查点/保存点还原时（该检查点/保存点认定一个文件为in-progress状态，但后续成功执行的检查点已经将该文件提交），Flink将拒绝继续进行操作，并且由于无法找到该in-progress文件而抛出异常。

3.5 常见问题

3.5.1 少类、找不到方法

有几种情况：

确实少类
注意看看maven依赖时，该类所在包的scope，以及生产环境的classpath。
优先加载了hadoop环境
我遇到了一个Avro包版本冲突的情况，找不到方法。在jobmanager的启动日志里可以发现，先加载$FLINK_HOME/lib下的包，然后是hadoop下的包（包含低版本Avro）。而我自己项目的包（包含适当版本Avro的包）反而最后被加载。所以导致要调用的一个方法找不到报错。

解决方案就是将我们需要的高版本Avro包放入$FLINK_HOME/lib下优先加载即可解决。

3.5.2 结果文件中文乱码

参照前面的描述

3.5.3 想要批量压缩？

参考Flink-StreaimingFileSink-自定义序列化-Parquet批量压缩

3.5.4 HDFS租约问题

参考HDFS租约与Flink StreamingFileSink

3.5.5 小文件怎么处理

3.5.5.1 概述

因为每个subtask在一个checkpoint周期就会生成一个文件，所以在并发高时小文件数量很大，不仅增加NameNode维护元数据成本，也影响下游其他任务读取效率（大量小文件大量磁盘IO）。常见调优方式介绍如下。

3.5.5.2 增加Checkpoint周期

因为使用BulkEncoding时只能用OnCheckpointRollingPolicy，所以我们调大Checkpoint间隔可以减少总的part-file文件数量。

但调大以后，会增加每次Checkpoint时间，以及增长数据可见周期，需要权衡。

3.5.5.3 减小并发subtask

每个文件在每个Checkpoint周期都会写一个自己的文件，所以可以调小并发减少文件总量。

但这会导致数据处理能力下降，请做出权衡。

3.5.5.4 后期合并

用定时任务合并小文件。

比如我们StreamingFileSink程序写入临时分区，而用SparkSql定时任务，将临时分区的文件读取后写入正式分区目录，用户全部读取正式分区。

这个方法增加了处理成本，但提升了后续其他读取任务处理速度。

参考文档

Flink-1.9-StreamingFileSink
Flink读取kafka数据并以parquet格式写入HDFS，Spark直接读取parquet
Flink消费Kafka数据，写入HDFS - 使用 StreamingFileSink
Flink HDFS Sink 如何保证 exactly-once 语义
Flink之使用StreamingFileSink读取kafka数据并以parquet格式写入HDFS
Flink生成Parquet格式文件实战

你可能感兴趣的:(flink)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

Flink学习-DataStream-HDFSConnector(StreamingFileSink)

Flink学习-DataStream-HDFSConnector(StreamingFileSink)

Flink系列文章

摘要

1 Hadoop FileSystem Connector

2 File System

2.1 概述

2.2 文件系统实例创建时机

2.3 文件系统的选择

2.3.1 本地文件系统

2.3.2 HDFS/Hadoop兼容的其他文件系统

2.3.3 目前支持的可插拔的文件系统

2.3.4 新增可插拔的其他文件系统

2.4 文件系统配置

2.4.1 默认Schema

2.4.2 限制连接数

3 Streaming File Sink

3.1 概述

3.1.1 简介

3.1.2 源码

3.1.2.1 重要概念

3.1.2.2 StreamingFileSink重要属性和构造方法

3.1.2.3 StreamingFileSink.BucketsBuilder

3.1.2.4 StreamingFileSink重要方法

3.1.2.5 数据写入

3.2 BucketAssigner-桶分配策略

3.2.1 BucketAssigner

3.2.2 指定BucketAssigner

3.2.3 BasePathBucketAssigner

3.2.4 DateTimeBucketAssigner

3.3 PartFile

3.3.1 概述

3.3.2 生命周期

3.3.3 PartFile命名设置

3.3.4 RollingPolicy-PartFile滚动策略

3.3.5 PartFile序列化编码

3.3.5.1 Row Encoding

3.3.5.2 Bulk Encoding

3.3.5.2.1 概述

3.3.5.2.2 Parquet

3.3.5.2.3 Hadoop SequenceFile

3.3.5.2.4 Compress

3.3.6 PartFile与Exactly Once

3.4 注意事项

3.5 常见问题

3.5.1 少类、找不到方法

3.5.2 结果文件中文乱码

3.5.3 想要批量压缩？

3.5.4 HDFS租约问题

3.5.5 小文件怎么处理

3.5.5.1 概述

3.5.5.2 增加Checkpoint周期

3.5.5.3 减小并发subtask

3.5.5.4 后期合并

更多好文

参考文档

你可能感兴趣的:(flink)