前段时间调研了一下实时计算相关技术,因为后期会搭建我们的数据分析平台,由于近期精力有限,没有做过多深入了解,在我们测试库上搭建flink服务,做了一些常规的job提交等操作,同时对apache flink做了一些入门的学习,由于目前阿里云的实时计算框架,就是采用apache flink技术,所有后期会对apache flink进行更深入的学习。
核心要素
Checkpoint:Exactly-Once语义实现的关键;
State:如果当前事件的处理结果与之前事件有关,则称为有状态处理;相反,如果当前事件的处理结果只与事件本身相关,则为无状态的;
Window:流计算的基本单元,window将无限的流分隔成有限大小的bucket进行处理;
Time:定义事件的顺序;
特性
有状态计算的Exactly-once语义。状态是指flink能够维护数据在时序上的聚类和聚合,同时它的checkpoint机制
支持带有事件时间(event time)语义的流处理和窗口处理。事件时间的语义使流计算的结果更加精确,尤其在事件到达无序或者延迟的情况下。
支持高度灵活的窗口(window)操作。支持基于time、count、session,以及data-driven的窗口操作,能很好的对现实环境中的创建的数据进行建模。
轻量的容错处理( fault tolerance)。 它使得系统既能保持高的吞吐率又能保证exactly-once的一致性。通过轻量的state snapshots实现
支持高吞吐、低延迟、高性能的流处理
支持savepoints 机制(一般手动触发)。即可以将应用的运行状态保存下来;在升级应用或者处理历史数据是能够做到无状态丢失和最小停机时间。
支持大规模的集群模式,支持yarn、Mesos。可运行在成千上万的节点上
支持具有Backpressure功能的持续流模型
Flink在JVM内部实现了自己的内存管理
支持迭代计算
支持程序自动优化:避免特定情况下Shuffle、排序等昂贵操作,中间结果进行缓存
程序和数据源
Flink程序构建的基本单元是stream和transformation(请注意,DataSet实质上也是stream)。一个stream是一个中间结果,一个transformation是一个操作,该操作以一个或多个stream为输入,计算输出一个或多个stream为结果。
在运行时,Flink上运行的程序会被映射成streaming dataflows,它包含了streams和transformations操作。每个dataflow以一个或者多个source开始,以一个或多个sink结束。dataflow类似于有向无环图(DAG),特殊形式的环也允许通过iteration构建。
在大多数情况下,程序中的transformation和dataflow中的操作是一一对应关系,但有时候一个transformation可能对应了多个操作。
并行的数据流
在Flink中,程序天生是并行和分布式的:一个Stream可以被分成多个Stream分区(Stream Partitions),一个Operator可以被分成多个Operator Subtask,每一个Operator Subtask是在不同的线程中独立执行的。一个Operator的并行度,等于Operator Subtask的个数,一个Stream的并行度总是等于生成它的Operator的并行度
API
Flink有四个主要的API
DataStream API适合用于那些实现在数据流上转换的程序。(例如:过滤,更新状态,窗口定义,聚合)
DataSet API适合用于那些实现在数据流上转换的程序(例如:过滤,映射,连接,分组)
Table API适合于关系流和批处理,能轻松嵌入Flink的 DataSet API 和 DataStream API 的类SQL表达式的语言(Java和Scala)。
Streaming SQL 允许在流和多表上执行SQL查询。