大数据计算引擎——Flink学习

从该网址上的内容中摘抄出来的,如有侵权,联系,可删,目的是做笔记记录,放在博客上易于查找~~~https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/index.html

大数据计算引擎的发展:
    Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。

第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce。
    缺点:对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个 Job 的串联,以完成一个完整的算法,例如迭代计算。
第二代计算引擎支持 DAG 的框架,针对于上述缺点,催生了第二代引擎。对于当时的 Tez 和 Oozie 来说,大多还是批处理的任务。
第三代的计算引擎以 Spark 为代表。
    特点:特点主要是 Job 内部的 DAG 支持(不跨越 Job),以及强调的实时计算。在这里,很多人也会认为第三代计算引擎也能够很好的运行批处理的 Job。随着第三代计算引擎的出现,促进了上层应用快速发展,例如各种迭代计算的性能以及对流计算和 SQL 等的支持
第四代Flink 的诞生。应该主要表现在 Flink 对流计算的支持,以及更一步的实时性上面。当然 Flink 也可以支持 Batch 的任务,以及 DAG 的运算。

Flink 是一个针对流数据和批数据的分布式处理引擎。
    Flink 会把所有任务当成流来处理,这也是其最大的特点。Flink 可以支持本地的快速迭代,以及一些环形的迭代任务。并且 Flink 可以定制化内存管理。在这点,如果要对比 Flink 和 Spark 的话,Flink 并没有将内存完全交给应用层。这也是为什么 Spark 相对于 Flink,更容易出现 OOM 的原因(out of memory)。
 Flink 几个最基础的概念:
     Client:        
         Client 用来提交任务给 JobManager
     JobManager :
         JobManager 分发任务给 TaskManager 去执行
     TaskManager    :
          TaskManager 会心跳的汇报任务状态。
看到这里,有的人应该已经有种回到Hadoop一代的错觉。确实,从架构图去看,JobManager 很像当年的JobTracker,TaskManager也很像当年的TaskTracker。然而有一个最重要的区别就是TaskManager之间是是流(Stream)。其次,Hadoop一代中,只有 Map和Reduce之间的Shuffle,而对Flink而言,可能是很多级,并且在TaskManager 内部和 TaskManager之间都会有数据传递,而不像Hadoop,是固定的 Map到Reduce。

Flink 中的调度简述:
在 Flink 集群中,计算资源被定义为 Task Slot。每个 TaskManager 会拥有一个或多个 Slots。JobManager 会以 Slot 为单位调度 Task。但是这里的 Task 跟我们在 Hadoop 中的理解是有区别的。对 Flink 的 JobManager 来说,其调度的是一个 Pipeline 的 Task,而不是一个点。举个例子,在 Hadoop 中 Map 和 Reduce 是两个独立调度的 Task,并且都会去占用计算资源。对 Flink 来说 MapReduce 是一个 Pipeline 的 Task,只占用一个计算资源。类同的,如果有一个 MRR 的 Pipeline Task,在 Flink 中其也是一个被整体调度的 Pipeline Task。在 TaskManager 中,根据其所拥有的 Slot 个数,同时会拥有多个 Pipeline。

Flink 的部署
Flink 有三种部署模式,分别是 Local、Standalone Cluster 和 Yarn Cluster。对于 Local 模式来说,JobManager 和 TaskManager 会公用一个 JVM 来完成 Workload。如果要验证一个简单的应用,Local 模式是最方便的。实际应用中大多使用 Standalone 或者 Yarn Cluster。下面我主要介绍下这两种模式。

你可能感兴趣的:(基础技术)