Flink集群的搭建Standalone模式

今天我们来说一下flink,大家可能对flink还不是特别的熟悉,其实它是一个很早的项目,只是在2016年的时候才被大家所注意到,现在已经被很多公司所使用,作为一个后起之秀,或者说流计算的新贵,为什么它能得到大家的认可呢,Flink把批处理当作流处理中的一种特殊情况.在Flink中,所有的数据都看作流.这是一个很好的抽象.再加上它完善的checkpoint机制,使得它对状态的管理非常的细致.所以能够脱颖而出,相信在阿里这个巨人的肩膀上,它会很快火起来的.那我们今天就来玩一下flink,先从最基本的搭建flink集群开始吧.

这一篇介绍的是standalone模式,flink on yarn的请看这里

1.Flink独立集群模式安装(Cluster Standalone)

(1),JDK的配置和各个机器之间的免密我就不说了,网上随便一搜一大堆.

(2),解压包:  tar -zxvf flink-1.6.0-bin-hadoop28-scala_2.11.tgz 

(3),配置conf/flink-conf.yaml文件,如下所示:

#Jobmanager的IP地址,即master地址。
jobmanager.rpc.address: master  

#每一个TaskManager的堆大小(单位是MB),由于每个taskmanager要运行operator的各种函数(Map、Reduce、CoGroup等,包含sorting、hashing、caching),因此这个值应该尽可能的大。如果集群仅仅跑Flink的程序,建议此值等于机器的内存大小减去1、2G,剩余的1、2GB用于操作系统。如果是Yarn模式,这个值通过指定tm参数来分配给container,同样要减去操作系统可以容忍的大小(1、2GB)。
taskmanager.heap.size: 1024

#每个TaskManager的并行度。

你可能感兴趣的:(Flink)