Flink1.9编译

环境准备

  • git
  • maven
  • jdk 8u51及以上
  • flink1.9源码
git clone https://github.com/apache/flink.git

编译

Flink针对不同Hadoop版本编译方法不一样,请根据自己的情况自行选择

已预编译好的Hadoop版本

Hadoop 2.4.1、2.6.5、 2.7.5、 2.8.3四个版本Flink已经提供了预编译好的版本,可自行下载使用,如果自己想编译这四个版本,则参考如下命令操作:

# cd 到 flink主目录
git checkout release-1.9.3
mvn clean install -DskipTests -Dmaven.javadoc.skip=true -Dhadoop.version=2.7.6 -Pfast -Pinclude-hadoop

Maven 打包和编译时相关参数说明

对于其他Hadoop2.x版本

对于其他Hadoop2.x版本,包括Hadoop 2.4.1, 2.6.5, 2.7.5, 2.8.3的CDH、HDP等版本,由于flink依赖flink-shaded,而各大maven仓库并没有编译对应的版本,所以事先先编译安装flink-shaded,再编译flink。

  1. 编译flink-shaded
git clone https://github.com/apache/flink-shaded.git
cd flink-shaded
git checkout release-7.0
mvn clean install -DskipTests -Dhadoop.version=2.9.2

mvn处理完成之后,对应的flink-shaded就安装在本地的maven仓库。

  1. 编译Flink
cd flink
git checkout release-1.9.3
mvn clean install -DskipTests -Dmaven.javadoc.skip=true -Dhadoop.version=2.9.2 -
Pfast -Pinclude-hadoop

编译完之后在flink/flink-dist/target/flink-1.9.3-bin

留意点

  • 使用Scala哪个版本开发Flink应用,就基于Scala哪个版本来编译Flink(2.11/2.12),如果你只想使用Flink的JavaAPI,则不用选择scala版本(-Dscala-2.11或者-Dscala-2.12来指定Scala版本)。
  • 编译针对HDP、CDH、MapR的Hadoop版本可使用-Pvendor-repos
  • -Pinclude-hadoop会自动把flink-shaded-hadoop包打包到lib目录下

Flink自编译的必要性

例如CDH6.2为例,它的Hadoop版本是3.x.x,是不是非要专门进行编译才能使用呢?答案是否定的。

  • 如果使用的Hadoop是Hadoop2.4.1,2.6.5,2.7.5,2.8.3 => 直接使用预编译的Hadoop版本即可
  • 如果使用的Hadoop是2.x,但不是2.4.1,2.6.5,2.7.5,2.8.3 => 直接使用预编译的Hadoop版本即可,也可以自己编译
  • 如果使用的是Hadoop3.x,但不会在Flink编程中使用Hadoop3特有的API => 直接使用预编译的Hadoop版本即可
  • 如果使用的是Hadoop3.x,且需要使用Hadoop3特有的API => 需要自己编译

如果自己编译应该编译哪个版本呢?以下是blink开发人员给出的答案:

  • blink内部版本使用hadoop3.0版本的client,从而能使用到一些yarn3.x才有功能(比如GPU调度)。
  • 如果使用hadoop3.0特有的api后,会导致flink在低版本的hadoop集群中不能正常运行。
  • 目前大部分yarn用户还是以hadoop2.6为主,所以目前blink开源版对于hadoop的依赖是2.6及以上版本的。
  • 如果flink用户不需要hadoop3.0特有的api的话,编译flink时用hadoop2.6版本即可。
  • 我们已经测试过基于hadoop2.6.5的flink能够正常运行在hadoop3.x的集群中。

你可能感兴趣的:(Flink1.9编译)