二 Flink的部署

文章目录

  • 1 单机模式
    • 1.1 在命令行提交任务
    • 1.2 配置taskslot num
  • 2 配置standalone集群模式
    • 2.1 更改flink-conf.yaml 文件
    • 2.2 更改slaves
    • 2.3 启动集群
  • 3 yarn 模式(session 模式和job模式)
    • 3.1 下载hadoop依赖包,可以在flink官网上下载.
    • 3.2 把下载的hadoop依赖包放到flink的lib目录里面.
    • 3.3 启动集群
    • 3.4 启动yarn session.sh
    • 3.4 使用./bin/flink run跑任务
    • 3.5 yarn还有一种job模式提交任务

1 单机模式

1. 下载flink
可以导官网上下载: https://flink.apache.org/

2.解压到linux的一个文件夹下

3.然后执行flink/bin目录下的start-cluster.sh

./bin/start-cluster.sh
  1. 通过Web UI去查看flink和提交任务
http://localhost:8081

1.1 在命令行提交任务

./bin/flink run 打包好的 JAR 包的绝对路径
./bin/flink run -c 需要运行程序的主类所在包 -p Parallelism jar包的绝对路径 --host localhost --port 7777

./bin/flink run -c com.wc.WordCount -p 1 /num/target/World.jar --host xiaoai08 --port 7777

1.2 配置taskslot num

在conf目录下的flink-conf.yaml文件中配置

taskmanager.numberOfTaskSlots: 1

2 配置standalone集群模式

2.1 更改flink-conf.yaml 文件

jobmanager.rpc.address: xiaoai08 //jobmanager的主机名字

2.2 更改slaves

在该文件上添加所有主机的地址

xiaoai07
xiaoai08
xiaoai09

2.3 启动集群

./bin/start-cluster.sh

3 yarn 模式(session 模式和job模式)

只需在一台机器上有flink.

3.1 下载hadoop依赖包,可以在flink官网上下载.

二 Flink的部署_第1张图片

3.2 把下载的hadoop依赖包放到flink的lib目录里面.

3.3 启动集群

3.4 启动yarn session.sh

bin/yarn-session.sh

这个命令后面有很多参数.

yarn-session.sh -n 2 -jm 1024 -tm 1024 -d -s 2
-n 2 表示指定两个容器 
-jm 1024 表示jobmanager 1024M内存 
-tm 1024表示taskmanager 1024M内存 
-d --detached  任务后台运行 
-s  指定每一个taskmanager分配多少个slots(处理进程)。建议设置为每个机器的CPU核数。一般情况下,vcore的数量等于处理的slot(-s)的数量
-nm,--name YARN上为一个自定义的应用设置一个名字
-q,--query 显示yarn中可用的资源 (内存, cpu核数)
-qu,--queue <arg> 指定YARN队列.
-z,--zookeeperNamespace <arg> 针对HA模式在zookeeper上创建NameSpace

-n,–container 表示分配容器的数量(也就是 TaskManager 的数量)。
-D 动态属性。
-d,–detached 在后台独立运行。
-jm,–jobManagerMemory :设置 JobManager 的内存,单位是 MB。
-nm,–name:在 YARN 上为一个自定义的应用设置一个名字。
-q,–query:显示 YARN 中可用的资源(内存、cpu 核数)。
-qu,–queue :指定 YARN 队列。
-s,–slots :每个 TaskManager 使用的 Slot 数量。
-tm,–taskManagerMemory :每个 TaskManager 的内存,单位是 MB。
-z,–zookeeperNamespace :针对 HA 模式在 ZooKeeper 上创建 NameSpace。
-id,–applicationId :指定 YARN 集群上的任务 ID,附着到一个后台独立运行的 yarn session 中

3.4 使用./bin/flink run跑任务

./bin/flink run ./path/to/job.jar

3.5 yarn还有一种job模式提交任务

这种模式不需要启动session
bin/flink run -m yarn-cluster -yn 3 -ys 3 -ynm bjsxt02 -c com.bjsxt.flink.StreamWordCount /home/Flink-Demo-1.0-SNAPSHOT.jar
-yn,–container 表示分配容器的数量,也就是 TaskManager 的数量。
-d,–detached:设置在后台运行。
-yjm,–jobManagerMemory:设置 JobManager 的内存,单位是 MB。
-ytm,–taskManagerMemory:设置每个 TaskManager 的内存,单位是 MB。
-ynm,–name:给当前 Flink application 在 Yarn 上指定名称。
-yq,–query:显示 yarn 中可用的资源(内存、cpu 核数)
-yqu,–queue :指定 yarn 资源队列
-ys,–slots :每个 TaskManager 使用的 Slot 数量。
-yz,–zookeeperNamespace:针对 HA 模式在 Zookeeper 上创建 NameSpace
-yid,–applicationID : 指定 Yarn 集群上的任务 ID,附着到一个后台独立运行的 Yarn Session 中。

你可能感兴趣的:(Flink学习笔记,flink,大数据)