Flink基础【博学谷学习记录】

  1. 批量计算&弊端

1.1批量计算

  • 对有界数据集的计算。有边界:数据有开始,也有结束

  • 是对历史数据的计算

  • 数据是一批一批地计算,来一批,处理一批

  • 时效性较差、延迟较高

  • 比较节省资源

1.2弊端

在一些**时效性**非常高的场景,批量计算力不从心。

* 实时监控网站的异常情况

* 实时监测道路的拥堵情况

* 双十一、618实时监控成交额情况

* 实时监测全国疫情爆发情况

  1. 流式计算

生活中的流式场景非常多,比如水流、车流、行人、电流等都是生活中的流场景。

数据是无边界的。**无边界**:数据有开始,但是数据是没有结束的

数据是源源不断产生的,是实时产生的

数据是来一条处理一条,实时产生,实时处理

* 页面埋点日志

* 城市道路交通大屏

* 打车

* 外卖

* 实时大屏/看板展示

流式计算,是一种计算思想。不涉及某一门计算框架。

只要是实现了流式计算思想的框架,那么它就是流式计算框架。

Flink只是实现了流式计算思想的一门框架而已。

除了Flink,还有其他的计算框架,也是实现了流式计算思想的。

  1. Standalone模式下的任务提交

编辑/etc/profile文件,添加如下信息:

#FLINK_HOME目录

export FLINK_HOME=/export/server/flink

export PATH=$PATH:$FLINK_HOME/bin

添加完之后,source一下即可。

source /etc/profile

提交任务

#1.基础路径
cd ~

#2.提交任务
flink --help
flink -h/--h/-help/--help这4个提示命令,总有一个会生效


#3.提交命令
flink run /export/server/flink/examples/batch/WordCount.jar

#4.查看结果
结果默认会打印在标准输出。

#5.action说明【扩展】
Flink提供了很多的action操作:
run:运行一个任务
run-application:以Application的模式来运行任务
info:打印任务执行计划
list:列出当前正在运行的任务
stop:停止一个正在运行中的任务
cancel:取消一个正在运行中的任务
  1. Flink On Yarn模式

#1.启动HDFS

start-dfs.sh

#2.启动Yarn

start-yarn.sh

#3.添加Flink的兼容包

flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar

commons-cli-1.5.0.jar

上述这两个jar包都要放置在$FLINK_HOME/lib目录下。

Flink On Yarn可以有三种运行方式,也就是三种部署模式:

  • Session模式(会话模式)

  • Per-job模式(job分离模式)

  • Application模式(应用模式)

Flink可以基于上述3种模式中的任何一种来运行。

你可能感兴趣的:(大数据)