Flink中的批和流

批处理的特点是有界、持久、大量,非常适合需要访问全部记录才能完成的计算工作,一般用于离线统计。
流处理的特点是无界、实时, 无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。
而在Flink中,一切都是由流组成的,Flink认为有界数据集是无界数据流的一种特例,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。
无界流:意思很明显,只有开始没有结束。必须连续的处理无界流数据,也即是在事件注入之后立即要对其进行处理。不能等待数据到达了再去全部处理,因为数据是无界的并且永远不会结束数据注入。处理无界流数据往往要求事件注入的时候有一定的顺序性,例如可以以事件产生的顺序注入,这样会使得处理结果完整。
有界流:也即是有明确的开始和结束的定义。有界流可以等待数据全部注入完成了再开始处理。注入的顺序不是必须的了,因为对于一个静态的数据集,我们是可以对其进行排序的。有界流的处理也可以称为批处理。

实时数仓
数据的额实时清晰,归并,结构化
数仓的补充和优化
实时监控
对用户行为或相关事件进行实时监测和分析,基于风控规则进行预警
用户行为预警,app crasn预警,服务器攻击预警
实时报表
双11,双12等活动直播大屏
对外数据产品,生意参谋等
数据化运营
流数据分析
实时计算相关指标反馈及时调整决策
内容投放,无线智能推送,实时个性化推荐等;

你可能感兴趣的:(flink,大数据)