Flink实时计算运用(一)概述与应用场景

1. Flink概述

  • Flink是什么

    Flink是一个面向数据流处理批处理分布式开源计算框架。

    Flink实时计算运用(一)概述与应用场景_第1张图片

  • 无界流VS有界流

    任何类型的数据都可以形成流数据,比如用户交互记录, 传感器数据,事件日志等等。

    Apache Flink 擅长处理无界和有界数据集。 精确的时间控制和有状态的计算,使得 Flink能够运行任何处理无界流的应用

    流数据分为无界流和有界流

    1) 无界流:有定义流的开始,但没有定义流的结束, 会不停地产生数据,无界流采用的是流处理方式。

    2) 有界流:有定义流的开始, 也有定义流的结束, 需要在获取所有数据后再进行计算,有界流采用的是批处理方式。

    Flink实时计算运用(一)概述与应用场景_第2张图片

  • 编程模型

    Flink实时计算运用(一)概述与应用场景_第3张图片

    DataSet 一般用来处理有界流数据。

    DataStream一般用来处理无界流数据。

2. 应用场景-智能推荐

什么是智能推荐?

定义: 根据用户行为习惯所提供的数据, 系统提供策略模型,自动推荐符合用户行为的信息。

例举:

比如根据用户对商品的点击数据(时间周期,点击频次), 推荐类似的商品;

根据用户的评价与满意度, 推荐合适的品牌;

根据用户的使用习惯与点击行为,推荐类似的资讯。

应用案例:

  1. 小红书推荐系统

Flink实时计算运用(一)概述与应用场景_第4张图片

  1. 实时流处理

Flink实时计算运用(一)概述与应用场景_第5张图片

  1. Flink处理(新一代大数据处理引擎)

    Flink实时计算运用(一)概述与应用场景_第6张图片

3. 应用场景-实时数仓

1)什么是实时数仓

数据仓库(Data Warehouse),可简写为DW或DWH,是一个庞大的数据存储集合,通过对各种业务数据进行筛选与整合,生成企业的分析性报告和各类报表,为企业的决策提供支持。实时仓库是基于Storm/Spark(Streaming)/Flink等实时处理框架,构建的具备实时性特征的数据仓库。

2)应用案例

分析物流数据, 提升物流处理效率。

Flink实时计算运用(一)概述与应用场景_第7张图片

3)阿里巴巴菜鸟网络实时数仓设计:

Flink实时计算运用(一)概述与应用场景_第8张图片

4)数仓分层处理架构(也称流式ETL):

ODS -> DWD -> DWS -> ADS

ODS(Operation Data Store):操作数据层, 一般为原始采集数据。

DWD(Data Warehouse Detail) :明细数据层, 对数据经过清洗,也称为DWI。

DWS(Data Warehouse Service):汇总数据层,基于DWD层数据, 整合汇总成分析某一个主题域的服务数据,一般是宽表, 由多个属性关联在一起的表, 比如用户行为日志信息:点赞、评论、收藏等。

ADS(Application Data Store): 应用数据层, 将结果同步至RDS数据库中, 一般做报表呈现使用。

Flink实时计算运用(一)概述与应用场景_第9张图片

4. 应用场景-大数据分析应用

  1. IoT数据分析

    1) 什么是IoT

    物联网是新一代信息技术,也是未来发展的趋势,英文全称为: Internet of things(IOT),顾名思义, 物联网就是万物相联。物联网通过智能感知、识别技术与普适计算等通信感知技术,广泛应用于网络的融合中,也因此被称为继计算机、互联网之后世界信息产业发展的第三次浪潮。

    2) 应用案例

    物联网设备运营分析:

    Flink实时计算运用(一)概述与应用场景_第10张图片

    华为Iot数据分析平台架构:

    Flink实时计算运用(一)概述与应用场景_第11张图片

  2. 智慧城市

    城市中汽车越来越多, 川流不息,高德地图等APP通过技术手段采集了越来越多的摄像头、车流的数据。

    但道路却越来越拥堵,越来越多的城市开始通过大数据技术, 对城市实行智能化管理。

    2018年, 杭州采用AI智慧城市,平均通行速度提高15%,监控摄像头日报警次数高达500次,识别准确率超过92%,AI智慧城市通报占全体95%以上,在中国城市交通堵塞排行榜, 杭州从中国第5名降至57名。

    Flink实时计算运用(一)概述与应用场景_第12张图片

    Flink实时计算运用(一)概述与应用场景_第13张图片

  3. 金融风控

    风险是金融机构业务固有特性,与金融机构相伴而生。金融机构盈利的来源就是承担风险的风险溢价。

    金融机构中常见的六种风险:市场风险、信用风险、流动性风险、操作风险、声誉风险及法律风险。其中最主要的是市场风险和信用风险

    线上信贷流程,通过后台大数据系统进行反欺诈和信用评估:

    Flink实时计算运用(一)概述与应用场景_第14张图片

  4. 电商行业

    用户在电商的购物网站数据通过实时大数据分析之后, 通过大屏汇总展示, 比如天猫的双11购物活动,通过大屏, 将全国上亿买家的订单数据可视化,实时性的动态展示,包含总览数据,流式TopN数据,多维区域统计数据等,极大的增强了对海量数据的可读性。

    TopN排行:

    Flink实时计算运用(一)概述与应用场景_第15张图片

    区域统计:

    Flink实时计算运用(一)概述与应用场景_第16张图片


本文由mirson创作分享,如需进一步交流,请加QQ群:19310171或访问www.softart.cn

你可能感兴趣的:(flink,big,data,人工智能)