Flink学习3-API介绍

系列文章目录

Flink系列1-基础概念
Flink系列2-安装和启动
Flink系列3-API介绍

摘要

本文主要是介绍Flink的不同层次(level)API抽象，学习怎么通过API高效处理有状态性的计算无界和有界的数据流。

1 Flink多层API

Flink提供了三个不同层次的API，每种API在简洁和易表达间有自己的权衡，适用于不同的场景：

可以看到Flink一共有三个抽象层次的API，目测应该前两个会用的比较多，他们更加简洁但是表达性比较差。下面自底向上分别简要介绍下这三个API。

1.1 ProcessFunctions

看了上面的图我们知道ProcessFunctions最具表现力但是简洁性最差，是最底层的抽象API，他被主要用来处理包含单独事件的一个或两个输入流或者是分组到一个窗口类的事件，所以提供了对时间和状态的细粒度控制。ProcessFunctions可强制修改state、重注册未来某时触发回调函数的timer，所以可以实现复杂事件处理逻辑，这正适合很多有状态的事件驱动应用程序。

因为最近作者调研主要涉及FLink流式SQL API，这里没有详看，想要了解的请参见最后参考文档中给出的连接学习。

1.2 DataStream API

DataStream API提供了若干常用的流/批处理操作，如窗口等。
有Java和Scala的API可选，都是依赖一些底层的基本方法如map/aggregate等实现的。

下面示例展示session化一个click流然后对每个session中的点击数计数：

// 网站的点击流
DataStream<Click> clicks = ...

DataStream<Tuple2<String, Long>> result = clicks
  // 将点击数与userId匹配，每一个点击就加1
  .map(
    // 定义一个实现了MapFunction接口的方法
    new MapFunction<Click, Tuple2<String, Long>>() {
      @Override
      public Tuple2<String, Long> map(Click click) {
        return Tuple2.of(click.userId, 1L);
      }
    })
  // key by userId (field 0)
  .keyBy(0)
  // 定义30分钟间隙的session窗口
  .window(EventTimeSessionWindows.withGap(Time.minutes(30L)))
  // 对每个session点击计数，并定义为lambda函数
  .reduce((a, b) -> Tuple2.of(a.f0, a.f1 + b.f1));

1.3 SQL&Table API

见第三章

2 库

Flink对常见的流式处理场景提供了若干内库，他们通常嵌入到API中，并非完全独立。因此，他们可以从API的所有特性中受益，并与其他库集成：

2.1 Complex Event Processing (CEP)

该内库提供API来指定不同事件的模式，就像正则表达式或是状态机。模式识别是非常常见的事件流处理场景。

CEP库的应用包括网络入侵检测，业务流程监控和欺诈检测。

2.2 DataSet API

DataSet API是Flink的核心API，用来应对批处理应用。

2.3 Gelly

Gelly是一个可扩展的图形处理和分析库，他在DataSet API之上集成实现。

Gelly具有内置算法，如标签传播，三角枚举和页面排名，但也提供了一个简化自定义图算法实现的Graph API。

3 SQL&Table API

3.1 概述

Flink高层API有两种：Table级别和SQL级别。两种API都是统一的处理批和流数据，也就是说对于无界、实时的流或者有界、记录型的流有着同样的处理语义，产生同样的结果。

Table和SQL API采用了Apache Calcite进行语句解析、验证和查询调优。
他们可以和DataStream及DataSet API无缝集成，并支持用户自定义的标量，聚合和表值函数。

Flink的关系型API旨在简化数据分析，数据管道和ETL应用程序。

下面这个示例功能和DataStream API中的相同，也是展示一个SQL查询将一个点击流session化，然后对每个session中的点击数计数：

SELECT userId, COUNT(*)
FROM clicks
GROUP BY SESSION(clicktime, INTERVAL '30' MINUTE), userId

这个SQL就是个流式处理SQL，简洁，高效。

3.2 限制

虽然flink 1.9.0支持DDL，但是尚不支持Time相关的元素。

可见:

FLIP-66: Support Time Attribute in SQL DDL
JIRA-Support Time Attribute in SQL DDL

3.3 连接外部系统

3.3.1 概述

可参考:

custom table source/sink

DDL不行，我们可以用Connect to External Systems，直接读写外部数据源流批数据：

Table Source
读取外部数据，如数据库、key-value库、MQ、文件系统等。

需要注册到Flink，然后可被Table/SQL API访问。
Table Sink
发送表数据到外部系统，如MySQL等

需要注册到Flink，然后可被Table/SQL API访问。
支持的格式
CSV Parquet ORC等
Table Schema
定义表的schema，描述了怎么将Table Source的数据格式映射到Table API的schema，以及Table映射到Sink的方式。可暴露给SQL查询。
支持Time属性
可以使用一个或多个字段来提取或插入时间属性到Table Schema。

Flink连接外部系统可通过以下两种方式指定：

使用 Table & SQL API，搭配org.apache.flink.table.descriptors下的内容
通过SQL客户端的YAML配置文件声明

一个Table & SQL API中连接外部数据源语句基本结构：

tableEnvironment
// 定义连接外部数据源
  .connect(...)
  // 定义解析外部数据源中数据格式
  .withFormat(...)
  // 定义流式数据表的schema
  .withSchema(...)
  // 定义输出表的更新模式（update modes）
  .inAppendMode()
  // 注册Source表到flink
  .registerTableSource("MyTable")
  // 注册Sink表到flink
  .registerTableSink
  // 使用相同名字注册Source和Sink表
  .registerTableSourceAndSink

一个从Kafka中读Avro格式存储的数据的例子：

tableEnvironment
  // 定义连接外部Kafka数据源的配置
  .connect(
    new Kafka()
      .version("0.10")
      .topic("test-input")
      .startFromEarliest()
      .property("zookeeper.connect", "localhost:2181")
      .property("bootstrap.servers", "localhost:9092")
  )

  // 定义解析外部kafka数据源中数据格式
  .withFormat(
    new Avro()
      .avroSchema(
        "{" +
        "  \"namespace\": \"org.myorganization\"," +
        "  \"type\": \"record\"," +
        "  \"name\": \"UserMessage\"," +
        "    \"fields\": [" +
        "      {\"name\": \"timestamp\", \"type\": \"string\"}," +
        "      {\"name\": \"user\", \"type\": \"long\"}," +
        "      {\"name\": \"message\", \"type\": [\"string\", \"null\"]}" +
        "    ]" +
        "}"
      )
  )

  // 定义流式数据表的schema
  .withSchema(
    new Schema()
      .field("rowtime", Types.SQL_TIMESTAMP)
        .rowtime(new Rowtime()
          .timestampsFromField("timestamp")
          .watermarksPeriodicBounded(60000)
        )
      .field("user", Types.LONG)
      .field("message", Types.STRING)
  )

  // 定义输出表的更新方式为append
  .inAppendMode()

  // 同时注册source和sink
  .registerTableSource("MyUserSourceTable");
  //registerTableSink可参考《深入理解flink》243页
  .registerTableSink("MyUserSinkTable");

配置的连接属性会被转换为标准化的、基于String的key-value键值对。会基于Java SPI机制搜索唯一匹配的Table Factory来创建Table Source、Table Sink以及相应的format。

3.3.2 Table Connector

3.3.2.1 概述

用来定义外部数据源连接。不是所有都支持流/批，支持批的Connector支持的Update Mode也不尽相同。

3.3.2.2 File System Connector

可读写本地或分布式文件系统（如HDFS）。注意，File System Connector做流处理目前还是试验阶段。

例子如下：

.connect(
  new FileSystem()
    .path("file:///path/to/whatever")    // required: path to a file or directory
)

3.3.2.3 Kafka Connector

Kafka Connector使得Flink可从Kafka中消费、写入数据。

关于Flink分区和Kafka分区关系
默认情况下，KafkaSink最多可以写入与其自身并行性（parallelism）一样多的Kafka分区，即每个并行的KafkaSink实例都写入一个Kafka分区。为了将写操作分配到更多分区或自定义每行数据到分区的路由，可以提供自定义接收器分区程序（sinkPartitionerCustom）。

循环分区器对于避免不平衡分区很有用，但是，这将导致所有Flink实例与所有Kafka Broker节点之间的大量网络连接。
一致性保证
默认情况下，如果在启用检查点的时执行Flink，则KafkaSink会将具有至少一次(at least once)保证的数据提取到Kafka中。
Kafka 0.10+的Timestamp属性
Kafka0.10开始，数据就带了一个timestamp作为元数据的一部分，该字段含义是数据写入Kafka的时间。该字段可用作Flink rowtime，请参考Java/Scala的timestampsFromSource方法。
Kafka 0.11+版本
因为Flink1.7开始，Kafka Connector的定义就应该是独立于硬编码的Kafka version了，所以使用.version("universal")作为Kafka0.11开始的所有版本Kafka的通配符。
其他说明
- 在项目中应添加KafkaConnector相关依赖。
- 配置适合的format。

例子：

.connect(
  new Kafka()
  	// 必填。版本号（"0.8", "0.9", "0.10", "0.11", "universal"）
    .version("0.11")   
    // 必填。订阅的topic
    .topic("student_info")  

    // Kafka连接属性
    .property("zookeeper.connect", "localhost:2181")
    .property("bootstrap.servers", "localhost:9092")
    .property("group.id", "testGroup")

    // 可选如下。指定无法找到group对应的offset时，从哪儿开始消费。
    .startFromEarliest()
    .startFromLatest()
    .startFromSpecificOffsets(...)

    // 当Flink分区往kafka分区写入数据时需要配置。 
    // 默认。每个Flink分区最多被分配到一个Kafka分区
    .sinkPartitionerFixed()
    // 一个Flink分区会以轮询方式发送到Kafka各个分区         
    .sinkPartitionerRoundRobin()    
    // 自定义FlinkKafkaPartitioner
    .sinkPartitionerCustom(MyCustom.class)    
)

3.3.2.4 Elasticsearch Connector

3.3.2.5 HBase Connector

3.3.2.6 JDBC Connector

3.3.3 Table Schema

3.3.3.1 概述

Table Schema定义表的每个列的名字和类型，类似于SQL create table语句那样，用来暴露给SQL查询。此外，还可以指定如何将列与表数据编码schema的字段进行映射。当输入列无序时，Tabel Schema可清晰地定义列名、顺序和来源。Table Schema会和Table Format匹配来在Table数据输入和输出的过程中完成Schema转换。

此外， Table Schema还可指定Time属性提取器。

3.3.3.2 例子

简单例子：

.withSchema(
  new Schema()
  	// 必填。和数据源中列顺序一致来指定Flink数据表的列
    .field("MyField1", Types.INT)
    .field("MyField2", Types.STRING)
    .field("MyField3", Types.BOOLEAN)
)

复杂例子：

.withSchema(
  new Schema()
    .field("MyField1", Types.SQL_TIMESTAMP)
    	// 可选的，指定该列为processing-time	
      .proctime()     
    .field("MyField2", Types.SQL_TIMESTAMP)
    	// 可选的，指定该列为event-time(rowtime)
      .rowtime(...)   
    .field("MyField3", Types.BOOLEAN)
    	// 可选的，指定该列的原始来源列为mf3
      .from("mf3")

3.3.3.3 Rowtime

上述的.rowtime(...)本小节详细说下。

rowtime在flink里用来处理事件时间event-time。

采用Rowtime时，总是需要设置timestamp提取策略和watermark策略。

timestamp提取为rowtime例子如下：

.rowtime(
  new Rowtime()
  	// 转换input中的某个LONG或SQL_TIMESTAMP类型的列为rowtime
    .timestampsFromField("ts_field")  
)

.rowtime(
  new Rowtime()
  	// 使用input数据中的timestamp属性来转为rowtime，需要数据源支持，如Kafka 0.10+版本
    .timestampsFromSource()
)

.rowtime(
  new Rowtime()
  	// 为rowtime设置一个自定义的timestamp转换器
  	// ，该转换器必须实现自 org.apache.flink.table.sources.tsextractors.TimestampExtractor
    .timestampsFromExtractor(...)
)

水位策略例子：

.rowtime(
  new Rowtime()
  	// 为升序的rowtime设置watermark。
  	// 发出截止目前观察到的最大timestamp-1的watermark。
  	// timestamp等于最大timestamp的行不算迟到。
    .watermarksPeriodicAscending()
)

.rowtime(
  new Rowtime()
  	// 为rowtime设置一个内嵌的watermark，该rowtime属性在有限的时间间隔内是乱序的
  	// 发出截止目前观察到的最大timestamp减去指定延迟（毫秒）的watermark。
    .watermarksPeriodicBounded(2000)
)


.rowtime(
  new Rowtime()
  	// 设置一个内置水印策略，该策略指示应从DataStream API中保留水印，从而保留数据源中分配的水印。
    .watermarksFromSource()
)

3.3.4 Table Formats

3.3.4.1 概述

一些外部数据系统支持不同的Table Formats，比如kafka或文件就支持其内存储的表的行使用CSV、JSON、Avro进行编码，所以需要指定Table Format来阐明外部数据源解析方式。

3.3.4.2 JSON Table Format

JSON格式允许读取和写入与给定的format schema相对应的JSON数据。format schema可用Flink type（SQl-like，映射到对应的SQL数据类型）、 JSON schema（适合复杂的嵌套数据结构）或目标表的schema（适合format schema等于table schema的场景，可自动派生出schema）来定义。

目前支持的JSON schema类型和Flink SQL类型如下：

Missing Field Handling: By default, a missing JSON field is set to null. You can enable strict JSON parsing that will cancel the source (and query) if a field is missing.

Make sure to add the JSON format as a dependency.

需要在项目中添加JSON依赖：

<dependency>
    <groupId>org.apache.flinkgroupId>
    <artifactId>flink-jsonartifactId>
    <version>${flink.version}version>
dependency>

实例：

.withFormat(
  new Json()
  	// 可选。当某个field缺失的时候，是否导致失败，默认false。
    .failOnMissingField(true) 

    // 可选方式1。使用Flink数据类型定义，然后mapping映射解析为对应的type的类型信息来定义schema
    // flink的ROW对应JSON的object结构,String对应VARCHAR等
    .schema(Type.ROW(...))

    // 可选方式2。使用JSON schema来定义，可支持非常复杂和嵌套的数据结构
    .jsonSchema(
      "{" +
      "  type: 'object'," +
      "  properties: {" +
      "    lon: {" +
      "      type: 'number'" +
      "    }," +
      "    rideTime: {" +
      "      type: 'string'," +
      		// 指定时间格式
      "      format: 'date-time'" +
      "    }" +
      "  }" +
      "}"
    )

    // 可选方式3。可直接使用表的schema来解析
    // 适用于Flink Table Schema和JSON Schema一致时
    // 此时只需要定义Table Schema,就能确定字段名称、类型、位置顺序等
    .deriveSchema()
)

3.3.5 Update Modes

3.3.5.1 概述

流式查询中，需要声明怎么执行动态表和外部Connector之间的转换，有以下模式：

Append Mode
仅交互INSERT操作数据
Retract Mode
交互ADD（编码了INSERT）和RETRACT（编码了DELETE和UPDATE）操作数据。

与Upsert Mode相反，Retract Mode不能定义key。

每个UPDATE操作由两条消息组成，效率较低。
Upsert Mode
交互UPSERT（编码了INSERT和UPDATE）和DELETE操作数据。

该模式需要一个唯一的key（可能是组合的），使用他来进行传播update。具体来说，外部连接器需要了解该唯一key属性，才能正确应用消息。

与Retract Mode的不同是，对Upsert Mode中的UPDATE变更使用单条消息进行编码，因此更有效率。

3.3.5.2 例子

.connect(...)
  .inAppendMode()    // otherwise: inUpsertMode() or inRetractMode()

每个connector支持哪些update mode，请参阅具体connector文档。

总结

这篇文章主要讲了一些Flink编程中用到的基本概念和API，为了更加深入理解，还要多学习下Example才行，请点击这里。

0xFF 参考文档

Streaming 101: The world beyond batch
Streaming 102: The world beyond batch
What is Apache Flink?
Flink实时性、容错机制、窗口等介绍
Flink事件时间处理和水印

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

Flink学习3-API介绍

Flink学习3-API介绍

系列文章目录

摘要

1 Flink多层API

1.1 ProcessFunctions

1.2 DataStream API

1.3 SQL&Table API

2 库

2.1 Complex Event Processing (CEP)

2.2 DataSet API

2.3 Gelly

3 SQL&Table API

3.1 概述

3.2 限制

3.3 连接外部系统

3.3.1 概述

3.3.2 Table Connector

3.3.2.1 概述

3.3.2.2 File System Connector

3.3.2.3 Kafka Connector

3.3.2.4 Elasticsearch Connector

3.3.2.5 HBase Connector

3.3.2.6 JDBC Connector

3.3.3 Table Schema

3.3.3.1 概述

3.3.3.2 例子

3.3.3.3 Rowtime

3.3.4 Table Formats

3.3.4.1 概述

3.3.4.2 JSON Table Format

3.3.5 Update Modes

3.3.5.1 概述

3.3.5.2 例子

总结

更多文档

0xFF 参考文档

你可能感兴趣的:(flink)