没有文化，啥也不会

Flink：快速上手flink

前言

Flink之WordCount

Flink流处理API

一、Environment

1.两种Environment

2.获取Environment的三种方式

二、Source

1.从集合中获取数据

2.从文本中获取流

3.从kafka中获取流

3.自定义source

三、Transform

1.转换算子

map

flatmap

filter

keyBy

滚动聚合算子

reduce

Split和Select

Connect和CoMap

Union

connect和union的区别

四、UDF函数类

普通函数类

富函数

前言

本文不介绍Flink简介以及其架构、特性等，仅是本人在学习flink过程中对代码方面做的一些笔记，如有不正确之处，欢迎指出。

Flink之WordCount

一个flink程序分为四个阶段：

首先用一段WordCount代码作为示例，说明一个Flink程序的基本流程。

    // 1.创建流处理环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    // 2.接收socket文本流
    val textDstream: DataStream[String] = env.socketTextStream("hd01", 12202)

    // 3.flatMap和Map需要引用的隐式转换
    import org.apache.flink.api.scala._
    // 4.进行计算
    val dataStream: DataStream[(String, Int)] = textDstream.flatMap(_.split("\\s")).filter(_.nonEmpty).map((_, 1)).keyBy(0).sum(1)
    // 5.打印、设置并行度
    dataStream.print().setParallelism(1)

    // 6.启动executor，执行任务
    env.execute("Socket stream word count")

代码解读：

1.创建执行环境（Environment）

和spark需要创建SparkContext一样，flink也需要创建一个ExecutionEnvironment。创建ExecutionEnvironment有三种方式，后面详细说。

2.创建流（Source）

根据数据源的不同，可能返回DataStream和DataSet两种数据类型。DataStream是流式数据，DataSet是类似sparkStreaming的批处理数据。数据源可以是文本文件、kafka、redis等，也可以是自定义的source，后面也会详细说。

3.导入隐式转换

DataStream是没有map、flatmap等方法的，需要导入隐式转换。

4.调用flatmap、map、keyby等算子进行计算（Transform）

其中flatmap、map、filter、keyby称为转化算子，sum则是滚动聚合算子（Rolling Aggregation）。需要注意的是：keyby所返回的数据不是DataStream，而是keyedStream，滚动聚合算子是针对keyedStream的每一个支流做聚合计算，DataStream是无法调用滚动聚合算子的。滚动聚合算子除了sum以外，还有min、max、minBy、maxBy。flink也可以自定义UTF函数，还有富函数、底层API、窗口与时间语义等后面都会详细说。

5.打印并设置并行度（Sink）

经过处理后的数据可以在sink阶段传递给不同地方，如控制台打印、kafka、mysql等。

另外，flink的每个算子后面都可以设置并行度，根据并行度以及API，会生成ExecutionGraph。flink中的执行图分为四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。本文不涉及这部分，后续在另一篇谈flink架构与特性中会说明。

6.启动任务

flink任务在环境对象调用execute方法时才会开始运行，参数为任务名。

Flink流处理API

一、Environment

1.两种Environment

Environment是Flink程序的入口，流处理和批处理的Environment是不同的，分别通过StreamExecutionEnvironment和ExecutionEnvironment来获得。

2.获取Environment的三种方式

方式一：getExecutionEnvironment

这种方式会根据程序运行环境自动获取ExecutionEnvironment。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境。是最常用的一种创建执行环境的方式。

//获取批处理执行环境
val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
//获取流处理执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment

方式二：createLocalEnvironment

返回本地执行环境，需要在调用时指定默认的并行度。

//获取本地执行环境，并设置并行度为1
val env = StreamExecutionEnvironment.createLocalEnvironment(1)

方式三：createRemoteEnvironment

返回集群执行环境，将Jar提交到远程服务器。需要在调用时指定JobManager的IP和端口号，并指定要在集群中运行的Jar包。

//获取集群环境
val env = ExecutionEnvironment.createRemoteEnvironment("jobmanage-hostname", port,"YOURPATH//wordcount.jar")

二、Source

source即是flink程序所处理的数据的来源，可以是一个集合(list)、文本文件、kafka等，也可以自定义source。

1.从集合中获取数据

    //创建执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //从集合中获取流
    val stream1 = env.fromCollection(List("good","bey","word"))

2.从文本中获取流

//从文本中获取流，直接传入文件位置即可
val stream2 = env.readTextFile("FILE_PATH")

3.从kafka中获取流

从kafka中获取流，需要在pom中添加flink链接kafka的连接器依赖。


    org.apache.flink
    flink-connector-kafka-0.11_2.11
    1.7.2

在具体代码中，需要创建一个Properties对象用于传递kafka集群的相关信息及可选配置，用于实例化flink-kafka连接器，然后通过在addSource中传入连接器对象来获取kafka数据流。

//创建Properties对象，并设置相关参数
val properties = new Properties()
properties.setProperty("bootstrap.servers", "localhost:9092")
properties.setProperty("group.id", "consumer-group")
properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
properties.setProperty("auto.offset.reset", "latest")


//在addSource中传入连接器对象，获取流
val stream3 = env.addSource(new FlinkKafkaConsumer011[String]("kafka_test", new SimpleStringSchema(), properties))

3.自定义source

从获取kafka流的代码中就可以看出，获取流可以通过调用执行环境对象的addSource方法来获取，且addSource方法的参数是一个SourceFunction。所以，只要自定义实现SourceFunction，就可以实现自定义source。

具体实现步骤如下：

1.创建运行标记、重写cancel方法和run方法。

2.在run方法中使用SourceContext的collect方法返回生成的数据。

class MySensorSource extends SourceFunction[String]{

    // flag: 表示数据源是否还在正常运行
    var running: Boolean = true
    
    //重现取消source方法，使其可以关闭
    override def cancel(): Unit = {
        running = false
    }

    //重写run方法，run方法是source生成数据的主要方法
    //SourceFunction.SourceContext[String]的泛型与SourceFunction一致，可以是自定义的类，此处为String
    override def run(ctx: SourceFunction.SourceContext[String]): Unit = {
        // 初始化一个随机数发生器
        val rand = new Random()


        while(running){
            // 生成随机数，作为ID
            var str = "ID" + rand.nextInt() 
            // 获取当前时间戳,拼接ID
            val curTime = System.currentTimeMillis()
            var str = str + curTime
            //返回给上下文环境
            ctx.collect(str )

            Thread.sleep(100)    
        }
    }
}

source生成的数据可以是自定义的类，这样可以更细粒度、更方便、更明确地进行计算，以上demo生成的是String，如果要生成自定义类型的数据，只需要指定代码中的两个泛型即可。

三、Transform

Transform阶段可以通过flink自带的算子和自定义的函数进行计算，下面对flink常用算子进行介绍。

1.转换算子

map

对每条数据进行转换，与spark中的map一致（以下flatmap和filter也是，掌握spark的可直接跳过）。

//将每条数据都乘以2
val streamMap = stream.map { x => x * 2 }

flatmap

将每条数据通过一定逻辑进行展开，并分割成多个数据。如：

//将每条数据进行分割，分割符尾空格
val streamFlatMap = stream.flatMap{
    x => x.split(" ")
}

filter

过滤，对每一条数据进行判断，返回结果为true的就留下，否则过滤掉。如：

//将每条数据对3取摩，留下哈希值等于1的数据
val streamFilter = stream.filter{
    x => x % 3 == 1
}

keyBy

将一个流在逻辑上拆分成不相交的分区，每个分区包含具有相同key的元素，在内部以hash的形式实现的。但是实际上还是一个流，只是相当于对每条数据打上标签而已。DataStream调用keyBy后，返回的是KeyedStream。

keyBy的参数可以指定按照哪个关键字或者元组的哪个位置的数据进行keyed。如：

// Key by field "someKey"
dataStream.keyBy("someKey") 
// Key by the first element of a Tuple（数组）
dataStream.keyBy(0)

KeyedStream可以调用滚动聚合算子对key相同的数据进行计算，之后可以通过reduce算子返回一个计算后的DataStream。

滚动聚合算子

这些算子可以针对KeyedStream的每一个支流做聚合。

sum()：计算分区内指定列或属性的总和。
min()：找出分区中最小的值。
max()：找出分区中最大的值。
minBy()：与min不同的是，min只能找出最小的值，而minBy则是可以找出最小值的整条数据。
maxBy()：与max不同的是，max只能找出最小的值，而maxBy则是可以找出最大值的整条数据。

reduce

一个分组数据流的聚合操作，合并当前的元素和上次聚合的结果，产生一个新的值，返回的流中包含每一次聚合的结果，而不是只返回最后一次聚合的最终结果。

也就是分别对应于keyBy、window/timeWindow 处理后的数据，根据ReduceFunction将元素与上一个reduce后的结果合并，产出合并之后的结果。

如文章开头的WordCount可以改为用reduce实现：

    val dataStream: DataStream[(String, Int)] = textDstream.flatMap(_.split("\\s")).filter(_.nonEmpty).map((_, 1)).keyBy(0).reduce((x,y)=>(x._0, x._0 + y._0))

其中x是上一批次的结果，y是当前数据。

Split和Select

Split是把DataStream转换成SplitStream。可以把一个流在逻辑上拆分成多个流，与keyBy一样，经过split后的流会转化为SplitStream，只是在逻辑上分为了多个而已，实际上仍是一个流，可以通过Select选择分支流，来将流彻底地分开。

select可以选中SplitStream中的某个支流，并返回该流。

如：将user类型的数据流根据user的ID分为奇数ID和偶数ID

//根据ID进行split，对流中每条数据进行判断，splitFunction的返回值必须是一个可迭代对象，且返回值就是支流的标签。
val splitStream = stream2
  .split( user => {
    if (user.id % 2 == 1){
        Seq("Odd ")
    }  else{
        Seq("Even")
    }
  } )

//通过select取出打上Odd标签的支流
val odd = splitStream.select("Odd ")
//通过select取出打上Even标签的支流
val even= splitStream.select("Even")
通过select取出打上Odd和Even标签的支流
val all = splitStream.select("Odd ", "Even")

Connect和CoMap

Connect可以把两个且只能是两个DataStream合并成一个ConnectedStream，而在该ConnectedStream内部，仍是两个相互独立的DataStream，两个DataStream的数据类型可以不一致。

所以ConnectedStream的map、flatmap算子都有两个参数，分别是处理ConnectedStream内部两个DataStream的mapFunction或flatFunction,且两个流之间是可以共享状态的。

//从kafka的不同topic中获取两个流
val stream1 = env.addSource(new FlinkKafkaConsumer011[String]("test1", new SimpleStringSchema(), properties))

val stream2 = env.addSource(new FlinkKafkaConsumer011[String]("test2", new SimpleStringSchema(), properties))

//connect
val connected = stream1.connect(stream2 )

//ConnectedStreams的map需要传递两个function
val coMap = connected.map(
    stream1=> (stream1._1, stream1._2),
    stream2 => (stream2._1, stream2._2)
)

Union

union是把两个或两个以上的DataStream真正合并成一个DataStream，但是DataStream的数据类型必须一致。

//从kafka的不同topic中获取两个流
val stream1 = env.addSource(new FlinkKafkaConsumer011[String]("test1", new SimpleStringSchema(), properties))

val stream2 = env.addSource(new FlinkKafkaConsumer011[String]("test2", new SimpleStringSchema(), properties))

//union
val stream3 = stream1 .union(stream2 )

connect和union的区别

1.connect只能合并两个流，union可以将两个或两个以上的流进行合并。

2.connect可以将数据类型不一致的流进行合并，union只能合并数据类型一致的流。

3.connect合并后，得到的是ConnectedStream，union合并后得到的仍是DataStream。ConnectedStream内部仍是两个流，可以对其分别调用不同的transformat算子进行转换，且两个流共享状态，也就是说两个流之间的计算结果是可以相互依赖的。

四、UDF函数类

在之前调用流的算子时，可以发现每个转换算子除了可以传入一个方法对象以外，还可以传入一个类对象，如：

不同算子可以传入的类对象也是不同的，如map算子对应MapFunction类，fliter算子对应FilterFunction。这些类即UDF函数类，通过UDF函数类可以更细粒度地完成转换操作。

UDF函数类分为两种：普通函数类(Function Classes)和富函数类(Rich Functions)。

每个算子都有一个对应的函数接口和富函数接口，自定义UDF函数只需实现接口并重写其中的方法即可。

两种函数的区别为：普通函数类只需实现一个算子对应的方法，如MapFunction实现map方法，FilterFunction实现filter方法等。而富函数类除了算子方法外，还需要实现open方法、close方法、getRuntimeContext等具有生命周期特征的方法。

普通函数类

以map算子为例，对应的UDF函数抽象类为MapFunction，实现该接口，并重写map方法：

class UdfTest extends MapFunction[String]{
  override def map(value: String): O = ???
}

UDF函数类与直接传入UDF函数方法的优点在于：函数方法会被每条数据调用一次；函数类只会实例化一次，每条数据调用的是函数类的map方法。所以一些只需创建一次，但每条数据计算都会使用到的变量或对象，就可以在创建函数类时创建，如jdbc等。

富函数

富函数可以说是同时实现了RichFunction和Function接口。如RichMapFunction继承了AbstractRichFunction抽象类，并实现了MapFunction，而AbstractRichFunction又实现了RichFunction接口，MapFunction实现了Function接口。生命周期方法就是在RichFunction中被定义的

public abstract class RichMapFunction extends AbstractRichFunction implements MapFunction {

	private static final long serialVersionUID = 1L;

	@Override
	public abstract OUT map(IN value) throws Exception;
}

富函数的生命周期方法：

open():函数的初始化方法。在实际工作方法之前调用,因此适合一次性设置工作。如初始化一个连接器。

close():在最后一次调用主工作方法之后调用的,此方法可用于清理工作。如资源回收。

getRuntimeContext():获取RuntimeContext对象。

getIterationRuntimeContext()：获取IterationRuntimeContext对象，多个RuntimeContext数量，等于并行度。

setRuntimeContext()：设置函数的运行时上下文。在创建函数的并行实例时由框架调用。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

Flink：快速上手flink

前言

Flink之WordCount

Flink流处理API

一、Environment

1.两种Environment

2.获取Environment的三种方式

二、Source

1.从集合中获取数据

2.从文本中获取流

3.从kafka中获取流

3.自定义source

三、Transform

1.转换算子

map

flatmap

filter

keyBy

滚动聚合算子

reduce

Split和Select

Connect和CoMap

Union

connect和union的区别

四、UDF函数类

普通函数类

富函数

你可能感兴趣的:(flink)