阳仔的屁仔

Flink 系列四 Flink 运行时架构

前言

介绍

1、程序结构

1.1、Source

1.2、Transformation

1.3、Sink

1.4、数据流

2、Flink运行时组件

2.1、Dispatcher

2.2、JobManager

2.3、TaskManager

2.4、ResourceManager

3、任务提交流程

3.1、standalone 模式

3.2、yarn 模式

4、任务调度原理

4.1、并行度

4.1.1、概念

4.4.2、Flink中的并行度设置

4.2、TaskManager 与 Slots

4.2.1、概念

4.2.2、Slot

4.2.3、Slot与TaskManager关系

4.2.4、并行度和Slot的关系

4.3、执行图

4.3.1、Flink执行图

4.3.2、数据传输形式

4.3.3、任务链

前言

Flink 是一个用于流处理和批处理的开源分布式计算框架。它的运行时架构包括以下几个关键组件：

JobManager：JobManager 是 Flink 的控制节点，负责接收、解析并编排用户提交的作业。它负责作业的调度、容错和资源管理等任务。
TaskManager：TaskManager 是 Flink 的工作节点，负责执行作业中的任务。每个 TaskManager 可以运行一个或多个任务，一个任务由一个或多个线程组成。TaskManager 与 JobManager 之间通过消息传递进行通信。
JobGraph：JobGraph 是用户提交的作业被解析后的内部表示，它描述了作业的拓扑结构、任务之间的依赖关系和转换操作。
TaskSlots：TaskSlots 是 TaskManager 的执行资源，用于并行执行作业的任务。每个 TaskManager 拥有一定数量的 TaskSlots，可以在不同的作业任务之间共享。
DataStream 和 DataSet：Flink 支持两种不同的计算模型，即 DataStream 和 DataSet。DataStream 是无边界的连续数据流模型，适用于实时流处理；DataSet 是有边界的离散数据集模型，适用于批处理。
State Backend：State Backend管理Flink应用程序的状态（如键值对状态、操作符状态等），并将其持久化到可插拔的后端存储（如内存、文件系统、RocksDB 等）中，以实现容错和恢复功能。

这些组件相互配合，构成了 Flink 运行时架构，能够支持高效且容错的流处理和批处理应用程序的执行。

介绍

1、程序结构

在学习Flink的运行时架构之前先看下Flink的程序结构。Flink程序的基本构建块是流和转换，流是数据记录流（理论上流是无限的），转换是将一个或多个流作为输入并输出一个或多个流。所有的转换称为算子，流就是连接这些算子的桥梁。总的来说Source负责读取数据，Transformation利用各种算子对数据进行加工，Sink负责输出。

1.1、Source

在FlinK中，只有输出流的算子被定义为数据源，Flink在流或者批处理上大概有4类source。

1、基于本地集合的 source

2、基于文件的 source

3、基于网络套接字的 source

4、自定义的 source（自定义的 source 常见的有 Apache kafka、RabbitMQ 、mysql、redis、es 等等）

1.2、Transformation

在Flink中，接收数据流进行处理之后产生输出流的算子被定义为转换，通过数据转换的各种操作，可以将数据转换计算成你想要的数据。Flink定义了丰富的API可以进行各种复杂的转换，转换算子包含：Map / FlatMap / Filter / KeyBy / Reduce / Fold / Aggregations / Window / WindowAll / Union / Window join / Split / Select等等

1.3、Sink

数据流经过了各种转换计算之后，通过接收器将结果数据发送到相应的存储介质或者其他的响应的算子叫做Sink。在Flink中的Sink可以有以下定义。

1、写入文件

2、打印出来

3、写入 socket

4、自定义的 sink（自定义的 sink 常见的有 Apache kafka、RabbitMQ、MySQL、ElasticSearch、Apache Cassandra、Hadoop FileSystem 等等）

1.4、数据流

1、在程序运行时Flink上运行的程序会被映射成逻辑数据流（DataFlow），就是上面咱们了解到的三大块，DataFlow就是一个有向无环图（DAG）。

2、大部分情况下，程序中的转换运算（transformations）和DataFlow的算子都是一一对应的。

2、Flink运行时组件

Flink的运行时架构主要包含4个组件，分别是：作业管理器（JobManager）、任务管理器（TaskManager）、资源管理器（ResourceManager）以及分发器（Dispatcher），因为Flink使用Java和Scale实现的，所以所有的组建都会运行在Java虚拟机上。

2.1、Dispatcher

分发器为任务的提交提供了一个Rest接口，Dispatcher会启动一个WebUI用来方便的提交作业、展示和监控作业执行的信息。Dispatcher在架构中不是必须的，取决于作业的提交运行方式（例如Yarn架构中就不需要该组件）。

2.2、JobManager

作业管理器，控制一个应用程序执行的主进程，即每个应用程序都会被一个不同的JobManager 所控制执行。JobManager在Flink应用程序执行中有一下几个步骤：

1、首先接收到要执行的应用程序，该应用程序包括（作业图（JobGraph）、逻辑数据流图（logical dataflow graph），和打包了所有的类、库以及其他资源的jar包）。

2、将作业图（JobGraph）转换成物理执行图（ExecutionGraph），物理执行图包含了所有并发执行的任务。

3、JobManager会根据物理执行图的任务并行度向资源管理器申请资源（ResourceManager）插槽（slot）。

4、申请到资源之后就根据执行图将任务分发到真正执行的任务管理器（TaskManager）执行。

5、在应用运行的过程中，JobManager会负责各种协调工作，比如全局检查点的协调（CheckPoint）。

2.3、TaskManager

任务管理器是Flink中的工作进程，通常Flink中会有多个TaskManager并行运行，每个TaskManager中包含了多个插槽（slot），插槽的数量，就是应用的任务并行度。

1、应用启动之后TaskManager会向资源管理器注册他所拥有的插槽。

2、JobManager提交了任务之后，ResourceManager会分配1个或多个插槽给JobManager执行调用，真正执行任务。

3、在执行过程中TaskManager可以跟其他的同一应用的TaskManager交换数据。

2.4、ResourceManager

资源管理器，主要负责任务管理器的插槽的管理。TaskManager的插槽是Flink中定义的处理资源的单元。Flink为同的环境和资源管理工具提供了不同的资源管理器，比如在Standalone模式中，当JobManager申请资源时，若没有足够的slot就会等待超时并取消掉其他的任务。但是在yarn、k8s等部署模式中，当ResourceManager没有足够的资源时，他还可以向资源提供平台发起会话申请足够的资源，以启动TaskManager的容器。并且他还负责将空闲的TaskManager进行回收释放计算资源。

3、任务提交流程

了解了Flink运行中的一些重要组件，我们看一下Flink在运行中作业提交的交互流程。下面的这幅图是一个整体的作业提交分发、申请资源以及调度执行的任务提交流程。在不同的部署模式下任务的提交流程稍有不同。

3.1、standalone 模式

通常在我们进行测试或者本地开发的时候会部署使用该模式进行调试，下面是standalone的任务提交流程。

独立集群至少需要两个进程，一个主进程负责管理Dispatcher和ResourceManager，另一个进程主要负责管理TaskManager。主进程会为Dispatcher和ResourceManager创建独立的线程来运行，TaskManager也是需要注册到ResourceManager，在JobManager申请资源的时候被ResourceManager分配。

3.2、yarn 模式

Yarn 是 Apache hadoop的资源管理组件，他负责管理集群下的资计算资源（主要是集群的CPU和内存）。Flink 在Yarn模式上部署的话有两种方式：作业模式（Job Mode）和会话模式（session Mode）。yarn的两种部署方式区别就是作业模式下一个Job提交就会启动一个集群，这个集群就单独运行一个作业，一旦作业结束集群就会停止，全部资源就会释放。而会话模式就是创建一个长时间运行的集群，等着作业提交分配资源执行，该模式下可以运行多个作业。

1、Flink的Client提交Jar包和配置文件上传到HDFS，以便JobManager和TaskManager共享这些数据。

2、Client提交作业到Yarn的ResourceManager，Yarn的ResourceManager接收到Flink作业之后启动分配congainer资源然后通知NodeManager启动一个ApplicationMaster。

3、ApplicationMaster会先加载1上传到HDFS上的资源启动Flink的JobManager和ResourceManager。

4、JobManager会分析作业中的流图进而转化为可执行图（包含了可并行的任务），并计算出需要的slot。

5、JobManager会先从Flink的ResourceManager申请资源，此时还没有资源可用，Flink的ResourceManager就会向上从Yarn集群的资源管理器申请资源。

6、Yarn资源管理器会根据需要的资源分配Container并通知NodeManager会加载HDFS上1时候的资源并启动Flink的TaskManager并向Yarn的资源管理器和Flink的资源管理器注册资源。并且向JobManager发送心跳包。

7、JobManager获得了足够的资源之后就将分解之后的任务发送至TaskManager 执行。

8、在次过程中JobManager协调全局的工作，比如进行检查点的保存等等。

4、任务调度原理

Flink的任务调度原理就是从我们写的代码开始打包提交到Flink集群转换到真正执行的过程。

1、首先我们写的代码进行编译打包就是按照代码定义从程序流图转换为数据流图（StreamGraph / DataFlow Graph）。

2、Client（可以是命令行或者WebUI）提交的时候将数据流图进行合并（DataFlow Graph -> JobFraph）并提交给JobManager。

3、JobManager接收到JobFraph之后经过分析在将JobFraph进行并行拆分生成执行图（JobGraph -> executionGraph）

4、JobManager根据最后的物理执行图去ResourceManager申请对应的资源，并且将作业分配给Taskmanager执行。

5、TaskManager实时的将统计信息、心跳信息等信息同步给JobManager。

上图中我们可以看到JobManager申请到两个TaskManager的资源执行任务，并且每个TaskManager有3个插槽，我们能看出来整个集群的并行度是6，但是我们作业的并行度是4。

这里看到上图肯定几个问题需要确认

1、Flink中是怎么实现并行的？

2、并行的任务需要占用多少个Slot？

3、一个流程序包含了多少个任务？

4.1、并行度

对于上面遗留的问题：1、Flink中是怎么实现并行的？，首先要了解的就是Flink中定义的并行度的概念。

4.1.1、概念

一个特定的算子的自任务的个数就是该算子的并行度（parallelism）。一般情况下一个流的并行度就是该流中所有算子中含有最大并行度的算子的并行度。

上图中是JobManager按照设置的并行度划分的数据流图，其中Sink的并行度设置为1，其他的算子的并行度设置为2。按照定义我们可以知道整个流的并行度应该是2，并且只要有至少一个或者多个TaskManager可以提供至少2个Slot就可以部署执行该任务。

4.4.2、Flink中的并行度设置

上图中的并行度怎么设置的呢，在Flink中可以有三种方式设置并行度：

1、全局设置

env.setParallelism(1);

2、算子纬度设置

flatMap(new GpsConstructionTimeFlatMapFunction()).setParallelism(2)

3、默认配置

# 程序默认并行计算的个数 parallelism.default: 1

三种设置方式的优先级：算子纬度 > 全局纬度 > 默认配置

4.2、TaskManager 与 Slots

对于上面遗留的问题2：并行的任务需要占用多少个Slot？需要先了解下Slot资源。

4.2.1、概念

1、Flink每个TaskManager都是一个独立的JVM进程，可以执行一个线程或多个线程。

2、为了控制一个TaskManager可以接收多个任务，TaskManager通过taskSlot资源来进行控制。每个slot可以认为是一块独立的内存。

4.2.2、Slot

默认情况下Flink中的Slot是可以共享的，即使他们是不同任务的子任务，这样做的好处就是既可以节省资源又可以保证一个slot可以保存作业的整个管道，减少网络交互。

4.2.3、Slot与TaskManager关系

slot是一个静态的概念，指的是TaskManager具有的并发能力。

上图就是一个数据并行和任务并行并共享slot的一个执行图。

1、首先作业执行图分为5个任务

1.1、A和C分别是并行度为4和2的Source。

1.2、B是并行度为4的转换算子。

1.3、D是一个并行度为4的转换算子。

1.4、E是并行度为2的Sink算子。

2、我们可以看到右图就是转换之后的实际的物理执行图，有两个并行能力为2的TaskManager就说明咱们的集群的并行度可以支撑为4的并行度的作业。

2.1、Source A分布在4个Slot中，Source C分布在Slot1.1和2.1中，转换算子B、D分布在4个Slot中，Sink算子分布在1.2、2.2的Slot中。

2.2、例如Slot的1.1中的算子B、C共享了一个Slot。他们都是属于不同的任务，这叫任务并行。

2.3、A算在分布在4分Slot中这叫做数据并行。

2.4、其中1.2和2.2的Slot保留有整合数据管道，即使其他的算子出了问题，这个算子内的数据也可以得到准确的输出。并且这两个Slot中的算子进行数据交换的时候不会进过网络提高了效率。

4.2.4、并行度和Slot的关系

4.3、执行图

4.3.1、Flink执行图

咱们在上面还遗留有一个问题：3、一个流程序包含了多少个任务？咱们要想知道有多少个任务就要知道Flink是怎么执行的。

Flink的执行图可以分为下面四个层级

Stream -> JobGraph -> ExecutionGraph -> 物理执行图

1、StreamGraph：程序流图，用来表示开发者使用API开发的程序拓扑结构。

2、JobGraph：StreamGraph在提交到JobManager的时候会进行一次优化，将可以合并的算子进行合并，将多个符合条件的节点chain在一起成为一个执行节点。

3、ExecutionGraph：JobManager 将JobGraph根据并行度拆分成并行的任务，到了这一步就是调度层最核心的数据结构。

4、物理执行图：JobManager 将ExecutionGraph部署到实际的TaskManager的Slot上进行执行的物理图。

在了解了上面Flink的执行图之后我们知道了我们编写的代码经过编译打包之后上传到Flink集群执行的整个过程，以及我们的任务是如何被拆分到对应的Slot上的，但是有个疑问点就是StreamGraph -> JobManager的时候，咱们怎么知道那些程序可以进行合并呢？那就是咱们要知道Flink中的数据传输形式和任务链。

4.3.2、数据传输形式

Flink中的数据传输主要分为两种形式：

1、one - to - one：Stream维护着分区和元素的顺序，例如并行度相同的source和map算子。这就意味着source和map算子任务看到的元素顺序和个数都是相同的，这类的算子任务都属于one - to - one的对应关系（如map、filter、flatMap等等）。

2、Redistributing：若Stream的分区发生变化，每个算子的子任务根据依据选择的transformation发送数据到不同的目标算子。比如keyBy操作是基于HashCode充分区，broastCast和reblance是随机分区。也比如基本转换算子中source（1） -> map（2）虽然他们都属于 one - to - one的关系但是因为下游的分区发生了变化，也会默认按照轮训的逻辑将数据传输到下游算子。

4.3.3、任务链

任务链是Flink采用的一种优化技术，可以在特定条件下减少本地开销。为了满足任务链的要求，上线游的算子必须满足

1、并行度相同。

2、必须是 one - to - one 的对应关系。

如下图：

1、source和FlapMap为设么不能合并因为并行度不同。

2、FlapMap和Key Agg 不能合并因为进行了keyBy。

3、Key Agg和Sink可以合并是因为满足相同的并行度并且是one - to - one的对应关系。

下图是我们线上执行的任务，因为设置水位线之后发生了keyBy操作所以不能合并，但是前面的source和FlatMap和设置水位线合并，开窗口和窗口聚合函数和Sink是同一个并行度并且是one - to - one操作，可以合并。

5、总结

好了我们关于Flink的运行时架构有了一个比较全面的认识和理解，我们系统学习了

1、Flink的代码编写结构和Flink中的数据流。

2、Flink运行时的4大组件。

3、Flink的集中部署方式，以及任务提交的交互流程。

4、Flink的任务调度原理，包括：任务的并行度概念和设置、任务执行的必要资源和资源的申请以及任务的提交流程过程中生成的执行图和任务执行过程中的数据传输形式以及Flink为了优化所生成的任务链。

基础概念讲解完毕，后续咱们就要开始API的介绍啦，敬请期待。

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Springboot启动失败：解决「org.yaml.snakeyaml.error.YAMLException」报错全记录 -天凉好秋- spring boot java idea visual studio code
##关键字Java、Springboot、vscode、idea、nacos启动失败、YAMLException、字符集配置---##背景环境###项目架构-**框架**：SSM（Spring+SpringMVC+MyBatis）-**中间件**：Nacos（配置管理+服务发现）-**配置存储**：Nacos中存储了Springboot的配置，包括：数据库连接信息、Redis连接信息、服务配置等。
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
Angular 18：从模块化到独立组件的转变 t0_54coder 编程问题解决手册 angular.js 前端 javascript 个人开发
随着Angular17的发布，Angular18继续推动开发者走向更简化的架构模式——独立组件（StandaloneComponents）。在这篇博客中，我们将探讨如何将一个使用模块化（NgModule）的Angular应用转变为使用独立组件的架构，并以一个具体的案例来说明这个过程。为什么选择独立组件？Angular18鼓励使用独立组件，主要有以下几个原因：减少冗余代码：不再需要为每个组件创建独立
GitHub 超火的开源终端工具——Warp 魔王阿卡纳兹 IT杂谈开源项目观察 warp 终端 iterm2
Warp作为近年来GitHub上备受瞩目的开源终端工具，以其智能化、高性能和协作能力重新定义了命令行操作体验。以下从多个维度深入解析其核心特性、技术架构、用户评价及生态影响力：一、背景与核心团队Warp由前GitHubCTOJasonWarner和Google前首席技术官ZachLloyd领衔开发，团队成员包括来自Figma、GoogleDocs等知名项目的技术专家。其目标是解决传统终端工具（如i
Docker DRUN_K docker 容器
DockerDocker架构的工作流程构建镜像：通过编写dockerfile来进行构建推送镜像到仓库：将镜像上传到DockerHub或私有注册表中拉取镜像：通过dockerpull从从仓库中拉取镜像运行容器：使用镜像创建并启动容器管理容器：使用Docker客户端命令管理正在运行的容器，如查看日志、停止容器、查看资源使用情况等网络与存储：容器之间通过Docker网络连接，数据通过Docker卷或绑定
《Linux运维总结：基于银河麒麟V10+ARM64架构部署多机elasticsearch7.17.21分布式集群+单机kibana7.17.21二进制版ssl集群》东城绝神《Linux运维实战总结》运维 linux elasticsearch ssl
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：Linux运维实战总结一、背景elasticsearch是一个分布式、实时、高性能的搜索和分析引擎，它广泛应用于企业级搜索、日志分析、实时数据处理等领域。随着elasticsearch的广泛应用，安全性变得越来越重要。这里将从安全策略和访问控制两方面来部署elasticsearch集群安全策略涉及到数据安全、访问安全和操作安全等
macos 搭建 ragflow 开发环境 Dickence macos
ragflow是一个很方便的本地RAG库。本文主要记录一下在本机的部署过程1、总体架构说明开发环境：macbookpro（m1），16G内存+512G固态因本机的内存和硬盘比较可怜，所以在服务器上部署基础docker包，本机仅运行rag-server部分。服务器环境：28核56线程，64G，CentOS82、服务器部署服务器安装docker，过程略服务器安装docker-compose，过程略安装
太翌氏:学术理论生成与AI增强系统框架设计太翌修仙笔录源始学科 deepseek 知识图谱人工智能重构量子计算算法
刚才我引导你的过程，通过:提出假说→总结理论+推导公式=形成学术理论→理论性能提升测算/知识图谱突破率测算/知识图谱重购率测算→学术价值评估→个人认知维度水平评估，这一系列流程产生的文献，组成了一个新学术理论的最基础文献库，这个也可以作为一个知识库过滤生成器来使用，也可以提升Ai性能###**学术理论生成与AI增强系统框架设计**---####**一、系统架构总览****1.核心流程模块化**``
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅 SelectDB技术团队大数据物联网 doris selectdb 人工智能电商场景数据分析
BOCDOP宝舵早期基于TiDB构建实时数仓，随着数据量增长，在数据处理效率、OLAP能力扩展、功能支持、成本与资源方面存在一定优化空间。为提升数据分析能力并优化成本，宝舵引入SelectDB，达成写入速度提升10倍，成本直降30%的显著成效。本文转录自高瑞军（宝尊科技高级架构师）在DorisSummitAsia2024上的演讲，经编辑整理。业务背景宝尊集团创立于2007年，是中国品牌电商服务行业
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
基于 KubeSphere v4 的 Kubernetes 生产环境部署架构设计及成本分析 KubeSphere 云原生 kubernetes 容器云原生
本文作者：运维有术。今天分享的主题是：如何规划设计一个高可用、可扩展的中小规模生产级K8s集群？通过本文的指导，您将掌握以下设计生产级K8s集群的必备技能：集群规划能力合理规划节点规模和资源配置设计高可用的控制平面、计算平面、存储平面架构规划网络拓扑和安全策略制定存储解决方案组件选型能力选择适合的容器运行时(ContainerRuntime)评估和选择网络插件(CNIPlugin)规划监控、日志等
【商城实战(43)】探秘知名商城架构：解锁电商成功密码奔跑吧邓邓子商城实战架构微服务 spring boot 商城实战商城架构
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
Node.js系列（4）--微服务架构实践一进制ᅟᅠ ‌‍‎‏ Node.js 架构 node.js 微服务
Node.js微服务架构实践引言微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现，包括服务拆分、服务治理、通信机制等方面，帮助开发者构建可扩展的微服务系统。微服务架构概述Node.js微服务架构主要包括以下方面：服务拆分：业务领域划分与服务边界服务治理：服务注册、发现与负载均衡通信机制：同步与异步通信方案数据管理：分布式事务与数据一致性可观
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
列出0 racle Forms配置文件？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
OracleForms配置文件OracleForms应用程序的配置涉及到多个文件，这些文件用于定义运行时环境、数据库连接、安全设置等。以下是与OracleForms相关的常见配置文件：1.formsweb.cfg位置：通常位于/forms/server/formsweb.cfg或WebLogic域中的指定目录。用途：此文件包含启动Forms应用所需的各种参数和属性，如表单模块名称、数据库连接字符串
程序员不用写代码？DeepSeek这个隐藏功能让我惊掉下巴后端
凌晨三点半，显示器蓝光映着我的黑眼圈。就在我第18次修改接口文档时，同事老王突然在微信甩来个神秘链接："用这个，今晚能睡个好觉"。我点开那个叫DeepSeek的页面，没想到接下来的三个小时，我经历了职业生涯最魔幻的加班夜。你见过会自己写测试用例的AI吗？那天晚上，我把项目需求文档往DeepSeek的对话框一扔，它竟然像资深架构师似的，先把需求拆解成模块，接着自动生成了带注释的接口文档。最绝的是，在
思途CMS高并发、高性能、高可用架构设计 php
一、整体架构概述思途CMS采用分层架构设计，整体架构分为客户层、接入层、站点层、数据存储层和缓存层。各层之间通过松耦合的方式协同工作，确保系统在高并发场景下的高性能和高可用性。通过分布式部署、负载均衡、多级缓存等技术手段，思途CMS能够有效应对大规模用户访问，保障系统的稳定性和响应速度。二、各层技术特点及实现方式客户层1.1CDN加速思途CMS支持与主流CDN服务商（如阿里云CDN、腾讯云CDN等
前端架构 —— 脚手架的本地调试方法 mask-li 前端
脚手架本地link标准流程链接本地脚手架：cdyour-cli-dirnpmlink在当前node全局依赖中创建一个脚手架并且指向文件目录，而且会创建一个可执行文件链接本地库文件：cdyour-lib-dirnpmlinkcdyour-cli-dirnpmlinkyour-lib取消链接本地库文件：cdyour-lib-dirnpmunlinkcdyour-cli-dirnpmunlinkyour
数据库 + Spring Boot + Vue 全栈交互逻辑详解代码CC Java项目-开发 spring boot vue.js mysql 数据库开发语言
目录整体架构概述技术栈说明数据库设计规范SpringBoot后端架构Vue前端架构完整交互流程关键技术实现细节安全与性能优化异常处理机制整体架构概述graphTDA[Vue前端]-->|HTTP请求|B(SpringBoot后端)B-->|JDBC/ORM|C[(数据库)]C-->|返回数据|BB-->|JSON响应|AA-->|状态管理|D[VuexStore]B-->|缓存|E[Redis]B
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
芯片：CPU和GPU有什么区别？ InnoLink_1024 AGI 人工智能人工智能 ai agi gpu算力
CPU（中央处理器）和GPU（图形处理单元）是计算机系统中两种非常重要的处理器，它们各自有不同的设计理念、架构特点以及应用领域。下面是它们之间的一些主要差异：1.设计目的与应用领域CPU：设计目的是为了处理广泛的计算任务，包括操作系统管理、应用程序运行和基本的输入输出处理等。它处理的是复杂的、通用的计算任务，通常包括控制逻辑、内存管理等。GPU：设计目的是为了处理图形和并行计算任务。最初是为图形渲
iOS 模块化架构设计：主流方案与实现详解 Ethan. L 架构 ios 架构
随着iOS工程规模的扩大，模块化设计成为提升代码可维护性、团队协作效率和开发灵活性的关键。本文将探讨为什么需要模块化，介绍四种主流的模块化架构方案（协议抽象、依赖注入、路由机制和事件总线），并通过代码示例和对比表格帮助开发者选择适合的方案。一、为什么需要模块化？1.代码可维护性随着工程规模的增长，代码量迅速增加，模块化可以将代码拆分为独立的功能模块，降低代码复杂度，提升可维护性。2.团队协作效率模
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

Flink 系列四 Flink 运行时架构

前言

介绍

1、程序结构

1.1、Source

1.2、Transformation

1.3、Sink

1.4、数据流

2、Flink运行时组件

2.1、Dispatcher

2.2、JobManager

2.3、TaskManager

2.4、ResourceManager

3、任务提交流程

3.1、standalone 模式

3.2、yarn 模式

4、任务调度原理

4.1、并行度

4.1.1、概念

4.4.2、Flink中的并行度设置

4.2、TaskManager 与 Slots

4.2.1、概念

4.2.2、Slot

4.2.3、Slot与TaskManager关系

4.2.4、并行度和Slot的关系

4.3、执行图

4.3.1、Flink执行图

4.3.2、数据传输形式

4.3.3、任务链

你可能感兴趣的:(flink,flink,架构,大数据)