赵慧@Flink China

Jstorm到Flink 在今日头条的迁移实践

本文将为大家展示字节跳动公司怎么把Storm从J storm迁移到Flink的整个过程以及后续的计划。你可以借此了解字节跳动公司引入Flink的背景以及Flink集群的构建过程。字节跳动公司是如何兼容以前的Jstorm作业以及基于Flink做一个任务管理平台的呢？本文将一一为你揭开这些神秘的面纱。

本文内容如下：

引入Flink的背景
Flink集群的构建过程
构建流式管理平台

引入Flink的背景

下面这幅图展示的是字节跳动公司的业务场景

首先，应用层有广告，也有AB测，也有推送和数据仓库的一些业务。然后在使用J storm的过程中，增加了一层模板主要应用于storm的计算模型，使用的语言是python。所以说中间相对抽象了一个schema，跑在最下面一层Jstorm计算引擎的上面。
字节跳动公司有很多Jstorm集群，在当时17年7月份的时候，也就是在计划迁移到Flink之前，Jstorm集群的规模大概是下图所示的规模级别，当时已经有5000台机器左右了。

接下来，介绍下迁移Flink的整个过程。先详细地介绍一下当时JStorm是怎么用的。

上面是一个word count的例子：左边是一个目录结构，这个目录结构在resources下面，里面的Spout/Bolt的逻辑都是一些python脚本写的。然后在最外层还有一个topology_online.yaml配置文件。
这个配置文件是用来干什么的？就是把所有的Spout和Bolt串联起来构成一个有向无关图，也就是DAG图。这就是使用Jstorm时的整个目录结构，大部分用户都是这样用的。右边是Spout和Bolt的逻辑，其实是抽象出来了一个函数，就在这里面写业务方面的函数，然后将tuple_batch也就是上游流下来的数据去做一些计算逻辑。

下面详细介绍一下配置文件的信息，其实我们有整个拓扑结构拓扑的信息，比如说作业名叫什么，作业需要多少资源，需要多少work数。这里面会有单个的spout和Bolt的配置信息，比如是消费的topic还是一些并发度？
除了这些信息还有整个这个数据流的流转，比如说spout的输出，输出messsage的消息等等。最后还有整个的Spout到Bolt之间的shuffle逻辑。这就是我们之前Jstorm的整个使用方式。最后会把整个目录结构里面的内容去解析出来，根据配置文件把整个storm的拓扑结构构建出来，然后提交到集群上面去跑。

使用Jstorm集群遇到的问题

第一个问题，如果使用python写的代码，整个集群是没有内存隔离的，job和work之间是没有内存限制的。比如说在实际过程中会经常遇到一个用户，他可能代码写的有问题导致一个work可能占了70G内存，把机器的内存占了1/3。
第二个问题就是说业务团队之间没有扩大管理，预算和审核是无头绪的。我们当时都是都是跑在一个大集群上面，然后个别业务是单独跑在一些小集群，但是我们每次都是资源不足，也没办法梳理这个预算。
第三个问题就是集群过多，运维平台化做得不太好，都是靠人来运维的。这个时候集群多了基本上是管不过来的。
第四个问题就是说我们用python写的代码，有些性能比较差。但是我们在Storm的基础上面去推广这个Java也比较难，因为我们部分同事实际上是不认可Java的，因为他觉得java开发速度太慢了。

我们当时想解决上面的问题，一个思路是把Jstorm放在yarn上面，直接把Jstorm在yarn上面兼容做这一套。后来因为知道阿里在用Flink所以去调研Flink，发现了Flink的一些优势，所以想尝试用Flink解决存在的问题。
使用Flink首先第一个问题可以成功解决，因为Flink作业是跑在yarn上面的，这就解决了内存隔离的问题。然后Yarn也是支持队列的，我们可以根据业务去划分队列，这样我们的扩大预算审核的问题得到解决了。我们也不需要自己运维一个集群了，因为有yarn去管理我们的资源，这样也节省了运维成员。在此基础上还可以做一些物理隔离队列，其实物理隔离队列现在也遇到了问题。因为物理隔离队列只是说这个机器隔离了，但是相当于是机柜也没有隔离网络带宽也没有隔离，所以说即使是物理隔离队列，现在也遇到比如说和离线作业共用机柜的时候，这个机柜的出口带宽被打满的问题。针对这些问题，我们后续可能想在这个离线离线集群上面做QOS这种流量级别的方式来解决这个问题。
Flink实际上是可以兼容Storm的，比如说之前的历史作业是可以迁移过来的，不需要维护两套计算引擎。Flink支持一些高优先级的API比如说支持SQL以及窗口等特性包括说checkpoint。我们头条的业务对exactly-once的需求不是特别的强烈。

以上就是Flink的优势，于是我们就决定从J storm往Flink去迁移。

Flink集群的构建过程

在迁移的过程中，第一件事情是先把Flink集群建立起来。一开始肯定都是追求稳定性，比如说把离线的yarn集群隔离开，然后不依赖于HDFS也可以把Hdfs线上的namenode， namespace隔离出来。然后我们梳理了原来storm上面的作业，哪些作业属于不同的业务，然后映射到不同的队列里面去，最后把一些特殊的队列也隔离开来。这是准备Fink集群的时候考虑的几点。

Flink如何兼容Jstorm并迁移

我们当时Flink用的是1.3.2版本，因为Flink有Flink-storm这个工程，它能把Storm作业转化成Flink作业，我们就借鉴这些技术上实现了一个Flink–>jstorm。相当于把一个Jstorm的拓扑结构转化成了一个Flink job。只做完这件事情是不够的，因为我们有一系列的外围工具需要去对齐。比如说之前提交作业的时候是通过一个脚本提交的让用户去屏蔽一些其他的参数。使用 flink同样也是需要构建这么一个脚本，然后去提交Flink Job，最后停止flink Job。
第三点是构建flink job外围工具，自动注册报警，比如说消费延迟报警，自动注册这Dashboard以及一些log service，所有的这些为外围工具都要和原来的服务去对齐。
对齐完之后，我们需要构建一个迁移脚本，迁移的过程中最困难的是资源配置这一块。因为原来Storm用了多少资源，Storm怎么配，这对于迁移的用户来说，如果是第一次做肯定是不了解这些东西。因此我们写这么一个脚本，帮用户生成它Flink集群里面对应的资源使用情况。这些工作做完了之后，我们就开始去迁移。到现在为止，整体迁移完了，还剩下十个左右的作业没有迁移完。现在集群规模达到了大概是6000多台。

在迁移的过程中我们有一些其他优化，比如说J storm是能够支持task和work维度的重启的，Flink这一块做得不是特别好。我们在这方面做了一些优化实现了一个single task和single tm粒度的重启，这样就解决部分作业因为task重启导致整个作业全部重启。

构建流式管理平台

迁移完之后，我们又构建了一个流式管理平台。这个平台是为了解决实际过程中遇到了一些问题，比如说整个机群挂了无法确定哪些作业在上面跑着，也通知不到具体的用户，有些用户作业都不知道自己提交了哪些作业。我们构建流式作业的时候目标实际上就是和其他的管理平台是一样的，比如说我们提供一些界面操作，然后提供一个版本管理，就是为了方便方便用户升级和回滚的操作，我们还提供了一站式的查问题的工具：把一些用户需要的信息都聚合在一个页面上面，防止用户不断跳来跳去以及避免不同系统之间的切换。有一些历史记录之前不管是跑在yarn上面还是跑到storm上面，我一个作业被别人kill到了，其实我都是不知道的。针对这个问题我们提供了一些历史操作记录的一些目标。
设计这个管理平台的时候，我们考虑到提供这么一个前端管理平台可能只是针对公司内部的一部分产品，其他的产品也做了自己的一套前端。他们可以用一个模板，根据自己的逻辑去生成一个storm任务。基于此，我们把整个管理平台抽象了两层：最上一层实际上相当于一个面向用户或者说是类似于前端的一个产品。中间这一层实际上是一个类似于提交作业调度任务，这一层只负责提任务，然后停任务，管理生命周期以及因为故障导致作业失败了，将作业重新拉起来。这是中间层TSS层做的事情。
这样，我们就可以对接到所有的前端平台。通过一个RPC进行TSS通信，就把所有的底层的服务和Filnk和Yarn还有HDFS这些交互的底层的逻辑完全屏蔽开来了。

接下来，用户写一个作业就比较简单了，流程如下：
第一步用户先要生成自己的一个作业模板，我们这边通过maven提供的脚本架去生成一些作业的schema，这个作业执行完之后，它会把帮你把一些porm文件，还有一些类似于kafkasource这种常规的组件都帮你准备好，然后你直接在这个模板里面填自己的主要逻辑就可以了。因为我们写Java程序遇到最多的一个问题就是包冲突问题。所以porm文件帮助用户把一些可能冲突的一些jar包都给以exclude掉，这样包冲突的概率会越来越小。

我们测试作业基本上是用IDEA或者local模式去测试，也提供了一个脚本去提交作业，通过这个脚本提交到stage环境上面。在提交注册在平台上面去注册这个作业，然后添加一些配置信息。

下面是一个代码版本管理的界面：

把整个作业提交之后如下图所示：

提交完一个作业之后，用户可能想看作业运行的状态怎么样，我们通过四种方式去给用户展示他的作业运行状态的。

第一个是Flink UI，也就是官方自带的UI用户可以去看。第二个是Dashboard，我们展示了作业里面的task维度，QPS以及task之间的网络buffer，这些重要的信息汇聚到一起创建了一个Dashboard，这样可能查问题的时候方便一些。第三个是错误日志，其实和大家的思路一样，把一个分布式的日志然后聚合起来，然后写到ES上面去。第四是做了一个Jobtrace的工具，就是我们把Flink里面常见的一些异常匹配出来，然后直接给用户一个wiki的使用指南，告诉用户比如说你的作业OM了需要扩大内存。只要用户的作业出现了某些问题，我们把已知的所有的异常都会匹配给用户。

下面是ES的kibana：

这是我们Jobtrace的功能，我们把Flink的这些常见的异常都匹配出来，每一个异常其实对应了一个wiki然后去让用户去解决自己的问题。

最后分享下我们的近期规划，前面的基本做完并且趋于稳定了，但是现在又遇到了一些新的问题：
第一个问题比如资源使用率，因为用户提交作业的时候，用户对资源不是特别敏感就随意把一个资源提上去了，可能他明明需要两个CPU，但是他提了四个CPU。我们想通过一个工具能够监控到他需要多少资源，然后通知yarn去把这个资源给重置了。就是动态调整job资源，自动把资源重置。
第二个问题是优化作业重启速度。我们这边好多业务是根据流式计算的指标来监控它业务的稳定性，如果最上游重启一个作业，底下一群人收到报警说线上出现一些问题了。原因是最上游某一个作业再重启。我们想把重启时间间隔去做到最短或者是无缝重启，这是下一阶段需要去探索探索的一个问题。
再次Flink SQL也刚上线，可能需要一些精力投入去推广。
最后我们希望在此抽象出更多的模式作业模型来，因为我们本身是有一些比如说kafka2ES，kafka2hdfs这些需求，能不能把他们抽象成一个schema，然后去对外提供一些服务。

以上就是我本次分享的主要内容，感谢Flink的举办者和参与者，感谢我们的同事，因为以上的分享内容是我和我们同事一起做的。

更多精彩内容，请关注“Flink china 社区”，下载钉钉，扫描下方二维码即可！

Flink CDC报错ArrayIndexOutOfBoundsException解决思路学亮编程手记大数据 flink doris
FlinkCDC用两个并行度会报错。一个并行度就不会报错。不知道是什么原因？同步java.lang.ArrayIndexOutOfBoundsException？解决思路看日志，应该是mysql文本字段中有换行符之类的，应该会有一个url的报错提示，然后curl那个url看具体报错。这个问题可能是由于FlinkCDC的并行度设置不正确导致的。当您尝试使用两个并行度时，可能会遇到数组越界异常（jav
Flink 源码笔记03—StreamGraph到JobGraph 董嘻嘻 Flink源码笔记 flink java big data
文章目录简介入口函数traverseStreamGraphAndGenerateHashesgenerateDeterministicHashgenerateUserSpecifiedHashsetChainingisChainable简介JobGraph可以认为是StreamGraph的优化图，它将一些符合特定条件的operators合并成一个operatorchain，以减少数据在节点之间序列
flink核心特性 24k小善 flink 大数据 java 架构
ApacheFlink核心特性详解一、流处理与批处理的统一Flink的核心设计理念之一是将流处理和批处理统一在一个框架中。这种统一性使得Flink在处理实时数据和批量数据时具有高度的灵活性和一致性。1.流处理与批处理的统一计算引擎流处理作为批处理的特例：Flink将批处理视为有限流（FiniteStream），从而实现了流处理和批处理的统一。统一API：Flink提供了DataStream和Dat
flink反压详解 24k小善 flink 架构大数据 AI编程
Flink背压/反压（Backpressure）详解在ApacheFlink中，背压（Backpressure）是一个常见的性能问题，通常表现为数据流在某些节点处积压，导致整体处理速度下降甚至停滞。背压的发生可能源于硬件资源限制、任务逻辑复杂性、数据分布不均或外部系统瓶颈等因素。本文将从多个角度详细讲解Flink的背压问题，包括其成因、影响以及解决方案。一、什么是Flink背压？背压是指在数据流处
十四、Flink源码阅读--JobGraph生成过程灰二和杉菜 Apache Flink Flink JobGraph生成源码分析
上篇分析了client整个提交任务过程，最终提交的是一个JobGraph对象，那么是如何从jar或sql任务转为JobGraph的呢，这篇我们仔细研究一下,版本为1.6.3源码分析上篇我们介绍client端提交任务最终会到到ClusterClient.run()方法，就在这个方法中封装了JobGraph的步骤。publicJobSubmissionResultrun(FlinkPlancompil
最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理 Toroidals 大数据组件安装部署教程 hudi1.0.1 源码编译教程最新
1.最新ApacheHudi1.0.1源码编译2.Flink、Spark、Hive集成Hudi1.0.13.flinkstreaming写入hudi目录1.版本介绍2.安装maven2.1.下载maven2.2.设置环境变量2.3.添加Maven镜像3.编译hudi3.1.下载hudi源码3.2.修改hudi源码3.3.修改hudi-1.0.1/pom.xml，注释或去掉410行内容3.4.安装c
Flink提交pyflink任务 Leo_Hu666 flink 大数据 python pyflink
1.官方文档：flink1.14:https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/cli/#submitting-pyflink-jobsflink1.18:https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/deploy
Flink在指定时间窗口内统计均值，超过阈值后报警小的~~ flink 均值算法大数据
1、需求统计物联网设备收集上来的温湿度数据，如果5分钟内的均值超过阈值(30摄氏度)则发出告警消息，要求时间窗口和阈值可在管理后台随时修改，实时生效(完成当前窗口后下一个窗口使用最新配置)。物联网设备的数据从kafka中读取，配置数据从mysql中读取，有个管理后台可以调整窗口和阈值大小。2、思路使用flink的双流join，配置数据使用广播流，设备数据使用普通流。3、实现代码packagecu.
Flink SQL 优化实战 - 维表 JOIN 优化腾讯云大数据大数据数据库 flink sql
作者：龙逸尘，腾讯CSIG高级工程师背景介绍维表（DimensionTable）是来自数仓建模的概念。在数仓模型中，事实表（FactTable）是指存储有事实记录的表，如系统日志、销售记录等，而维表是与事实表相对应的一种表，它保存了事实表中指定属性的相关详细信息，可以跟事实表做关联；相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。在实际生产中，我们经常会有这样的需求，以原始数据流
阿里云RDS到亚马逊云RDS的实时数据同步方案详解 ivwdcwso 运维阿里云云计算 aws kda 数据同步
1.需求背景在当今的多云环境中,企业经常需要在不同云平台之间同步数据。本文将详细介绍如何实现从阿里云RDSMySQL数据库到亚马逊云RDSMySQL数据库的实时数据同步。这种同步对于数据备份、跨区域数据访问、数据分析等场景都非常有用。2.方案概述我们将使用AWSKinesisDataAnalytics(KDA)作为核心组件来实现这个实时同步方案。KDA基于ApacheFlink,支持使用SQL或J
Flink 安装阿里云docker compose部署及相关组件 vellerzheng 部署运维 flink docker 大数据
Flink安装脚本文件version:"2.2"services:jobmanager:image:flink:1.15.2-java11expose:-"6123"ports:-"8081:8081"command:jobmanagervolumes:-/home:/homeenvironment:-JOB_MANAGER_RPC_ADDRESS=jobmanagerprivileged:tru
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
Spark 和 Flink 信徒_ spark flink 大数据
Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。以下是详细对比：1.架构与核心概念方面ApacheSparkApacheFlink计算模型微批（Micro-Batch）为主，但支持结构化流（StructuredStreaming）原生流（TrueStreaming），基于事件驱动处理方式以RDD、DataFrame/Dataset作为核心抽
Flink-k8s弹性扩缩容原理和部署步骤 spring208208 flink kubernetes 贪心算法
背景和现状目前行内提交flink作业采用Nativekubernetes模式，提交作业时会指定并行度和taskmanager使用的内存及cpu数量。这种情况下会导致在作业运行高峰可能存在资源不足问题运行低峰又会造成资源浪费，这种粗放的使用资源的模式在实时计算业务量不多的时候还可以勉强接受，而随着实时计算业务的增多，则会造成大量的资源浪费和性能瓶颈。为了使存储和计算资源得到更加合理有效的使用，能跟据
20250124 Flink 增量聚合 vs 全量聚合靈臺清明 Flink flink
1.增量聚合vs全量聚合(1)增量聚合（ReduceFunction/AggregateFunction）工作方式：逐步计算：每一条数据到达窗口时，立即与当前聚合结果结合，生成新的中间结果。仅保存中间状态：内存中只保留当前的聚合值（如累加和、最大值等），不保存原始数据。触发窗口计算时：直接输出最终的聚合结果，无需遍历所有数据。示例：计算窗口内数字的和DataStreamnumbers=...;nu
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践大数据flink阿里云数据分析
摘要：本文整理自FlinkForwardAsia2024大会中阿里云DataWorks数据集成团队陈吉通的分享，主要分享FlinkCDC在阿里云DataWorks数据集成入湖场景的应用实践。内容分为以下四个部分：1.阿里云DataWorks数据集成介绍2.DataWorks数据集成入湖解决方案的架构和原理3.DataWorks数据集成入湖场景的产品化案例分享4.未来规划一、阿里云DataWorks
Flink-提交job 笨鸟先-森大数据 flink
目录一、Flink流处理扩展及说明二、Flink部署三、Standalone模式四、在命令行提交job：五、在网页中提交flinkjob一、Flink流处理扩展及说明涉及：自定义线程优先级=socket流中读取数据并行度只能是11、特定的算子设定了并行度最优先2、算子没有设定并行度就是用整体运行环境设置的并行度3、环境的并行度没有设置就使用提交时候提交参数设置的并行度4、都没有设置就遵循flink
Flink 实践教程-入门（10）：Python作业的使用腾讯云大数据数据库大数据 java python 数据分析
作者：腾讯云流计算Oceanus团队流计算Oceanus简介流计算Oceanus是大数据产品生态体系的实时化分析利器，是基于ApacheFlink构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算Oceanus以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。教程链接：Flink实践教程-入门（10）：Python作业的使用-云+社区-
pyflink作业提交的踩坑过程，看完少走两个星期弯路 Li_yi_chao 大数据
flink在努力地将Python生态和大数据生态融合，但目前的版本还不够成熟，尤其是在官方对python现有资料有限的情况下，用户想要使用python完成一个flinkjob并提交到flink平台上，还是有很多雷需要踩的。以下对pyflink环节问题，pythonjob编写到提交做了总结，可减少不必要的弯路。一、部署环境JDK1.8+&Python3.5+(3.7.6)&apache-flink1
Paimon实战 -- paimon原理解析阿华田512 Paimon学习必读系列 paimon 数据湖 paimon介绍 flink写入
一.简介ApachePaimon原名FlinkTableStore，2022年1月在ApacheFlink社区从零开始研发，Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。二.基本概念1、快照（Snapshot）快照捕获表在某个时间点的状态。用户可以通过最新的快照访
paimon实战 --核心原理和Flink应用进阶阿华田512 Paimon学习必读系列 Flink学习必读系列 flink 大数据 flink读写 paimon 数据湖
简介Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，推出新一代的StreamingLakehouse技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink社区内部孵化了FlinkTableStore（简称FTS）子项目，一个真正面向Streaming以及Realtime的数据湖存储项目。2023年3月1
【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中 oo寻梦in记 Apache Paimon apache flink kafka apache paimon paimon
目录引言CDC技术概述2.1什么是CDC2.2CDC的应用场景Kafka作为CDC数据源的原理与优势3.1Kafka的基本架构3.2Kafka在CDC中的角色
flink实时集成利器 - apache seatunnel - 核心架构详解 24k小善 flink apache 架构
SeaTunnel（原名Waterdrop）是一个分布式、高性能、易扩展的数据集成平台，专注于大数据领域的数据同步、数据迁移和数据转换。它支持多种数据源和数据目标，并可以与ApacheFlink、Spark等计算引擎集成。以下是SeaTunnel的核心架构详解：SeaTunnel核心架构SeaTunnel的架构设计分为以下几个核心模块：1.数据源（Source）功能：负责从外部系统读取数据。支持的
Flink怎么保证Exactly - Once 语义我明天再来学Web渗透后端技术总结 flink 大数据开源开发语言
Exactly-Once语义是消息处理领域中的一种严格数据处理语义，指每条数据都只会被精确消费和处理一次，既不会丢失，也不会重复。以下从消息传递语义对比、实现方式、应用场景等方面详细介绍：与其他消息传递语义对比在消息传递中，常见三种语义：最多一次（at-most-once）：消息可能丢失，但绝不会重复。至少一次（at-least-once）：消息不会丢失，但可能重复。精确一次（exactly-on
Flink内存配置和优化 Leo_Hu666 flink 大数据
在ApacheFlink1.18的Standalone集群中，内存设置是一个关键配置，它直接影响集群的性能和稳定性。Flink的内存配置主要包括JobManager和TaskManager的内存分配。以下是如何在Standalone模式下配置内存的详细说明。JobManager内存配置JobManager是Flink集群的主节点，负责协调任务调度和资源管理。它的内存配置可以通过以下参数进行调整：配
Flink入门-通过DataStream Api实现消费欺诈检测似水_逆行 Flink flink 大数据
1信用卡消费欺诈信用卡消费欺诈是指在信用卡的使用过程中，通过不正当手段获取或使用信用卡资金，侵犯他人或银行的财产权益的行为。这种行为可能包括但不限于盗刷、伪造信用卡、冒用他人信用卡、恶意透支等2模拟场景我们模拟不同账户的信用卡消费记录，通过分析实时的消费记录，针对常见的消费欺诈进行检测，检测出来的欺诈行为进行告警。3核心流程与代码1）通过TransactionSource构建消费记录，主要包含ac
Flink-DataStream快速上手 code@fzk 大数据 flink 大数据 java
文章目录1.安装部署安装2.执行任务Standalone模式启动/停止执行任务Yarn模式Session-cluster模式启动yarn-session执行任务Per-Job-Cluster模式3.执行环境EnvironmentgetExecutionEnvironment（常用）createLocalEnvironmentcreateRemoteEnvironmentSource、SinkTra
Flink之DataStream API 概述小虎牙_43437171 flink flink 大数据 java
DataStreamAPI概述前言一、DataStreamAPI应用实例DataStream程序主要包含3部分：1、StreamExecutionEnvironment初始化：该部分主要创建和初始化StreamExecutionEnvironment，提供通过DataStreamAPI构建Flink作业需要的执行环境，包括设定ExecutionConfig、CheckpointConfig等配置信
Flink KafkaConsumer offset是如何提交的红烛暗盗梦 flink 大数据
一、fllink内部配置client.id.prefix，指定用于KafkaConsumer的客户端ID前缀partition.discovery.interval.ms，定义KafkaSource检查新分区的时间间隔。请参阅下面的动态分区检查一节register.consumer.metrics指定是否在Flink中注册KafkaConsumer的指标commit.offsets.on.chec
Java分布式流处理，flink+kafka实现电商网站个性化商品推荐系统图苑分布式 java flink
文章目录戳底部名片，一起变现技术栈选择设计实现思路实现步骤及示例代码1.数据采集2.数据预处理3.特征工程4.模型训练5.结果输出6.前端展示戳底部名片，一起变现在现代电商环境中，用户每天都会浏览大量商品页面，而这些行为数据中蕴藏着丰富的信息。通过分析用户的浏览历史、购买记录以及对特定商品的兴趣程度，我们可以为用户提供更加个性化的商品推荐，从而提升用户体验和转化率。为了实现实时的个性化推荐，我们需
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l