Flink流处理第26页

Flink on K8s 企业生产化实践

背景为了解决公司模型&特征迭代的系统性问题，提升算法开发与迭代效率，部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题，在大数据与算法间架起科学桥梁，提供强有力的样本及特征数据支撑。平台从Hive、Hbase、关系型数据库等大数据ODS(OperationalDatastore)层进行快速的数据ETL，将数据抽取到特征平台进行管理，并统一了数据出口，供数据科学

house.zhang·2023-12-28 15:00

PyFlink on K8s 部署实践

PyFlinkonK8s部署模式1.1Flink的部署模式https://blog.csdn.net/yunxiao6/article/details/1087052441.2PyFlinkonK8sStandalone

bao_since·2023-12-28 15:28

使用streampark进行flink on k8s LoadBalancer配置域名访问flink ui

在使用yarn部署flink任务时，yarn自动代理了flinkwebui，通过yarn的地址即可访问任务web页面。

Java小田·2023-12-28 14:26

kafka基础知识总结

Kafka是一个由Apache软件基金会开发的分布式流处理平台。它最初是为LinkedIn设计的，用于处理大规模的实时日志数据流。Kafka的设计目标是将实时流数据高效地发布、订阅和处理。

计算衎·2023-12-28 13:09

Hadoop：Flink on Yarn服务配置与设置

之前打算直接在ambari上安装配置flink服务方便管理，但是发现ambari集成的flink会出现很多问题反而不方便管理（可能是没找到正确的方法），于是打算单独配置服务下载两个文件文件flink-1.10.1

william_cheng666·2023-12-28 13:14

Apache Flink 1.14.4 on yarn ha环境搭建

Flink支持多种安装模式Local—本地单机模式，学习测试时使用Standalone—独立集群模式，Flink自带集群，开发测试环境使用StandaloneHA—独立集群高可用模式，Flink自带集群

一位搬砖工·2023-12-28 13:14

flink的onYarn模式环境搭建

一.onYarn模式把资源管理器交给yarn模式进行管理1.两种运行模式1）session-cluster模式session：会话，开辟一块新的公共的空间先启动集群，直接向yarn申请空间，资源（session）保持不变，这个集群会常驻在yarn的集群中，不需要时进行手动停止，job任务可以向这个session提交，所有任务共享这个session，如果资源用完，需要等待之间的任务执行完毕释放资源才

奶糖~·2023-12-28 13:14

Apache Flink连载（五）：Apache Flink快速入门 - 环境准备及入门案例

个人主页：IT贫道_大数据OLAP体系技术栈,ApacheDoris,Clickhouse技术-CSDN博客私聊博主：加入大数据技术讨论群聊，获取更多大数据资料。博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录

IT贫道·2023-12-28 13:43

Apache Flink连载（十七）：Flink On Standalone任务提交-Standalone Application模式

个人主页：IT贫道_大数据OLAP体系技术栈,ApacheDoris,Clickhouse技术-CSDN博客私聊博主：加入大数据技术讨论群聊，获取更多大数据资料。博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录

IT贫道·2023-12-28 13:43

Apache Flink连载（十九）：Flink On Yarn运行-Yarn Session模式

个人主页：IT贫道_大数据OLAP体系技术栈,ApacheDoris,Clickhouse技术-CSDN博客私聊博主：加入大数据技术讨论群聊，获取更多大数据资料。博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录1.任务提交命令2.任务提交流程1.任务提交命令

IT贫道·2023-12-28 13:43

org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster.

在cdh集群上，通过如下命令，提交flink任务到yarn集群中：flinkrun-myarn-cluster-d-ynmmy_flink_jobxxx.jar报错，信息如下：org.apache.flink.client.program.ProgramInvocationException

赶路人儿·2023-12-28 13:42

Flink1.8 on yarn 环境搭建及使用

一、下载flink包官网下载flink-1.8.1-bin-scala_2.11.tgz，然后解压下载地址https://flink.apache.org/downloads.html或https://

magic_kid_2010·2023-12-28 13:42

Flink on Yarn实战

使用方式：flink的安装包解压之后，即可直接使用，而不需要额外的配置。

fancyChuan·2023-12-28 13:11

Apache Flink连载（十八）：Flink On Yarn运行原理及环境准备

博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录1.FlinkOnYarn运行原理2.代码及Yarn环境准备

IT贫道·2023-12-28 13:40

hadoop hive spark flink 安装

下载地址Indexof/distubuntu安装hadoop集群准备IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3上传hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gzJDK环境node1、node2、node3三个节点解压tar-zxvfjdk-8u391-linux-x64.tar

nsa65223·2023-12-28 11:59

Flink--DataSink学习

基于flink-1.8.1概述flink流式计算中需要经计算的结果进行输出（可以是msyql/hbase/ES等常见的DB或者filesystem，也可以是钉钉/邮件/短信等通知类信息），官网上成为connector

李小李的路·2023-12-28 09:36

java接受rtsp流解码，推送给前端，实现播放实时流

我们使用java将rtsp流拿到之后，进行rtsp解码，因为要考虑到延时性，所以我们要尽量拿到一秒的数据之后再进行推流处理。代码如下：publicvoidd

xzm09·2023-12-28 09:21

javacv从入门到精通进阶——第八章：视频流处理

下面是使用JavaCV进行视频流处理和推送的一般步骤：创建FFmpegFrameGrabber并设置输入URL：FFmpegFrameGrabbergrabber=newFFmpegFrameGrabber

ayou_llf·2023-12-28 07:08

Flink on K8S生产集群使用StreamPark管理

tuoluzhe8521·2023-12-28 02:38

【知乎大数据技术】用Flink取代Spark Streaming！知乎实时数仓架构演进

“数据智能”(DataIntelligence)有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。本文主要讲述知乎的实时数仓实践以及架构的演进，这包

yoku酱·2023-12-27 19:34

基于 Flink CDC 实现海量数据的实时同步和转换

摘要：本文整理自ApacheFlinkCommitter，FlinkCDCMaintainer，阿里巴巴高级开发工程师徐榜江（雪尽）在5月21日FlinkCDCMeetup的演讲。

Apache Flink·2023-12-27 16:51

深入解读 Flink CDC 增量快照框架

导读：随着大数据的迅猛发展，企业越来越重视数据的价值，数据采集工具也在不断改进，实时采集工具也在由长链路向短链路发展，今天和大家分享一下FlinkCDC技术。

学而知之@·2023-12-27 16:20

Flink Has Become the De-facto Standard of Streaming Compute

摘要：本文整理自ApacheFlink中文社区发起人、阿里巴巴开源大数据平台负责人王峰（莫问），在FlinkForwardAsia2023主会场的分享。

Apache Flink·2023-12-27 16:20

实战Java springboot 采用Flink CDC操作SQL Server数据库获取增量变更数据

ApplicationContextUtil7、自定义sink交由spring管理，处理变更数据前言：我的场景是从SQLServer数据库获取指定表的增量数据，查询了很多获取增量数据的方案，最终选择了Flink

arden.WANG·2023-12-27 16:50

Flink CDC介绍及原理

CDC(ChangeDataCapture)是一种用于捕捉数据库变更数据的技术，Flink从1.11版本开始原生支持CDC数据（changelog）的处理，目前已经是非常成熟的变更数据处理方案。

大大大大肉包·2023-12-27 16:49

深入解析 Flink CDC 增量快照读取机制

一、Flink-CDC1.x痛点FlinkCDC1.x使用Debezium引擎集成来实现数据采集，支持全量加增量模式，确保数据的一致性。

Light Gao·2023-12-27 16:47

Flink实时电商数仓之Doris框架（七）

Doris框架大规模并行处理的分析型数据库产品。使用场景：一般先将原始数据经过清洗过滤转换后，再导入doris中使用。主要实现的功能有：实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建：替换了原来由Spark,Hive，Kudu,Hbase等旧框架数据湖联邦查询：通过外表的方式联邦分析位于Hive，IceBerg,Hudi中的数据Doris架构后端：C语

十七✧ᐦ̤·2023-12-27 16:47

Flink 输出至 Redis

【1】引入第三方Bahir提供的Flink-redis相关依赖包org.apache.bahirflink-connector-redis_2.111.0【2】Flink连接Redis并输出Sink处理结果

程序猿进阶·2023-12-27 14:16

Flink CDC 原理、实践和优化

本文基于腾讯云Oceanus提供的FlinkCDC引擎，着重介绍Flink在变更数据捕获技术中的应用。一、CDC是什么？

坨坨的大数据·2023-12-27 14:33

工作随笔于深圳

今天在极客时间的大规模数据处理实战看到一篇文章，说流处理和批处理，常常混合共生，或者频繁互换。比如有A，B2个数据提供商，A一次性给你数据，你用批处理。B给你实时数据，你用流处理。

陈宏斌9527·2023-12-27 12:26

Flink on K8S集群搭建及StreamPark平台安装

1.环境准备1.1介绍在使用Flink&Spark时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个flink一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持

tuoluzhe8521·2023-12-27 10:45

FlinkCDC从Mongodb同步数据至elasticsearch（ES) 新版

FlinkCDC从Mongodb同步数据至elasticsearch（ES）一、DataStreamingAPI方式pom.xml二、主程序-配置三、主程序四、其他问题一、DataStreamingAPI

tuoluzhe8521·2023-12-27 10:14

datax 同步mongodb数据库到hive(hdfs)和elasticserch（es)

（有点老了，后来发现flinkcdc都只能监控一张表，多张表无法监控）2.datax版本：自己编译的DataX-datax_v2022103.hdfs版本：3.1.34.hive版本：3.1.2二、同步思路

tuoluzhe8521·2023-12-27 10:14

五分钟，Docker安装flink，并使用flinksql消费kafka数据

1、拉取flink镜像，创建网络dockerpullflinkdockernetworkcreateflink-network2、创建jobmanager#创建JobManagerdockerrun\-

刘金宝_Arvin·2023-12-27 10:52

初试Kafka

Kafka是一个分布式流处理平台，通常用作消息中间件，它可以处理大规模的实时数据流。

老攀呀·2023-12-27 08:19

删除azkaban的执行历史

azkaban通常用在大数据任务调度场景，把任务提交之后，如果任务是spark，hive，hadoop，flink等任务的话，

飞有飞言·2023-12-27 07:09

深入理解Kafka的原理

Kafka是一个高性能、分布式的消息队列系统，被广泛应用于大规模数据流处理的场景中。本文将深入探讨Kafka的原理，包括其核心概念、架构设计以及关键的消息处理流程。

WdzDevops·2023-12-27 07:53

Java实现Kafka生产者和消费者的示例

Kafka是一种高性能、分布式的流处理平台，广泛应用于实时数据流处理和消息队列系统。在本文中，我们将介绍如何使用Java语言实现Kafka生产者和消费者，并提供相应的源代码示例。

WdzDevops·2023-12-27 07:23

Kafka 单节点安装和测试

Kafka是一个分布式流处理平台，它具有高吞吐量、可靠性和可扩展性的特点。在本文中，我们将介绍如何在单节点上安装和测试Kafka。我们将涵盖Kafka的安装过程以及如何通过示例代码进行测试。

WdzDevops·2023-12-27 07:23

Kafka的分区数设置

Kafka是一个高吞吐量、可持久化、分布式发布订阅消息系统，广泛应用于大规模数据处理和实时流处理场景。在Kafka中，分区是实现消息并行处理和提供高可用性的关键概念之一。

WdzDevops·2023-12-27 07:52

Flink去重计数统计用户数

1.数据订单表，分别是店铺id、用户id和支付金额"店铺id,用户id,支付金额","shop-1,user-1,1","shop-1,user-2,1","shop-1,user-2,1","shop-1,user-3,1","shop-1,user-3,1","shop-1,user-1,1","shop-1,user-2,1","shop-1,user-4,1","shop-2,user-4

不爱吃鱼的馋猫·2023-12-27 06:28

Flink-1.17集群部署

1、部署1.1、修改flink-conf.yaml1.1.1、flink-17jobmanager.rpc.address:boshi-122jobmanager.rpc.port:6123#设置jobmanager

docsz·2023-12-27 03:05

Flink1.13 Checkpoint原理

介绍Flink具体如何保证exactly-once呢?它使用一种被称为"检查点"（checkpoint）的特性，在出现故障时将系统重置回正确状态。下面通过简单的类比来解释检查点的作用。

万事万物·2023-12-26 20:23

从零开始学大数据框架Hudi，这些学习网站，助你一臂之力！

Hudi的设计使得您可以在Hadoop兼容的存储之上存储大量数据，并且它提供了两种原语，除了经典的批处理之外，还可以在数据湖上进行流处理。

知识分享小能手·2023-12-26 20:39

优维产品最佳实践第20期：控制台全链路监控

之前我们会觉得cmdb自动发现没有上报很难排查，弄不清楚数据的上报链路；监控指标的数据断点很难定位，flink对现场来说是一个黑盒子；apm数据更新不及时到底是上报异常还是入库失败呢？

优维科技EasyOps·2023-12-26 18:53

Flink实战案例四部曲

Flink实战案例四部曲第一部曲:统计5分钟内用户修改创建删除文件的操作日志数量输入1001,delete1002,update1001,create1002,delte输出1001，21002，2代码如下

play_big_knife·2023-12-26 18:51

【Flink-Kafka-To-Mongo】使用 Flink 实现 Kafka 数据写入 Mongo（根据对应操作类型进行增、删、改操作，写入时对时间类型字段进行单独处理）

【Flink-Kafka-To-Mongo】使用Flink实现Kafka数据写入Mongo（根据对应操作类型进行增、删、改操作）1）导入依赖2）resources2.1.appconfig.yml2.2

bmyyyyyy·2023-12-26 17:15

【Flink-Kafka-To-Mysql】使用 Flink 实现 Kafka 数据写入 Mysql（根据对应操作类型进行增、删、改操作）

【Flink-Kafka-To-Mysql】使用Flink实现Kafka数据写入Mysql（根据对应操作类型进行增、删、改操作）1）导入依赖2）resources2.1.appconfig.yml2.2

bmyyyyyy·2023-12-26 17:08

dinky1.0 同步PG 时修改数据类型

flinkcdc在同步decimal类型数据的时候精度不允许超过38,所以修改为精度超过38就修改为string类型AbstractSinkBuilder.java第237行StringcdcSqlInsert

州周·2023-12-26 17:56

dinky 本地编译并启动

1.1下载源码包后，解压进入idea设置profiles，dev,flink

州周·2023-12-26 17:26

推荐频道

Flink流处理

Flink on K8s 企业生产化实践

PyFlink on K8s 部署实践

使用streampark进行flink on k8s LoadBalancer配置域名访问flink ui

kafka基础知识总结

Hadoop：Flink on Yarn服务配置与设置

Apache Flink 1.14.4 on yarn ha环境搭建

flink的onYarn模式环境搭建

Apache Flink连载（五）：Apache Flink快速入门 - 环境准备及入门案例

Apache Flink连载（十七）：Flink On Standalone任务提交-Standalone Application模式

Apache Flink连载（十九）：Flink On Yarn运行-Yarn Session模式

org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster.

Flink1.8 on yarn 环境搭建及使用

Flink on Yarn实战

Apache Flink连载（十八）：Flink On Yarn运行原理及环境准备

hadoop hive spark flink 安装

Flink--DataSink学习

java接受rtsp流解码，推送给前端，实现播放实时流

javacv从入门到精通进阶——第八章：视频流处理

Flink on K8S生产集群使用StreamPark管理

【知乎大数据技术】用Flink取代Spark Streaming！知乎实时数仓架构演进

基于 Flink CDC 实现海量数据的实时同步和转换

深入解读 Flink CDC 增量快照框架

Flink Has Become the De-facto Standard of Streaming Compute

实战Java springboot 采用Flink CDC操作SQL Server数据库获取增量变更数据

Flink CDC介绍及原理

深入解析 Flink CDC 增量快照读取机制

Flink实时电商数仓之Doris框架（七）

Flink 输出至 Redis

Flink CDC 原理、实践和优化

工作随笔于深圳

Flink on K8S集群搭建及StreamPark平台安装

FlinkCDC从Mongodb同步数据至elasticsearch（ES) 新版

datax 同步mongodb数据库到hive(hdfs)和elasticserch（es)

五分钟，Docker安装flink，并使用flinksql消费kafka数据

初试Kafka

删除azkaban的执行历史

深入理解Kafka的原理

Java实现Kafka生产者和消费者的示例

Kafka 单节点安装和测试

Kafka的分区数设置

Flink去重计数统计用户数

Flink-1.17集群部署

Flink1.13 Checkpoint原理

从零开始学大数据框架Hudi，这些学习网站，助你一臂之力！

优维产品最佳实践第20期：控制台全链路监控

Flink实战案例四部曲

【Flink-Kafka-To-Mongo】使用 Flink 实现 Kafka 数据写入 Mongo（根据对应操作类型进行增、删、改操作，写入时对时间类型字段进行单独处理）

【Flink-Kafka-To-Mysql】使用 Flink 实现 Kafka 数据写入 Mysql（根据对应操作类型进行增、删、改操作）

dinky1.0 同步PG 时 修改数据类型

dinky 本地编译并启动

dinky1.0 同步PG 时修改数据类型