大数据框架flink 第100页

流批一体架构在快手的实践和思考｜行业实践专栏上线

Flink-learning学训平台和互娱行业实践专栏来啦！为帮助开发者更全面和深入地了解Flink技术如何在实际生产场景中落地。

·2023-07-13 15:42

Flink start-cluster.sh

1、start-cluster.sh#1、获取文件所在的路径bin=`dirname"$0"`bin=`cd"$bin";pwd`#2、先加载配置文件，里面都是一些函数和变量，还有一些逻辑."$bin"/config.sh#3、启动JobManager#StarttheJobManagerinstance(s)shopt-snocasematch#4、判断JobManager的启动模式，是集群还是

·2023-07-13 15:05

Flink核心组件

一个FlinkCluster是由一个FlinkMaster和多个TaskManager组成的，FlinkMaster和TaskManager是集成级组件，其他组件都是进程内的组件FlinkMaster中每一个

·2023-07-13 15:05

流批一体架构在快手的实践和思考

摘要：本文整理自快手技术专家、ApacheFlink&ApacheCalciteCommitter张静，在FFA流批一体专场的分享。

·2023-07-13 15:04

Flink SQL 在快手的扩展和实践

摘要：本文整理自快手实时计算团队技术专家张静、张芒在FlinkForwardAsia2021的分享。

·2023-07-13 15:30

腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践

当业务发展到一定规模，实时数据仓库是一个必要的基础服务。从数据驱动方面考虑，多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下，拿腾讯看点来说，一天上报的数据量达到万亿级的规模，要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。本文将介绍信息流场景下，腾讯看点的实时数据仓库和多维实时数据分析系统的技术架构。1、可解决的痛点可以先看一下，多维实时数据分析系统可以解决哪些痛点

·2023-07-13 15:24

趣头条基于 Flink+ClickHouse 构建实时数据分析平台

作者：王金海@趣头条摘要：本文由趣头条数据平台负责人王金海分享，主要介绍趣头条Flink-to-Hive小时级场景和Flink-to-ClickHouse秒级场景，内容分为以下四部分：一、业务场景与现状分析二

·2023-07-13 15:23

Lyft 基于 Flink 的大规模准实时数据分析平台（附FFA大会视频）

如何基于Flink搭建大规模准实时数据分析平台？

·2023-07-13 15:21

HiveSQL 迁移 FlinkSQL 在快手的实践

摘要：本文整理自快手数据架构工程师张芒，阿里云工程师刘大龙，在FlinkForwardAsia2022生产实践专场的分享。

·2023-07-13 15:14

Flink+StarRocks 实时数据分析新范式

摘要：本文整理自StarRocks社区技术布道师谢寅，在FlinkForwardAsia2022实时湖仓的分享。

·2023-07-13 15:42

Flink实现特定统计的归约聚合reduce操作

如果说简单聚合是对一些特定统计需求的实现，那么reduce算子就是一个一般化的聚合统计操作了。从大名鼎鼎的MapReduce开始，我们对reduce操作就不陌生：它可以对已有的数据进行归约处理，把每一个新输入的数据和当前已经归约出来的值，再做一个聚合计算。与简单聚合类似，reduce操作也会将KeyedStream转换为DataStream。它不会改变流的元素数据类型，所以输出类型和输入类型是一样

·2023-07-13 15:42

Flink CDC实战之Mongo同步Mysql

企业可能会选用不同的数据库，这给业务之间数据交互，数据分析等带来一定的困扰，对此，数据同步起到很重要的作用，目前业内成熟的数据同步组件很多，支持实时同步的组件有：Canal，Maxwell，Debezium等等，Flink

Coder小咚·2023-06-28 11:49

Flink中KeyedStateStore实现--怎么做到一个Key对应一个State

背景在Flink中有两种基本的状态：KeyedState和OperatorState，OperatorState很好理解，一个特定的Operator算子共享同一个state，这是实现层面很好做到的。

鸿乃江边鸟·2023-06-24 10:22

基于 Flink CDC 构建 MySQL 到 Databend 的实时数据同步

这篇教程将展示如何基于FlinkCDC快速构建MySQL到Databend的实时数据同步。

Databend·2023-06-24 05:54

Prometheus+Grafana系统部署，linux、flink的监控与告警

目录版本阅读说明一、简介PrometheusGrafana安装规划二、安装Prometheus1下载安装包2配置使用Systemd管理Prometheus3启动Prometheus4页面大致介绍（可选）5常用命令（可选）1删除job数据2热重载配置规则二、安装Grafana1添加repo2安装3启动三、监控linux服务器1安装node_exporter1下载包2配置使用Systemd管理node

终回首·2023-06-24 04:36

Flink 之 Kafka连接器

依赖Flink附带了一个通用的Kafka连接器，它试图跟踪Kafka客户端的最新版本。Kafka的客户端版本会在Flink不同版本间发生变化。

豪仔数据之路·2023-06-24 03:24

Flink DataStream Connectors 之 Apache Kafka 连接器

文章目录依赖KafkaSource使用方法Topic/Partition订阅消息解析起始消费位点有界/无界模式其他属性动态分区检查事件时间和水印空闲消费位点提交监控指标范围KafkaConsumer指标实现细节数据源分片（SourceSplit）分片枚举器（SplitEnumerator）源读取器（SourceReader）KafkaSink使用方法序列化器容错监控Kafka连接器指标启用Kerb

京河小蚁·2023-06-24 03:54

flink-sql所有数据类型-1.13

1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。2.介绍FlinkSQL有一组丰富的本地数据类型可供用户使用。

第一片心意·2023-06-24 01:57

flink集群的搭建及测试

本文主要是讲述flink单机版的搭建及测试前期准备jave要配置好，版本最好1,8以上首先在官网下载需要的版本，网址在下面：这次测试使用的是flink1.6.2，Hadoop2.7.2，scala2.11https

堂哥000·2023-06-23 20:41

Flink总结-设置Jvm参数

jvm设置http://www.360doc.com/content/12/1023/16/9615799_243296263.shtml堆设置-Xms:初始堆大小-Xmx:最大堆大小-XX:NewSize=n:设置年轻代大小-XX:NewRatio=n:设置年轻代和年老代的比值。如:为3，表示年轻代与年老代比值为1：3，年轻代占整个年轻代年老代和的1/4-XX:SurvivorRatio=n:年

zachary_1db5·2023-06-23 16:43

flinksql下的时间日期格式转换

flinksql里面最常用的事情就是时间格式转换，比如各种时间格式转换成TIMESTAMP(3).now()bigint--CAST(TO_TIMESTAMP(log_time)asTIMESTAMP(

sofo2017·2023-06-23 14:34

怎么计算flink任务需要多少cpu和内存

Flink任务需要的CPU和内存取决于任务的具体实现和数据规模。以下是一些常见的方法来评估Flink任务需要多少CPU和内存：数据规模：Flink任务需要的CPU和内存与数据规模成正比。

sofo2017·2023-06-23 14:34

Flink实时计算资源如何优化

flink实时计算任务可以从以下四个方面进行优化内存优化：Flink任务需要大量的内存来存储数据和状态信息。因此，我们需要尽可能地减少内存的使用量。

sofo2017·2023-06-23 14:03

FlinkKafkaProducer 源码分析

initializeState先查询是否开启isCheckpointingEnabled配置，如果没开，但是使用了EXACTLY_ONCE或者AT_LEAST_ONCE语义，就报错。然后从checkpoint中保存的state中读取nextTransactionalIdHintState。NEXT_TRANSACTIONAL_ID_HINT_DESCRIPTOR现在使用v2版本，如果checkpo

play maker·2023-06-23 12:03

Flink+Pulsar、Kafka问题分析及方案 -- 事务阻塞

Pulsar、Kafka的事务设计Pulsar跟Kafka在设计事务功能时，在消费者读取消息的顺序方面，都采用了类似的设计。比如说，先创建txn1，然后创建txn2，这两个事务生产消息到同一个topic/partition里，但是txn2比txn1先完成了，这个时候该不该让txn2生产的消息给consumer读取到？Kafka设计文档中介绍如下：DiscussiononTransactionOrd

play maker·2023-06-23 12:32

Flink将数据写入CSV文件后文件中没有数据

Flink中有一个过时的sink方法:writeAsCsv,这个方法是将数据写入CSV文件中,有时候我们会发现程序启动后,打开文件查看没有任何数据,日志信息中也没有任何报错,这里我们结合源码分析一下这个原因

飞天小老头·2023-06-23 11:19

Zeppelin on Flink小试牛刀

Zepplin从0.9版本（当前该版本还未release，只有预览版）开始支持Flink最新版本1.10，鉴于Flink1.10版本全面合入了Blink能力，在sql使用上展现出强大实力，笔者决定使用其预览版尝鲜

WestC·2023-06-23 09:29

[大数据 Flink,Java实现不同数据库实时数据同步过程]

目录前言:实现Mysql同步Es的过程包括以下步骤：配置Mysql数据库连接在Flink的配置文件中，添加Mysql数据库的连接信息。

是汤圆丫·2023-06-23 06:06

大数据就业路线

数仓：主要以SQL语言为主离线数仓（目前基本状态）和实时数仓（趋势）SQL语法包括mysql中的sql、hive中的hivesql（重点），spark中的sparksql，flink中的flinksql

烟雨孤舟·2023-06-23 06:25

大数据之flink教程

第一章Flink简介1.1初识FlinkFlink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014

okbin1991·2023-06-23 06:14

Kafka最佳实践

前言Kafka最佳实践，涉及典型使用场景Kafka使用的最佳实践Kafka典型使用场景DataStreamingKafka能够对接到Spark、Flink、Flume等多个主流的流数据处理技术。

东风微鸣·2023-06-22 21:04

yield 继续往下跑

self.gapslist.clear()#记录加到缓存#self.gapslist.add(message)date_str=datetime.now().strftime("%Y%m%d")index_name='flink-log-clpf-gaps

scan724·2023-06-22 20:41

pyflink 流批结合

#-*-coding:utf-8-*-frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.datastream.functionsimportRuntimeContext

scan724·2023-06-22 20:40

python yield 和return区别

self.gapslist.clear()#记录加到缓存#self.gapslist.add(message)date_str=datetime.now().strftime("%Y%m%d")index_name='flink-log-clpf-gaps

scan724·2023-06-22 20:07

如何实时统计最近 15 秒的商品销售额｜Flink-Learning 实战营

为进一步帮助开发者学习使用Flink，ApacheFlink中文社区近期发起Flink-Learning实战营项目。

·2023-06-22 17:02

大数据中台技术组件

一、平台搭建1.1.Amabari+HDP1.2.CM+CDH二、相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto

TURING.DT·2023-06-22 16:31

如何实时统计最近 15 秒的商品销售额｜Flink-Learning 实战营

为进一步帮助开发者学习使用Flink，ApacheFlink中文社区近期发起Flink-Learning实战营项目。

Apache Flink·2023-06-22 13:47

只需 2 小时，变身 Flink 实战派：Flink-Learning实战营火热报名中

加入Flink-Learning实战营，动手体验真实有趣的实战场景。只需2小时，让您变身Flink实战派。实战营采取了Flink专家在线授课，专属社群答疑，小松鼠助教全程陪伴的学习模式。

Apache Flink·2023-06-22 13:16

中原银行 OLAP 架构实时化演进

摘要：本文整理自中原银行数据信息部杜威科，在FlinkForwardAsia2022行业案例专场的分享。

Apache Flink·2023-06-22 13:45

Flink 状态一致性

Flink状态一致性端到端精确一次输入端输出端预写日志两阶段提交状态一致性有三种级别：最多一次(AT-MOST-ONCE):只处理一次,遇到故障就会丢失,优点:处理快至少一次(AT-LEAST-ONCE

cpuCode·2023-06-22 13:12

Flink系列 - 实时数仓之FlinkCDC实现动态分流实战（十）

自从Flink出了FlinkCDC之后，我们对数据库日志的采集就变得方便了许多了，除去了MaxWell、Cannel、OGG等第三方组件的繁琐配置，目前实现CDC有两种方式：HQL实现和DataStreamAPI

小飞牛_666·2023-06-22 13:08

docker搭建flink集群

code喵喵·2023-06-22 10:05

## flink- mysql同步数据至starrocks-2.5.0之数据同步

flink-mysql同步数据至starrocks-2.5.0之数据同步mysql创建表CREATETABLE`t_user`(`id`bigintNOTNULLAUTO_INCREMENT,`user_name

iiaythi·2023-06-22 06:59

flink- mysql同步数据至starrocks-2.5.0之环境搭建

flink-mysql同步数据至starrocks-2.5.0之环境搭建一般需要以下几个服务:mysqlflinkflink-taskmanagerflink-jobmanagerstarrocksstarrocks-festarrocks-bedocker-compose.yml

iiaythi·2023-06-22 06:27

Flink流批一体计算（4）：Flink功能模块

目录Flink功能架构Flink输入输出Flink功能架构Flink是分层架构的分布式计算引擎，每层的实现依赖下层提供的服务，同时提供抽象的接口和服务供上层使用。

victory0508·2023-06-22 06:14

Flink流批一体计算（3）：FLink作业调度

Flink也是一个分布式计算引擎，要运行Flink程序，也需要一个资源管理器。

victory0508·2023-06-22 06:11

pyflink get_list_state 数组

classMyMapFunction(FlatMapFunction):defopen(self,runtime_context:RuntimeContext):self.process_id_to_bus_seq=runtime_context.get_map_state(MapStateDescriptor('process_id_map_bus_seq',Types.STRING(),Typ

scan724·2023-06-22 06:40

pyflink get_map_state 字符串

classMyMapFunction(FlatMapFunction):defopen(self,runtime_context:RuntimeContext):self.process_id_to_bus_seq=runtime_context.get_map_state(MapStateDescriptor('process_id_map_bus_seq',Types.STRING(),Typ

scan724·2023-06-22 06:10

Hive中数据库和表的操作(HSQL)

数仓管理工具Hive可以将HDFS文件中的结构化数据映射成表，利用HSQL对表进行分析，HSQL的底层运行机制，默认是MapReduce计算，也可以替换成Spark、Tez、Flink计算结果存储在HDFS

时下握今·2023-06-22 05:19

Flink 学习三 Flink 流 & process function API

Flink学习三Flink流&processfunctionAPI1.Flink多流操作1.1.split分流(deprecated)把一个数据流根据数据分成多个数据流1.2版本后移除1.2.分流操作(

C0oOder·2023-06-21 22:35

推荐频道

大数据框架flink

流批一体架构在快手的实践和思考｜行业实践专栏上线

Flink start-cluster.sh

Flink核心组件

流批一体架构在快手的实践和思考

Flink SQL 在快手的扩展和实践

腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践

趣头条基于 Flink+ClickHouse 构建实时数据分析平台

Lyft 基于 Flink 的大规模准实时数据分析平台（附FFA大会视频）

HiveSQL 迁移 FlinkSQL 在快手的实践

Flink+StarRocks 实时数据分析新范式

Flink实现特定统计的归约聚合reduce操作

Flink CDC实战之Mongo同步Mysql

Flink中KeyedStateStore实现--怎么做到一个Key对应一个State

基于 Flink CDC 构建 MySQL 到 Databend 的 实时数据同步

Prometheus+Grafana系统部署，linux、flink的监控与告警

Flink 之 Kafka连接器

Flink DataStream Connectors 之 Apache Kafka 连接器

flink-sql所有数据类型-1.13

flink集群的搭建及测试

Flink总结-设置Jvm参数

flinksql下的时间日期格式转换

怎么计算flink任务需要多少cpu和内存

Flink实时计算资源如何优化

FlinkKafkaProducer 源码分析

Flink+Pulsar、Kafka问题分析及方案 -- 事务阻塞

Flink将数据写入CSV文件后文件中没有数据

Zeppelin on Flink小试牛刀

[大数据 Flink,Java实现不同数据库实时数据同步过程]

大数据就业路线

大数据之flink教程

Kafka最佳实践

yield 继续往下跑

pyflink 流批结合

python yield 和return区别

如何实时统计最近 15 秒的商品销售额｜Flink-Learning 实战营

大数据中台技术组件

如何实时统计最近 15 秒的商品销售额｜Flink-Learning 实战营

只需 2 小时，变身 Flink 实战派：Flink-Learning实战营火热报名中

中原银行 OLAP 架构实时化演进

Flink 状态一致性

Flink系列 - 实时数仓之FlinkCDC实现动态分流实战（十）

docker搭建flink集群

## flink- mysql同步数据至starrocks-2.5.0之数据同步

flink- mysql同步数据至starrocks-2.5.0之环境搭建

Flink流批一体计算（4）：Flink功能模块

Flink流批一体计算（3）：FLink作业调度

pyflink get_list_state 数组

pyflink get_map_state 字符串

Hive中数据库和表的操作(HSQL)

Flink 学习三 Flink 流 & process function API

基于 Flink CDC 构建 MySQL 到 Databend 的实时数据同步