迷路剑客

Flink-流平台调研

Flink系列文章

更多Flink系列文章请点击Flink系列文章
更多大数据文章请点击大数据好文推荐

1 flinkStreamSQL

1 简介

flinkStreamSQL是袋鼠云大数据团队基于开源的flink，对其实时sql进行了扩展；主要实现了流与维表的join，支持原生flink SQL所有的语法。

优点是可以纯SQL的方式提交应用运行。

缺点是目前版本只支持到Flink 1.8，不支持1.9以后的Blink特性，很多函数都无法使用需要自己写UDF。

提了个issue，回复说4月底才能支持Flink1.10，我们等不起。。。

更多详情可参考：

Git-flinkStreamSQL

1.2 flinkStreamSQL解决的问题

原生FlinkSQL没有实现对数据来源、数据目的地的SQL化，必须要写代码。

这个就很坑了，一般来说，SQL面向数据分析人员，如果要写代码无疑提高了门槛。flinkStreamSQL里面将这一切都用SQL解决。袋鼠云声称的数据计算采用SQL的优势：

声明式
用户只需要表达我想要什么，至于怎么计算那是系统的事情，用户不用关心。
自动调优
查询优化器可以为用户的 SQL 生成最有的执行计划。用户不需要了解它，就能自动享受优化器带来的性能提升。
易于理解和使用
很多不同行业不同领域的人都懂 SQL，SQL 的学习门槛很低，用 SQL 作为跨团队的开发语言可以很大地提高效率。
稳定
SQL 是一个拥有几十年历史的语言，是一个非常稳定的语言，很少有变动。所以当我们升级引擎的版本时，甚至替换成另一个引擎，都可以做到兼容地、平滑地升级。

此外，FlinkSQl还支持了流与流、流与维表Join:

1.3 flinkStreamSQL基本原理

这里摘自Flink-SQL的扩展实现

将创建源表的sql语句转换为flink的operator
目前flinkStreamSQL只支持Kafka数据源，已经满足我们要求。其实我们在flinkStreamSQL中写的建表语句就是映射到Flink Table类，各个属性就是Kafka数据源的属性，注册表时调用以下Flink代码：
```
StreamTableEnvironment.registerTable(tableName, table);
```
将创建的输出表sql语句转换为flink的operator
- 解析出create table语句中的连接信息和表信息，放入自定义类
- 继承RichOutputFormat类，根据数据源来分别实现writeRecord方法将数据写入外部数据源
将UDF语句转换为flink的operator
Flink原生对UDF提供两种类型的实现方式：
- 继承ScalarFunction
- 继承TableFunction
flinkStreamSQL将用户提供的实现了上述接口class所在的jar添加到URLClassLoader，并加载指定的class ，然后调用TableEnvironment.registerFunction(funcName, udfFunc)即完成了UDF注册。
维表功能的实现
Flink原生SQL不支持注册表和外部数据源Join，但我们常常需要用Flink做数据预处理时就join维表补足表的维度信息字段。

flinkStreamSQL使用定时更新缓存外部被Join数据源、阿里贡献的异步获取外部数据源数据的RichAsyncFunction、解决了维表不断变化、IO吞吐问题。

另一方面，使用Flink项目依赖的calcite做SQL解析出的AST，迭代搜索出维度表，区分出维表和非维表即可（如果有维表就把这个join的维表的语句单独拆来，用Flink的TableAPI和StreamAPi 生成新DataStream，在把这个DataStream与其他的表再做join即可）。

2 Oppo流平台

参考：

OPPO数据中台之基石：基于Flink SQL构建实时数仓
OPPO 基于 Flink 构建实时计算平台的思路、演进与优化
一些流平台构建心路历程、Flink源码阅读和优化经验

2.1 背景

2.1.1 数据规模不断增加

Oppo在手机上做了基于Android的ColorOS，日活2亿，构建了不少应用，每天产生海量数据。

2.1.2 Oppo数据中台

这里还可以看看Oppo的数据中台：

这里的全域数据是指公司业务数据全都打通后形成的统一数据自产。

2.1.3 离线数仓

以前Oppo是离线数仓：

Presto那条线是可直接通过Presto即席查询和提数。

2.1.4 实时数仓

需求背景：

主要是有很多实时也无需求提出。比如实时推送商圈广告，就需要实时对用户打商圈标，此时t+1肯定就不行。所以需要实时打标

在数据平台这边，因为离线数仓大多是t+1的，所以调度平台、标签计算和导入大多集中在凌晨，资源竞争严重，集群压力大，耗时长。而数据质量监控也是t+1，必须在数据产出后进行事后校验，无法及时发现问题，增加起夜率。

离线迁移到实时，必须注意平滑，即对用户来说使用习惯和抽象不能有根本改变。

流场景也支持SQL和UDF
流场景执行引擎需要替换为Flink，中转数据存储演变为Kafka，可方便同步到其他数据源进行特定场景查询使用。

实时数仓架构如下：

基本流程不变，但是关键技术演进为了Flink，串起了整个数据流转过程。

使用FlinkSql原因如下：

其中ANSI SQL含义是支持ANSI SQL标准。
数据类型丰富，内置函数在Flink1.9合并了阿里Blink后更是齐全
支持很多常见数据源来做Source Sink，还可自定义，便于扩展
流批统一，同一个SQL即可
支持事件时间，且可支持各种窗口计算，便于实时统计
容错性强，基于Checkpoint、状态等机制可实现端到端Exactly Once

2.1.5 FlinkSql存在的问题

虽然FlinkSQL可以用SQL定义输入输出表，但仍然需要编码，这对于ETL同事来说并不友好，所以最好是有个界面，能直接用SQL定义、提交流作业。但FlinkSQL并未提供该功能，只能自己实现。

OPPO的流式SQL凭条界面构想如下：

可以看到，该界面就如同Navicat、HUE等。

Uber开源了一个AthenaX的SQL管理器：

Job
是SQL作业的抽象，封装SQL及作业资源信息。
Job Store
托管所有Job。

定义

3 小米流平台

【实践案例分享】小米流式平台架构演进与实践
介绍小米流平台从Storm->Spark Streaming->Flink的技术演进，以及基于 Flink 的实时数仓的介绍，还有对SQL解析
作恶管理、Flink JobGraph生成等细节。但问题是这一套都是自己实现，并未开源，所以开发成本很高。

4 网易实时计算平台

覆盖电商、推荐、ETL、风控等多场景，网易的实时计算平台做了啥？
介绍了网易流平台Sloth，都是自己实现的，功能做的很完备。然后介绍了内部应用状况，如实时数仓、推荐、数据分析、搜索推荐等。

5 58同城实时计算平台

58同城实时计算平台架构实践
介绍了其实时计算平台Wstream，其实时平台演进路线如下

可以看到也是跟小米一样走了Storm（吞吐能力不够）->SparkStreaming（计算延迟）->Flink（支持状态管理、时间窗口、Exactly Once语义等，且拥有高吞吐低延迟的架构设计以及高可用的稳定性，同时拥有实时计算场景一系列特性以及支持实时流式Sql）这样的路线。

主要业务分为实时ETL、实时数仓（实时数据数据计算、模型加工、存储、业务指标实时计算服务于运营人员）、实时监控（包括系统行为如业务指标和用户行为如金融风控）、实时分析（如实时标签、特征平台、实时推荐等）

流平台Wstream架构如下

FlinkSQL这块儿扩展如下：

支持自定义DDL语法（包括源表,输出表,维表）
支持自定义UDF/UDTF/UDAF语法
实现了流与维表的join,双流join

用户提交任务可使用Sql client的cli方式以及Wstream界面的sql任务编辑器，同时对用户提供了向导化配置方式，解决用户定义table需要了解复杂的参数设置（比如），用户只需关心业务逻辑处理，像开发离线Hive一样使用sql开发实时任务，比如以下Flink SQL DDL配置：

58流平台支持如下：

6 腾讯基于 Flink 的实时流计算平台

腾讯基于 Flink 的实时流计算平台演进之路

腾讯选择用 Flink 作为新一代的实时流计算引擎，并对社区版的 Flink 进行了深度的优化，在此之上构建了一个集开发、测试、部署和运维于一体的一站式可视化实时计算平台—— Oceanus

腾讯云的流平台技术演进路线，也是Storm（没有内置状态的支持，没有提供完备的容错能力，没有内置的窗口 API，core API 无法提供 Exactly-once 的语义保证等）->Flink，但没有SparkStreaming。可以看到，他们把流计算平台不仅应用与公司内部，还上云给客户使用。

Oceanus技术架构如下

Flink是从Flink社区拉出来的分支
Oceanus 支持画布（它提供了很多功能细分的可插拔的便捷函数来简化常见的事件解析与提取的复杂度）、SQL 以及 Jar 三种形式构建应用。为了方便业务方降低整体成本，还提供了配置、测试、部署等完整配套的功能，在平台之上提供了一些领域特定的场景化服务比如 ETL、监控、推荐广告等。
还有大量对Flink原生功能优化，可以做参考。
该文档中罗列的很多细节是Standalone模式。

5 网易严选-基于 Flink 的实时数仓实践

基于 Flink 的严选实时数仓实践

5.1 背景

长链路且快速变化的业务
严选作为一个 ODM 电商，整个业务链度从商品采购、生产、仓库、到销售这个阶段可以在主站 APP 上购买或者分厂购买，然后通过商户配送到达消费者。链度是非常长的，这也决定数据的数据域非常广；

严选作为一个成长的电商，会有很多新的业务出现。
越来越多的实时数据需求
目前需要更多的实时数据来做业务决策，需要依据销售情况做一个资源位的调整；

同时有些活动也需要实时数据来增强与用户的互动。

如果数据有实时和离线两种方案，优先考虑实时的，如果实时实现不了再考虑离线的方式。
越来越高的数据质量要求
因为数据会直接影响业务决策，影响线上运营活动效果，因此对数据质量的要求越来越高。

针对这样的项目背景提出了实时数仓的三个设计目标：

是灵活可扩展
开发效率高
数据质量要求高

5.2 架构

5.3 实时数仓

详细讲了实时数仓分层、主题域

ODS 层和 DWD 层
都是用Kafka存储的一些实时数据，选择的是 Kafka 进行存储，
DWD层
会关联一些历史明细数据，会将其放到 Redis 里面。
DIM 层
主要做一些高并发维度的查询关联，一般将其存放在 HBase 里面。
DM数据集市层
需要综合考虑对于数据落地的要求以及具体的查询引擎来选择不同的存储方式：
- 对于常见的指标汇总模型直接放在 MySQL 里面
- 维度比较多的、写入更新比较大的模型会放在 HBase 里面
- 还有明细数据需要做一些多维分析或者关联会将其存储在 Greenplum 里面
- 还有一种是维度比较多、需要做排序、查询要求比较高的，如活动期间用户的销售列表等大列表直接存储在 Redis 里面。

5.4 对比流计算主流技术栈

5.5 对使用技术的优化

还介绍了对 Hyperloglog HBase MySQL Greenplum的一些使用优化。

5.6 数据质量

数据质量分为两个方面来介绍，离线/实时数据一致性和数据监控。

5.6.1 离线/实时数据一致性

数据一致性主要针对实时与离线的数据一致性，同一个指标实时与离线都会产出：

建模方法与分层基本统一，建模基于维度建模，分层也是业内通用方法；
业务上主题域和模型设计同步；
数据接入与源数据统一；
数据产出方面，指标定义和接口都是统一输出。

5.6.2 数据监控

5.6.3 实时数据血缘

梳理实时数仓中数据依赖关系，以及实时任务的依赖关系，从底层 ODS 到 DIM 再到 DM，以及 DM 层被哪些模型用到，将整个链度串联起来。

5.7 应用

还有业务后台仓配产能监控、物流时效监控、库存预警、商品变更通知。

5.8 未来计划

现在网易严选也是用的SQL和API，后面要搞纯SQL

参考文档

Github-flinkStreamSQL
袋鼠云研发手记 | 开源·数栈-扩展FlinkSQL实现流与维表的join
Flink-SQL的扩展实现
本文介绍了flinkStreamSQL的基本概念和实现基本原理。
阿里-实时计算 Flink SQL 核心功能解密
OPPO数据中台之基石：基于Flink SQL构建实时数仓

[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
Flink自定义函数之聚合函数（UDAGG函数）土豆马铃薯 Flink flink 大数据
1.聚合函数概念聚合函数：将一个表的一个或多个行并且具有一个或多个属性聚合为标量值。聚合函数理解：假设一个关于饮料的表。表里面有三个字段，分别是id、name、price，表里有5行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个max()聚合。你需要遍历所有5行数据，而结果就只有一个数值。2.聚合函数实现聚合函数主要通过扩展AggregateFunction类实现。AggregateF
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
Flink自定义函数的常用方式飞Link Water flink java 大数据
一、实现Flink提供的接口//自定义函数classMyMapFunctionimplementsMapFunction{publicIntegermap(Stringvalue){returnInteger.parseInt(value
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
【Kafka】Failed to send data to Kafka: Expiring 30 record(s) for xxx 732453 ms has passed since last 九师兄 kafka big data zookeeper
文章目录1.美图2.背景2.尝试方案13.尝试解决24.场景再现25.场景46.场景57.场景78.场景8M.拓展本文为博主九师兄（QQ:541711153欢迎来探讨技术）原创文章，未经允许博主不允许转载。1.美图问题与【Flink】Flink写入kafka报错FailedtosenddatatoKafka:Expiring4record(s)for20001mshaspassed重复了。2.背景
【Flink】flink Kafka报错 : Failed to send data to Kafka: This server is not the leader for that topic-pa 九师兄 flink kafka 大数据
1.背景出现这个问题的背景请参考：【Kafka】FailedtosenddatatoKafka:Expiring30record(s)forxxx732453mshaspassedsincelast[2020-09-0513:16:09
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
kafka单个生产者向具有多个partition的topic写数据（写入分区策略）
最近碰到生产环境现象一个flink程序单并行度（一个生产者），对应topic为8分区。每个分区都能消费到生产出的数据。整理知识点如下生产者写入消息到topic，kafka将依据不同的策略将数据分配到不同的分区中1.轮询分区策略2.随机分区策略3.按key分区分配策略4.自定义分区策略1.1轮询分区策略默认的策略，也是使用最多的策略，可以最大限度的保证所有消息平均分配到分区里面如果在生产消息时，ke
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接 Edingbrugh.南空大数据 flink flink clickhouse 大数据
引言在大数据处理领域，ApacheFlink是一款强大的流处理和批处理框架，而ClickHouse则是一个高性能的列式数据库，专为在线分析处理（OLAP）场景设计。FlinkClickHouse连接器为这两者之间搭建了一座桥梁，使得用户能够在Flink中方便地与ClickHouse数据库进行交互，实现数据的读写操作。本文将详细介绍FlinkClickHouse连接器的相关内容，包括其特点、使用方法
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
Flink OceanBase CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink oceanbase 大数据
一、OceanBase数据库核心配置1.环境准备与版本要求版本要求：OceanBaseCE4.0+或OceanBaseEE2.2+组件依赖：需部署LogProxy服务（社区版/企业版部署方式不同）兼容模式：支持MySQL模式（默认）和Oracle模式2.创建用户与权限配置在sys租户创建管理用户（社区版示例）：--连接sys租户（默认端口2881）mysql-h127.0.0.1-P2881-ur
Flink MongoDB CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink mongodb 大数据
一、MongoDB数据库核心配置1.环境准备与集群要求MongoDBCDC依赖ChangeStreams特性，需满足以下条件：版本要求：MongoDB≥3.6集群模式：副本集（ReplicaSet）或分片集群（ShardedCluster）存储引擎：WiredTiger（默认自3.2版本起）副本集协议：pv1（MongoDB4.0+默认）验证集群配置：#连接MongoDBshellmongo--h
Flink将数据流写入Kafka,Redis,ES,Mysql 浅唱战无双 flink mysql es redis kafka
Flink写入不同的数据源写入到Mysql写入到ES向Redis写入向kafka写入导入公共依赖org.slf4jslf4j-simple1.7.25compileorg.apache.flinkflink-java1.10.1org.apache.flinkflink-streaming-java_2.121.10.1写入到Mysql导入依赖mysqlmysql-connector-java5.
Flink TiDB CDC 环境配置与验证
一、TiDB数据库核心配置1.启用TiCDC服务确保TiDB集群已部署TiCDC组件（版本需兼容FlinkCDC3.0.1），并启动同步服务：#示例：启动TiCDC捕获changefeedcdcclichangefeedcreate\--pd="localhost:2379"\--sink-uri="blackhole://"\--changefeed-id="flink-cdc-demo"2.验
Flink CDC支持Oracle RAC架构CDB+PDB模式的实时数据同步吗，可以上生产环境吗智海观潮 Flink flink cdc oracle flink 数据同步大数据
众所周知，FlinkCDC是一个流数据集成工具，支持多种数据源的实时数据同步，包括大家所熟知的MySQL，MongoDB等。原本是作为Flink的子项目运行，后来捐献给Apache基金会，底层实现比较依赖于Flink生态。具体到数据同步底层实现则相对比较依赖于Debezium。对于Oracle实时数据同步有需求的用户来说，经常会有疑问，比如FlinkCDC支持Oracle实时数据同步吗，可以应用到
Flink Oracle CDC 环境配置与验证
一、Oracle数据库核心配置详解1.启用归档日志（ArchivingLog）OracleCDC依赖归档日志获取增量变更数据，需按以下步骤启用：非CDB数据库配置：--以DBA身份连接数据库CONNECTsys/passwordASSYSDBA;--配置归档目标路径和大小ALTERSYSTEMSETdb_recovery_file_dest_size=10G;ALTERSYSTEMSETdb_re
flink读取kafka的数据处理完毕写入redis JinVijay flink kafka redis flink
/**从Kafka读取数据处理完毕写入Redis*/publicclassKafkaToRedis{publicstaticvoidmain(String[]args)throwsException{StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();//开启checkpointing
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

Flink-流平台调研

Flink-流平台调研

Flink系列文章

1 flinkStreamSQL

1 简介

1.2 flinkStreamSQL解决的问题

1.3 flinkStreamSQL基本原理

2 Oppo流平台

2.1 背景

2.1.1 数据规模不断增加

2.1.2 Oppo数据中台

2.1.3 离线数仓

2.1.4 实时数仓

2.1.5 FlinkSql存在的问题

3 小米流平台

4 网易实时计算平台

5 58同城实时计算平台

6 腾讯基于 Flink 的实时流计算平台

5 网易严选-基于 Flink 的实时数仓实践

5.1 背景

5.2 架构

5.3 实时数仓

5.4 对比流计算主流技术栈

5.5 对使用技术的优化

5.6 数据质量

5.6.1 离线/实时数据一致性

5.6.2 数据监控

5.6.3 实时数据血缘

5.7 应用

5.8 未来计划

参考文档

你可能感兴趣的:(flink)