flink数据湖第23页

数据湖和传统数仓区别及湖仓一体

1.数据仓库早期系统采用关系型数据库来存放管理数据，但是随着大数据技术的兴起，人们对于多方面数据进行分析的需求愈加强烈，这就要求建立一个能够面向分析、集成保存大量历史数据的新型管理机制，这一机制就是数据仓库。数据仓库通常存储来自不同源的数据，集成源数据以提供统一的视图。这些资源可以包括事务系统、应用程序日志文件、关系数据库等等。数据仓库特性：面向主题：与传统数据库面向应用进行数据组织的特点相对应，

土豆马铃薯·2024-01-04 20:04

Flink | Checkpoint 机制详解

一、Checkpoint简介Flink的Checkpoint机制是其可靠性的基石。

坨坨的大数据·2024-01-04 20:32

技术解读丨多模数据湖：助力AI技术，推动内容管理平台智能化升级

本文重点介绍SequoiaDB多模数据湖技术在内容管理平台中的应用和成效，以及其对企业非结构化数据管理和AI的推动作用。随着数字化时代的到来，数据已经成为企业的重要资产之一。

巨杉数据库SequoiaDB·2024-01-04 19:39

Flink 的时间属性及原理解析

Flink的API大体上可以划分为三个层次：处于最底层的ProcessFunction、中间一层的DataStreamAPI和最上层的SQL/TableAPI，这三层中的每一层都非常依赖于时间属性。

程序猿进阶·2024-01-04 18:57

流式湖仓增强，Hologres + Flink构建企业级实时数仓

2023年12月，由阿里云主办的实时计算闭门会在北京举行，阿里云实时数仓Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时数仓，实现全链路的数据实时计算、实时写入、实时更新

阿里云大数据AI技术·2024-01-04 16:07

Flink 任务指标监控

TaskManager指标Job指标资源监控指标数据流监控指标任务监控指标网络监控指标容错监控指标数据源监控指标数据存储监控指标JobManager指标TaskManager指标Job指标当使用ApacheFlink

墨子白·2024-01-04 16:03

Flink状态容错savepoint与checkpoint

本文目录CheckpointsStateBackendsSavepointsCheckpoints与Savepoints区别Flink可以保证exactlyonce，与其容错机制checkpoint和savepoint

大数据技术派·2024-01-04 16:33

FlinkSQL处理Canal-JSON数据

Flink支持将Canal的JSON消息解析为INSERT、UPDA

实时即未来·2024-01-04 11:34

【数据湖架构】数据湖101：概述

数据湖是非结构化和结构化数据池，按原样存储，没有特定的目的，可以建立在多种技术上，如Hadoop，NoSQL，AmazonSimpleStorageService，关系数据库或各种组合根据一份名为“什么是数据湖

架构师研究会·2024-01-04 10:08

尚硅谷大数据技术-数据湖Hudi视频教程-笔记01

大数据新风口：Hudi数据湖（尚硅谷&ApacheHudi联合出品）尚硅谷数据湖Hudi视频教程B站直达：https://www.bilibili.com/video/BV1ue4y1i7na百度网盘：

upward337·2024-01-04 08:52

Flink Watermark和时间语义

Flink中的时间语义时间语义：EventTime：事件创建时间；IngestionTime：数据进入Flink的时间；ProcessingTime：执行操作算子的本地系统时间，与机器无关。

程序猿进阶·2024-01-04 06:51

docker搭建Dinky —— 筑梦之路

简介Dinky是一个开箱即用、易扩展，以ApacheFlink为基础，连接OLAP和数据湖等众多框架的一站式实时计算平台，致力于流批一体和湖仓一体的探索与实践。

筑梦之路·2024-01-04 03:40

Flink应用介绍

前言：Flink自2014年开源以来，网上对Flink的介绍不可胜数；作为一个灵活的实时计算框架，Flink到底能用来做什么？

i7杨·2024-01-04 03:37

在与面试官面试之后的某些回想

4.我感觉在面试官说完后，我还是很懵，比如人家说flink架构时，我回答的是运行架构，

劝学-大数据·2024-01-03 17:22

基于 Flink 的百亿数据去重实践

在工作中经常会遇到去重的场景，例如基于App的用户行为日志分析系统，用户的行为日志从手机客户端上报到Nginx服务端，通过Logstash、Flume或其他工具将日志从Nginx写入到Kafka中。由于用户手机客户端的网络可能出现不稳定，所以手机客户端上传日志的策略是：宁可重复上报，也不能丢日志。所以导致Kafka中必然会出现日志重复的情况，即：同一条日志出现了2条或2条以上。通常情况下，Flin

zhisheng_blog·2024-01-03 16:52

Flink 维表关联方案

Flink维表关联方案1、FlinkDataStream关联维表1）概述1.分类实时数据库查找关联（Per-RecordReferenceDataLookup）预加载维表关联（Pre-LoadingofReferenceData

猫猫爱吃小鱼粮·2024-01-03 16:49

Flink-Paimon 案例

Flink-Paimon案例1、下载FlinkJar包并解压tar-xzfflink-*.tgz2、下载PaimonJar包放进Flink的lib中cppaimon-flink-*.jar/lib/3、

猫猫爱吃小鱼粮·2024-01-03 16:49

数睿通2.0功能更新：支持多版本 Flink 切换，新增数据标签模块

文章目录引言支持多版本Flink切换功能展示使用方法数据标签合并微服务Bug修复，细节优化结语引言小伙伴们，大家好，数睿通2.0数据中台迎来了12月份的更新，由于年底工作繁忙，所以本次更新内容稍微少了点

小螺旋丸·2024-01-03 10:22

数睿通2.0数据接入、数据开发、系统权限、集群监控全面升级

引言数睿通2.0数据中台迎来了11月份的更新，感谢大家的支持，本次更新主要包括以下内容：数据库支持MongoDB数据接入支持MongoDB，支持自定义SQL采集，支持停止运行中的任务数据生产支持FlinkJar

小螺旋丸·2024-01-03 10:21

新年快乐—数睿通2.0数据中台全新功能模块发布

文章目录引言数据集成数据库管理文件管理数据接入贴源数据数据开发数据生产sql作业开发FlinkSql作业开发调度中心运维中心资源中心配置中心其他模块结语引言离上次发文已经有接近三个月了，这三个月主要在开发数睿通的数据生产模块

小螺旋丸·2024-01-03 10:43

Flink-【时间语义、窗口、水位线】

1.时间语义1.1事件时间：数据产生的事件（机器时间）；1.2处理时间：数据处理的时间（系统时间）。：可乐可乐的生产日期=事件时间（可乐产生的时间）；可乐被喝的时间=处理时间（可乐被处理【喝掉=处理】的时间）。机器时间：可能不准确（例如：A可乐厂的时钟比较慢，B可乐厂的时钟比较快，但实际上B产生可乐的时间比A产生可乐的时间慢，却被先处理了）系统时间：相对准确（处理机器设置的时间，一般无误【当然分布

可乐manman·2024-01-03 09:58

Flink的检查点算法

Flink的恢复机制基于应用状态的一致检查点。在有状态的流应用中，一个一致性检查点是：在所有tasks处理了一个（相同的）输入后，当前时间点每个task的state副本。

XueminXu·2024-01-03 09:52

Flink实时电商数仓（十）

common模块回顾appBaseApp:作为其他子模块中使用Flink-StreamAPI的父类，实现了StreamAPI中的通用逻辑，在其他子模块中只需编写关于数据处理的核心逻辑。

十七✧ᐦ̤·2024-01-03 09:50

Alluxio：2022年大数据五大趋势，多云下数据湖兴起，AI成为主流

Alluxio创始人兼CEO预测2022年大数据发展五大趋势：混合云和多云、人工智能和深度学习、服务、数据共享和新的数据湖存储格式成为关注重点。

CSDN云计算·2024-01-03 08:46

全面解读数据中台、数据仓库和数据湖

随着大数据技术的不断更新和迭代，数据管理工具得到了飞速的发展，相关概念如雨后春笋一般应运而生，如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等，这些概念特别容易混淆，本文对这些名词术语及内涵

公众号:肉眼品世界·2024-01-03 00:44

如何在Flink SQL中轻松实现高效数据处理：最佳实践揭秘Protobuf自定义格式

目录FlinkSQLProtobufFormat设计要点1.引言2.为什么需要自定义Protobuf格式3.自定义Protobuf格式的

数据与后端架构提升之路·2024-01-03 00:39

Flink学习-处理函数

简介处理函数是Flink底层的函数，工作中通常用来做一些更复杂的业务处理，处理函数分好几种，主要包括基本处理函数，keyed处理函数，window处理函数。

demon7552003·2024-01-02 17:29

【flink番外篇】9、Flink Table API 支持的操作示例（11）- Group Windows（tumbling、sliding和session）操作

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。

一瓢一瓢的饮 alanchan·2024-01-02 14:22

【flink番外篇】9、Flink Table API 支持的操作示例（8）- 时态表的join（scala版本）

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。

一瓢一瓢的饮 alanchan·2024-01-02 14:21

【flink番外篇】9、Flink Table API 支持的操作示例（10）- 表的OrderBy、Offset 和 Fetch、insert操作

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。

一瓢一瓢的饮 alanchan·2024-01-02 14:21

【flink番外篇】9、Flink Table API 支持的操作示例（9）- 表的union、unionall、intersect、intersectall、minus、minusall和in的操作

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。

一瓢一瓢的饮 alanchan·2024-01-02 14:49

Flink自定义MySQLSource读取MySQL数据

先查看数据库连接池实现MySQL连接池MySQL表student的实体采用caseclass定义objectDomain{caseclassAccess(time:Long,domain:String,traffic:Long)caseclassStudent(id:Int,name:String,age:Int)}实现RichSourceFunction来自定义MySQLSourcepackag

喵星人ZC·2024-01-02 10:51

MongoDB学习红宝书 - MongoDB官网使用指南

进入网站首页后，会看到顶端简洁明了的导航栏：产品：包含云服务Atlas、MongoDBStich、Server、Compass，Charts以及最新推出的Atlas数据湖等MongoDB所有产品解决方案

MongoDB中文社区·2024-01-02 09:17

大数据学习入门到实战教程，精心整理万字长文入门，老奶奶看了都说学会了

换个角度说，大数据是：1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具（hadoop、spark、storm、flink、tez

悦悦学Python·2024-01-02 08:59

最容易出错的 Hive Sql 详解

前言在进行数仓搭建和数据分析时最常用的就是sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括hive，spark，flink等，所以sql在大数据领域有着不可替代的作用

奔跑者-辉·2024-01-02 07:30

Flink 的window机制(二) 窗口函数

WindowFunction前面指定了窗口的分配器,接着我们需要来指定如何计算,这事由windowfunction来负责.一旦窗口关闭,windowfunction去计算处理窗口中的每个元素.windowfunction可以是ReduceFunction,AggregateFunction,orProcessWindowFunction中的任意一种.ReduceFunction,Aggregate

万事万物·2024-01-02 05:34

Apache Flink连载（二十三）：Flink HA - Flink基于Yarn HA

个人主页：IT贫道_大数据OLAP体系技术栈,ApacheDoris,Clickhouse技术-CSDN博客私聊博主：加入大数据技术讨论群聊，获取更多大数据资料。博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录1.YarnHA配置2.启动测试</

IT贫道·2024-01-02 04:42

Apache Flink连载（二十二）：Flink HA - Flink基于Standalone HA

博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录Flink基于StandaloneHA1.StandaloneHA配置2.启动测试Flink基于Standalon

IT贫道·2024-01-02 04:11

flink 连接 hdfs 读取文件配置

flink连接hdfs读取文件配置hadoop版本为2.7.3window系统本地运行flink程序读取hdfs文件配置1，请导入hadoop和httpclient的包org.apache.flinkflink-hadoop-fs

eagle隼·2024-01-02 02:06

PiflowX组件-JDBCRead

计算引擎flink有界性ScanSource:BoundedLookupSource:SyncMode组件分组Jdbc端口Inport：默认端口outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子

暗影八度·2024-01-01 23:36

PiflowX组件-ReadFromUpsertKafka

计算引擎flink有界性Unbounded组件分组kafka端口Inport：默认端口outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子kafka_hostKAFKA_HOST“”

暗影八度·2024-01-01 23:06

PiflowX组件-WriteToUpsertKafka

计算引擎flink有界性StreamingUpsertMode组件分组kafka端口Inport：默认端口outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子kafka_hostKAFKA_HOST

暗影八度·2024-01-01 23:05

PiflowX组件-JDBCWrite

计算引擎flink有界性Sink:BatchSink:StreamingAppend&UpsertMode组件分组Jdbc端口Inport：默认端口outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子

暗影八度·2024-01-01 23:01

Flink学习-时间和窗口

在流数据处理应用中，一个很重要、也很常见的操作就是窗口计算。所谓的“窗口”，一般就是划定的一段时间范围，也就是“时间窗”；对在这范围内的数据进行处理，就是所谓的窗口计算。所以窗口和时间往往是分不开的。时间语义事件时间（EventTime）：每个事件在对应的设备上发生的时间，也就是数据生成的时间。处理时间（ProcessingTime）：执行处理操作的机器的系统时间摄取时间（IngestionTim

demon7552003·2024-01-01 22:04

Databricks中国启示录：一场蓄谋已久的技术与商业战 | 企服国际观察

图片来源：视觉中国ITValue6月底，刚刚结束的Data+AISummit上，Databricks宣布将数据湖表格式DeltaLake的API完全开源。

ITValue·2024-01-01 14:53

20200912 001_Flink-Flink简介

20200912001_Flink-Flink简介第一章Flink简介主要内容•Flink是什么•为什么要用Flink•流处理的发展和演变•Flink的主要特点•FlinkvsSparkStreaming1.1

强哥带你飞·2024-01-01 13:02

flink有什么优势值得大家这么热衷

flink通过实现了GoogleDataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。

KK架构·2024-01-01 13:32

Flink的特点以及优势

Flink的优势、数据量&吞吐量&延迟性Flink的流处理引擎只需要很少配置就能实现高吞吐率和低延迟。2、支持EventTime和乱序事件Flink支持了流处理和EventTime语义的窗口机制。

DemonHunter211·2024-01-01 13:32

Flink的优势

总之，实时计算的业务需求，一般都会用Flink进行开发。

有味青年·2024-01-01 13:01

相比于其他流处理技术，Flink的优点在哪？

ApacheFlink是一个开源的流处理框架，用于在高吞吐量和低延迟的情况下进行大规模数据流的处理。

KevinAha·2024-01-01 13:31

推荐频道

flink数据湖

数据湖和传统数仓区别及湖仓一体

Flink | Checkpoint 机制详解

技术解读丨多模数据湖：助力AI技术，推动内容管理平台智能化升级

Flink 的时间属性及原理解析

流式湖仓增强，Hologres + Flink构建企业级实时数仓

Flink 任务指标监控

Flink状态容错savepoint与checkpoint

FlinkSQL处理Canal-JSON数据

【数据湖架构】数据湖101：概述

尚硅谷大数据技术-数据湖Hudi视频教程-笔记01

Flink Watermark和时间语义

docker搭建Dinky —— 筑梦之路

Flink应用介绍

在与面试官面试之后的某些回想

基于 Flink 的百亿数据去重实践

Flink 维表关联方案

Flink-Paimon 案例

数睿通2.0功能更新：支持多版本 Flink 切换，新增数据标签模块

数睿通2.0数据接入、数据开发、系统权限、集群监控全面升级

新年快乐—数睿通2.0数据中台全新功能模块发布

Flink-【时间语义、窗口、水位线】

Flink的检查点算法

Flink实时电商数仓（十）

Alluxio：2022年大数据五大趋势，多云下数据湖兴起，AI成为主流

全面解读数据中台、数据仓库和数据湖

如何在Flink SQL中轻松实现高效数据处理：最佳实践揭秘Protobuf自定义格式

Flink学习-处理函数

【flink番外篇】9、Flink Table API 支持的操作示例（11）- Group Windows（tumbling、sliding和session）操作

【flink番外篇】9、Flink Table API 支持的操作示例（8）- 时态表的join（scala版本）

【flink番外篇】9、Flink Table API 支持的操作示例（10）- 表的OrderBy、Offset 和 Fetch、insert操作

【flink番外篇】9、Flink Table API 支持的操作示例（9）- 表的union、unionall、intersect、intersectall、minus、minusall和in的操作

Flink自定义MySQLSource读取MySQL数据

MongoDB学习红宝书 - MongoDB官网使用指南

大数据学习入门到实战教程，精心整理万字长文入门，老奶奶看了都说学会了

最容易出错的 Hive Sql 详解

Flink 的window机制(二) 窗口函数

Apache Flink连载（二十三）：Flink HA - Flink基于Yarn HA

Apache Flink连载（二十二）：Flink HA - Flink基于Standalone HA

flink 连接 hdfs 读取文件配置

PiflowX组件-JDBCRead

PiflowX组件-ReadFromUpsertKafka

PiflowX组件-WriteToUpsertKafka

PiflowX组件-JDBCWrite

Flink学习-时间和窗口

Databricks中国启示录：一场蓄谋已久的技术与商业战 | 企服国际观察

20200912 001_Flink-Flink简介

flink有什么优势值得大家这么热衷

Flink的特点以及优势

Flink的优势

相比于其他流处理技术，Flink的优点在哪？