Iceberg）第5页

互联网摸鱼日报（2023-03-16）

FacebookiOS版：探索移动应用10年演进之路Netflix构建可伸缩注解服务：使用Cassandra、Elasticsearch和Iceberg信息检索顶会WSDMCUP2023揭榜，腾讯获两项任务冠军

每日摸鱼大王·2023-04-07 10:34

Doris整合Iceberg+Spark联邦查询实战

Doris整合Iceberg+Spark联邦查询实战环境介绍：SoftVerisonHadoop3.3Hive3.1.3Doris1.1-pr2Spark3.1.2Iceberg0.13.2HadoopHDFS

wangleigiser·2023-04-05 22:31

网易数据湖探索与实践

文章出自：网易数据湖探索与实践-范欣欣_浪尖聊大数据-浪尖的博客-CSDN博客分享嘉宾：范欣欣网易大数据技术专家编辑整理：刘闰丰出品平台：DataFunTalk导读：今天主要和大家交流的是网易在数据湖Iceberg

刘狗·2023-04-05 17:22

实践数据湖iceberg 第一课

数据湖iceberg系列文章目录提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档数据湖实践第一课flink+iceberg入门数据湖iceberg系列文章目录前言一、数据湖iceberg

*星星之火*·2023-04-05 17:16

网易数据湖探索与实践-范欣欣

分享嘉宾：范欣欣网易大数据技术专家编辑整理：刘闰丰出品平台：DataFunTalk导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。

浪尖聊大数据-浪尖·2023-04-05 17:44

企业级-实时数仓架构图

架构与Lambda架构_奔跑者-辉的博客-CSDN博客实时数仓之实际落地如何选型和构建_奔跑者-辉的博客-CSDN博客目录1基于Flink的滴滴实时数仓实践2实时OLAP,从0到13腾讯基于Flink+Iceberg

奔跑者-辉·2023-04-04 12:16

基于 Flink+Iceberg 构建企业级实时数据湖

本次分享主要包括以下核心内容：数据湖的相关背景介绍；经典业务场景介绍；为什么选择ApacheIceberg；如何通过Flink+Iceberg实现流式入湖社区未来规划工作。

Apache Flink·2023-04-04 03:23

Flink + Iceberg 全场景实时数仓的建设实践

整理｜路培杰（Flink社区志愿者）摘要：ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以Iceberg、Hudi、Delta为代表的解决方案应运而生

Apache Flink·2023-04-04 03:23

大数据架构方案 - Flink+Iceberg实时数据湖

本次分享主要包括以下核心内容：数据湖的相关背景介绍经典业务场景介绍为什么选择ApacheIceberg如何通过Flink+Iceberg实现流式入湖社区未来规划工作一、数据湖的相关背景介绍数据湖是个什么概念呢

neil1314·2023-04-04 03:16

四大场景解析 Flink+Iceberg 如何构建企业级实时数据湖

本次分享主要包括以下核心内容：数据湖的相关背景介绍；经典业务场景介绍；为什么选择ApacheIceberg；如何通过Flink+Iceberg实现流式入湖社区未来规划工作。

zhisheng_blog·2023-04-04 03:15

实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启

系列文章目录实践数据湖iceberg第一课入门实践数据湖iceberg第二课iceberg基于hadoop的底层数据格式实践数据湖iceberg第三课在sqlclient中，以sql方式从kafka读数据到

*星星之火*·2023-04-02 10:12

第三章 FlinkSQL集成Iceberg实战案例之日志数据实时写入

1、实时写入文件配置实时写入必要配置：在flink-conf.yaml中配置checkpoints相关参数restart-strategy:fixed-delayrestart-strategy.fixed-delay.attempts:3restart-strategy.fixed-delay.delay:30sexecution.checkpointing.interval:1minexecu

随缘清风殇·2023-04-02 10:33

DLink 流批一体技术架构及优势 | 滴普科技FastData系列解读

一、引言在上期的两篇连载文章中，我们分析了Lambda和Kappa架构固有的一些问题，同时也引出了流批一体架构的优势，本文就FastData流批一体大数据平台DLink，如何基于Flink+Iceberg

滴普科技·2023-03-31 18:15

iceberg-Spark3.0SQL 测试案例

参考：官网，调研传送门测试使用的Spark3.0版本一、配置及参数1、配置jar包：iceberg0.11.0版本，官网下载jar包，放到spark的jars目录下。

黑眼圈@~@·2023-03-30 02:57

Spark优化工具:Sparklens实操

因为我测试的数据湖iceberg和deltaLake，10个月时间就更新好多新东西，之前测试的基本没啥参考价值了。下面进入正题。我们Spark版本是2.3.2,每天跑的程序嗷嗷多，占的资源也嗷嗷多。

黑眼圈@~@·2023-03-30 01:21

附PPT|2020年总结实时数仓最新架构图

滴滴基础平台资深研发工程师分享大纲：整体概况业务实践平台&引擎总结反思未来规划2实时OLAP，从0到1分享嘉宾：高正炎,比特大陆分享大纲：业务背景机遇挑战架构演进架构优化未来展望3腾讯基于Flink+Iceberg

小晨说数据·2023-03-28 21:04

Flink 通过批量和CDC两种方式读取MySQL数据入Iceberg

简介FlinkJDBC连接器允许使用JDBC驱动程序从任何关系数据库读取数据并将数据写入其中。本文档介绍如何设置JDBC连接器以针对关系数据库运行SQL查询。Flink读写MySQL可以参考：Flink读写MySQL数据（DataStream和TableAPI）_wank1259162的博客-CSDN博客Flink提供了基于JDBC的方式，可以将读取到的数据写入到MySQL中；本文通过两种方式将数

wank1259162·2023-03-19 11:26

[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构

目前在LakeHouse的市场上国内有Hudi，国外有Iceberg,DeltaLake社区正被他们冲击着，这次DeltaLake的全部开源不管是急病乱投医，还是绝地反击我们暂不讨论。

Tim在路上·2023-03-14 05:12

三大开源数据湖产品选型快速指南

本文节选翻译自：https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/Iceberg,Hudi和DeltaLake

獭小贝·2023-03-12 14:16

Iceberg 腾讯新闻首发实战

有最新的数据湖Iceberg技术，一切都迎刃而解！

Jason峰帅·2023-02-18 18:35

flink13.2CDC-iceberg结合

1.根据网上文章，客户端使用flink1.11.4+iceberg-flink-runtime-0.11.1.jar（iceberg0.12新出，使用即报错）版本可正常操作。

不喜欢代码的帅戴戴·2023-02-17 18:56

基于 Flink 的小米数据集成实践

发展现状思考实践引擎设计未来规划点击查看直播回放&演讲PPT一、发展现状首先介绍一下小米计算平台，小米计算平台主要负责小米集团的数据开发平台的建设，体现在产品上是小米数据工场，底层引擎上常见的Flink、Spark、Iceberg

·2023-02-17 14:10

推荐好文：深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案（附最新更新）

这篇文章深度对比了3种开源数据湖技术，对每个技术的优缺点做了详细对比。不过当前2022年初，社区情况有了一些变化，会列在文后。文章地址：https://www.infoq.cn/article/fjebconxd2sz9wloykfo截止到2022年1月5日：社区现状ApacheIcebergStar：2.3K提交数：2184最新提交时间：7小时前ApachehudiStar：2.6K提交数：23

曲奇饼·2023-02-06 04:47

B站基于Iceberg的湖仓一体架构实践

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文教给我，你们专心刷题和面试Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程

王知无(import_bigdata)·2023-01-30 07:36

数仓调研app

Mhc_vTyR9a9F1BE9uoI9Ww抛弃Hadoop，数据湖才能重获新生(qq.com)详解数据中台的底层架构逻辑（纯干货建议收藏）(qq.com)大数据平台中的企业级数仓建设（好文收藏）(qq.com)HUDI和iceberg

空凯空凯空空凯·2023-01-26 11:32

macOS 开发 - 打包 PKG（使用 Packages）

文章目录一、软件准备1、Packages(推荐)2、PackageMaker3、Iceberg4、命令行二、打包pkg工程1、准备材料、创建工程1.1在桌面创建一个文件夹，放置需要安装的文件1.2打开Packages

伊织code·2023-01-15 10:26

【笔记】Apache Iceberg 原理介绍 | 阿里云 x StarRocks社区联合Meetup

【笔记】ApacheIceberg原理介绍|阿里云xStarRocks社区联合Meetup0.前言1Hive挑战2.Iceberg的解决方案0.前言Iceberg是为了解决Hive上云诞生的一个工具。

JH_Zhai·2023-01-10 21:11

数据湖技术之iceberg

Iceberg概念及特点ApacheIceberg是一种用于大型数据分析场景的开放表格式（TableFormat）。

不知名的。。。·2023-01-10 10:38

【Iceberg＋Alluxio】助力加速数据通道（上篇）

作者简介陈寿纬：Alluxio软件工程师，在Alluxio主要负责数据湖方案结合、结构化数据与高可用性优化等相关工作。陈寿纬博士毕业于罗格斯大学电子与计算机工程系，专业方向是大规模分布式系统的性能与稳定性优化。王北南：Alluxio软件工程师，也是PrestoDB的committer。加入Alluxio之前，北南博士是TwitterPresto团队的技术负责人，并为Twitter的数据平台构建了大

Alluxio·2022-12-30 09:28

【Iceberg＋Alluxio】助力加速数据通道（下篇）

作者简介王北南，Alluxio软件工程师，也是PrestoDB的committer。加入Alluxio之前，北南博士是TwitterPresto团队的技术负责人，并为Twitter的数据平台构建了大规模分布式SQL系统。他在性能优化、分布式缓存和大数据方面有12年的工作经验。王北南博士毕业于雪城大学计算机工程专业，专业方向是对分布式系统进行信号模型检测和运行验证。陈寿纬，Alluxio软件工程师，

Alluxio·2022-12-30 09:28

B站基于Iceberg+Alluxio助力湖仓一体项目落地实践

欢迎来到【微直播间】，2min纵览大咖观点本期分享的题目是B站基于Iceberg+Alluxio助力湖仓一体项目落地实践，内容包含诸多技术细节，主要从以下4个维度进行分享：摘要01.B站湖仓一体项目的背景介绍当前

Alluxio·2022-12-30 09:57

flink与iceberg的集成

flink与iceberg的集成一、概述二、iceberg优势三、Flink+Iceberg搭建使用3.1准备3.2创建catalogs和使用catalogs3.2.1Hivecatalog3.2.2Hadoopcatalog3.2.3Customcatalog3.2.4CreatethroughYAMLconfig3.3DDL

明月清风，良宵美酒·2022-12-18 16:31

[选型] 实时数仓之技术选型

2.关于实时数仓的选型如果选择hbase，建议选择kudu如果选择kudu,还可以选择doris如果选择doris，建议选择iceberg以上三种选择，要配合具体的场景；技术选型方案方案一：doris作为实时数仓

fct2001140269·2022-12-08 08:45

阿里发布开源大数据热力报告2022——Flink，Superset，Datahub上榜

在这当中听到了太多熟悉的名字，Kibana，Grafana，ClickHouse，Spark，Airflow，Flink，Superset，Kafka，Metabase，DolphinScheduler，Iceberg

大数据流动·2022-12-05 11:03

实践数据湖iceberg 第三十一课使用github的flink-streaming-platform-web工具，管理flink任务流，测试cdc重启场景

系列文章目录实践数据湖iceberg第一课入门实践数据湖iceberg第二课iceberg基于hadoop的底层数据格式实践数据湖iceberg第三课在sqlclient中，以sql方式从kafka读数据到

*星星之火*·2022-12-02 21:05

通过spark3打开iceberg的认知之门

摘要安装spark3.2.0-bin-hadoop3.2.tgz对应iceberg0.13.0是目前社区最稳定的版本。

sizhi_xht·2022-11-24 16:24

Lakehouse系列 | StarRocks 支持 Apache Hudi 原理解析

随着大数据分析技术的进步，大量业务场景对数据仓库的实时性提出了更高的要求，Lakehouse架构逐渐被各大公司熟悉和接受，ApacheHudi（以下简称Hudi）、ApacheIceberg（以下简称Iceberg

StarRocks_labs·2022-11-21 09:09

1024，我们干了点儿大事 | StarRocks 2.4 新版本特性介绍

无状态的ComputeNode（CN）以及StarRocksKubernetes(K8s)Operator，catalog支持ApacheHudi（以下简称Hudi）和ApacheIceberg（以下简称Iceberg

StarRocks_labs·2022-11-21 09:07

数据湖iceberg-day01-概念，特点，存储格式以及各种表中的演化，数据类型

数据湖iceberg-day011.1什么是数据湖1.1.1什么是数据湖数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理

a-tao必须奥利给·2022-11-11 00:29

Apache Flink Meetup · 上海站，超强数据湖干货等你！

4月17日|上海|线下来一场Flinkx数据湖的干货体验之旅～本次Meetup邀请了来自阿里巴巴、腾讯、Dell科技集团、汽车之家的四位技术专家，聚焦Flink数据湖应用主题，围绕湖仓一体架构实践、Iceberg

Apache Flink·2022-11-03 10:13

Spark+Flink+Iceberg打造湖仓一体架构实践探索

数据湖-大数据生态杀青数据仓库的痛点只能存储结构化数据，无法采集存储非结构化数据无法存储原始数据，所有的数据须经过ETL清洗过程离线数仓的数据表牵一发而动全身，数据调整工程量大实时数仓存储空间有限，无法采集和存储海量实时数据回溯效率低下，实时数据和离线数据计算接口难以统一Kafka做实时数仓，以及日志传输。Kafka本身存储成本很高，且数据保留时间有时效性，一旦消费积压，数据达到过期时间后，就会造

架构师老狼·2022-11-01 13:14

三天，撸完Flink+Hudi+Iceberg数据湖落地系统，爽！

数仓技术应对关系型结构化数据游刃有余，但对于多元异构数据，却爱莫能助。最近行业大佬都在聊怎么部署数据湖，这波操作未来走向如何？数据湖技术能够实现全量数据的单一存储，通常存储原始格式的对象块或者文件。不管是传统数仓承载的结构化数据还是半结构化数据、非结构化数据、二进制数据等任意类型的数据，数据湖都可以轻松实现采集、存储和分析。更为人性化的是，数据湖可根据企业的业务需求提供可大可小的弹性扩充，数据可在

Java团长在csdn·2022-11-01 13:43

Apache iceberg的安装部署及使用（集成Flink和Spark）

定义Iceberg是一个面向海量数据分析场景的开放表格式(TableFormat).定义中所说的表格式(TableFormat),可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark

贾斯汀玛尔斯·2022-10-22 07:48

数据湖及湖仓一体化项目学习框架

文章目录数据湖及湖仓一体化项目学习框架前言一、数据湖基础知识介绍1、数据湖技术Hudi2、数据湖技术Iceberg二、湖仓一体化项目数据湖及湖仓一体化项目学习框架前言利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂

Lansonli·2022-10-18 17:26

Hudi

目录数据湖技术选型-Hudi；Iceberg；DataLakeHudiHudi的前世今生：1.1.1什么是ApacheHudi1.1.2Hudi支持的文件格式1.1.3表格式1.1.2使用Hudi的优点

xu-ning·2022-10-18 17:23

创建Iceberg表的步骤——《DEEPNOVA开发者社区》

作者：闻乃松创建表是引擎的必备基本能力，引擎有很多，Hive、Spark、Flink、Trino等等，我们姑且只关注这些，创建的表按照是否跟引擎绑定，分为两大类：managedtable和externaltable。以这里举例的引擎为例，它们都可以将表元数据维护在HiveMetastore中，对引擎来讲，这些表以externaltable的形式存在。在本文中，我们将话题限制在Hive、Spark、

·2022-09-09 16:00

折腾一晚上的事情，明白了一个道理

现在要按照天，小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时，总想着要shuffle，合并小文件,于是是这样的：hive_df=spa

硅谷工具人·2022-09-04 12:00

使用Hive SQL查询Iceberg表的正确姿势——《DEEPNOVA开发者社区》

作者：闻乃松Iceberg作为一种表格式管理规范，其数据分为元数据和表数据。元数据和表数据独立存储，元数据目前支持存储在本地文件系统、HMS、Hadoop、JDBC数据库、AWSGlue和自定义存储。

·2022-08-26 11:18

开源流式湖仓服务 Arctic 详解：并非另一套 Table Format

最早我们使用Flink+Iceberg，但是实践过程中发现这个架构距离生产场景还有很大的gap

·2022-08-18 16:28

重磅发布，阿里云全链路数据湖开发治理解决方案

近日，阿里云EMR重磅推出新版数据湖Datalake，100%兼容社区大数据开源组件，具备极强的弹性能力，支持D数据湖构建DLF，数据湖存储OSS和OSS-HDFS，支持DeltaLake、Hudi、Iceberg

阿里云大数据AI技术·2022-08-18 13:05

推荐频道

Iceberg）