E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Iceberg)
数据湖在大数据场景下应用和实施方案调研笔记(增强版)
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜在读本文前你应该看过这些:《我看好数据湖的未来,但不看好数据湖的现在》《数据湖解决方案关键一环,
IceBerg
会不会脱颖而出?》
王知无(import_bigdata)
·
2021-08-24 08:00
大数据
hadoop
数据库
java
编程语言
Flink +
Iceberg
,腾讯百亿级实时数据入湖实战
简介:上海站FlinkMeetup分享内容,腾讯数据湖的百亿级数据场景落地的案例分享。本文整理自腾讯数据湖研发高级工程师陈俊杰在4月17日上海站FlinkMeetup分享的《百亿级实时数据入湖实战》,文章内容为:腾讯数据湖介绍百亿级数据场景落地未来规划总结GitHub地址https://github.com/apache/flink欢迎大家给Flink点赞送star~一、腾讯数据湖介绍从上图可以看
·
2021-07-27 19:09
Flink +
Iceberg
+ 对象存储,构建数据湖方案
简介:上海站FlinkMeetup分享内容,如何基于Flink、对象存储、
Iceberg
来构建数据湖生态。
·
2021-07-27 19:52
Flink +
Iceberg
+ 对象存储,构建数据湖方案
简介:上海站FlinkMeetup分享内容,如何基于Flink、对象存储、
Iceberg
来构建数据湖生态。
·
2021-07-27 19:36
flink存储
SparkSQL查询
iceberg
出现大量小task问题
问题描述在测试环境下,使用SparkSQL3.1.1查询存放在hive-metastore和oss之上的
iceberg
表,会发现存在很多数据量非常小的task。
·
2021-07-27 19:14
汽车之家:基于 Flink +
Iceberg
的湖仓一体架构实践
简介:由汽车之家实时计算平台负责人邸星星在4月17日上海站Meetup分享的,基于Flink+
Iceberg
的湖仓一体架构实践。
·
2021-07-27 19:58
Flinkhiveappend
Flink 和
Iceberg
如何解决数据入湖面临的挑战
一、数据入湖的核心挑战数据实时入湖可以分成三个部分,分别是数据源、数据管道和数据湖(数仓),本文的内容将围绕这三部分展开。1.Case#1:程序BUG导致数据传输中断首先,当数据源通过数据管道传到数据湖(数仓)时,很有可能会遇到作业有BUG的情况,导致数据传到一半,对业务造成影响;第二个问题是当遇到这种情况的时候,如何重起作业,并保证数据不重复也不缺失,完整地同步到数据湖(数仓)中。2.Case#
·
2021-06-27 03:22
flink
apache
iceberg
数据湖
理解首先,大家要明白为什么出现了类似
Iceberg
这样的数据技术。
邵红晓
·
2021-06-23 14:25
Flink 和
Iceberg
如何解决数据入湖面临的挑战
一、数据入湖的核心挑战数据实时入湖可以分成三个部分,分别是数据源、数据管道和数据湖(数仓),本文的内容将围绕这三部分展开。1.Case#1:程序BUG导致数据传输中断首先,当数据源通过数据管道传到数据湖(数仓)时,很有可能会遇到作业有BUG的情况,导致数据传到一半,对业务造成影响;第二个问题是当遇到这种情况的时候,如何重起作业,并保证数据不重复也不缺失,完整地同步到数据湖(数仓)中。2.Case#
·
2021-06-22 21:13
flink
大数据学习笔记2:现代数据湖之
Iceberg
本文首发于泊浮目的简书:https://www.jianshu.com/u/204...版本日期备注1.02021.6.20文章首发最近
Iceberg
有点小火,在这里也是根据自己看到的资料做个笔记输出一下
·
2021-06-22 11:36
大数据数据湖iceberg
大数据学习笔记2:现代数据湖之
Iceberg
本文首发于泊浮目的简书:https://www.jianshu.com/u/204...版本日期备注1.02021.6.20文章首发最近
Iceberg
有点小火,在这里也是根据自己看到的资料做个笔记输出一下
·
2021-06-21 00:57
大数据数据湖iceberg
汽车之家基于 Flink +
Iceberg
的湖仓一体架构实践
简介:由汽车之家实时计算平台负责人邸星星在4月17日上海站Meetup分享的,基于Flink+
Iceberg
的湖仓一体架构实践。
·
2021-06-18 22:35
顶级项目Committer、Contributor齐聚,数帆xIntel大数据技术沙龙等你来
从Hadoop、Spark到Flink,从
Iceberg
、ClickHouse到Kubeflow,与“4V”对抗的大数据技术不断更新,而受其推动的行业进步又带来了新的挑战。
·
2021-06-18 22:46
Flink +
Iceberg
在去哪儿的实时数仓实践
简介:本文介绍去哪儿数据平台在使用Flink+
Iceberg
0.11的一些实践。作者:余东摘要:本文介绍去哪儿数据平台在使用Flink+
Iceberg
0.11的一些实践。
·
2021-06-18 22:03
汽车之家:基于 Flink +
Iceberg
的湖仓一体架构实践
简介:由汽车之家实时计算平台负责人邸星星在4月17日上海站Meetup分享的,基于Flink+
Iceberg
的湖仓一体架构实践。
·
2021-06-18 22:55
Flinkhiveappend
汽车之家基于 Flink +
Iceberg
的湖仓一体架构实践
简介:由汽车之家实时计算平台负责人邸星星在4月17日上海站Meetup分享的,基于Flink+
Iceberg
的湖仓一体架构实践。
·
2021-06-18 21:54
顶级项目Committer、Contributor齐聚,数帆xIntel大数据技术沙龙等你来
从Hadoop、Spark到Flink,从
Iceberg
、ClickHouse到Kubeflow,与“4V”对抗的大数据技术不断更新,而受其推动的行业进步又带来了新的挑战。
NetEaseResearch
·
2021-06-10 17:51
大数据
大数据
Spark
ClickHouse
Kyuubi
数据仓库
Flink
Iceberg
0.11
背景我们在使用Flink+Kafka做实时数仓以及数据传输过程中,遇到了一些问题,
Iceberg
0.11的新特性解决了这些业务场景,基于
Iceberg
我们做了一些实践,对比Kafka来说,
Iceberg
HideOnBushKi
·
2021-05-11 17:44
Flink+
iceberg
环境搭建以及问题处理
目前数据湖方面有Hudi和
Iceberg
,Hudi属于相对成熟的数据湖方案,
小小一刀
·
2021-05-11 10:47
大数据
flink
精彩回顾 | Apache Flink x
Iceberg
Meetup · 上海站
简介:PPT下载链接来啦!4月17日,ApacheFlinkMeetup上海站圆满结束!本次Meetup,社区邀请了来自阿里巴巴、腾讯、Dell科技集团、汽车之家的4位技术专家分享了超多关于Flink&数据湖的内容,全方位解析数据湖生产应用难题。众多技术同学积极参与了此次活动,相互之间进行了友好的技术交流,同时也交换了各自对FlinkxIceberg生产应用的现状与未来的看法。当然,最重要的是从各
阿里云开发者
·
2021-04-30 15:29
Apache
对象存储
流计算
数据湖
Iceberg
在网易云音乐的实践
Iceberg
详细设计ApacheIceberg是Netflix开源的全新的存储格式,我们已经有了Parquet、ORC、Arvo等非常优秀的存储格式以后,Netfix为什么还要设计出
Iceberg
呢?
NetEaseResearch
·
2021-04-30 15:29
大数据
数据湖
大数据
Iceberg
Hive
Apache Iecberg 从入门到放弃(3) —— 源码系列之Flink读过程分析
背景介绍上一章和带大家了解了一下
Iceberg
的元数据文件特殊之处,也简单的给大家描述了一下
Iceberg
是如何从快速定位到数据文件的,上一章将的比较干,因为都是一些理论知识,这一章我们从
iceberg
-flink
Flink-狄杰
·
2021-04-24 18:28
Apache
Iceberg
Flink
Flink源码
大数据
数据湖
仓湖一体
Apache
Iceberg
数据仓库
Flink集成数据湖之实时数据写入
iceberg
背景随着大数据处理结果的实时性要求越来越高,越来越多的大数据处理从离线转到了实时,其中以flink为主的实时计算在大数据处理中占有重要地位。Flink消费kafka等实时数据流。然后实时写入hive,在大数据处理方面有着广泛的应用。此外由于列式存储格式如parquet或者orc在查询性能方面有着显著的提高,所以大家都会优先选择列式存储作为我们的存储格式。传统的这种架构看似不错,但是还是有很多没有解
大数据技术与应用实战
·
2021-04-14 20:14
Apache Iecberg 从入门到放弃(2) ——
Iceberg
文件解析
背景介绍上一章我们讲过了如何将Flink和
Iceberg
结合,演示了一些常用的操作,并且在文章的最后演示了一个比较全的DEMO。
Flink-狄杰
·
2021-04-13 19:29
Apache
Iceberg
大数据
数据湖
仓湖一体
Apache
Iceberg
数据仓库
Iceberg
-0.11.0 流式读取新特性验证
前言:在Flink和
Iceberg
的集成方面,社区实现了
Iceberg
的FlinkStreamingReader,意味着我们可以通过Flink流作业增量地去拉取ApacheIceberg中新增数据。
叶约翰
·
2021-04-13 18:22
Apache Iecberg 从入门到放弃(1) —— Flink X
Iceberg
On Zeppelin
背景介绍上一章我们聊过了DataLakeHouse&
Iceberg
的相关知识,也算是初步入门了。今天再来看看如何将Flink和
Iceberg
结合。
Flink-狄杰
·
2021-04-09 15:14
Apache
Iceberg
大数据
数据湖
仓湖一体
数据仓库
Apache
Iceberg
Flink集成
Iceberg
在同程艺龙的实践
简介:本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙Flink集成
Iceberg
的生产实践。本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙Flink集成Iiceberg的生产实践。
·
2021-04-08 13:59
flink
Flink集成
Iceberg
在同程艺龙的实践
简介:本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙Flink集成
Iceberg
的生产实践。本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙Flink集成Iiceberg的生产实践。
·
2021-04-08 13:58
flink
Apache
Iceberg
数据湖从入门到放弃(0) —— 初步入门三部曲
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。实时数仓建设:实时数仓1.0传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景,我们一般又可以分为两类,一类诸如
黄瓜炖啤酒鸭
·
2021-04-08 09:11
数据仓库
数据湖
iceberg
Flink集成
Iceberg
在同程艺龙的实践
内容包括:背景及痛点Flink+
Iceberg
的落地
Iceberg
优化实践后续工作收益及总结一、背景及痛点业务背景同程艺龙是一个提供机票、住宿、交通等服务的在线旅游服务平台,目前我所在的部门属于公司的研发部门
·
2021-04-06 23:48
Flink
Apache Flink Meetup · 上海站,超强数据湖干货等你!
4月17日|上海|线下来一场Flinkx数据湖的干货体验之旅~本次Meetup邀请了来自阿里巴巴、腾讯、Dell科技集团、汽车之家的四位技术专家,聚焦Flink数据湖应用主题,围绕湖仓一体架构实践、
Iceberg
·
2021-04-01 12:26
Flink数据湖
Flink集成
iceberg
在生产环境中的实践
背景及痛点业务背景原架构方案痛点flink+
iceberg
的落地
iceberg
技术调研hive表迁移
iceberg
表
iceberg
优化实践压缩小文件查询优化运维管理后续工作flinksql接入cdc数据到
大数据技术与应用实战
·
2021-03-24 09:36
Flink集成
Iceberg
简介
ApacheIcebergisanopentableformatforhugeanalyticdatasets.IcebergaddstablestoPrestoandSparkthatuseahigh-performanceformatthatworksjustlikeaSQLtable.官方的定义,
iceberg
Swordfall
·
2021-03-17 14:00
大数据
数据库
hive
java
mysql
Flink 如何实时分析
Iceberg
数据湖的 CDC 数据
文章主要分为4个部分内容:常见的CDC分析方案为何选择Flink+
Iceberg
如何实时写入读取未来规划一、常见的CDC分析方案我们先看一下今天的topic需要设计的是什么?
阿里云开发者
·
2021-03-08 13:15
SQL
存储
分布式计算
分布式数据库
Apache
数据库
HIVE
流计算
Spark
Hbase
Flink 如何实时分析
Iceberg
数据湖的 CDC 数据
文章主要分为4个部分内容:常见的CDC分析方案为何选择Flink+
Iceberg
如何实时写入读取未来规划一、常见的CDC分析方案我们先看一下今天的topic需要设计的是什么?
·
2021-02-26 10:54
前端bootstrap
Flink 如何实时分析
Iceberg
数据湖的 CDC 数据
文章主要分为4个部分内容:常见的CDC分析方案为何选择Flink+
Iceberg
如何实时写入读取未来规划一、常见的CDC分析方案我们先看一下今天的topic需要设计的是什么?
·
2021-02-26 09:00
前端bootstrap
Flink 如何实时分析
Iceberg
数据湖的 CDC 数据
文章主要分为4个部分内容:常见的CDC分析方案为何选择Flink+
Iceberg
如何实时写入读取未来规划一、常见的CDC分析方案我们先看一下今天的topic需要设计的是什么?
Flink_China
·
2021-02-24 06:00
flink
实时
分析
深度集成 Flink: Apache
Iceberg
0.11.0 最新功能解读
在2021年1月27日,ApacheIceberg发布了0.11.0版本[1]。在这个版本中,实现了以下核心功能:1、ApacheIceberg在CoreAPI层面支持了partition的变更;同时还在IcebergFormatv2之上新增了SortOrder规范,主要用于将那些散列度较高的column聚集在少数几个文件内,这样可以大量减少小文件的数量。同时提高读取的效率,因为数据通过sort写
·
2021-02-05 11:53
flink
深度集成 Flink: Apache
Iceberg
0.11.0 最新功能解读
在2021年1月27日,ApacheIceberg发布了0.11.0版本[1]。在这个版本中,实现了以下核心功能:1、ApacheIceberg在CoreAPI层面支持了partition的变更;同时还在IcebergFormatv2之上新增了SortOrder规范,主要用于将那些散列度较高的column聚集在少数几个文件内,这样可以大量减少小文件的数量。同时提高读取的效率,因为数据通过sort写
·
2021-02-05 10:28
flink
深度集成 Flink: Apache
Iceberg
0.11.0 最新功能解读
在2021年1月27日,ApacheIceberg发布了0.11.0版本[1]。在这个版本中,实现了以下核心功能:1、ApacheIceberg在CoreAPI层面支持了partition的变更;同时还在IcebergFormatv2之上新增了SortOrder规范,主要用于将那些散列度较高的column聚集在少数几个文件内,这样可以大量减少小文件的数量。同时提高读取的效率,因为数据通过sort写
Ververica
·
2021-02-03 19:00
大数据
hadoop
数据库
java
spark
数据湖解决方案关键一环,
IceBerg
会不会脱颖而出?
本文中将详细的介绍一下其中的
IceBerg
,看一下
IceBerg
会不会最终脱颖而出。发展历程首先,大家要明白为什么
王知无-大数据技术与架构
·
2021-02-03 01:51
大数据
hadoop
spark
flink
hive
解决flink消费kafka过期数据和目前存量数据的计算(未来的方向)
一、2021ApacheFlinkMeetup-HostedbyNetflix的youtobe视频分享目前这是Netflix的分享,目前还未将backfilling的功能贡献回
iceberg
社区http
FishMAN_已存在
·
2021-02-02 18:16
Flink
Iceberg
大数据
flink
Flink +
Iceberg
全场景实时数仓的建设实践
整理|路培杰(Flink社区志愿者)摘要:ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以
Iceberg
、Hudi、Delta为代表的解决方案应运而生
·
2021-02-01 11:57
Flink
数据湖架构--
Iceberg
和Hudi类似,
Iceberg
也提供了数据湖的功能,根据官网的定义,它是一个为分析大数据集开源的表存储格式,可以SQL表一样用Spark、Preso进行查询。
hawk2014bj
·
2021-01-24 15:33
基于 Flink+
Iceberg
构建企业级实时数据湖
本次分享主要包括以下核心内容:数据湖的相关背景介绍;经典业务场景介绍;为什么选择ApacheIceberg;如何通过Flink+
Iceberg
实现流式入湖社区未来规划工作。
ApacheFlink
·
2021-01-04 16:52
flink
流计算
大数据
基于 Flink+
Iceberg
构建企业级实时数据湖
本次分享主要包括以下核心内容:数据湖的相关背景介绍;经典业务场景介绍;为什么选择ApacheIceberg;如何通过Flink+
Iceberg
实现流式入湖社区未来规划工作。
ApacheFlink
·
2021-01-04 16:19
flink
流计算
大数据
2021年要做的大事,25个大数据必知领域全面开启更新
目前入选的框架和技术方向包括不限于:「
Iceberg
」、「Flink」、「Heron」、「Druid」、「Kylin」、「Kudu」、「Redis最新」、「Elasticsearch」、「Hive」、「
王知无-大数据技术与架构
·
2021-01-04 00:00
编程语言
人工智能
xhtml
yahoo
weex
数据湖之
iceberg
系列(六)-flink处理数据
/lib/
iceberg
-flink-runtime-0.10.0.jarshell2快速入门CREATECATALOGhive_catalogWITH( 'type'=
白眼黑刺猬
·
2020-12-17 10:32
数据湖之
iceberg
系列(三)
iceberg
快速入门
1环境准备准备大数据集群.安装HDFS,HIVE,SAPRK,FLINK下载运行集群环境运行是需要的jar包下载地址:http://
iceberg
.apache.org/releases/2spark将读写
白眼黑刺猬
·
2020-12-01 21:05
数据湖
使用
Iceberg
on Kubernetes 打造新一代云原生数据湖
背景大数据发展至今,按照Google2003年发布的《TheGoogleFileSystem》第一篇论文算起,已走过17个年头。可惜的是Google当时并没有开源其技术,“仅仅”是发表了三篇技术论文。所以回头看,只能算是揭开了大数据时代的帷幕。随着Hadoop的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放。现今大数据存储和处理需求越来越多样化,在后Hadoop时代,如何构建
腾讯云原生
·
2020-11-19 11:14
腾讯云
大数据
kubernetes
google
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他