E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据湖
实践
数据湖
iceberg 第一课
数据湖
iceberg系列文章目录提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
数据湖
实践第一课flink+iceberg入门
数据湖
iceberg系列文章目录前言一、
数据湖
iceberg
*星星之火*
·
2023-04-05 17:16
iceberg
flink
flink
网易
数据湖
探索与实践-范欣欣
分享嘉宾:范欣欣网易大数据技术专家编辑整理:刘闰丰出品平台:DataFunTalk导读:今天主要和大家交流的是网易在
数据湖
Iceberg的一些思考与实践。
浪尖聊大数据-浪尖
·
2023-04-05 17:44
数据仓库
大数据
数据库
spark
java
分布式
实时
数据湖
在字节跳动的实践
导读:今天分享的主题是实时
数据湖
在字节跳动的实践。
字节数据平台
·
2023-04-05 17:58
big
data
hadoop
云计算
【数据治理】
数据湖
治理实践:腾讯云
数据湖
元数据实践指南
最近
数据湖
非常的火,但是一旦没弄好,就会变成“数据沼泽”。如何避免“
数据湖
”变成“数据沼泽”呢?最好的办法就是治理先行。
九层之台起于累土
·
2023-04-05 17:27
【数据中台】
【数据治理】
腾讯云
数据仓库
云计算
数据湖
探索与实践
01数据仓库平台建设的痛点痛点一:我们凌晨一些大的离线任务经常会因为一些原因出现延迟,这种延迟会导致核心报表的产出时间不稳定,有些时候会产出比较早,但是有时候就可能会产出比较晚,业务很难接受。为什么会出现这种现象的发生呢?目前来看大致有这么几点要素:任务本身要请求的数据量会特别大。通常来说一天原始的数据量可能在几十TB。几百个分区,甚至上千个分区,五万+的文件数这样子。如果说全量读取这些文件的话,
hellozhxy
·
2023-04-05 17:22
iceberg
Hadoop实践(零)---Hadoop作为
数据湖
这个想法通常被称为“
数据湖
”是为所有的原始数据创建一个巨大的存储库,并根据需要使用它。将这种方法与传统的关系数据库或数据仓库对比。向数据库中添加数据的
狮锅艺
·
2023-04-05 17:47
Hadoop
HDFS
Hadoop实践
hadoop
大数据
数据
李卓豪:网易数帆数据中台逻辑
数据湖
的实践
导读:本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑
数据湖
落地方法。
DataFunTalk
·
2023-04-05 17:42
大数据
人工智能
DatafunTalk
数据湖
:网易严选的
数据湖
实践
文章目录一、业务背景二、数据架构三、现状&目标四、
数据湖
是解法?
Freedom3568
·
2023-04-05 17:09
数据中台
数据仓库
数据仓库
数据挖掘
数据中台
数据湖
架构
Unload data from Databend | 新手篇(4)
上篇我们讲了怎么利用copy命令借助于Stage把数据加载到Databend中,Databend致力于构建一个完整的
数据湖
,也需要支持用户把数据从Databend中取走,这里Databend给三种可以把数据取走的办法
Databend
·
2023-04-04 21:38
数据库
Databend
数据仓库、
数据湖
、数据中台一文读懂【1】
随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、
数据湖
、数据中台等,这些概念特别容易混淆,本文对
笔名辉哥
·
2023-04-04 10:03
大数据应用实践3:
数据湖
泊之海量视频分析
VADL(VideoAnalyticsDataLake,视频分析
数据湖
泊)可以看作物联网(IoT)领域中数据量最大、网络与服务器负载最高的一种形式的传感器数据分析与处理系统。
Ultipa
·
2023-04-04 10:07
云计算大数据进阶
人工智能
云计算
图数据库
图计算
大数据
基于 Flink+Iceberg 构建企业级实时
数据湖
ApacheFlink是大数据领域非常流行的流批统一的计算引擎,
数据湖
是顺应云时代发展潮流的新型技术架构。那么当ApacheFlink遇见
数据湖
时,会碰撞出什么样的火花呢?
Apache Flink
·
2023-04-04 03:23
大数据
java
数据库
编程语言
hadoop
Flink + Iceberg 全场景实时数仓的建设实践
整理|路培杰(Flink社区志愿者)摘要:ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎,
数据湖
是顺应云时代发展潮流的新型技术架构,以Iceberg、Hudi、Delta为代表的解决方案应运而生
Apache Flink
·
2023-04-04 03:23
运维
大数据
分布式
编程语言
hadoop
大数据架构方案 - Flink+Iceberg实时
数据湖
导读:ApacheFlink是大数据领域非常流行的流批统一的计算引擎,
数据湖
是顺应云时代发展潮流的新型技术架构。那么,当ApacheFlink遇见
数据湖
时,会碰撞出什么样的火花呢?
neil1314
·
2023-04-04 03:16
架构设计
flink
四大场景解析 Flink+Iceberg 如何构建企业级实时
数据湖
ApacheFlink是大数据领域非常流行的流批统一的计算引擎,
数据湖
是顺应云时代发展潮流的新型技术架构。那么当ApacheFlink遇见
数据湖
时,会碰撞出什么样的火花呢?
zhisheng_blog
·
2023-04-04 03:15
大数据
数据库
java
编程语言
人工智能
万字详解大数据架构新概念:湖仓一体
随着近几年
数据湖
概念的兴起,业界对于数据仓库和
数据湖
的对比甚至争论就一直不断。有人说
数据湖
是下一代大数据平台,各大云厂商也在纷纷的提出自己的
数据湖
解决方案,一些云数仓产品也增加了和
数据湖
联动的特性。
公众号:肉眼品世界
·
2023-04-03 17:51
数据仓库
数据库
大数据
编程语言
hadoop
湖仓一体架构构建与平台应用实践(PPT)
数据湖
适合存储非结构化的、信息密度低的、未经清洗的数据。例如生产中我们获取到的日志信息、长文本信息等都可以直接放到
数据湖
中。曾经有一段时间,大家
公众号:肉眼品世界
·
2023-04-03 17:51
数据仓库
湖仓一体数据平台架构
随着数字化技术的更新迭代,数据库、数据仓库、
数据湖
等各种概念层出不穷,MPP数据库、Hadoop、对象存储、Hudi等各种数据技术不断涌现,湖仓一体概念逐步被人们所关注,在国际知名机构Gartner发布的
数据文字工作者
·
2023-04-03 17:18
数据中台
Hadoop生态技术体系
架构
数据仓库
星环数据云平台 TDC 3.1 发布,新增滚动重启、存储回收站等八大核心功能
TDC是采用云原生技术,融合星环科技全系产品打造的统一PaaS平台,可以为企业提供数据流通交易平台、企业湖仓一体
数据湖
、企业数据中台、联邦云、企业数字化转型、政务大数据、云原生数据科学云和高并发数据应用八大解决方案
星环科技
·
2023-04-03 11:36
大数据
运维
java
【案例】基于星环科技数据云平台TDC为富国基金建设万能的
数据湖
本篇将介绍星环科技如何基于数据云平台TDC为富国基金建设万能的
数据湖
,助力其实现数据统一与共享交换。案例背景富国基金管理有限公司成立于1999年,是中
星环科技
·
2023-04-03 11:03
数据库
大数据
科技
big
data
人工智能
数据湖
——Hudi基本概念
文章目录Hudi特性场景核心概念基本概念时间轴文件布局索引表类型查询类型数据写upsertinsertinsertoverwritekey的生成策略删除策略数据读Hudi传送门特性可插拔索引机制支持快速的Upsert/Delete支持增量拉取表变更以进行处理支持事务提交及回滚,并发控制支持spark、presto、hive、flink等引擎的sql读写自动管理小文件,数据聚簇、压缩、清理流式摄入,
友培
·
2023-04-03 05:54
大数据——数据湖
1024程序员节
hudi
大数据
数据湖
数据管理
谷歌云GCP
感谢公司赞助了GoogleCloudPlatform(GCP)Coursera课程:https://www.coursera.org/,包括云基础设施,应用开发,
数据湖
和数据仓库相关知识。
Beth_Chan
·
2023-04-03 02:18
云
实践
数据湖
iceberg 第二十三课 flink-sql从checkpoint重启
系列文章目录实践
数据湖
iceberg第一课入门实践
数据湖
iceberg第二课iceberg基于hadoop的底层数据格式实践
数据湖
iceberg第三课在sqlclient中,以sql方式从kafka读数据到
*星星之火*
·
2023-04-02 10:12
iceberg
flink
flink
iceberg
数据湖
Apache Hudi 在 B 站构建实时
数据湖
的实践
本文作者喻兆靖,介绍了为什么B站选择Flink+Hudi的
数据湖
技术方案,以及针对其做出的优化。
阿里云技术
·
2023-04-02 08:31
apache
big
data
hadoop
从hudi持久化文件理解其核心概念
这是hudi系列的第一篇文章,先从核心概念,存储的文件格式加深对概念的理解,后续再逐步对使用(spark/flink入hudi,hudi同步hive等)、原理(压缩机制,索引,聚族等)展开分享~【什么是
数据湖
陈猿解码
·
2023-04-02 02:34
大数据
数据库
java
hive
python
Hudi
数据湖
的插入,更新,查询,分析操作示例
Hudi
数据湖
的插入,更新,查询,分析操作示例作者:Grey原文地址:博客园:Hudi
数据湖
的插入,更新,查询,分析操作示例CSDN:Hudi
数据湖
的插入,更新,查询,分析操作示例前置工作首先,需要先完成
GreyZeng
·
2023-04-02 02:34
大数据
大数据
数据湖
Hudi
字节跳动基于 Apache Hudi 的多流拼接实践方案
字节跳动
数据湖
团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。
Moonxiyue
·
2023-04-02 02:54
数据库
字节
big
data
kafka
数据仓库
数据湖
技术之Hudi 核心概念
数据湖
技术之Hudi核心概念Hudi
数据湖
框架的基本概念及表类型,属于Hudi框架设计原则和表的设计核心。
潘小磊
·
2023-04-01 23:07
数据湖
大数据
hive
hadoop
Apache
数据湖
Hudi详解一
路径窄处留一步与人行;滋味浓处减三分让人尝。—《菜根谭》1.什么是Hudi?ApacheHudi代表HadoopUpsertsanDIncrementals,管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源,HDFS上的分析数据集通过两种类型的表提供服务:读优化表(ReadOptimizedTable),通过列式存储提供查询性能近实时表(
写轮眼之大数据
·
2023-04-01 23:06
Hudi
大数据
数据湖
技术架构
可以把
数据湖
认为是最新一代大数据技术平台,为了更好地理解
数据湖
的基本架构,我们先来看看大数据平台的演进过程,从而理解为什么要学习
数据湖
技术。2.离线大数据平
潘永青
·
2023-04-01 23:56
大数据开发
hadoop
hive
大数据
数据湖
---hudi核心概念
文章目录TimelineTable&QueryTypesTableTypes查询类型COWMOR索引Hudi索引类型索引选择策略FileLayouts元数据表元数据表的动机研究中的一些数字:支持多模态索引写操作操作类型UPSERTINSERTBULK_INSERTDELETE写入路径schema演进key生成并发控制DatasourceWriterDeltaStreamerTimeline在hud
夜里慢慢行456
·
2023-04-01 23:56
大数据
数据库
服务器
大数据
数据湖
之Hudi基础:核心原理
继续Hudi核心概念参考官网描述与尚硅谷hudi公开资料文章目录基本概念时间轴TimeLine1.Instantsaction在表上执行的操作类型2.Instanttime3.State两个时间概念文件布局(FileLayout)索引Index表类型(TableTypes)CopyOnWriteMergeOnReadMOR和COW对比查询类型数据写写操作写流程(UPSERT)COWMOR写流程(I
小明同学YYDS
·
2023-04-01 23:41
Hudi
大数据
大数据
Hudi
数据湖
数据仓库
数据湖
| Apache Hudi 设计与架构最强解读
目录1.简介2.设计原则2.1流式读/写2.2自管理2.3万物皆日志:2.4键-值数据模型3.表设计3.1时间轴3.2数据文件3.3索引4.表类型4.1写时复制(CopyOnWrite)表4.2读时合并(MergeOnRead)表5.写设计5.1写5.2压缩5.3清理5.4DFS访问优化6.查询6.1快照查询6.2增量查询6.3读优化查询本文将介绍ApacheHudi的基本概念、设计以及总体基础架
Mathieu66
·
2023-04-01 23:54
Apache
Hudi
Hudi设计与架构
数据湖
架构Hudi(三)Hudi核心概念
三、ApacheHudi核心概念3.1基本概念Hudi提供了Hudi表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使用SparkSQL或Hive等分析引擎进行数据分析查询。Hudi表的三个主要组件:有序的时间轴元数据,类似于数据库事务日志。分层布局的数据文件:实际写入表中的数据;索引(多种实现方式):映射包含指定记录的数据集。3.1.1时间轴Timeli
undo_try
·
2023-04-01 23:09
#
spark_sql
大数据
hadoop
企业级数据中台应用架构和技术架构
数据中台与大数据、数据仓库、
数据湖
、商业智能BI有什么区别,请参
大龄码农有梦想
·
2023-04-01 06:43
架构设计
大数据
数据库
数据中台
数据湖
数据仓库
【软考 系统架构设计师】企业信息化战略与实施④ 企业信息化与电子商务
文章目录企业信息化与电子商务企业资源计划客户关系管理供应链管理信息化的“三流”商业智能数据仓库数据挖掘商业智能的具体过程商业智能和普通应用系统的对比练习题
数据湖
业务流程优化企业应用集成按集成点位进行分类按集成方式进行分类练习题按集成支持的方式进行分类练习题企业门户练习题企业集成平台电子商务数字化
万猫学社
·
2023-04-01 02:25
软考
系统架构设计师
简明教程
软考
系统架构设计师
架构师
Flink实时数仓第一篇数据接入
今天讲讲实时数据接入吧,怎么将数据实时接入到
数据湖
或者数据仓库。来看看流程图:1.为什么选择Hbase中转,而不是直
chenzuoli
·
2023-03-31 21:43
大数据
数据仓库
实时数仓
数据仓库
flink
实时大数据
big
data
大数据
工赋开发者社区 | SaaS时代,凭什么说数据分析的未来是指标中台
过去,不少企业为充分发挥数据价值,已经做了很多相关努力,从以Hadoop为核心的
数据湖
,到Snowflake、Databricks等云上数据仓库,再到湖仓一体化......这些举措真的解决了与日俱增的数据问题吗
工赋开发者社区
·
2023-03-31 21:04
数据仓库
大数据
hadoop
大数据上云存算分离演进思考与实践
作者:汤祯捷阿里云智能计算平台团队存算分离、
数据湖
、在离线混部,这些名词越来越多的出现在各行各业数字化转型的关键活动中。
阿里技术
·
2023-03-31 18:41
大数据
hadoop
存算分离
一文读懂数据平台架构演进历史
要理解数据网格,先得回顾下数据平台的发展历史,它们的典型代表分别是数据仓库、
数据湖
及湖仓一体。图片第一代:数据仓库图片1980年代中后期,为解决数据库面对数据分析的不足,孕育出新一类产品数据仓库。
麦聪聊数据
·
2023-03-31 08:37
数据中台
DaaS
数据管理平台
数据仓库
数据挖掘
数据库
数据仓库与
数据湖
相关总结
一、数据仓库分层:DS:数据源层(mysql,pg(增删改查日志),kafka(机器日志、点击日志)、接口),同一类日志可以是多张表结构相似的表(日志表:网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)staging:数据预处理层,存储每天(批次)的增量,表结构和ods层一样ods:操作数据层,存储所有清洗(etl)后的基础数据,表结构基于DS但不完全同于DS(ods日志表对应D
yostkevin
·
2023-03-31 04:31
大数据
sql
数据仓库
大数据-数据联接架构/数据模型建设
前言通过
数据湖
的建设,用户不再需要到各个源系统调用数据,而是统一从
数据湖
调用;由于入湖的数据,很零散且都是未经过清洗加工的原始数据,用户很难知道数据之间的关联关系;数据联接分层的建设就显得顺理成章了。
黄小果
·
2023-03-30 20:01
大数据架构
大数据
big
data
「详谈 Delta Lake 」系列技术专题 之 湖仓一体( Lakehouse )
前言本文翻译自大数据技术公司Databricks针对
数据湖
DeltaLake系列技术文章。
阿里云技术
·
2023-03-30 14:14
大数据
数据库
数据仓库如何实现湖仓一体数据分析?
简介:随着云计算的普及和数据分析需求的扩大,
数据湖
+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力。相对于数据仓库,
数据湖
在成本、灵活性、多源数据分析等多方面,都有着非常明显的优势。
阿里云技术
·
2023-03-30 14:44
数据湖
仓一体的好处
在最近的一篇博客中,Cloudera首席技术官RamVenkatesh描述了
数据湖
仓的演变,以及使用开放
数据湖
仓的好处,尤其是开放的Cloudera数据平台(CDP)。如果你错过了,你可以在这里阅读。
大数据杂货铺
·
2023-03-30 14:01
云计算
运维
网络
数仓、
数据湖
与湖仓一体化
为了应对更加复杂多变的业务需求,许多机构对数据处理的实时性和融合性提出了更高的要求,“湖仓一体”的概念应运而生,它打破了数据仓库和
数据湖
之间的壁垒,使得割裂的数据融合统一,减少了数据分析中的搬迁,实现了统一的数据管理
zxe King
·
2023-03-30 14:01
数据库
数据仓库
数据分析
数据挖掘
企业数据存储方式发展趋势:数据仓库-大数据平台-
数据湖
-湖仓一体
计算成本相对较高,不好做分布式计算;之后出现的大数据平台可以提供完善的大数据分析基础运行环境、也支持结构化数据非结构数据化的数据的存储,但是数据平台在数据治理中的算力不算那么强劲;再之后出现计算能力足够强的
数据湖
嘉得乐
·
2023-03-30 13:59
大数据
数据仓库
数据仓库、
数据湖
、湖仓一体概念
1、数据仓库数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(TimeVariant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,
勿念久久
·
2023-03-30 13:48
大数据
大数据
关于
数据湖
数据仓库和湖仓一体
1、数据仓库:传统的数仓ETL建模和分析处理,一般存储良好建模后的数据,主要是sql计算2、
数据湖
:基于原始的半结构化、非结构化数据,使用分布式的计算任务进行分析和处理,不是基于良好建模的数仓,强调数据的动态模型
eric1984
·
2023-03-30 13:48
数据
数据仓库
hadoop
湖仓一体技术解读|多模数据的融合管理
SequoiaDB从「多模
数据湖
」、「实时
数据湖
」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,充分激活客户的离线数据。
巨杉数据库SequoiaDB
·
2023-03-30 13:38
教程
大数据
湖仓一体
分布式数据库
巨杉数据库
国产数据库
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他