E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据湖
数据湖
全面解析
前言
数据湖
近几年迅速蹿红,今天笔者做一个综述,包括
数据湖
的缘起、
数据湖
的定义、
数据湖
的特征、
数据湖
的技术、
数据湖
的趋势和
数据湖
的案例六大部分,如果你要入门
数据湖
,一定要看一看。
SunnyRivers
·
2023-06-10 21:19
大数据
数据湖
iceberg
hudi
delta
数据湖
架构落地实战
与传统的数据架构要求整合、面向主题、固定分层等特点不同,
数据湖
为企业全员独立参与数据运营和应用创新提供了极大的灵活性,并可优先确保数据的低时延、高质量和高可用,给运营商数据架构优化提供了很好的参考思路。
产品经理自我修养
·
2023-06-09 16:10
云计算
大数据
网络
【数据治理】数据治理领域最容易混淆的16组术语概念辨析
01发表于湖北前言一、3T差异((信息化(IT)、工业运营技术(OT)、数字化转型(DT)二、2个I差异(商业智能(BI)、生产运营智能(OI))与工业互联网三、多个数据平台差异(数据仓库、大数据平、
数据湖
强heaven
·
2023-06-09 13:37
数据治理
学习方法
StarRocks 3.0 极速统一的湖仓新范式
本文主要从存算分离架构、极速
数据湖
分析和数据应用三个大方向全面解读StarRocks3.0版本。最后,我们会对3.x后续的规划做一个分享
StarRocks_labs
·
2023-06-09 13:12
数据仓库
大数据
数据挖掘
直播|StarRocks 3.0 极速统一的湖仓新范式
全新升级的StarRocks3.0:通过存算分离架构,帮助用户降低存储成本、提升计算弹性通过
数据湖
分析、物化视图等特性简化湖仓融合,实现极速统一湖仓分析通过新的RBAC权限框架,实现湖仓数据的统一管理4
StarRocks_labs
·
2023-06-09 13:11
数据库
大数据
java
c++
新手必看|StarRocks 入门教程来啦
作为一款高性能分析型数据库,StarRocks既支持从各类实时和离线的数据源高效导入数据,也支持直接分析
数据湖
上多种格式的数据。
StarRocks_labs
·
2023-06-09 13:41
大数据
数据库
认识
数据湖
加速器(Data Lake Accelerator Goose FileSystem,GooseFS)
认识
数据湖
加速器DataLakeAcceleratorGooseFileSystem,GooseFS一、产品概述二、产品功能三、产品优势四、快速入门五、使用GooseFS预热Table中的数据六、使用GooseFS
最笨的羊羊
·
2023-06-09 11:18
日常分享专栏
大数据
腾讯云
云计算
[2.0快速体验]Apache Doris 2.0 弹性计算节点快速体验
目前是一个典型的Share-Nothing的架构,Doris通过绑定数据和计算资源在同一个节点获得非常好的性能表现.但随着Doris计算引擎性能持续提高,越来越多的用户也开始选择使用Doris直接查询
数据湖
数据
hf200012
·
2023-06-09 10:08
Doris
hadoop
大数据
hdfs
Flink CDC + Hudi + Hive + Presto 构建实时
数据湖
最佳实践
原文:FlinkCDC+Hudi+Hive+Presto构建实时
数据湖
最佳实践摘要:本文作者罗龙文,分享了如何通过FlinkCDC、Hudi、Hive、Presto等构建
数据湖
。
javastart
·
2023-06-09 07:08
flink
大数据
hadoop
flink
Doris半结构化数据分析(倒排索引使用)快速入门
与基于ES的日志存储方案相比,有如下优势:性价比提升:存储成本降低50%以上,写入速度提升2倍以上支持复杂数据分析:支持多种JOIN、复杂子查询、Hive
数据湖
外表,支持标准SQL数据管理更简单:支持标准
wangleigiser
·
2023-06-09 05:22
数据分析
数据挖掘
基于
数据湖
的流批一体:flink1.15.3与Hudi0.12.1集成,并配置基于CDH6.3.2的hive catalog
前言:为实现基于
数据湖
的流批一体,采用业内主流技术栈hudi、flink、CDH(hive、spark)。
吴培洪
·
2023-06-09 02:49
hive
hadoop
大数据
数据湖
架构Hudi(二)Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查
二、
数据湖
hudi快速上手2.1编译hudi源码Hadoop3.1.3Hive3.1.2Flink1.13.6,scala-2.12Spark3.2.2,scala-2.122.1.1环境准备[root
undo_try
·
2023-06-09 02:15
#
spark_sql
spark
数仓和
数据湖
的区别
1、数据仓库是存储结构化的数据,而
数据湖
是什么数据都能存(非结构化的数据也能存)。结构化数据可以理解为我们的二维表、JSON数据,非结构化的数据可以理解为图像文件之类的。
Six_Hundred_Miles
·
2023-06-08 22:32
数据仓库
大数据
hadoop
hbase
数据湖
与数据仓库区别
数据湖
是近两年中比较新的技术在大数据领域中,对于一个真正的
数据湖
应该是什么样子,现在对
数据湖
认知还是处在探索的阶段,像现在代表的开源产品有iceberg、hudi、DeltaLake。
000X000
·
2023-06-08 22:49
数据仓库
实战
数据湖
数据仓库
数据库
数据湖与数据仓库区别
小米基于 Flink 的实时数仓建设实践
上图展示的是小米目前的技术架构,在存储侧我们主要应用
数据湖
Iceberg和自
·
2023-06-08 20:58
后端flink大数据实时计算
超级独角兽 Databricks 的崛起之路
因此,
数据湖
的需求逐渐增长。
数据湖
是一种存储库,能够以本机格式摄取大量原始数据,使企业能够在需要时轻松地访问它们。Data
CnosDB
·
2023-06-08 19:48
局外Jesse论_Infra
大数据
spark
分布式
Databricks
大数据架构系列:如何理解湖仓一体?
从市场的表现来看基于大数据的数据存储和计算是非常有价值的,其中以云数据仓库为主打业务的公司Snowflake市值最高(截止当前449亿美元),另一家以湖仓一体为方向公司Databricks估值或达380亿美元;各大伺机而动的云厂商也纷纷推出自己的
数据湖
dkjhl
·
2023-06-08 18:58
大数据
大数据
架构
数据仓库
《数据智能知识地图》——
数据湖
篇
关 注gzh“大数据食铁兽”,回复“知识地图”获取《数据智能知识地图》数据集成篇
数据湖
的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。
大数据食铁兽
·
2023-06-08 18:36
大数据
大数据
数据仓库、
数据湖
、湖仓一体,有什么区别?
一、基本概念1.1数仓发展历史
数据湖
是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。
jane9872
·
2023-06-08 15:22
数据仓库
千亿级爱奇艺
数据湖
平台建设实践
主要内容包括以下几大部分:1.爱奇艺OLAP简介2.为什么要
数据湖
3.
数据湖
平台建设4.性能优化5.业务落地分享嘉宾|林豪爱奇艺助理研究员出品社区|DataFun01爱奇艺OLAP简介首先简单介绍一下爱奇艺
架构师小秘圈
·
2023-06-07 14:32
大数据
kafka
hadoop
spark
分布式
LinkFlow CDP科普篇06:CDP可以替代
数据湖
吗?
我们正以极快的速度奔向一个客户体验占据主导地位的时代。Walker表示,到2020年,客户体验将取代产品和价格,成为关键的差异化因素。2014年Gartner也曾说过,未来五年,89%的企业将通过客户体验实现差异化。现在是2019年,时间到了!客户的期望是拥有统一的客户体验,但随着客户渠道和触点的日益增多,协调客户旅程中的所有触点以提供统一的客户体验也变得愈加艰难。目前,行业中有两个解决方案——使
·
2023-04-21 16:08
营销
基于亚马逊云科技湖仓架构的营销
数据湖
,赋能品牌数字化体验
伴随着不断深化的数字化趋势,数据驱动已然成为企业降本增效、业务创新的重要动力。企业开始依托创新技术,着重搭建客户与企业之间优质体验的桥梁,不断探索客户与企业之间的价值连接。传统营销已无法帮助企业在竞争激烈的市场环境中获得显著突破。企业品牌营销建设迎来关键窗口期,尤其个性化营销产出、数字化营销策略、多渠道购物以及客户隐私保护等痛点问题,亟需重新思考实现品牌价值增长的方式。3月17日下午,“数字体验驱
静观事态
·
2023-04-21 12:13
经验分享
【IDEA】
数据湖
Hudi 0.12.0 基础使用
文章目录创建Maven项目插入数据查询数据更新数据增量查询删除数据前言集群系统:CentOS7.5服务器信息:服务器角色IPhadoop104服务器Master192.168.0.104hadoop105服务器Slave1192.168.0.105hadoop106服务器Slave2192.168.0.106使用的组件版本如下:组件名称版本号JDK1.8Hadoop3.1.3Spark3.1.1H
月亮给我抄代码
·
2023-04-20 21:58
spark
hudi
hadoop
数据湖
大数据
数据湖
学习笔记No.02(湖仓一体)
因此对于Kappa架构来说,依旧以流处理为主,但是数据却在
数据湖
层面进行了存储,当需要进行离线分析或者再次计算的时候,则将
数据湖
的数据再
SEUsmith
·
2023-04-20 20:36
大数据学习
学习
数据仓库
数据库
StarRocks 3.0 新特性介绍
在2.x版本中,StarRocks针对实时和
数据湖
分析场景做了深入的打磨,PrimaryKey
StarRocks_labs
·
2023-04-20 15:01
数据库
大数据
java
starrocks
c++
数据仓库、数据中台、
数据湖
都是什么?
相信很多人都在最近的招聘市场上看到过招聘要求里提到了数据仓库、数据中台,甚至还有
数据湖
,这些层出不穷的概念让人困扰。今天我就来跟大家讲一讲数据仓库、数据中台以及
数据湖
的概念及区别。
产品要主动
·
2023-04-19 20:46
B
端产品经理
数据仓库
数据挖掘
数据库
数字化转型中数据底座“湖仓一体化”
一数据是数字化转型的基础和引擎
数据湖
是支撑企业数字化转型的数据底座,是提供数据驱动、精准决策的全方位技术支撑。数据价值将经历数据统一化、数据资产化、数据业务化、数据生态化四个阶段。
公众号:肉眼品世界
·
2023-04-19 11:43
数据仓库
大数据
java
数据分析
人工智能
详解数据仓库
数据湖
及湖仓一体
随着近几年
数据湖
概念的兴起,业界对于数据仓库和
数据湖
的对比甚至争论就一直不断。有人说
数据湖
是下一代大数据平台,各大云厂商也在纷纷的提出自己的
数据湖
解决方案,一些云数仓产品也增加了和
数据湖
联动的特性。
weixin_38754337
·
2023-04-19 11:42
数据仓库
数据库
大数据
编程语言
hadoop
数据湖
VS数据仓库?湖仓一体了解一下
导读:随着近几年
数据湖
概念的兴起,业界对于数据仓库和
数据湖
的对比甚至争论就一直不断。
浪尖聊大数据-浪尖
·
2023-04-19 11:12
数据仓库
数据库
大数据
编程语言
hadoop
什么是湖仓一体化?
随着当前大数据技术应用趋势,企业对单一的
数据湖
和数仓架构并不满意。
jane9872
·
2023-04-19 11:07
数据库
人工智能
大数据Spark、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型
用户查询性能等,包含Spark以及Impala的性能测试【这部分都是生产中会实际遇到的,希望能给大家阐述的清晰】;包含具体生产场景的项目选型;背景当前背景为生产中真是遇到的问题,并且进行测试和选型;当前数据层作为
数据湖
的上游
Kevin_鹿
·
2023-04-19 06:25
数据中台
数仓
大数据
spark
数据仓库
大数据
parquet
snappy
支持多模型数据分析探索的存算分离湖仓一体架构解析(下)
当企业需要建设独立的数据仓库系统来支撑BI和分析业务时,有了“
数据湖
+数据仓库”的混合架构。但混合架构带来了更高的建设成本、管理成本和业务开发成本。
·
2023-04-18 22:58
数据库
StarRocks 3.0 新特性介绍
在2.x版本中,StarRocks针对实时和
数据湖
分析场景做了深入的打磨,PrimaryKey
·
2023-04-18 22:44
Tapdata Connector实用指南:如何将 CRM 数据从 Salesforce 实时同步到MongoDB等其他数据库
典型用例包括数据库到数据库的复制、将数据引入数据仓库或
数据湖
,以及通用ETL处理等。随着TapdataConnector的不断增长,我们最新推出《
·
2023-04-18 22:19
数据库mongodb
什么是存算分离架构?
随着硬件技术的快速进步,尤其是网络和存储设备的性能迅速提升,以及云计算厂商推动软硬件协同加速的云存储服务,越来越多的企业开始基于云存储来构建数据存储服务,或
数据湖
,因此就需要单独再建设一个独立的计算层来提供数据分析服务
星环科技
·
2023-04-18 18:53
数据库架构
Flink Table Store 独立孵化启动 , Apache Paimon 诞生
与此同时,在大数据领域
数据湖
架构也日益成为新的技术趋势,越来越多企业开始采用La
Openlab.cosmoplat
·
2023-04-18 12:44
大数据
数据库
【Hudi】
数据湖
Hudi核心概念与架构设计总结
Hudi是现在非常热门的
数据湖
开源方案,非常适合于搭建一个
数据湖
平台。有些人认为
数据湖
肯定与大数据技术体系完全不一样,是两个东西,甚至认为他俩没关系。但是,你知道Hudi的全称叫啥么?
菜鸟蜀黍
·
2023-04-18 10:43
Apache
Hudi
大数据
使用 Amazon Step Functions 和 Amazon Athena 实现简易大数据编排
很多公司都在亚马逊云上围绕AmazonS3实现了自己的
数据湖
。
数据湖
的建设涉及到数据摄入、清洗、转换,以及呈现等多个步骤,还需要对这些步骤进行编排,这对很多人手不足或者初识
数据湖
的团队形成了挑战。
亚马逊云开发者
·
2023-04-18 04:20
大数据
数据库
支持多模型数据分析探索的存算分离湖仓一体架构解析(下)
当企业需要建设独立的数据仓库系统来支撑BI和分析业务时,有了“
数据湖
+数据仓库”的混合架构。但混合架构带来了更高的建设成本、管理成本和业务开发成本。
星环科技
·
2023-04-17 15:52
数据库
大数据
数据仓库
支持多模型数据分析探索的存算分离湖仓一体架构解析(上)
当企业需要建设独立的数据仓库系统来支撑BI和业务分析业务时,有了“
数据湖
+数据仓库”的混合架构。但混合架构带来了更高的建设成本、管理成本和业务开发成本。
星环科技
·
2023-04-17 15:51
数据分析
架构
数据仓库
【大数据OLAP引擎】图文详解 Apache Doris 架构
基于此,ApacheDoris能够较好的满足报表分析、即席查询、统一数仓构建、
数据湖
联邦查询加速等使用场景,用户可以在此之上构建
禅与计算机程序设计艺术
·
2023-04-17 05:13
大数据AI人工智能
数据库
apache
olap
大数据
doris
ETL基础概念及要求详解
ETL基础概念及要求详解概念ETL与ELT
数据湖
与数据仓库ETL应用场景ETL具体流程及操作要求抽取清洗转换加载ETL设计模式SQL+脚本语言ETL工具设计ETL工具+SQLETL接口设计要求明确接口属性约定接口形式确定接口抽取方法规范接口格式概念
Lin-CT
·
2023-04-16 16:40
etl
数据仓库
数据库
大数据
实践篇 | 构建下一代云上
数据湖
,助力车企数字化转型
在
数据湖
上如何构建?Ky
Kyligence
·
2023-04-16 00:50
Spark+Flink+Iceberg打造湖仓一体架构实践探索
数据湖
-大数据生态杀青
数据湖
-大数据生态杀青数据仓库的痛点只能存储结构化数据,无法采集存储非结构化数据无法存储原始数据,所有的数据须经过ETL清洗过程离线数仓的数据表牵一发而动全身,数据调整工程量大实时数仓存储空间有限
架构师老狼
·
2023-04-15 23:13
关于
数据湖
的建立
问题1:碎片化数据已经形成数据孤岛数据小组的工作范围主要涵盖财务,供应链,业务运营三类部门。财务要求精准的进出库数量,时间,金额。用于支持对账和结算。供应链要求物料和库存的周转,有一定的供应链预测需求,主要用于物控。业务要求看商品和客户维度的数据,用于发现异常和拓客。有爬虫需求。运营要求线上的用户的所有行为数据。微服务架构下,数据存储零散,每个库的设计的基本没有考虑到对未来数据工作的考虑。导致同一
创无意
·
2023-04-15 15:49
数据仓库
数据仓库
多库多表场景下使用 Amazon EMR CDC 实时入湖最佳实践
Hudi作为最热的
数据湖
技术框架之一,用于构建具有增量数据处理管道的流式
数据湖
。其核心的能力包括对象存储上数据行级别
亚马逊云开发者
·
2023-04-14 14:27
数据库
大数据
spark
如何使用 Delta Lake 构建批流一体数据仓库
DeltaLake是一个开源存储层,它为
数据湖
带来了可靠性。DeltaLake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。
阿里云技术
·
2023-04-14 03:56
kafka
spark
big
data
大数据
实践
数据湖
iceberg 第三十六课 基于
数据湖
icerberg的流批一体架构--update mysql select from icberg语法是增量更新测试
系列文章目录实践
数据湖
iceberg第一课入门实践
数据湖
iceberg第二课iceberg基于hadoop的底层数据格式实践
数据湖
iceberg第三课在sqlclient中,以sql方式从kafka读数据到
*星星之火*
·
2023-04-14 03:24
iceberg
flink
flink
实践
数据湖
iceberg 第四十一课 iceberg的实时性-业界的checkpoint配置
系列文章目录实践
数据湖
iceberg第一课入门实践
数据湖
iceberg第二课iceberg基于hadoop的底层数据格式实践
数据湖
iceberg第三课在sqlclient中,以sql方式从kafka读数据到
*星星之火*
·
2023-04-14 03:24
iceberg
大数据
hadoop
hive
实践
数据湖
iceberg 第四十二课(业界视野)业界的流批一体架构
系列文章目录实践
数据湖
iceberg第一课入门实践
数据湖
iceberg第二课iceberg基于hadoop的底层数据格式实践
数据湖
iceberg第三课在sqlclient中,以sql方式从kafka读数据到
*星星之火*
·
2023-04-14 03:24
iceberg
flink
架构
大数据
hadoop
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他