E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据湖
使用 Flink Hudi 构建流式
数据湖
摘要:本文介绍了FlinkHudi通过流计算对原有基于mini-batch的增量计算模型不断优化演进。用户可以通过FlinkSQL将CDC数据实时写入Hudi存储,且在即将发布的0.9版本Hudi原生支持CDCformat。主要内容为:背景增量ETL演示一、背景近实时从2016年开始,ApacheHudi社区就开始通过Hudi的UPSERT能力探索近实时场景的使用案例[1]。通过MR/Spark的
浪尖聊大数据-浪尖
·
2024-02-02 12:30
大数据
spark
hadoop
java
数据库
Apache Paimon 介绍
FlinkTableStore是一个
数据湖
存储,用于实时流式Changelog写入(比如来自FlinkCDC的数据)和高性能查询。它创新性
zhisheng_blog
·
2024-01-31 15:58
apache
数据湖
技术Iceberg0.12预研文档
Iceberg0.12预研本次预研场景主要为kafka=>flinksql=>iceberg=>hive=>hdfs=>trino(presto)本次预研使用组件如下:名称版本描述flink1.12.1通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.3.7包含cdh中(更换jar升级替换)hadoop3.0.0cdh原生版本presto2.591开源版本trino36
我去探险了
·
2024-01-31 15:36
数据湖技术
hive
kafka
big
data
Apache Doris 2.0.4 版本正式发布
亲爱的社区小伙伴们,ApacheDoris2.0.4版本已于2024年1月26日正式发布,该版本在新优化器、倒排索引、
数据湖
等功能上有了进一步的完善与更新,使ApacheDoris能够适配更广泛的场景。
SelectDB技术团队
·
2024-01-31 03:38
apache
大数据
数据仓库
数据分析
数据库
Apache
Doris
Apache Paimon基础记录
基本都是在官网的学习,简单记录一下其中的核心特点ApachePaimon官网ApachePaimon|ApachePaimon根据官网介绍去快速了解paimon是用来设计做什么,可以做什么,对比与其他
数据湖
有什么特点
orange大数据技术探索者
·
2024-01-30 20:07
#
data-other
paimon
数据湖
湖仓一体
数据湖
技术之平台建设篇2
数据湖
技术之平台建设篇1,主要介绍了湖仓平台建设的前三个主要工作,本次主要继续上次的建设工作介绍,聊一聊一站式湖仓服务平台的相关管理能力建设以及针对小文件的处理。
风筝Lee
·
2024-01-29 16:35
数据湖
大数据
数据湖
技术之应用场景篇
数据湖
技术有较多的应用场景,本篇文章是针对一些典型的痛点场景做了一些介绍和说明。
风筝Lee
·
2024-01-29 16:04
数据湖
大数据
数据湖
技术之核心特性篇
引入
数据湖
技术,可以更好的演进整体架构模式,形成一套湖仓一体的模式。
风筝Lee
·
2024-01-28 18:58
数据湖
数据仓库
数据湖
技术之平台建设篇1
一.建设思路在原有平台基础上,融合
数据湖
技术,提供统一、完善的湖仓能力,逐步实现湖仓一体、流批一体的最终模式。
风筝Lee
·
2024-01-28 18:58
数据湖
大数据
数据湖
技术之发展现状篇
一.大数据处理架构:大数据处理架构的发展过程具体可以分为三个主要阶段:批处理架构、混合处理架构(Lambda、Kappa架构)、湖仓一体。首先是随着Hadoop生态相关技术的大量应用,批处理架构应运而生,借助离线计算引擎的能力很好的满足了业务对大规模数据分析处理场景的需求。随着业务场景越来越多样化,对数据实效性方面有了更高的要求,诞生了一些新的架构模式,比如说Lambda、Kappa等,很好的解决
风筝Lee
·
2024-01-28 18:56
数据湖
hive
hadoop
spark
数据仓库现代化和迁移解决方案Datametica
Datametica是一家通过建立
数据湖
来帮助企业实现数据平台现代化的公司,该
数据湖
安全地保存结构化和非结构化数据。随着企业
数据湖
从各种来源收集大量数据,需要利用信息并帮助做出更明智的业务决策。
weixin_30777913
·
2024-01-26 20:20
数据仓库
数据中台架构原理与开发实战:构建数据中台的步骤与方法
它可以对业务数据进行收集、加工处理、存储、分析,为各个部门提供简单有效的数据服务,包括数据仓库、
数据湖
、数据应用平台等。
OpenChat
·
2024-01-26 20:15
AI实战
大数据AI人工智能
Python实战
大数据
人工智能
语言模型
Java
Python
架构设计
用户画像项目背景
BI(层)DW:DWD明细数据层(数据的清洗和转换),DWM(轻度聚合层),DWS(高度聚合),APP(层),DIM(层)数据集市:更贴近于业务的数据仓库【数据集市就是满足特定的部门或者用户的需求,】
数据湖
祈愿lucky
·
2024-01-26 13:20
大数据
spark
kafka
产品解读 | 新一代湖仓集存储,多模型统一架构,高效挖掘数据价值
推出了新一代湖仓集存储格式Holodesk,一份数据满足
数据湖
的离线实时接入、数仓的复杂加工以及数据集市的分析需求。避免数
星环科技
·
2024-01-26 07:40
架构
大数据
人工智能
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本
数据湖
分析
本文将分享AnalyticDBMySQLSpark助力构建低成本
数据湖
分析的最佳实践。
阿里云瑶池数据库
·
2024-01-26 06:57
阿里云
spark
云计算
【30秒看懂大数据】
数据湖
简单说
数据湖
是一个存储平台,存储了企业所有所需要的数据。举例理解我们仍然以下周备餐为例。
风姑娘数据说
·
2024-01-25 11:05
生活中的数据学
大数据
大数据
数据分析
数据可视化
big
data
Hudi学习笔记(一)
学习目标什么是
数据湖
为什么使用
数据湖
Hudi基本功能如何编译Hudi源码Hudi与Spark集成管理Hudi中COW和ROW不同类型表功能Hudi的三种查询方式Hudi中不同表数据写入流程数据仓库数据仓库是一个用于存储
一一|一一一亅
·
2024-01-25 09:37
学习
笔记
【AWS征文】AWS 数据分析新服务——
数据湖
本文将从实践角度阐述AWS
数据湖
以及数据分析等产品,是如何帮助企业更加智能的利用数据,从而辅助业务决策。
wzlinux
·
2024-01-25 07:45
数据库
数据仓库
大数据
编程语言
hadoop
AWS实战:AWS Kinesis Data Firehose
简介AmazonKinesisDataFirehose是一项提取、转换、加载(ETL)服务,可以将串流数据以可靠方式捕获、转换和提供到
数据湖
、数据存储和分析服务中。
JessicaWind
·
2024-01-25 07:43
AWS实战
aws
StarRocks本地部署
StarRocks既支持从各类实时和离线的数据源高效导入数据,也支持直接分析
数据湖
上各种
keyson R
·
2024-01-25 06:14
数据库
数据库
大数据
StarRocks
数据仓库
邢春晓:新型区块链
数据湖
技术研发
其中邢春晓老师发表主题演讲《新型区块链
数据湖
技术研发》从区块链的发展趋势,新型区块链关键技术,区块链赋能经济社会等层面解析区块链+知识图谱发展趋势,为开源知识运动提供了重要的技术
EpikProtocol
·
2024-01-23 08:10
Apache Paimon学习记录
基本都是在官网的学习,简单记录一下其中的核心特点ApachePaimon官网ApachePaimon|ApachePaimon根据官网介绍去快速了解paimon是用来设计做什么,可以做什么,对比与其他
数据湖
有什么特点
这个程序猿可太秀了
·
2024-01-22 17:27
数据质量&批流数仓
大数据文章迁移
数据仓库
数据湖
实时数仓
paimon
数据湖
技术之Paimon
一、简介Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合,推出新一代StreamingLakehouse技术,促进数据在
数据湖
上真正实时流动起来
小枫@码
·
2024-01-22 17:48
数据湖
大数据
Flink背景
实时数仓近年来,面向分析的数据系统发展迅速,各种新型的OLAP系统开始显露锋芒,
数据湖
和Lakehouse的概念也变得炙手可热。然而,数据集成仍然是人们通往数据分析之路上的主要障
201001070
·
2024-01-22 08:31
Flink
flink
大数据
Dinky安装和部署
概述Dinky是一个开箱即用、易扩展,以ApacheFlink为基础,连接OLAP和
数据湖
等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。
Appreciate(欣赏)
·
2024-01-22 08:28
dinky
Flink
flink
大数据
4W字全面解读数据中台、数据仓库和
数据湖
点击上方"大数据肌肉猿"关注,星标一起成长后台回复【加群】,进入高质量学习交流群2021年大数据肌肉猿公众号奖励制度如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决
无精疯
·
2024-01-21 15:59
数据仓库
sqlite
lamp
scipy
zk
一文读懂Delta Lake:大数据时代的
数据湖
框架新选择!
这个存储层由Databricks公司推出,并已成为
数据湖
方案的重要组成部分。
知识分享小能手
·
2024-01-21 03:56
学习心得体会
大数据
大数据
数据分析
数据库
数据集成时表模型同步方法解析
数据湖
通常是OLAP型的数据库,虽然中台系统很少会采用多种数据仓库技术,但在技术选型时,可选项也有很多。数据集成可实现多种异构数据库间的数据
KaiwuDB 数据库
·
2024-01-20 23:58
KaiwuDB
技术博客
数据库
数据集成
数据同步
KaiwuDB
实战营 | 阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站
通过存算分离架构,帮助用户降低存储成本、提升计算弹性;通过
数据湖
分析、物化视图等特性简化湖仓融合,实现极速统一湖仓分析。EMRServerlessStarRocks是阿里
Apache Spark中国社区
·
2024-01-20 12:22
阿里云
云计算
FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构
流式湖仓专场邀请阿里云智能、联通、同程旅行、汽车之家、OPPO、网易、滴滴、镜舟科技、广联达、平安证券、快手等企业技术专家解读基于Flink+Paimon构建流式
数据湖
相关问题,更有基于Paimon+StarRocks
Apache Flink
·
2024-01-20 12:21
架构
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
01背景信息
数据湖
与传统的数据仓库相比,可以更灵活地处理各种类型的数据,并支持高度可扩展的存储,通常被用于大数据分析。
Apache Spark中国社区
·
2024-01-20 12:51
阿里云
云计算
Data Bricks Delta Lake 入门
DeltaLake是一个开源存储层,它将关系数据库语义添加到基于Spark的
数据湖
处理中。
AI普惠大师
·
2024-01-20 07:03
flask
python
后端
白山云基于StarRocks数据库构建湖仓一体数仓的实践
背景随着每天万亿级别的业务数据流向
数据湖
,
数据湖
的弊端也逐渐凸显出来,例如:数据入湖时效性差:
数据湖
主要依赖于离线批量计算,通常不支持实时数据更新,因此无法保证数据的强一致性,造成数据不及时、不准确;查询性能差
StarRocks_labs
·
2024-01-18 17:04
社区投稿
数据库
大数据
Dinky为大数据框架Flink提供交互式平台,让你学习 FlinkSQL 更加轻松,并且掌握Flink技能!
作为一个开箱即用、易扩展的平台,Dinky可以方便地连接OLAP、
数据湖
等众多框架。通过Dinky,用户可以更加便捷地进行FlinkSQL的开发和管理。此外,为了满足不同需求,D
知识分享小能手
·
2024-01-18 17:59
大数据
学习心得体会
大数据
flink
学习
构建高效数据生态:数据库、数据仓库、
数据湖
、大数据平台与数据中台解析_光点科技
本文将深入探讨数据库、数据仓库、
数据湖
、大数据平台以及数据中台的功能和价值,帮助您构建一个符合自身业务需求的高效数据生态系统。
光点数据治理
·
2024-01-18 12:24
数据库
数据仓库
大数据
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时
数据湖
▼关注「ApacheFlink」,获取更多技术干货▼摘要:本篇教程将展示如何使用FlinkCDC构建实时
数据湖
,并处理分库分表合并同步的场景。
Apache Flink
·
2024-01-17 18:39
数据库
mysql
java
大数据
python
HashData湖仓一体方案:方案概览与Hive数据同步
数据湖
是多元数据存储与使用的便捷选择,而云原生具有数据资产统一、基础资源成本低、高性能计算体验升级等优势,是
数据湖
未来部署的重要形态。
HashData酷克数据
·
2024-01-17 07:55
hive
hadoop
数据仓库
【总结】Dinky学习笔记
概述Dinky是一个开箱即用、易扩展,以ApacheFlink为基础,连接OLAP和
数据湖
等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践官网:Dinky核心特性沉浸式:提供专业的DataStudio
THE WHY
·
2024-01-17 04:11
Flink
大数据
Dinky
学习
笔记
flink
sql
大数据
数据库
一文了解数据库vs数据仓库vs
数据湖
拆解几个OLAP核心概念大数据技术架构演进过程什么是
数据湖
?数据库、数据仓库、
数据湖
:哪个更合适?什么是数据库?数据库这个概念相信大家其实都不太陌生,无论是做应用服务还是做App开发,或者说是大数
KubeData
·
2024-01-17 02:11
云原生大数据
大数据技术
数据库
数据仓库
大数据
数据库架构
一文了解数据库,数据仓库,
数据湖
,数据集市,
数据湖
仓
目录一、定义1.数据库(Database)2.数据仓库(DataWarehouse)3.
数据湖
(DataLake)4.数据集市(DataMart)5.
数据湖
仓(DataLakehouse)二、相同、异同
giszz
·
2024-01-17 02:27
学习笔记
人工智能
数据库
数据仓库
oracle
《21天晋级大数据实战营》小结汇总
【DAY17】轻松探索数据背后的价值-
数据湖
探索实验小结点击查看【DAY15】让数据产生价值--数据仓库服务实验小结点击查看【DAY14】机器学习实战-销售预测实验小结点击查看【DAY13】车联网应用之轨迹分析实验小结点击查看
技术火炬手
·
2024-01-16 12:48
数据库, 数据仓库, 数据集市,
数据湖
,数据中台
并参考其他文档资料加入了一些内容:数据仓库和数据集市的区别作者:修鹏李出处:CSDN大数据:数据仓库和数据库的区别作者:南宫蓉出处:简书第一篇:数据仓库概述第二篇:数据库关系建模作者:穆晨出处:CNBLOS数据仓库、
数据湖
cxzhq2002
·
2024-01-16 01:26
数据库
实战营|阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站
通过存算分离架构,帮助用户降低存储成本、提升计算弹性;通过
数据湖
分析、物化视图等特性简化湖仓融合,实现极速统一湖仓分析。
StarRocks_labs
·
2024-01-13 13:25
StarRocks
数据库
数据仓库
湖仓
实战营|阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站
通过存算分离架构,帮助用户降低存储成本、提升计算弹性;通过
数据湖
分析、物化视图等特性简化湖仓融合,实现极速统一湖仓分析。EMRServerlessStarRocks
阿里云大数据AI技术
·
2024-01-13 03:22
阿里云
云计算
利用Hadoop进行
数据湖
构建与管理
利用Hadoop进行
数据湖
构建与管理一、引言在大数据的时代,数据的增长速度已经远超过了传统的数据处理和存储能力。为了解决这个问题,
数据湖
的概念应运而生。
乌龙饼干
·
2024-01-11 01:14
hadoop
大数据
分布式
大数据开发-某外包公司
用过那些组件2.说下HDFS读写流程3.说下varchar和char区别4.说下数据库的事务5.spark的部署模式有哪些6.数据库和数据仓库的区别7.内部表和外部表的区别8.说下数据中台、数据仓库和
数据湖
的区别
劝学-大数据
·
2024-01-09 06:10
个人面试真题记录
大数据
5分钟使用Hologres实时湖仓加速分析挑战赛来袭
活动简介5分钟快速使用Hologres实时湖仓能力,加速分析
数据湖
OSS上Hudi、Delta、Paimon、ORC等格式数据,赢取精美礼品活动入口:Hologres实时湖仓分析挑战赛-阿里云开发者社区或点击文末
阿里云大数据AI技术
·
2024-01-08 19:50
数据库
oracle
linux
数据版本控制利器LakeFS的介绍,以及其使用方法,与其它工具结合案例
LakeFS介绍LakeFS是一个开源的
数据湖
版本控制系统,可以帮助用户管理和控制
数据湖
中的数据版本。
小果运维
·
2024-01-08 07:14
运维
LakeFS
数据湖
大数据
版本控制
文件存储
有用的技术分享主题
SQLServer数据库和AgentJob集成化监控工具Airflow调度工具的安装和使用Tableau报表开发网络爬虫技术开发PythonGUI应用开发基于S3的
数据湖
架构设计和大数据开发Hive大数据仓库超大数据集去重解决方案
weixin_30777913
·
2024-01-07 10:42
sqlserver
数据库
数据仓库
big
data
etl
Doris 的概述及使用场景
基于此,ApacheDoris能够较好的满足报表分析、即席查询、统一数仓构建、
数据湖
联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户
一座野山
·
2024-01-06 16:16
bigdata
Doris
big
data
数据库开发
hbase
sql
database
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他