E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据湖
数据湖
是什么?
数据湖
架构及应用(完)
数据湖
架构
数据湖
架构主要描述了各组件以及组件之间的关系,说明了数据的存储、处理和访问过程。
白牛DATA
·
2023-09-15 18:15
大数据
【数据网格架构】分布式数据网格作为集中式数据单体的解决方案
随着数据变得越来越普遍,传统的数据仓库和
数据湖
架构变得不堪重负,无法有效扩展。Dehghani认为,分布式数据网格方法可以通过采用面向领域的数据所有权来克服这些固有的低效率。“我建议下一个企业数据平台
架构师酒馆
·
2023-09-15 18:41
架构
分布式
数据网格架构
数据架构
一文了解袋鼠云在实时
数据湖
上的探索与实践
近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时
数据湖
上的探索与实践》主题分享,帮助大家能了解到什么是实时
数据湖
、如何进行
数据湖
选型及数据平台建设
数据湖
的经验。
袋鼠云数栈
·
2023-09-15 15:35
大数据
今年高考人数剧增,湖南复读学校有推荐?
一、2021年湖南高考报名人
数据湖
南省教育考试院统计,湖南有56.84万人报名参加2021高考,较202
郡雅复读
·
2023-09-15 05:49
数据湖
是什么?
数据湖
关键技术(一)
随着
数据湖
的发展,目前面临着诸多技术方面的挑战,必须不断完善并解决各种技术难题。
数据湖
是当前大数据技术研究的一种范例,研究人员通过该范例来应对大数据技术所遇到的各种挑战。
白牛DATA
·
2023-09-14 08:21
大数据
使用Data Transfer Hub迁移MaxCompute数据至S3
数据湖
实践
一.概述随着对象存储使用得到广泛普及,越来越多的企业客户从其他云对象存储迁移到AmazonS3时对实时性,安全性,稳定性,易用性和同步效率有不同的要求。其次,数据存储如关系型/非关系型数据库,Elasticsearch,Redis等皆可通过导出文件或快照进行数据导入,使数据迁移变为基于文件的迁移。本文以迁移阿里MaxCompute数据为示例,通过阿里OSS对象存储实时事件触发,部署DataTran
红彤软件
·
2023-09-13 02:25
阿里云
云计算
什么是
数据湖
?
数据湖
的概念及发展历程
随着云计算、社交媒体、物联网、短视频等新一代互联网技术的快速发展,数据的数量和复杂性不断增加。许多企业和组织已经积累了大量的各种类型的数据,对于如何存储和管理这些海量数据,以及如何高效地分析和利用这些数据,是每个组织当前面临的重要挑战。对于企业来说,有效处理和分析海量数据,对于数字化转型过程中的各种决策,具有至关重要的作用。大数据的兴起给数据库研究带来了诸多挑战。大数据通常具有四个典型特征,包括数
白牛DATA
·
2023-09-13 02:31
大数据
阿里云云原生
数据湖
分析DLA Serverless Spark重磅发布,助力企业低成本挖掘OSS数据价值
一、背景概述1.1什么样的客户需要
数据湖
在数据处理领域,
数据湖
相对来说是一个比较新的概念,它的提出可以很好地帮助企业应对当前数据场景越来越多、数据结构越来越复杂、数据处理的需求越来越多样化的问题。
阿里云数据库
·
2023-09-12 07:08
一文彻底搞懂实时数仓如何选型和构建
数仓分层的必要性04从Lambda架构说起05Kappa架构解决哪些问题06深入实时数仓架构方案1:Kappa架构方案2:基于标准分层+流计算方案3:标准分层体现+流计算+批量计算方案4:标准分层体系+流计算+
数据湖
方案
csdn-延
·
2023-09-12 06:33
数仓
大数据
架构
数据仓库
大数据
数据挖掘
实时数仓
Flink
AWS Glue Pyspark+Athena基础学习汇总
Pyspark基础学习汇总篇一、AWS架构①AWSGlue:工作平台,包括脚本的编写以及管理脚本的运行状态以及调度等(主要:数据库配置、ETL和数据转换脚本编写、调度)②AmazonS3
数据湖
(数仓):
每日小新
·
2023-09-10 15:50
每日小新-笔记篇
aws
学习
云计算
【Hudi
数据湖
应用】Flink作业同名类强转异常ClassCastException修复
一、异常描述近日升级到hudi0.11后,在flink应用中遭遇了一个神级异常:java.lang.ClassCastException:org.apache.hudi.common.fs.HoodieWrapperFileSystemcannotbecasttoorg.apache.hudi.common.fs.HoodieWrapperFileSystem。没看错吧?同名类转换失败?揉揉眼睛,
大数据点灯人
·
2023-09-10 13:10
Hudi
Flink
Java
flink
java
大数据
高效
数据湖
构建与数据仓库融合:大规模数据架构最佳实践
文章目录
数据湖
和数据仓库:两大不同理念
数据湖
数据仓库
数据湖
与数据仓库的融合统一数据目录数据清洗和转换数据安全和权限控制数据分析和可视化
数据湖
与数据仓库融合的优势未来趋势云原生
数据湖
自动化数据处理边缘计算与
数据湖
融合结论欢迎来到云计算技术应用专栏
IT·陈寒
·
2023-09-10 09:37
架构设计
云原生
云计算技术应用
数据分析
数据仓库
架构
数据仓库面试总结大全,深度解析底层逻辑
数据仓库一、数据仓库概述首先,我们先来看下数据库、数据集市、数据仓库以及
数据湖
的概念。1、什么是数据库?数据库(Database)是按照一定格式和数据结构在计算机保存数据的软件,属于物理层。
蜀州凯哥
·
2023-09-09 17:24
Java面试系列
java
面试
经验分享
数据仓库
【AWS实验】 使用 Lake Formation 设置
数据湖
文章目录实验概览目标实验环境任务1:探索实验环境任务1.1:在S3存储桶中创建文件夹任务1.2:加载AWSCloud9IDE任务1.3:将数据复制到S3存储桶任务2:设置AWSLakeFormation任务2.1:注册AmazonS3存储任务2.2:更新权限任务2.3:验证数据库和表的权限任务2.4:创建数据库任务3:使用AWSGlue对评论数据进行爬网任务3.1:使用爬网程序添加表任务3.2:运
xybDIY
·
2023-09-09 16:56
亚马逊云
aws
云计算
云原生架构如何助力大数据和AI技术在软件开发中的深度整合
文章目录1.云原生架构简介2.大数据与云原生的融合a.弹性计算和存储b.容器化大数据应用c.
数据湖
和数据仓库3.AI与云原生的深度融合a.弹性AI模型训练b.容器化AI应用c.自动化部署和监控4.对软件开发的影响
程序员 小侯
·
2023-09-08 03:54
云计算
大数据系列
云原生
架构
大数据
华为数据管理——《华为数据之道》
本文目录:一、华为数据分类管理框架二、元数据治理面临的挑战三、元数据管理架构及策略四、元数据与一体化建模管理五、元数据与
数据湖
管理六、元数据与数据服务管理七、元数据与构建数据地图一、华为
BUG指挥官
·
2023-09-07 12:50
数据库
大数据
李呈祥:bilibili在湖仓一体查询加速上的实践与探索
file导读:本文主要介绍哔哩哔哩在
数据湖
与数据仓库一体架构下,探索查询加速以及索引增强的一些实践。
DataFunTalk
·
2023-09-06 21:40
数据湖
_Hudi概述
转载自:
数据湖
-hudi概述_懒猫gg的博客-CSDN博客前言
数据湖
是目前比较热的一个概念,许多企业都在构建或者计划构建自己的
数据湖
。
高达一号
·
2023-09-06 16:21
数据湖
大数据
【大数据】Apache Iceberg 概述和源代码的构建
ApacheIceberg概述和源代码的构建1.
数据湖
的解决方案-Iceberg1.1Iceberg是什么1.2Iceberg的TableFormat介绍1.3Iceberg的核心思想1.4Iceberg
G皮T
·
2023-09-06 16:34
大数据
大数据
数据湖
Iceberg
大咖论道|源启数据资产管理平台助力金融机构加速数据资产化过程(下)
源启数据资产管理平台由
数据湖
管理平台、数据集成平台、数据开发平台、数据管控平台
中电金信
·
2023-09-05 17:46
大数据
人工智能
如何将单体
数据湖
转移到分布式数据网格
许多企业正在投资下一代
数据湖
,希望大规模地实现数据民主化,以提供商业洞察力,并最终做出自动化的智能决策。基于
数据湖
架构的数据平台存在着常见的失败模式,这些失败
蚊子squirrel
·
2023-09-05 05:14
基于 Kafka、Flink 构建实时
数据湖
的最佳实践
最近行业大佬都在聊怎么部署
数据湖
,这波操作未来走向如何?
数据湖
技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。
浪尖聊大数据-浪尖
·
2023-09-04 22:15
大数据
人工智能
编程语言
java
数据分析
数据湖
| 一文读懂Data Lake的概念、特征、架构与案例(转)
本文包括七个小节:1、什么是
数据湖
;2、
数据湖
的基本特征;3、
数据湖
基本架构;4、各厂商的
数据湖
解决方案;5、典型的
数据湖
应用场景;6、
数据湖
建设的基本过程;7、总结。
MisterCH
·
2023-09-04 00:17
在 Amazon EMR 上构建实时
数据湖
前言当公司业务发展遇到瓶颈时,业务分析师以及决策者们总会希望通过交叉分析大量的业务数据和用户行为数据,以解答“为什么利润会下滑?”“为什么库存周转变慢了?”等问题,最终整点“干货”出来从而促进业务发展。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术,观点,和项目,并将中国优秀开发者或技术推荐给全球
·
2023-09-02 23:52
amazon-emr
漫谈大数据 -
数据湖
认知篇
导语:
数据湖
是目前比较热的一个概念,许多企业都在构建或者准备构建自己的
数据湖
。
昊昊该干饭了
·
2023-09-01 22:20
大数据
大数据
数据仓库
【大数据】
数据湖
:下一代大数据的发展趋势
数据湖
:下一代大数据的发展趋势1.
数据湖
技术产生的背景1.1离线大数据平台(第一代)1.2Lambda架构1.3Lambda架构的痛点1.4Kappa架构1.5Kappa架构的痛点1.6大数据架构痛点总结
G皮T
·
2023-09-01 16:24
大数据
大数据
数据湖
Iceberg
Lambda架构
Kappa架构
基于
数据湖
的多流拼接方案-HUDI实操篇
(三)测试结果三、后序一、前情提要基于
数据湖
对两条实时流进行拼接(如前端埋点+服务端埋点、日志流+订单流等);基础概念见前一篇文章:基于
数据湖
的多流拼接方案-HUDI概念篇_Leonardo_KY的博客
Leonardo_KY
·
2023-09-01 10:42
大数据
数据湖
数据仓库
大数据
flink
Flink+Paimon多流拼接性能优化实战
dataFile总大小3、数据延迟(五)未来展望:异步Compact(零)本文简介Paimon多流拼接/合并性能优化;为解决离线T+1多流拼接数据时效性、Flink实时状态太大任务稳定性问题,这里基于
数据湖
工具
Leonardo_KY
·
2023-09-01 10:40
数据湖
大数据
flink
大数据
数据仓库
白鲸开源 DataOps 平台加速数据分析和大模型构建
他们使用数据仓库或
数据湖
来发现、访问和使用数据,并利用AI推动分析用例。但他们很快意识到
DolphinScheduler社区
·
2023-09-01 06:42
大数据
51页企业数字化转型战略实践与启示PPT(附400份转型资料)
本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除,更多内容浏览公众号:智慧方案文库企业数字化转型之路.pptx企业数字化转型大
数据湖
一体化平台项目建设方案PPT.pptx企业数字化转型大
数据湖
一体化运营管理平台建设方案
2023小目标
·
2023-08-31 23:37
数据分析
数据库
Apache Doris (一) :Doris 介绍及使用场景
目录1.ApacheDoris介绍2.ApacheDoris使用场景2.1报表分析2.2即席查询(Ad-hocQuery)2.3统一数仓构建2.4
数据湖
联邦查询进入正文之前,欢迎订阅专题、对博文点赞、评论
IT贫道
·
2023-08-31 13:24
Apache
Doris
apache
大数据
java
.NET Core AWS S3云存储
这意味着各种规模和行业的客户都可以使用S3来存储并保护各种用例(如
数据湖
、网站、移动应用程
dotNET跨平台
·
2023-08-31 13:10
nginx
大数据
java
物联网
zookeeper
ELT已死,EtLT才是现代数据处理架构的终点!
目前大家使用大数据Hadoop时代,主要都是ELT方式,也就是加载到Hadoop里进行处理,但是实时数据仓库、
数据湖
的流行,这个ELT已经过时了,EtLT才是实时数据加载到
数据湖
和实时数据仓库的标准架构
·
2023-08-31 12:09
数据库
白鲸开源 DataOps 平台加速数据分析和大模型构建
他们使用数据仓库或
数据湖
来发现、访问和使用数据,并利用AI推动分析用例。但他们很快意识到
·
2023-08-31 11:25
数据库
这篇文章解读数据仓库、
数据湖
、数据中台等概念,竟然写了4万字!
点击上方“芋道源码”,选择“设为星标”管她前浪,还是后浪?能浪的浪,才是好浪!每天8:55更新文章,每天掉亿点点头发...源码精品专栏原创|Java2020超神之路,很肝~中文详细注释的开源项目RPC框架Dubbo源码解析网络应用框架Netty源码解析消息中间件RocketMQ源码解析数据库中间件Sharding-JDBC和MyCAT源码解析作业调度中间件Elastic-Job源码解析分布式事务中
公众号-芋道源码
·
2023-08-31 02:05
数据仓库
sqlite
lamp
scipy
zk
流式
数据湖
平台—Paimon视频教程
ApachePaimon是一个流
数据湖
平台,是Streaming实时计算能力和Lakehouse新架构优势的结合,具有高速数据摄取、变更日志跟踪和高效的实时分析能力。
尚硅谷铁粉
·
2023-08-30 03:50
big
data
大数据
Flink Table Store 独立孵化启动 , Apache Paimon 诞生
与此同时,在大数据领域
数据湖
架构也日益成为新的技术趋势,越来越多企业开始采用La
Apache Flink
·
2023-08-30 03:19
Flink
大数据
实时计算
apache
flink
大数据
当流计算邂逅
数据湖
:Paimon 的前生今世
序言笔者从事流计算多年,真名叫李劲松,简写LJS,ApacheID也是lzljs(泸州李劲松),而流计算简写也是LJS,算是一种缘分吧。一直在分布式计算与存储的领域工作,也参与了多个开源项目,希望通过笔者以下的经历,回顾流计算一步一步扩大场景的过程,并引出ApachePaimon的前生今世。(注:三角中,离顶点更近代表更好,离顶点更远代表更差)很久之前写过一篇文章引用了这个图,原图来自Napa:P
Apache Flink
·
2023-08-30 03:19
Flink
大数据
实时计算
flink
apache
大数据
数据湖
paimon连接flink、mysql和hive
一、启动flink客户端并测试1、环境准备flink版本:1.16.2lib下需要的依赖包:antlr-runtime-3.5.2.jarcommons-beanutils-1.9.3.jarcommons-pool2-2.4.3.jardruid-1.1.19.jarfastjson-1.2.57.jarflink-cep-1.16.2.jarflink-connector-files-1.16
coder李一
·
2023-08-30 03:49
sql
flink
flink
mysql
hive
Flink Table Store 独立孵化启动 , Apache Paimon 诞生
与此同时,在大数据领域
数据湖
架构也日益成为新的技术趋
王知无(import_bigdata)
·
2023-08-30 03:48
flink
apache
大数据
java
开发语言
数据湖
的选型(delta iceberg hudi)以及比对
数据湖
的选型此文章只是作为文稿记录,且截止到2022年11月份Hudi(0.12.0)支持spark3.3.x3.1.x是HadoopUpsertsDeletesandIncrementals的简写Hudi
鸿乃江边鸟
·
2023-08-30 03:17
数据湖
大数据
闲谈
大数据
hadoop
spark
流
数据湖
平台Apache Paimon(三)Flink进阶使用
文章目录2.9进阶使用2.9.1写入性能2.9.2读取性能2.9.3多Writer并发写入2.9.4表管理2.9.5缩放Bucket2.10文件操作理解2.10.1插入数据2.10.2删除数据2.10.3Compaction2.10.4修改表2.10.5过期快照2.10.6Flink流式写入2.9进阶使用2.9.1写入性能Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量:增加检查点
Maynor996
·
2023-08-30 03:45
#
Paimon
apache
流
数据湖
平台Apache Paimon(二)集成 Flink 引擎
文章目录第2章集成Flink引擎2.1环境准备2.1.1安装Flink2.1.2上传jar包2.1.3启动Hadoop2.1.4启动sql-client2.2Catalog2.2.1文件系统2.2.2HiveCatalog2.2.3sql初始化文件2.3DDL2.3.1建表2.3.2修改表2.4DML2.4.1插入数据2.4.2覆盖数据2.4.3更新数据2.4.4删除数据2.4.5MergeInt
Maynor996
·
2023-08-30 03:14
#
Paimon
apache
flink
大数据
探索
数据湖
中的巨兽:Apache Hive分布式SQL计算平台浅度剖析!
文章目录◆ApacheHive概述1.1分布式SQL计算1.2Hive的优势◆模拟实现Hive功能2.1元数据管理2.2解析器2.3基础架构2.4Hive架构◆Hive基础架构3.1Hive架构图3.2Hive组件3.2.1元数据存储3.2.2Driver驱动程序3.2.3用户接口◆Hive部署4.1VMware虚拟机部署步骤一:安装MySQL数据库步骤2:配置Hadoop步骤3:下载解压Hive
缘友一世
·
2023-08-29 13:38
大数据修炼之旅
apache
hive
分布式
爱奇艺
数据湖
实战-广告
数据湖
应用
01背景广告数据主要包括效果、品牌和ADX等广告形式的请求和投放链路中产出的一系列日志,经过处理后,用于算法模型训练、广告运营分析、广告投放决策等场景。广告业务对数据的时效性、准确性以及查询性能要求较高。目前,广告数据链路整体采用Lambda架构,存在离线、实时两条链路,带来较高的使用成本和数据不一致性风险。为了解决这些问题,广告数据团队与爱奇艺大数据团队一起积极调研大数据前沿技术,很早就关注到数
爱奇艺技术产品团队
·
2023-08-29 03:58
爱奇艺
数据湖
实战 - 基于
数据湖
的日志平台架构演进
数据湖
技术近几年快速发展,其采用了统一大数据存储底座和存算分离的架构,提供了一种适合于日志这种大量写入、少量查询场景的解决方案。因此,Ve
爱奇艺技术产品团队
·
2023-08-29 03:27
架构
什么是
数据湖
?全面解读
数据湖
与数据仓库的区别
从数据仓库(DataWarehouse),到如今如火如荼的
数据湖
(DataLake),都被机构广泛应用于大数据存储,但从结构和处理方式上都有很大的区别。
麦聪聊数据
·
2023-08-28 22:05
数据中台
数据仓库
DaaS
数据仓库
数据挖掘
数据库
新一代
数据湖
存储技术Apache Paimon入门Demo
目录前言1.什么是ApachePaimon一、本地环境快速上手1、本地Flink伪集群2、IDEA中跑PaimonDemo2.1代码2.2IDEA中成功运行3、IDEA中Stream读写3.1流写3.2流读(toChangeLogStream)二、进阶:本地(IDEA)多流拼接测试要解决的问题:note:1、'changelog-producer'='full-compaction'(1)mult
Leonardo_KY
·
2023-08-28 19:08
数据湖
flink
大数据
开源
基于
数据湖
的多流拼接方案-HUDI概念篇
目录一、为什么需要HUDI?1.传统技术选型存在哪些问题?2.Hudi有什么优点?基于HudiPayload机制的多流拼接方案:二、HUDI的应用场景1.什么场景适合使用hudi?2.什么场景不适合使用hudi?三、什么是HUDI?HUDI能做什么?1.什么是HUDI?2.HUDI能做什么(特性)?四、HUDI的概念&原理1.概念2.原理五、流批一体一、为什么需要HUDI?1.传统技术选型存在哪些
Leonardo_KY
·
2023-08-28 19:36
数据湖
大数据
大数据
数据仓库
一个免费好用的全域数据集成平台
并且在
数据湖
项目中,采用的是Kettle作为离线开发的核心功能。这个两个开源项目虽然很优秀,
大数据指北
·
2023-08-28 15:10
#
---
大数据
大数据
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他