数据湖第7页

数据湖是什么？数据湖架构及应用（完）

数据湖架构数据湖架构主要描述了各组件以及组件之间的关系，说明了数据的存储、处理和访问过程。

白牛DATA·2023-09-15 18:15

【数据网格架构】分布式数据网格作为集中式数据单体的解决方案

随着数据变得越来越普遍，传统的数据仓库和数据湖架构变得不堪重负，无法有效扩展。Dehghani认为，分布式数据网格方法可以通过采用面向领域的数据所有权来克服这些固有的低效率。“我建议下一个企业数据平台

架构师酒馆·2023-09-15 18:41

一文了解袋鼠云在实时数据湖上的探索与实践

近日，袋鼠云大数据引擎专家郝卫亮，为大家带来了《袋鼠云在实时数据湖上的探索与实践》主题分享，帮助大家能了解到什么是实时数据湖、如何进行数据湖选型及数据平台建设数据湖的经验。

袋鼠云数栈·2023-09-15 15:35

今年高考人数剧增，湖南复读学校有推荐?

一、2021年湖南高考报名人数据湖南省教育考试院统计，湖南有56.84万人报名参加2021高考，较202

郡雅复读·2023-09-15 05:49

数据湖是什么？数据湖关键技术（一）

随着数据湖的发展，目前面临着诸多技术方面的挑战，必须不断完善并解决各种技术难题。数据湖是当前大数据技术研究的一种范例，研究人员通过该范例来应对大数据技术所遇到的各种挑战。

白牛DATA·2023-09-14 08:21

使用Data Transfer Hub迁移MaxCompute数据至S3数据湖实践

一．概述随着对象存储使用得到广泛普及，越来越多的企业客户从其他云对象存储迁移到AmazonS3时对实时性，安全性，稳定性，易用性和同步效率有不同的要求。其次，数据存储如关系型/非关系型数据库，Elasticsearch，Redis等皆可通过导出文件或快照进行数据导入，使数据迁移变为基于文件的迁移。本文以迁移阿里MaxCompute数据为示例，通过阿里OSS对象存储实时事件触发，部署DataTran

红彤软件·2023-09-13 02:25

什么是数据湖？数据湖的概念及发展历程

随着云计算、社交媒体、物联网、短视频等新一代互联网技术的快速发展，数据的数量和复杂性不断增加。许多企业和组织已经积累了大量的各种类型的数据，对于如何存储和管理这些海量数据，以及如何高效地分析和利用这些数据，是每个组织当前面临的重要挑战。对于企业来说，有效处理和分析海量数据，对于数字化转型过程中的各种决策，具有至关重要的作用。大数据的兴起给数据库研究带来了诸多挑战。大数据通常具有四个典型特征，包括数

白牛DATA·2023-09-13 02:31

阿里云云原生数据湖分析DLA Serverless Spark重磅发布，助力企业低成本挖掘OSS数据价值

一、背景概述1.1什么样的客户需要数据湖在数据处理领域，数据湖相对来说是一个比较新的概念，它的提出可以很好地帮助企业应对当前数据场景越来越多、数据结构越来越复杂、数据处理的需求越来越多样化的问题。

阿里云数据库·2023-09-12 07:08

一文彻底搞懂实时数仓如何选型和构建

数仓分层的必要性04从Lambda架构说起05Kappa架构解决哪些问题06深入实时数仓架构方案1：Kappa架构方案2：基于标准分层+流计算方案3：标准分层体现+流计算+批量计算方案4：标准分层体系+流计算+数据湖方案

csdn-延·2023-09-12 06:33

AWS Glue Pyspark+Athena基础学习汇总

Pyspark基础学习汇总篇一、AWS架构①AWSGlue:工作平台，包括脚本的编写以及管理脚本的运行状态以及调度等（主要：数据库配置、ETL和数据转换脚本编写、调度）②AmazonS3数据湖（数仓):

每日小新·2023-09-10 15:50

【Hudi数据湖应用】Flink作业同名类强转异常ClassCastException修复

一、异常描述近日升级到hudi0.11后，在flink应用中遭遇了一个神级异常：java.lang.ClassCastException:org.apache.hudi.common.fs.HoodieWrapperFileSystemcannotbecasttoorg.apache.hudi.common.fs.HoodieWrapperFileSystem。没看错吧？同名类转换失败？揉揉眼睛，

大数据点灯人·2023-09-10 13:10

高效数据湖构建与数据仓库融合：大规模数据架构最佳实践

文章目录数据湖和数据仓库：两大不同理念数据湖数据仓库数据湖与数据仓库的融合统一数据目录数据清洗和转换数据安全和权限控制数据分析和可视化数据湖与数据仓库融合的优势未来趋势云原生数据湖自动化数据处理边缘计算与数据湖融合结论欢迎来到云计算技术应用专栏

IT·陈寒·2023-09-10 09:37

数据仓库面试总结大全，深度解析底层逻辑

数据仓库一、数据仓库概述首先，我们先来看下数据库、数据集市、数据仓库以及数据湖的概念。1、什么是数据库？数据库（Database）是按照一定格式和数据结构在计算机保存数据的软件，属于物理层。

蜀州凯哥·2023-09-09 17:24

【AWS实验】使用 Lake Formation 设置数据湖

文章目录实验概览目标实验环境任务1：探索实验环境任务1.1：在S3存储桶中创建文件夹任务1.2：加载AWSCloud9IDE任务1.3：将数据复制到S3存储桶任务2：设置AWSLakeFormation任务2.1：注册AmazonS3存储任务2.2：更新权限任务2.3：验证数据库和表的权限任务2.4：创建数据库任务3：使用AWSGlue对评论数据进行爬网任务3.1：使用爬网程序添加表任务3.2：运

xybDIY·2023-09-09 16:56

云原生架构如何助力大数据和AI技术在软件开发中的深度整合

文章目录1.云原生架构简介2.大数据与云原生的融合a.弹性计算和存储b.容器化大数据应用c.数据湖和数据仓库3.AI与云原生的深度融合a.弹性AI模型训练b.容器化AI应用c.自动化部署和监控4.对软件开发的影响

程序员小侯·2023-09-08 03:54

华为数据管理——《华为数据之道》

本文目录：一、华为数据分类管理框架二、元数据治理面临的挑战三、元数据管理架构及策略四、元数据与一体化建模管理五、元数据与数据湖管理六、元数据与数据服务管理七、元数据与构建数据地图一、华为

BUG指挥官·2023-09-07 12:50

李呈祥：bilibili在湖仓一体查询加速上的实践与探索

file导读：本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下，探索查询加速以及索引增强的一些实践。

DataFunTalk·2023-09-06 21:40

数据湖_Hudi概述

转载自：数据湖-hudi概述_懒猫gg的博客-CSDN博客前言数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。

高达一号·2023-09-06 16:21

【大数据】Apache Iceberg 概述和源代码的构建

ApacheIceberg概述和源代码的构建1.数据湖的解决方案-Iceberg1.1Iceberg是什么1.2Iceberg的TableFormat介绍1.3Iceberg的核心思想1.4Iceberg

G皮T·2023-09-06 16:34

大咖论道｜源启数据资产管理平台助力金融机构加速数据资产化过程（下）

源启数据资产管理平台由数据湖管理平台、数据集成平台、数据开发平台、数据管控平台

中电金信·2023-09-05 17:46

如何将单体数据湖转移到分布式数据网格

许多企业正在投资下一代数据湖，希望大规模地实现数据民主化，以提供商业洞察力，并最终做出自动化的智能决策。基于数据湖架构的数据平台存在着常见的失败模式，这些失败

蚊子squirrel·2023-09-05 05:14

基于 Kafka、Flink 构建实时数据湖的最佳实践

最近行业大佬都在聊怎么部署数据湖，这波操作未来走向如何？数据湖技术能够实现全量数据的单一存储，通常存储原始格式的对象块或者文件。

浪尖聊大数据-浪尖·2023-09-04 22:15

数据湖 | 一文读懂Data Lake的概念、特征、架构与案例（转）

本文包括七个小节：1、什么是数据湖；2、数据湖的基本特征；3、数据湖基本架构；4、各厂商的数据湖解决方案；5、典型的数据湖应用场景；6、数据湖建设的基本过程；7、总结。

MisterCH·2023-09-04 00:17

在 Amazon EMR 上构建实时数据湖

前言当公司业务发展遇到瓶颈时，业务分析师以及决策者们总会希望通过交叉分析大量的业务数据和用户行为数据，以解答“为什么利润会下滑？”“为什么库存周转变慢了？”等问题，最终整点“干货”出来从而促进业务发展。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球

·2023-09-02 23:52

漫谈大数据 - 数据湖认知篇

导语：数据湖是目前比较热的一个概念，许多企业都在构建或者准备构建自己的数据湖。

昊昊该干饭了·2023-09-01 22:20

【大数据】数据湖：下一代大数据的发展趋势

数据湖：下一代大数据的发展趋势1.数据湖技术产生的背景1.1离线大数据平台（第一代）1.2Lambda架构1.3Lambda架构的痛点1.4Kappa架构1.5Kappa架构的痛点1.6大数据架构痛点总结

G皮T·2023-09-01 16:24

基于数据湖的多流拼接方案-HUDI实操篇

（三）测试结果三、后序一、前情提要基于数据湖对两条实时流进行拼接（如前端埋点+服务端埋点、日志流+订单流等）；基础概念见前一篇文章：基于数据湖的多流拼接方案-HUDI概念篇_Leonardo_KY的博客

Leonardo_KY·2023-09-01 10:42

Flink+Paimon多流拼接性能优化实战

dataFile总大小3、数据延迟（五）未来展望：异步Compact（零）本文简介Paimon多流拼接/合并性能优化；为解决离线T+1多流拼接数据时效性、Flink实时状态太大任务稳定性问题，这里基于数据湖工具

Leonardo_KY·2023-09-01 10:40

白鲸开源 DataOps 平台加速数据分析和大模型构建

他们使用数据仓库或数据湖来发现、访问和使用数据，并利用AI推动分析用例。但他们很快意识到

DolphinScheduler社区·2023-09-01 06:42

51页企业数字化转型战略实践与启示PPT（附400份转型资料）

本资料来源公开网络，仅供个人学习，请勿商用，如有侵权请联系删除，更多内容浏览公众号：智慧方案文库企业数字化转型之路.pptx企业数字化转型大数据湖一体化平台项目建设方案PPT.pptx企业数字化转型大数据湖一体化运营管理平台建设方案

2023小目标·2023-08-31 23:37

Apache Doris (一) ：Doris 介绍及使用场景

目录1.ApacheDoris介绍2.ApacheDoris使用场景2.1报表分析2.2即席查询（Ad-hocQuery）2.3统一数仓构建2.4数据湖联邦查询进入正文之前，欢迎订阅专题、对博文点赞、评论

IT贫道·2023-08-31 13:24

.NET Core AWS S3云存储

这意味着各种规模和行业的客户都可以使用S3来存储并保护各种用例（如数据湖、网站、移动应用程

dotNET跨平台·2023-08-31 13:10

ELT已死，EtLT才是现代数据处理架构的终点!

目前大家使用大数据Hadoop时代，主要都是ELT方式，也就是加载到Hadoop里进行处理，但是实时数据仓库、数据湖的流行，这个ELT已经过时了，EtLT才是实时数据加载到数据湖和实时数据仓库的标准架构

·2023-08-31 12:09

白鲸开源 DataOps 平台加速数据分析和大模型构建

他们使用数据仓库或数据湖来发现、访问和使用数据，并利用AI推动分析用例。但他们很快意识到

·2023-08-31 11:25

这篇文章解读数据仓库、数据湖、数据中台等概念，竟然写了4万字！

点击上方“芋道源码”，选择“设为星标”管她前浪，还是后浪？能浪的浪，才是好浪！每天8:55更新文章，每天掉亿点点头发...源码精品专栏原创|Java2020超神之路，很肝~中文详细注释的开源项目RPC框架Dubbo源码解析网络应用框架Netty源码解析消息中间件RocketMQ源码解析数据库中间件Sharding-JDBC和MyCAT源码解析作业调度中间件Elastic-Job源码解析分布式事务中

公众号-芋道源码·2023-08-31 02:05

流式数据湖平台—Paimon视频教程

ApachePaimon是一个流数据湖平台，是Streaming实时计算能力和Lakehouse新架构优势的结合，具有高速数据摄取、变更日志跟踪和高效的实时分析能力。

尚硅谷铁粉·2023-08-30 03:50

Flink Table Store 独立孵化启动， Apache Paimon 诞生

与此同时，在大数据领域数据湖架构也日益成为新的技术趋势，越来越多企业开始采用La

Apache Flink·2023-08-30 03:19

当流计算邂逅数据湖：Paimon 的前生今世

序言笔者从事流计算多年，真名叫李劲松，简写LJS，ApacheID也是lzljs(泸州李劲松)，而流计算简写也是LJS，算是一种缘分吧。一直在分布式计算与存储的领域工作，也参与了多个开源项目，希望通过笔者以下的经历，回顾流计算一步一步扩大场景的过程，并引出ApachePaimon的前生今世。(注：三角中，离顶点更近代表更好，离顶点更远代表更差)很久之前写过一篇文章引用了这个图，原图来自Napa:P

Apache Flink·2023-08-30 03:19

数据湖paimon连接flink、mysql和hive

一、启动flink客户端并测试1、环境准备flink版本：1.16.2lib下需要的依赖包：antlr-runtime-3.5.2.jarcommons-beanutils-1.9.3.jarcommons-pool2-2.4.3.jardruid-1.1.19.jarfastjson-1.2.57.jarflink-cep-1.16.2.jarflink-connector-files-1.16

coder李一·2023-08-30 03:49

Flink Table Store 独立孵化启动， Apache Paimon 诞生

与此同时，在大数据领域数据湖架构也日益成为新的技术趋

王知无(import_bigdata)·2023-08-30 03:48

数据湖的选型(delta iceberg hudi)以及比对

数据湖的选型此文章只是作为文稿记录，且截止到2022年11月份Hudi（0.12.0）支持spark3.3.x3.1.x是HadoopUpsertsDeletesandIncrementals的简写Hudi

鸿乃江边鸟·2023-08-30 03:17

流数据湖平台Apache Paimon（三）Flink进阶使用

文章目录2.9进阶使用2.9.1写入性能2.9.2读取性能2.9.3多Writer并发写入2.9.4表管理2.9.5缩放Bucket2.10文件操作理解2.10.1插入数据2.10.2删除数据2.10.3Compaction2.10.4修改表2.10.5过期快照2.10.6Flink流式写入2.9进阶使用2.9.1写入性能Paimon的写入性能与检查点密切相关，因此需要更大的写入吞吐量：增加检查点

Maynor996·2023-08-30 03:45

流数据湖平台Apache Paimon（二）集成 Flink 引擎

文章目录第2章集成Flink引擎2.1环境准备2.1.1安装Flink2.1.2上传jar包2.1.3启动Hadoop2.1.4启动sql-client2.2Catalog2.2.1文件系统2.2.2HiveCatalog2.2.3sql初始化文件2.3DDL2.3.1建表2.3.2修改表2.4DML2.4.1插入数据2.4.2覆盖数据2.4.3更新数据2.4.4删除数据2.4.5MergeInt

Maynor996·2023-08-30 03:14

探索数据湖中的巨兽：Apache Hive分布式SQL计算平台浅度剖析！

文章目录◆ApacheHive概述1.1分布式SQL计算1.2Hive的优势◆模拟实现Hive功能2.1元数据管理2.2解析器2.3基础架构2.4Hive架构◆Hive基础架构3.1Hive架构图3.2Hive组件3.2.1元数据存储3.2.2Driver驱动程序3.2.3用户接口◆Hive部署4.1VMware虚拟机部署步骤一：安装MySQL数据库步骤2：配置Hadoop步骤3：下载解压Hive

缘友一世·2023-08-29 13:38

爱奇艺数据湖实战-广告数据湖应用

01背景广告数据主要包括效果、品牌和ADX等广告形式的请求和投放链路中产出的一系列日志，经过处理后，用于算法模型训练、广告运营分析、广告投放决策等场景。广告业务对数据的时效性、准确性以及查询性能要求较高。目前，广告数据链路整体采用Lambda架构，存在离线、实时两条链路，带来较高的使用成本和数据不一致性风险。为了解决这些问题，广告数据团队与爱奇艺大数据团队一起积极调研大数据前沿技术，很早就关注到数

爱奇艺技术产品团队·2023-08-29 03:58

爱奇艺数据湖实战 - 基于数据湖的日志平台架构演进

数据湖技术近几年快速发展，其采用了统一大数据存储底座和存算分离的架构，提供了一种适合于日志这种大量写入、少量查询场景的解决方案。因此，Ve

爱奇艺技术产品团队·2023-08-29 03:27

什么是数据湖？全面解读数据湖与数据仓库的区别

从数据仓库（DataWarehouse），到如今如火如荼的数据湖（DataLake），都被机构广泛应用于大数据存储，但从结构和处理方式上都有很大的区别。

麦聪聊数据·2023-08-28 22:05

新一代数据湖存储技术Apache Paimon入门Demo

目录前言1.什么是ApachePaimon一、本地环境快速上手1、本地Flink伪集群2、IDEA中跑PaimonDemo2.1代码2.2IDEA中成功运行3、IDEA中Stream读写3.1流写3.2流读（toChangeLogStream）二、进阶：本地（IDEA）多流拼接测试要解决的问题：note：1、'changelog-producer'='full-compaction'（1）mult

Leonardo_KY·2023-08-28 19:08

基于数据湖的多流拼接方案-HUDI概念篇

目录一、为什么需要HUDI？1.传统技术选型存在哪些问题？2.Hudi有什么优点？基于HudiPayload机制的多流拼接方案：二、HUDI的应用场景1.什么场景适合使用hudi？2.什么场景不适合使用hudi？三、什么是HUDI？HUDI能做什么？1.什么是HUDI？2.HUDI能做什么（特性）？四、HUDI的概念&原理1.概念2.原理五、流批一体一、为什么需要HUDI？1.传统技术选型存在哪些

Leonardo_KY·2023-08-28 19:36

一个免费好用的全域数据集成平台

并且在数据湖项目中，采用的是Kettle作为离线开发的核心功能。这个两个开源项目虽然很优秀，

大数据指北·2023-08-28 15:10

推荐频道

数据湖

数据湖是什么？数据湖架构及应用（完）

【数据网格架构】分布式数据网格作为集中式数据单体的解决方案

一文了解袋鼠云在实时数据湖上的探索与实践

今年高考人数剧增，湖南复读学校有推荐?

数据湖是什么？数据湖关键技术（一）

使用Data Transfer Hub迁移MaxCompute数据至S3数据湖实践

什么是数据湖？数据湖的概念及发展历程

阿里云云原生数据湖分析DLA Serverless Spark重磅发布，助力企业低成本挖掘OSS数据价值

一文彻底搞懂实时数仓如何选型和构建

AWS Glue Pyspark+Athena基础学习汇总

【Hudi数据湖应用】Flink作业同名类强转异常ClassCastException修复

高效数据湖构建与数据仓库融合：大规模数据架构最佳实践

数据仓库面试总结大全，深度解析底层逻辑

【AWS实验】 使用 Lake Formation 设置数据湖

云原生架构如何助力大数据和AI技术在软件开发中的深度整合

华为数据管理——《华为数据之道》

李呈祥：bilibili在湖仓一体查询加速上的实践与探索

数据湖_Hudi概述

【大数据】Apache Iceberg 概述和源代码的构建

大咖论道｜源启数据资产管理平台助力金融机构加速数据资产化过程（下）

如何将单体数据湖转移到分布式数据网格

基于 Kafka、Flink 构建实时数据湖的最佳实践

数据湖 | 一文读懂Data Lake的概念、特征、架构与案例（转）

在 Amazon EMR 上构建实时数据湖

漫谈大数据 - 数据湖认知篇

【大数据】数据湖：下一代大数据的发展趋势

基于数据湖的多流拼接方案-HUDI实操篇

Flink+Paimon多流拼接性能优化实战

白鲸开源 DataOps 平台加速数据分析和大模型构建

51页企业数字化转型战略实践与启示PPT（附400份转型资料）

Apache Doris (一) ：Doris 介绍及使用场景

.NET Core AWS S3云存储

ELT已死，EtLT才是现代数据处理架构的终点!

白鲸开源 DataOps 平台加速数据分析和大模型构建

这篇文章解读数据仓库、数据湖、数据中台等概念，竟然写了4万字！

流式数据湖平台—Paimon视频教程

Flink Table Store 独立孵化启动 ， Apache Paimon 诞生

当流计算邂逅数据湖：Paimon 的前生今世

数据湖paimon连接flink、mysql和hive

Flink Table Store 独立孵化启动 ， Apache Paimon 诞生

数据湖的选型(delta iceberg hudi)以及比对

流数据湖平台Apache Paimon（三）Flink进阶使用

流数据湖平台Apache Paimon（二）集成 Flink 引擎

探索数据湖中的巨兽：Apache Hive分布式SQL计算平台浅度剖析！

爱奇艺数据湖实战-广告数据湖应用

爱奇艺数据湖实战 - 基于数据湖的日志平台架构演进

什么是数据湖？全面解读数据湖与数据仓库的区别

新一代数据湖存储技术Apache Paimon入门Demo

基于数据湖的多流拼接方案-HUDI概念篇

一个免费好用的全域数据集成平台

【AWS实验】使用 Lake Formation 设置数据湖

Flink Table Store 独立孵化启动， Apache Paimon 诞生

Flink Table Store 独立孵化启动， Apache Paimon 诞生