阿里云云栖号

DLF +DDI 一站式数据湖构建与分析最佳实践

简介： 本文由阿里云数据湖构建 DLF 团队和 Databricks 数据洞察团队联合撰写，旨在帮助您更深入地了解阿里云数据湖构建（DLF）+Databricks 数据洞察（DDI）构建一站式云上数据入湖。

作者
陈鑫伟（熙康），阿里云计算平台事业部技术专家
冯加亮（加亮），阿里云计算平台事业部技术研发

背景

随着数据时代的不断发展，数据量爆发式增长，数据形式也变的更加多样。传统数据仓库模式的成本高、响应慢、格式少等问题日益凸显。于是拥有成本更低、数据形式更丰富、分析计算更灵活的数据湖应运而生。

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据集中存储管理在高性价比的存储如 OSS 等对象存储中，并对外提供统一的数据目录，支持多种计算分析方式，有效解决了企业中面临的数据孤岛问题，同时大大降低了企业存储和使用数据的成本。

数据湖架构及关键技术

企业级数据湖架构如下：

数据湖存储与格式

数据湖存储主要以云上对象存储作为主要介质，其具有低成本、高稳定性、高可扩展性等优点。

数据湖上我们可以采用支持 ACID 的数据湖存储格式，如 Delta Lake、Hudi、Iceberg。这些数据湖格式有自己的数据 meta 管理能力，能够支持 Update、Delete 等操作，以批流一体的方式解决了大数据场景下数据实时更新的问题。在当前方案中，我们主要介绍Delta Lake的核心能力和应用场景。

Delta Lake 的核心能力

Delta Lake 是一个统一的数据管理系统，为云上数据湖带来数据可靠性和快速分析。Delta Lake 运行在现有数据湖之上，并且与 Apache Spark 的 API 完全兼容。使用Delta Lake，您可以加快高质量数据导入数据湖的速度，团队也可以在云服务上快速使用这些数据，安全且可扩展。

ACID 事务性：Delta Lake 在多个写操作之间提供 ACID 事务性。每一次写操作都是一个事务操作，事务日志（Transaction Log）中记录的写操作都有一个顺序序列。事务日志（Transaction Log）跟踪了文件级别的写操作，并使用了乐观锁进行并发控制，这非常适用于数据湖，因为尝试修改相同文件的多次写操作的情况并不经常发生。当发生冲突时，Delta Lake 会抛出一个并发修改异常，抛给供用户处理并重试其作业。Delta Lake 还提供了最高级别的隔离（可序列化隔离），允许工程师不断地向目录或表写入数据，而使用者不断地从同一目录或表读取数据，读取数据时会看到数据的最新快照。
Schema 管理（Schema management）：Delta Lake 会自动验证正在写入的DataFrame 的 Schema 是否与表的 Schema 兼容。若表中存在但 DataFrame 中不存在的列则会被设置为 null。如果 DataFrame 中有额外的列不在表中，那么该操作将会抛出异常。Delta Lake 具有 DDL（数据定义语言）显式添加新列的功能，并且能够自动更新 Schema。
可伸缩的元数据（Metadata）处理：Delta Lake 将表或目录的元数据信息存储在事务日志（Transaction Log）中，而不是元数据 Metastore 中。这使得 Delta Lake够在固定时间内列出大目录中的文件，并且在读取数据时效率很高。
数据版本控制和时间旅行（Time Travel）：Delta Lake 允许用户读取表或目录的历史版本快照。当文件在写入过程中被修改时，Delta Lake 会创建文件的新的版本并保留旧版本。当用户想要读取表或目录的较旧版本时，他们可以向 Apach Spark的 read API 提供时间戳或版本号，Delta Lake 根据事务日志（Transaction Log）中的信息来构建该时间戳或版本的完整快照。这非常方便用户来复现实验和报告，如果需要，还可以将表还原为旧版本。
统一批流一体：除了批处理写入之外，Delta Lake 还可以作为 Apache Spark 的结构化流的高效流接收器（Streaming Sink）。与 ACID 事务和可伸缩元数据处理相结合，高效的流接收器（Streaming Sink）支持大量近实时的分析用例，而无需维护复杂的流和批处理管道。
记录更新和删除：Delta Lake 将支持合并、更新和删除的 DML（数据管理语言）命令。这使得工程师可以轻松地在数据湖中插入和删除记录，并简化他们的变更数据捕获和 GDPR（一般数据保护条例）用例。由于 Delta Lake 在文件级粒度上进行跟踪和修改数据，因此它比读取和覆盖整个分区或表要高效得多。

数据湖构建与管理

1. 数据入湖

企业的原始数据存在于多种数据库或存储系统，如关系数据库 MySQL、日志系统SLS、NoSQL 存储 HBase、消息数据库 Kafka 等。其中大部分的在线存储都面向在线事务型业务，并不适合在线分析的场景，所以需要将数据以无侵入的方式同步至成本更低且更适合计算分析的对象存储。

常用的数据同步方式有基于 DataX、Sqoop 等数据同步工具做批量同步；同时在对于实时性要求较高的场景下，配合使用 Kafka+spark Streaming / flink 等流式同步链路。目前很多云厂商提供了一站式入湖的解决方案，帮助客户以更快捷更低成本的方式实现数据入湖，如阿里云 DLF 数据入湖。

2. 统一元数据服务

对象存储本身是没有面向大数据分析的语义的，需要结合 Hive Metastore Service 等元数据服务为上层各种分析引擎提供数据的 Meta 信息。数据湖元数据服务的设计目标是能够在大数据引擎、存储多样性的环境下，构建不同存储系统、格式和不同计算引擎统一元数据视图，并具备统一的权限、元数据，且需要兼容和扩展开源大数据生态元数据服务，支持自动获取元数据，并达到一次管理多次使用的目的，这样既能够兼容开源生态，也具备极大的易用性。

数据湖计算与分析

相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎 Hive、Spark、Presto、Flink 等，同时也支持云厂商自研的大数据引擎，如阿里云 MaxCompute、Hologres 等。在数据湖存储与计算引擎之间，一般还会提供数据湖加速的服务，以提高计算分析的性能，同时减少带宽的成本和压力。

Databricks 数据洞察-商业版的 Spark 数据计算与分析引擎

DataBricks 数据洞察（DDI）做为阿里云上全托管的 Spark 分析引擎，能够简单快速帮助用户对数据湖的数据进行计算与分析。

Saas 全托管 Spark：免运维，无需关注底层资源情况，降低运维成本，聚焦分析业务
完整 Spark 技术栈集成：一站式集成 Spark 引擎和 Delta Lake 数据湖，100%兼容开源 Spark 社区版；Databricks 做商业支持，最快体验 Spark 最新版本特性
总成本降低：商业版本 Spark 及 Delta Lake 性能优势显著；同时基于计算存储分离架构，存储依托阿里云 OSS 对象存储，借助阿里云 JindoFS 缓存层加速；能够有效降低集群总体使用成本
高品质支持以及 SLA 保障：阿里云和 Databricks 提供覆盖 Spark 全栈的技术支持；提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务

Databricks 数据洞察+ DLF 数据湖构建与流批一体分析实践

企业构建和应用数据湖一般需要经历数据入湖、数据湖存储与管理、数据湖探索与分析等几个过程。本文主要介绍基于阿里云数据湖构建（DLF）+Databricks 数据洞察（DDI）构建一站式的数据入湖，批流一体数据分析实战。

流处理场景：

实时场景维护更新两张 Delta 表：

delta_aggregates_func 表：RDS 数据实时入湖。
delta_aggregates_metrics 表：工业 metric 数据通过 IoT 平台采集到云 Kafka ，经由 Spark Structured Streaming 实时入湖。

批处理场景：

以实时场景生成两张 Delta 作为数据源，进行数据分析执行 Spark jobs，通过 Databrick 数据洞察作业调度定时执行。

前置条件

1. 服务开通

确保 DLF、OSS、Kafka、DDI、RDS、DTS 等云产品服务已开通。注意 DLF、RDS、Kafka、DDI 实例均需在同一 Region 下。

2. RDS 数据准备

RDS 数据准备，在 RDS 中创建数据库 dlfdb。在账户中心创建能够读取 engine_funcs数据库的用户账号，如 dlf_admin。

通过 DMS 登录数据库，运行一下语句创建 engine_funcs 表，及插入少量数据。

CREATE TABLE `engine_funcs` (  `emp_no` int(11) NOT NULL,
  `engine_serial_number` varchar(20) NOT NULL,
  `engine_serial_name` varchar(20) NOT NULL,
  `target_engine_serial_number` varchar(20) NOT NULL,
  `target_engine_serial_name` varchar(20) NOT NULL,
  `operator` varchar(16) NOT NULL,
  `create_time` DATETIME NOT NULL,
  `update_time` DATETIME NOT NULL,
  PRIMARY KEY (`emp_no`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

INSERT INTO `engine_funcs` VALUES (10001,'1107108133','temperature','1107108144','temperature','/', now(), now());
INSERT INTO `engine_funcs` VALUES (10002,'1107108155','temperature','1107108133','temperature','/', now(), now());
INSERT INTO `engine_funcs` VALUES (10003,'1107108155','runTime','1107108166','speed','/', now(), now());
INSERT INTO `engine_funcs` VALUES (10004,'1107108177','pressure','1107108155','electricity','/', now(), now());
INSERT INTO `engine_funcs` VALUES (10005,'1107108188','flow' ,'1107108111','runTime','/', now(), now());

RDS数据实时入湖

1. 创建数据源

进入 DLF 控制台界面：https://dlf.console.aliyun.com/cn-hangzhou/home，点击菜单数据入湖 -> 数据源管理。
点击新建数据源。填写连接名称，选择数据准备中的使用的 RDS 实例，填写账号密码，点击“连接测试”验证网络连通性及账号可用性。

点击下一步，确定，完成数据源创建。

2. 创建元数据库

在 OSS 中新建 Bucket，databricks-data-source；

点击左侧菜单“元数据管理”->“元数据库”，点击“新建元数据库”。填写名称，新建目录 dlf/，并选择。

3. 创建入湖任务

点击菜单“数据入湖”->“入湖任务管理”，点击“新建入湖任务”。
选择“关系数据库实时入湖”，按照下图的信息填写数据源、目标数据湖、任务配置等信息。并保存。
配置数据源，选择刚才新建的“dlf”连接，使用表路径 “dlf/engine_funcs”，选择新建 dts 订阅，填写名称。

回到任务管理页面，点击“运行”新建的入湖任务。就会看到任务进入“初始化中”状态，随后会进入“运行”状态。
点击“详情”进入任务详情页，可以看到相应的数据库表信息。

该数据入湖任务，属于全量+增量入湖，大约3至5分钟后，全量数据会完成导入，随后自动进入实时监听状态。如果有数据更新，则会自动更新至 Delta Lake 数据中。

数据湖探索与分析

DLF 数据查询探索

DLF 产品提供了轻量级的数据预览和探索功能，点击菜单“数据探索”->“SQL 查询”进入数据查询页面。

在元数据库表中，找到“fjl_dlf”，展开后可以看到 engine_funcs_delta 表已经自动创建完成。双击该表名称，右侧 sql 编辑框会出现查询该表的 sql 语句，点击“运行”，即可获得数据查询结果。

回到 DMS 控制台，运行下方 DELETE 和 INSERT SQL 语句。

DELETE FROM `engine_funcs` where `emp_no` = 10001;
UPDATE `engine_funcs` SET `operator` = '+', `update_time` = NOW() WHERE `emp_no` =10002;
INSERT INTO `engine_funcs` VALUES (20001,'1107108199','speed','1107108122','runTime','*', now(), now());

大约1至3分钟后，在 DLF 数据探索再次执行刚才的 select 语句，所有的数据更新已经同步至数据湖中。

创建 Databricks 数据洞察（DDI）集群

集群创建完成后，点击“详情”进入详情页，添加当前访问机器 ip 白名单。

点击 Notebook 进入交互式分析页查询同步至 Delta Lake 中 engine_funcs_delta 表数据。

IoT 平台采集到云 Kafka 数据实时写入 Delta Lake

1.引入 spark-sql-kafka 三方依赖

%spark.conf

spark.jars.packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.0.1

2.使用 UDF 函数定义流数据写入 Delta Lake 的 Merge 规则

发往 Kafka 的测试数据的格式：

{"sn": "1107108111","temperature": "12" ,"speed":"1115", "runTime":"160","pressure":"210","electricity":"380","flow":"740","dia":"330"}
{"sn": "1107108122","temperature": "13" ,"speed":"1015", "runTime":"150","pressure":"220","electricity":"390","flow":"787","dia":"340"}
{"sn": "1107108133","temperature": "14" ,"speed":"1215", "runTime":"140","pressure":"230","electricity":"377","flow":"777","dia":"345"}
{"sn": "1107108144","temperature": "15" ,"speed":"1315", "runTime":"145","pressure":"240","electricity":"367","flow":"730","dia":"430"}
{"sn": "1107108155","temperature": "16" ,"speed":"1415", "runTime":"155","pressure":"250","electricity":"383","flow":"750","dia":"345"}
{"sn": "1107108166","temperature": "10" ,"speed":"1515", "runTime":"145","pressure":"260","electricity":"350","flow":"734","dia":"365"}
{"sn": "1107108177","temperature": "12" ,"speed":"1115", "runTime":"160","pressure":"210","electricity":"377","flow":"733","dia":"330"}
{"sn": "1107108188","temperature": "13" ,"speed":"1015", "runTime":"150","pressure":"220","electricity":"381","flow":"737","dia":"340"}
{"sn": "1107108199","temperature": "14" ,"speed":"1215", "runTime":"140","pressure":"230","electricity":"378","flow":"747","dia":"345"}

%spark
import org.apache.spark.sql._
import io.delta.tables._
def upsertToDelta(microBatchOutputDF: DataFrame, batchId: Long) {
  microBatchOutputDF.createOrReplaceTempView("dataStream")
  // 对流数据DF执行列转行的操作；
    val df=microBatchOutputDF.sparkSession.sql(s"""
                select `sn`,
                 stack(7, 'temperature', `temperature`, 'speed', `speed`, 'runTime', `runTime`, 'pressure', `pressure`, 'electricity', `electricity`, 'flow', `flow` , 'dia', `dia`) as (`name`, `value` )
                 from  dataStream  
    """)
    df.createOrReplaceTempView("updates")
    // 实现实时更新动态的数据，结果merge到表里面
    val mergedf=df.sparkSession.sql(s"""
    MERGE INTO delta_aggregates_metrics t
    USING updates s
    ON  s.sn = t.sn and s.name=t.name
    WHEN MATCHED THEN UPDATE SET 
    t.value = s.value,
    t.update_time=current_timestamp()
    WHEN NOT MATCHED THEN INSERT 
    (t.sn,t.name,t.value ,t.create_time,t.update_time)
   values (s.sn,s.name,s.value,current_timestamp(),current_timestamp())
  """)
}

3.使用 Spark Structured Streaming 实时流写入 Delta Lake

%spark
import org.apache.spark.sql.functions._
import org.apache.spark.sql.streaming.Trigger

def getquery(checkpoint_dir:String,servers:String,topic:String ){
    var streamingInputDF =  
  spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", servers)
    .option("subscribe", topic)     
    .option("startingOffsets", "latest")  
    .option("minPartitions", "10")  
    .option("failOnDataLoss", "true")
    .load()
var streamingSelectDF = 
  streamingInputDF
   .select(
    get_json_object(($"value").cast("string"), "$.sn").alias("sn"),
   get_json_object(($"value").cast("string"), "$.temperature").alias("temperature"),
   get_json_object(($"value").cast("string"), "$.speed").alias("speed"),
   get_json_object(($"value").cast("string"), "$.runTime").alias("runTime"),
   get_json_object(($"value").cast("string"), "$.electricity").alias("electricity"),
   get_json_object(($"value").cast("string"), "$.flow").alias("flow"),
   get_json_object(($"value").cast("string"), "$.dia").alias("dia"),
   get_json_object(($"value").cast("string"), "$.pressure").alias("pressure")
   )
val query = streamingSelectDF
      .writeStream
      .format("delta")
      .option("checkpointLocation", checkpoint_dir)
      .trigger(Trigger.ProcessingTime("5 seconds")) // 执行流处理时间间隔
      .foreachBatch(upsertToDelta _) //引用upsertToDelta函数
      .outputMode("update")
      .start()
}

4. 执行程序

%spark
val my_checkpoint_dir="oss://databricks-data-source/checkpoint/ck"
val servers= "***.***.***.***:9092"
val topic= "your-topic"
getquery(my_checkpoint_dir,servers,topic)

5. 启动 Kafka 并向生产里发送测试数据

查询数据实时写入并更新

查询从 MySQL 实时同步入湖的 engine_funcs_delta 数据

%spark
val rds_dataV=spark.table("fjl_dlf.engine_funcs_delta")
rds_dataV.show()

批处理作业

结合业务，需要将对应的 delta_aggregates_metrics 里的 Value 参数 join 到engine_funcs_delta 表里

%spark
//读取实时更新的delta_aggregates_metrics数据表
val aggregateDF=spark.table("log_data_warehouse_dlf.delta_aggregates_metrics")
//读取实时更新的engine_funcs_delta函数表
val rds_dataV=spark.table("fjl_dlf.engine_funcs_delta").drop("create_time","update_time")
// rds_dataV.show()
val aggregateSDF= aggregateDF.withColumnRenamed("value","esn_value").withColumnRenamed("name","engine_serial_name").withColumnRenamed("sn","engine_serial_number")
// aggregateSDF.show()
val aggregateTDF=aggregateDF.withColumnRenamed("value","tesn_value").withColumnRenamed("name","target_engine_serial_name").withColumnRenamed("sn","target_engine_serial_number").drop("create_time","update_time")
// aggregateTDF.show()
//将对应的delta_aggregates_metrics里的Value参数 join到engine_funcs_delta表里；
val  resdf=rds_dataV.join(aggregateSDF,Seq("engine_serial_name","engine_serial_number"),"left").join(aggregateTDF,Seq("target_engine_serial_number","target_engine_serial_name"),"left")
            .selectExpr("engine_serial_number","engine_serial_name","esn_value","target_engine_serial_number","target_engine_serial_name","tesn_value","operator","create_time","update_time")

//数据展示
resdf.show(false)
// 将结果写入到Delta表里面
resdf.write.format("delta")
    .mode("append")
    .saveAsTable("log_data_warehouse_dlf.delta_result")

性能优化：OPTIMIZE & Z-Ordering

在流处理场景下会产生大量的小文件，大量小文件的存在会严重影响数据系统的读性能。Delta Lake 提供了 OPTIMIZE 命令，可以将小文件进行合并压缩，另外，针对 Ad-Hoc 查询场景，由于涉及对单表多个维度数据的查询，我们借助 Delta Lake 提供的 Z-Ordering 机制，可以有效提升查询的性能。从而极大提升读取表的性能。DeltaLake 本身提供了 Auto Optimize 选项，但是会牺牲少量写性能，增加数据写入 delta 表的延迟。相反，执行 OPTIMIZE 命令并不会影响写的性能，因为 Delta Lake 本身支持 MVCC，支持 OPTIMIZE 的同时并发执行写操作。因此，我们采用定期触发执行 OPTIMIZE 的方案，每小时通过 OPTIMIZE 做一次合并小文件操作，同时执行 VACCUM 来清理过期数据文件:

OPTIMIZE log_data_warehouse_dlf.delta_result ZORDER by engine_serial_number;

VACUUM log_data_warehouse_dlf.delta_result RETAIN 1 HOURS;

原文链接
本文为阿里云原创内容，未经允许不得转载。

Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
掌握大数据领域数据湖的部署要点
掌握大数据领域数据湖的部署要点关键词：数据湖,大数据部署,数据治理,存储架构,元数据管理,数据质量,湖仓一体摘要：在数据爆炸的时代，企业面临着"数据多却用不好"的困境——结构化数据藏在数据库里，非结构化数据堆在服务器上，半结构化数据散落在日志文件中。数据湖就像一个"智能中央仓库"，能统一存储所有类型的数据，并通过灵活的管理让数据"活起来"。本文将用"图书馆管理员建仓库"的故事，从概念理解、架构设计
数据编织趋势探秘
今天跟大家聊聊数据编织（DataFabric）的概念Gartner在2022年重要战略技术趋势中重点提到数据编织（DataFabric）这个概念，本质上是在谈怎么实现“数据找人而不是人找数据”的愿景为什么DataFabric将会成为一种趋势，为什么越来越多的企业将在未来采用这样的方式进行部署？1、在传统IT时代，无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代，其实数据利用都是集中式
Apache Gravitino 安装和配置指南牧沛琚Immortal
ApacheGravitino安装和配置指南gravitino世界上最强大的数据目录服务，提供高性能、地理分布和联邦化的元数据湖。项目地址:https://gitcode.com/gh_mirrors/gra/gravitino1.项目基础介绍和主要的编程语言项目基础介绍ApacheGravitino是一个高性能、地理分布式和联邦化的元数据湖。它直接管理不同来源、类型和区域的元数据，并为用户提供统
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
使用Airbyte连接Shopify进行数据集成实践 2301_80727036 语言模型 elasticsearch jenkins
在当今的数据驱动时代，数据集成平台如Airbyte变得尤为重要。它不仅可以让从API、数据库和文件到仓库或数据湖的ELT流程变得高效，还提供了丰富的连接器，支持各种数据源的集成。尽管Airbyte的Shopify连接器已经不再推荐使用，但它的使用方法仍然能为我们揭示一些重要的实践技巧。技术背景介绍Airbyte是一个开源的数据集成平台，专注于从各种数据源将数据提取、加载到目标数据仓库或者数据湖中。
火山引擎发布大模型生态广场MCP Servers，LAS MCP助力AI数据湖构建
资料来源：火山引擎-开发者社区近日，火山引擎发布大模型生态广场——MCPServers，借助字节跳动生态能力，通过“MCPMarket（工具广场）+火山方舟（大模型服务）+Trae（应用开发环境）”深度协同，实现工具调用、模型推理到应用部署的全链路开发闭环，助力开发者以“模块化组装”模式告别复杂手动开发流程。火山引擎大模型生态广场MCPServers的核心架构由三部分组成：1.MCPMarket（
如何使用AWS S3进行文档对象加载 weixin_43212959 aws 云计算
技术背景介绍AmazonSimpleStorageService（AmazonS3）是AmazonWebServices（AWS）提供的对象存储服务，具备高扩展性和高可用性，常用于备份、存档及数据湖构建。在AI应用中，S3也成为存储和访问大数据集的重要组件。在这篇文章中，我们将探讨如何使用S3FileLoader从S3存储桶中加载文档对象。核心原理解析Python的Boto3库是与AWS服务交互的
【软考高级系统架构论文】论数据湖技术及其应用 _Richard_ 软考高级系统架构论文系统架构
论文真题近年来，随着移动互联网、物联网、工业互联网等技术的不断发展，企业级应用面临的数据规模不断增大，数据类型异常复杂。针对这一问题，业界提出“数据湖(DataLake)”这一新型的企业数据管理技术。数据湖是一个存储企业各种原始数据的大型仓库，支持对任意规模的结构化、半结构化和非结构化数据进行集中式存储，数据按照原有结构进行存储，无须进行结构化处理；数据湖中的数据可供存取、处理、分析及传输，支撑大
Doris 数据集成 Apache Paimon 猫猫姐 Doris doris
Doris数据集成ApachePaimon湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭
[Data Pipeline] MinIO存储（数据湖) | 数据层 Bronze/Silver/Gold lvy- #Date Pipeline.大数据数据库 python
第三章：MinIO存储（数据湖）欢迎回来，数据探险家们！在第一章：MySQL数据库（源系统）中，我们看到了原始咖啡销售数据的起点。在第二章：Spark作业（数据处理）中，我们学习了Spark作业如何作为强大的工作者来清洗、转换和准备这些数据。现在，处理后的数据去往何处？Spark作业在后续步骤中从哪里获取数据？我们需要一个中心位置，一个为海量多样化数据设计的大型存储区域。这就引出了我们的第三个关键
数据仓库 vs 数据湖：架构、应用场景与技术差异全解析 chat2tomorrow SQL2API 数据仓库低代码平台数据仓库架构 sql2api 大数据低代码数据湖
目录一、概念对比：结构化vs全类型数据二、技术架构对比1.数据仓库架构特点2.数据湖架构特点三、典型应用场景数据仓库适合：数据湖适合：四、数据湖仓一体：趋势还是折中？五、总结：如何选型？结语在大数据时代，“数据仓库”和“数据湖”常被同时提及，甚至被误认为是同一类技术方案。然而，二者在架构设计、数据处理方式、应用场景等方面存在显著差异。本文将从多个维度对比数据仓库与数据湖，帮助你厘清概念，选型不再困
Doris数据集成 Apache Iceberg 猫猫姐 Doris doris iceberg
Doris数据集成ApacheIcebergApacheIceberg是一种开源、高性能、高可靠的数据湖表格式，可实现超大规模数据的分析与管理。它支持ApacheDoris在内的多种主流查询引擎，兼容HDFS以及各种对象云存储，具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性，可确保高性能查询以及数据的可靠性及一致性，其时间旅行和版本回滚功能也为数据管理带来较高的灵活性。Ap
从 GreenPlum 到镜舟数据库：杭银消费金融湖仓一体转型实践镜舟科技金融湖仓一体镜舟数据库数据仓库 StarRocks 存算分离
作者：吴岐诗，杭银消费金融大数据应用开发工程师本文整理自杭银消费金融大数据应用开发工程师在StarRocksSummitAsia2024的分享引言：融合数据湖与数仓的创新之路在数字金融时代，数据已成为金融机构的核心竞争力。杭银消费金融作为一家持牌消费金融机构，虽以金融业务为核心，却始终保持着强烈的科技创新精神，发明专利的话屈居行业第二。面对业务高速发展带来的数据挑战，公司开始了一场围绕数据基础设施
数据库、数据仓库、数据中台、数据湖相关概念行云流水行云流水数据库数据库数据仓库
文章目录序言1数据库，数据仓库，数据中台，数据湖-概念对比释义1.1概念产生的时间顺序1.2在使用功能方面对比1.3在使用工具方面对比2数据仓库2.1数据仓库的发展阶段2.2数据仓库的设计2.3数据仓库常用工具，方法2.3.1分析型数据库和关系数据库区别2.3.2常用ETL工具2.3.3常用的任务调度工具介绍序言简单的回顾记录一下，数据库，数据仓库，数据中台，数据湖的概念。避免混淆了。1数据库，数
Deep Lake 简介
DeepLake简介DeepLake是由Activeloop开发的一款开源深度学习数据湖（DeepLearningDataLake），专为人工智能时代设计，旨在解决深度学习项目中数据管理的复杂性与低效问题。核心特点特性说明多模态数据支持支持图像、视频、音频、文本、点云等多种数据类型，适用于各类AI场景。张量存储数据以张量格式存储，兼容主流深度学习框架（如PyTorch、TensorFlow）。数据
Paimon（数据湖框架）概述 lzhlizihang 数据湖框架 Paimon 数据湖大数据 hdfs
文章目录一、数据湖二、什么是Paimon三、Paimon中的数据存储格式四、Paimon的核心特性五、Paimon的大规模实时更新六、LSM数据结构的核心思想一、数据湖数据湖就是：一种能够满足海量存储和海量分析的系统架构方案（不是数据库，也不是技术架构，是一种概念、一种方案和思路）其中HDFS实现了海量数据存储，Spark、MR、Flink等实现了海量数据分析所以说，Hadoop生态本质上就是数据
揭秘大数据领域数据架构的关键技术大数据洞察大数据架构 ai
揭秘大数据领域数据架构的关键技术关键词：大数据、数据架构、关键技术、数据仓库、数据湖摘要：本文深入探讨大数据领域数据架构的关键技术。从大数据背景出发，详细介绍数据架构的核心概念，剖析其核心算法原理与操作步骤，结合数学模型与公式加深理解。通过项目实战案例展示代码实现与解读，探讨实际应用场景。同时推荐相关工具、资源及论文著作，最后总结大数据数据架构的未来发展趋势与挑战，并解答常见问题，为读者全面揭秘大
Python, Go, Rust 开发40年来转移支付资金去向溯源与查询APP Geeker-2025 python golang rust
以下是一个基于**Python、Go、Rust**开发的“40年来转移支付资金去向溯源与查询系统”技术方案，结合多语言优势实现资金全流程追踪与效能分析：---###**一、系统架构设计**```mermaidgraphTDA[多源数据]-->B(Python数据湖引擎)B-->C{Rust核心计算层}C-->D[Go微服务集群]D-->E[前端可视化]F[区块链存证]-->CG[审计监管端]-->
大数据领域的数据工程：从理论到实践 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据 ai
大数据领域的数据工程：从理论到实践关键词：数据工程、大数据处理、ETL/ELT、数据湖、数据仓库、数据治理、云计算摘要：本文系统解析大数据领域的数据工程体系，从理论架构到实战落地展开深度探讨。首先构建数据工程核心概念框架，解析数据集成、存储、处理、治理的技术原理；其次通过Python和PySpark代码实现数据清洗、分布式处理等关键算法；结合真实项目案例演示数据管道搭建与优化；最后分析金融、电商等
湖仓融合的“最后一公里”：StarRocks 存算分离如何优化湖上实时分析？镜舟科技 StarRocks 存算分离架构实时分析湖仓融合金融科技物化视图元数据
随着数据量爆发式增长，企业数据架构正经历从传统数据仓库向现代数据湖仓一体化的转变。然而，传统数据湖虽然存储成本低，但分析性能不足；数据仓库虽然查询性能优异，但成本高昂且扩展性受限。湖仓融合面临“最后一公里”问题：如何在保证实时性、一致性的同时平衡成本？一、湖仓融合（Lakehouse）的技术演进湖仓融合的技术演进经历了从简单的数据迁移，到联邦查询，再到深度集成的过程。现代数据湖格式如Iceberg
从零开始学大数据：数据工程入门指南 AI天才研究院 ChatGPT AI大模型应用入门实战与进阶大数据 ai
从零开始学大数据：数据工程入门指南关键词：大数据、数据工程、数据处理、ETL、数据湖、数据仓库、分布式计算摘要：本文作为面向零基础学习者的大数据工程入门指南，系统讲解数据工程核心概念、技术体系与实战方法论。从数据工程的基础架构与核心组件出发，逐步解析数据采集、清洗、转换、存储、集成的全流程技术原理，结合Python代码实现与分布式计算框架实战，帮助读者掌握Hadoop、Spark等主流工具的应用方
数据湖 (特点+与数据仓库和数据沼泽的对比讲解) xixixi77777 数据仓库
数据湖就像一个“数据水库”，把企业所有原始数据（结构化的表格、半结构化的日志、非结构化的图片/视频）原样存储，供后续按需分析。对比传统数据仓库：数据仓库数据湖数据清洗后的结构化数据（如Excel表格）原始数据（日志、图片、CSV、JSON）模式先定义结构再存数据（Schema-on-Write）先存数据再按需定义结构（Schema-on-Read）用途固定报表、BI分析机器学习、探索性分析、灵活挖
【大数据】什么是数据湖？一文揭示数据湖的本质 isNotNullX 大数据 spark 分布式数据仓库数据湖湖仓一体
很多人跟我一样，对于数据湖充满好奇，也许还读了不少数据湖文章，但无论别人怎么说，你还是会觉得难以把握数据湖的本质。有些人会望文生义说，数据湖嘛，就是什么东西都可以往里面扔，特别是对非结构数据的处理比较方便。是这样吗？有案例才有鉴别，有的人找了数据湖的作者AWS来说明数据湖是什么东西，比如下图：不懂数据的人也许会觉得数据湖很厉害，而懂数据的人也许会觉得仅是一堆数据仓库技术的堆砌包装而已，你看上面那张
数据湖是什么？数据湖和数据仓库的区别是什么？ Leo.yuan 数据数据仓库大数据信息可视化运维人工智能
目录一、数据湖是什么（一）数据湖的定义（二）数据湖的特点二、数据仓库是什么（一）数据仓库的定义（二）数据仓库的特点三、数据湖和数据仓库的区别（一）数据类型（二）数据处理阶段（三）分析灵活性（四）数据使用目的四、总结企业应该选择数据湖还是数据仓库？数据湖和数据仓库地区别是什么？这取决于企业的具体需求和业务场景。如果企业需要处理大量的非结构化数据，进行探索性分析和创新型的数据分析，或者数据来源广泛且数
华为数据之道精读——【173页】读书笔记【附全文阅读】智慧化智能化数字化方案华为学习专栏大数据运维华为数据之道华为数据治理华为数字化转型
在数字化浪潮中，企业数据管理的优劣直接关乎竞争力。华为凭借丰富实践经验总结的《华为数据之道》，为企业提供了全面且深入的数据治理方案。笔记聚焦数字化转型与数据治理的紧密联系。华为作为非数字原生企业，在转型过程中克服了产业链条长、数据复杂等诸多难题，其转型经验极具借鉴价值。书中详细阐述的华为数据工作框架，涵盖数据源、数据湖、数据主题联接和数据消费等关键环节，为企业构建了清晰的数据治理路径，助力实现业务
实时数据湖架构设计：从批处理到流处理的企业数据战略升级大咖分享课系统架构
企业数据处理架构正在经历一场深刻的变革。从最初的数据仓库T+1批处理模式，到如今的实时流处理架构，这一演进过程反映了业务对数据时效性要求的不断提升。文章目录第一章：数据湖演进历程与现状分析第二章：实时数据湖核心架构剖析第三章：关键技术组件深度解析第四章：企业实施策略与路径规划第五章：典型应用场景与案例研究第六章：运维管理与最佳实践第一章：数据湖演进历程与现状分析数据处理架构演进时间线2000年代数
湖仓一体，不只是技术升级，更是企业决策力再造数据库
湖仓一体不仅仅是一种技术流行趋势--它改变了游戏规则，重新定义了行业领导者如何利用其最宝贵的资产：数据。你是否想知道这种方法能否成为你的竞争优势？湖仓一体架构将数据仓库和数据湖的精华结合到一个统一的高性能平台中，为当今复杂的数据挑战提供了前所未有的价值。要想真正了解未来的发展方向，我们需要先了解过去。在数据平台的发展过程中，各种技术层出不穷，但核心挑战始终不变：如何以最低的复杂度和成本从数据中挖掘
如何设计高效的数据湖架构：存储策略、Schema 演进与数据生命周期管理晴天彩虹雨 Flink +Kafka 实时数仓实战架构数据仓库大数据
本文围绕现代数据湖架构的核心设计理念与实践展开，重点讨论如何高效组织数据存储、支持Schema演进与版本管理、实现冷热数据分层存储和生命周期治理，确保数据湖在性能、成本、演进和治理能力上的全面可控。一、数据湖架构演进概览传统数据仓库面对高频更新、Schema变更、实时分析等业务时力不从心，数据湖逐渐成为统一存储引擎与计算接口的核心平台。典型的数据湖架构如下：┌─────────────┐│数据源系
什么是Amazon S3 ManageEngine卓豪云安全云存储 Amazon S3 云数据安全
亚马逊简单存储服务（AmazonS3）是由亚马逊云计算服务（AWS）提供的一种可扩展、安全的云存储解决方案，旨在按所需权限存储和访问数据。S3以其高耐久性和高可用性而闻名，非常适合多种使用场景，包括备份、网络托管、数据湖以及大数据分析。其核心特点包括：高持久性：通过多可用区冗余存储，数据持久性高。高可用性：设计可用性为99.99%，支持毫秒级访问响应。无限扩展性：支持从零到EB级数据的存储需求，按
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在