架构师小秘圈

千亿级爱奇艺数据湖平台建设实践

导读本文将介绍 Iceberg 在爱奇艺的落地与实践。

主要内容包括以下几大部分：

1. 爱奇艺 OLAP 简介

2. 为什么要数据湖

3. 数据湖平台建设

4. 性能优化

5. 业务落地

分享嘉宾｜林豪爱奇艺助理研究员

出品社区｜DataFun

爱奇艺 OLAP 简介

首先简单介绍一下爱奇艺 OLAP 的基本情况：

存储方面，OLAP 目前支持三类存储：

① 离线 HDFS：用于离线分析、批处理等场景；

② 实时 Kafka：用于实时分析、在线处理等场景；

③ 近实时 Iceberg：分钟级延迟，是今天要重点介绍的数据湖产品。

存储之上是查询引擎，我们采用 SparkSQL 做 ETL 处理，采用 Trino 做 Ad-hoc 即席查询，ClickHouse 用于查询加速的场景。我们通过 Pilot 提供对外的统一查询，支持各类应用场景。

为什么要数据湖

下面来介绍一下爱奇艺数据湖的建设背景。

1. 数据湖技术加速数据流通

为什么要有数据湖？数据湖其实就是为了加速数据流通。

爱奇艺 Pingback 投递的场景：

Pingback 是爱奇艺内部对端上埋点的习惯名称，每个公司都会有类似的服务。在经典的 Lambda 架构解决方案里，Pingback 数据在投递后，有离线和实时两个通路。

离线通路写到 HDFS 里，然后由离线开发平台构建离线数仓。离线数仓的优点是成本很低，支持的容量也很大。缺点是延迟大，可能要 1 小时或者 1 天。为了解决这个时效性问题，往往会再构建一个实时数仓。通常用 Kafka 作为存储，用 Flink 或者 Spark 这类的流计算任务处理 Kafka 数据，构建实时数仓。

实时数仓的延迟非常低，能做到秒级的延迟，但缺点是成本很高，只能放最近几个小时的数据，要基于 Kafka 做明细查询也是比较的困难的。

其实很多实时分析场景并不需要秒级的延迟，分钟级的延迟就足够了。譬如说广告、会员的运营场景，或者监控大盘等。数据湖产品提供了性价比很高，容量很大的分钟级延迟的解决方案。

2. Iceberg 定义-新型表格式

爱奇艺的数据湖选型用的是 Iceberg，Iceberg 是一种新设计的开源表格式，用于大规模数据分析。

① Iceberg 本质上不是存储，因为它底层存储复用了 HDFS，或者对象存储。在存储之上构建了 Iceberg 表级抽象，对标 Hive 的表设计。

② 它也不是查询引擎或者流计算引擎，它支持各类计算引擎，比如 Hive、 Flink、 Spark，也支持各类的 SQL 查询引擎。

（1）表格式-Hive 及其缺陷

为什么有了 Hive 表格式还要引入 Iceberg 表格式？

一个经典的 Hive 表可能会有天级分区、小时级分区，或者进一步的子分区。其设计核心是用目录树去组织数据，能够很好地做分区级过滤。

但是它也有着以下缺点：

① 元数据统一存在 Metastore，通常底下是 MySQL，很容易成为瓶颈。

② 由于元信息是分区级别的，没有文件级别的信息，因而当发起一个查询时，制定执行计划需要拿到分区下的文件列表。拿到文件列表本质上是对每一个分区请求 NameNode 做 List 请求。举个例子，一天有 200 多个分区，查 7 天的数据，分区数就会非常多，会发起 O(N) 复杂度的 NameNode 的 List 请求调用，这个元数据的枚举过程会非常的慢。

③ 由于它的最小单位是分区级别的，最大的原子操作就是分区级别的覆盖，其他一些原子操作是不支持的。

（2）表格式-Iceberg

Iceberg 新定义的表结构有元数据层和数据层。数据层就是数据文件。元数据层是它很重要的设计点，可以复用 Hive 的 MetaStore，指向最新的快照。元数据里面分多层，记录了具体的文件列表。

每次有新的 Commit，就会创建出新的快照，读请求可以访问旧的快照，写请求写新的。在写的过程中，新创建的数据文件读是不可见的，只有在提交后把最新的版本指过去，新写入的文件才可见。做到了读写分离。同时修改操作是原子的，能够支持细粒度的分区内部的修改。

（3）表格式-Hive VS Iceberg

简单比较一下 Hive 和 Iceberg：两者底层都采用 HDFS 或者对象存储，都是 PB 级的廉价存储方案。区别 Hive 元信息是分区级，Iceberg 是文件级。比如 Hive 分区原本有 100 个文件，加了 5 个文件，那么 Hive 下游任务就需要重新计算 Hive 分区下的全部数据。Iceberg 能够获取到修改的 5 个文件，可以做增量的下游计算。

时效性是 Iceberg 很明显的优势，能够做到近实时，比如 5 分钟级，如果每分钟提交一次则可以做到分钟级。

制定执行计划时，Iceberg 是常数级的，它只读取固定的元数据文件就能够拿到文件列表。

Iceberg 还支持文件级别的过滤，比如基于统计信息或者字典做过滤。

数据湖平台建设

为了方便用户使用，爱奇艺在引入数据湖以后，首先要做平台化建设。

1. 平台总览

这是爱奇艺数据湖整体的产品架构图：

最底下是数据源，比如前面提到的 Pingback、用户 MySQL 的 Binlog 解析、日志和监控信息，会分别进到实时、离线和 Iceberg 通道。在 Iceberg 之上，通过 RCP 平台、Babel 平台分别做流式入湖和离线入湖。使用 Trino 和 Spark SQL 去做查询。同时我们开发了数据湖平台去完成元数据管理、权限管理等等。

2. 流式入湖

爱奇艺通过实时计算平台，能够做到很简单的入湖。一个 Kafka 的数据只需要三步，就可以完成配置流任务：首先配置从哪个 Kafka 开始读；然后在里面做 Transform 逻辑，比如筛选、重命名，最后定义写到哪个 Iceberg。

3. 出湖查询

入湖的下一步是查询，也就是出湖。目前 Iceberg 有两类文件格式，V1 格式支持 Append Only 数据，不支持行级修改。Iceberg 发布的最新版本 V2 格式能支持行级更新。

目前 V1 格式是通过 Trino 引擎查询，V2 格式通过 SparkSQL 查询。前端是通过 Pilot，我们的自研 SQL 引擎做分发，能够基于文件格式自动地选择引擎，支持各类用户场景。

性能优化

下面介绍一些性能优化的工作。

1. 小文件

说到数据湖，无论哪个产品都绕不开的一个问题就是小文件问题。Hive 可以批量，比如每小时做一次计算，可以写出很大的文件。在 Iceberg 中，由于需要做到近实时，每分钟或者每 5 分钟写文件，文件就比较小，必然会有小文件问题。我们主要通过两个方面去解决小文件问题:

（1）生命周期

根据表的生命周期做处理。比如一张表可能只需要保留一年，或者保留 30 天，历史的数据可以删除。

目前平台会限制用户建表必须配置生命周期，通过数据湖平台自动地完成清理逻辑。

清理用的是 Iceberg 官方提供的解决方案，Spark 的 Procedure，先是 Drop 分区，然后 Expire 历史的 Snapshot，再删除孤儿文件，最后重写元数据文件。

这套流程直接跑，有些环节是存在性能问题的，并不能够满足清理的效率：

① 第一：Spark 的使用模式，每次跑任务都需要提交一个 Spark 任务，需要先申请Yarn 资源，再启动 Application，跑完这个任务后这个 Application 就释放掉了。这里可以采用 Spark 的常驻模式，生命周期清理 SQL 可以跑得很快，资源是不释放的，避免了申请和启动的耗时。

② 第二：天级的目录删除，Iceberg 官方的实现是比较慢的。它用的是孤儿文件删除的策略，在文件数比较多的时候，扫描过程比较慢。我们做了改进，因为明确知道整个天级目录都不需要，可以直接删除整个目录。

③ 第三：我们添加了回收站的机制，生命周期误删除时能有恢复的手段。

做了这些优化以后，线上大概几千个表，都能够按时完成生命周期的清理。比如 Venus 库原先可能有 2 亿个 iNode，清理完以后稳定在 4000 万的数量级。

（2）智能合并

另外一个处理小文件问题的方式就是合并。最简单的就是配置一个定时合并。

人工配置定时合并比较大的问题是：定时策略比较难配置。比如，什么时机应该做合并，这次合并应该要合并什么范围的数据，如果让业务去配这些信息，每一个 Iceberg 用户就需要非常深入地去理解小文件产生的机理才能够比较好地控制合并的范围。

为了解决这个问题，我们参考了 Netflix 的文章，做了智能合并，它的核心思想是：

不再由用户指定合并行为，而是统计 Iceberg 表每个分区下面的文件数，计算均方差，再结合表的权重因子，算出来哪些表合并以后效果是最好的，添加到待合并的分区列表里面。然后由合并任务按照优先级完成合并过程，用户无需做配置。

（3）合并性能优化

有了智能合并以后，还要解决合并的性能优化问题，我们也一直跟随社区的发展。在使用过程中，最初 Iceberg 在文件合并这块做得还不是很好。最早的时候，有个问题，Delete File 在合并以后并没有被真正地删除，目前已经修复。举个例子，如果 Delete 以后马上有个 Rewrite Data File，那么相应的 Delete File 是不会被删除的。这个问题目前有一些解决方案，但最标准的解决方案，社区还在跟进当中。

还有一些大表合并任务经常失败。这里我们可以配置 Bucket 分区，将全表合并改为每次合并其中一个 Bucket 分区，减少单次合并的数据量。

还可以应用 Binpack 合并策略去控制合并选择的逻辑。应用 Bucket 分区和 Binpack合并策略以后，如右上示意图体现的是文件数的变化，可以判断这个文件数一直在增长，这个小的下降是小时级分区合并，到一定时间做全表合并，它的文件数据减少得比较多，存在周期性的震荡。

还有一个例子，我们发现在做合并的时候经常会和写入任务冲突，会报一个错误，要合并的这个文件有一个 Position Delete 在引用，其实是一个误判，因为在社区的默认的参数里面，去判断这个 Data File 有没有被新的 Delete File 引用的时候，有Upper bound 和 Lower bound，但这两个 Bound 被截取了，这个 Data File 其实没有被引用，但截取以后它就在这个区间里面了，解决方法修改表属性控制相应行为。

（4）写入参数控制

前文介绍了当小文件已经产生的时候如何优化，但我们更希望小文件最好不要产生，在写入的时候就把文件数控制住。我们需要去了解 Flink 任务写入的时候是怎么控制文件数量的。

左上角示意图中这个 Flink 任务有 100 个并行度，在默认参数 Distribution-mode = None 时每一个并行度都会往分区下写文件，就会写入 100 个文件，一分钟写 100 个文件每个数据文件都很小。

如果配置 Distribution-mode = Hash，如左下角的图中，在写入的时候会先做 Shuffle，基于 Partition Key Shuffle 到特定的 Sink，这个 Flink 任务会把数据都集中到一个 Sink，写到一个文件，就解决了小文件问题。

但又会引入新的问题，数据量比较大的时候，单个任务写文件的效率跟不上，就会造成 Flink 任务反压。这个时候我们用哈希策略结合 Bucket 分区。比如，可以控制 1 个 Hour 下面 10 个 Bucket，通过两者结合起来就可以很精确地去控制 1 个分区到底要生产多少个文件。一般建议写入文件大概在 100 MB 左右是比较合适的。上图的表格中列出了各个参数配置下的文件数量。

2. 查询优化

解决了小文件问题，接下来是查询的性能问题。在最初做 Iceberg 性能验证的时候，我们发现它的批量 Scan 性能是非常好的，但是点查询的性能就比较糟糕。

（1）ID 查询慢

举个例子，在订单表中，用特定 ID，如订单 ID 或者用户 ID 去查询明细，简化后的SQL 就是 order_id = ‘555’。默认的情况下，Iceberg 会基于 MinMax 做过滤，但数据按照时间戳排序，MinMax 过滤其实是不生效的，比如 File A 的 MinMax 范围包含 555，File N MinMax 321 到 987 也包含 555，其实是过滤不掉的。因而点查询事实上就是全表扫描。

针对点查询场景，BloomFilter 是非常适用的。最初社区没有这个功能，Parquet 在 1.12 的时候支持 BloomFilter，Iceberg 的默认存储格式也是 Parquet，所以我们考虑修改 Iceberg 引入这一功能。

（2）开启 BloomFilter

先介绍一下 BloomFilter 的作用，在这个架构图中，比如，针对 order_id 开启了 BloomFilter，为每一个数据文件构建 BloomFilter，将 order_id 进行哈希后映射到对应 bit，如果值存在就把对应的位设为 1，如果不存在对应的位默认是 0。在 Bloom Filter 里面，如果标志位为 1，这个值不一定存在，但如果标志位为 0，这个值一定不存在。通过努力，我们在 Iceberg 的内核里面添加了相应的支持。在 Spark 读取 Iceberg 和 Trino 读取的时候也添加了相应的能力。

BloomFilter 支持 Equals 和 In 过滤。如果标志位为 0 是一定能过滤的。不支持 not equals、not in、比较符等过滤条件。

示意图中 order_id = 555 这个条件，哈希后另外两个文件对应的标志位值都是 0，在查询的时候就可以很快地把其他文件过滤掉了，能够精确命中订单所在的数据文件。

（3）BloomFilter 效果

经过测试，在 Spark SQL 中的订单 ID 查询，原来全表扫描需要将近 1000 秒，开启 BloomFilter 后只需要 10 秒钟。Trino 开启 BF 后，可以过滤 98.5% 的查询，CPU 消耗只有以前的 5%。

BloomFilter 会带来额外的空间开销。经过简单的测试，大概有 3% 的额外空间损耗。即 3% 的存储代价可以带来点查询 100 倍的提升。

（4）Alluxio 缓存

查询优化另外一个工作是缓存加速，如使用 Alluxio 做缓存加速。

这是爱奇艺 Trino 查数据湖的架构图。业务通过 Pilot 引擎分发到 Trino 网关，自动地选择使用哪个 Trino 集群执行查询。原本 Trino Worker 上面的 SSD 存储是浪费的，我们在之上混布了 Alluxio，复用了原本闲置的 SSD 存储，几乎没有什么额外机器开销。

以前去查 HDFS 可能会有性能抖动，比如，业务有一个大的批任务，导致 HDFS 性抖动，查询性能会降得很厉害，Alluxio 缓存能够很好地屏蔽这一点。经过测试 Venus 日志应用 Alluxio 以后，P90 从 18 秒可以降低到 1 秒。

（5）Trino 元数据读取问题

在实际的使用过程中发现 Trino 查询有个意想不到的问题，元数据读取性能远比我们想象中的要慢。比如，读取一个 5 M 的元数据竟然要 3 秒钟，后面查数据可能只需要 1 秒，元数据反而更慢。

通过火焰图和阿里的 Arthas 做定位，发现 Read 的方法被调用了百万次，文件总共 5 M，读取 100 多万次是非常不合理的。进一步跟踪，定位原因是父类里面一个 Read 方法的默认实现会逐个 Byte 读取，Trino 这边没有覆盖这个方法的实现，就会降级到默认方法，每次读 1 个 Byte ，所以调用次数非常多，导致很慢，优化以后耗时缩短到了 0.5 秒。

业务落地

最后来介绍业务落地的情况，在应用了上述优化后，业务能取得什么样的效果。

1. 广告流批一体

第一个例子是广告的流批一体场景。原来的实时链路中，实时数据通过 Kafka 写到 Kudu，离线数据同步到 Hive，通过 Impala 来统一查询，基于离线覆盖的进度将查询分发到 Kudu 和 Hive。

使用 Iceberg 以后，实时和离线数据都更新 Iceberg，不需要进度管理，直接查询 Iceberg 表即可。Iceberg 实现了两方面的统一，一是存储统一，不需要有两个类型的存储，查询不需要做拆分。二是任务开发统一为 SQL，原先离线是 HiveSQL，实时是 Spark Jar 包，统一为 SQL 开发。数据入湖后结合分布式改造，广告智能出价全链路由 35 分钟缩短到 7-10 分钟。

2. Venus 日志入湖

Venus 是爱奇艺内部的日志分析平台。之前的架构中 Kafka 数据往 ElasticSearch 里面存储，如果业务流量较大就给它一个独立集群，小流量业务则用公共集群。这个方案存在一些问题：一是流量调度很难做，当集群流量有瓶颈时，需要把流量拆分走；二是 ES 的存储成本非常高。

存储改用 Iceberg 方案后，所有业务的流量都写到一个 Iceberg 集群，不需要拆分流量。Venus 接入层通过日志查询平台，数据存储的切换对用户是透明的。Iceberg 带来的好处包括：

① 成本显著下降。不需要独立的 ES 集群了，Iceberg 和 Trino 都复用现有的资源，并没有什么额外的成本。

② 稳定性大幅提升。因为 ES 的成本太贵，没有配副本，一旦单个磁盘或节点有问题，都会引发用户的报障。用 Iceberg 以后，写入带宽非常大而且稳定性很好，报障减少了 80% 以上。

3. 审核场景

接下来是爱奇艺内部的审核场景，审核场景需要对一些历史的行记录做修改。没有 Iceberg 以前，没有很好的技术方案支持行级更新。

原来解决方案里用 MongoDB 存全量的数据，做行级的更新，然后用 ES 构建二级索引，改用 Iceberg 以后两个存储都统一到 Iceberg 里面。对业务带来的好处是：

① 原本的监控告警要定期查 ES 做聚合，用 MySQL 开发报表，现在不需要了，报表直接查 Iceberg 就可以，能够支持实时告警。

② 数据湖大幅提高业务的效率。原本分析任务开发非常复杂，要从 Mongo 里面导数非常不方便。有了数据湖以后可以统一为 SQL 查询。

4. CDC 订单入湖

最后是 CDC 类数据入湖，此处以订单为例。基于 MySQL 数据做大数据分析，有两类解决方案：第一类是每天导出一份到 Hive，缺点是每次导出都是全量，延迟很大，只能看一天以前的数据。另外全量导的性能也很差，对 MySQL 压力也比较大。第二类是实时解决方案，增量变更写在 Kudu 里面，Kudu 是一个成本很高的解决方案。如果 Kudu 写入带宽波动，同步任务负责人需要去做运维操作。

使用数据湖方案，爱奇艺实时计算平台，通过 Flink CDC 技术很方便地可以将 MySQL 数据入湖。数据湖方案具备如下优势，一是近实时，数据延迟在分钟级，远优于之前的离线方案；二是成本低，相比于 Kudu 无需独立节点，大幅降低机器成本；三是省运维，Iceberg 写入带宽大且稳定，大幅降低运维代价。

未来规划

最后介绍一下未来规划。爱奇艺未来会在流批一体里面有更多的落地，包括广告的全面推广、Pingback 在 BI 场景的落地。另外，我们计划把数据湖落地在特征生产，可以由以前离线或者批的特征生产，变成近实时，能够支持晚到数据，支持样本的行级的修正。

在技术方面会尝试把 Iceberg 的 Puffin 统计信息用于查询加速的场景。还会对社区在做的 Branch 和 Tag 进行调研，寻找内部的落地场景。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

林豪

爱奇艺

助理研究员

林豪，爱奇艺助理研究员，2015 年硕士毕业于上海交通大学，目前领导爱奇艺大数据 OLAP 团队，提供数据湖、Trino、ClickHouse、Hive、智能 SQL 引擎 Pilot 等产品，满足业务对海量数据实时、灵活、高效地进行分析的需求。

程序员效率革命：DeepSeek深度使用手册与实战技巧全揭秘后端
最近在技术社区里总能看到DeepSeek的身影，让我想起去年那个加班到凌晨三点的项目——当时为了调试分布式系统中的异步任务，整个团队在会议室里对着满墙的报错日志抓耳挠腮。直到后端老张突然掏出DeepSeek的实时监控模块，那些原本像天书一样的日志突然就变得脉络清晰起来。今天的程序员工具箱里，这个来自中国的AI开发平台正在掀起一场静悄悄的效率革命。刚接触DeepSeek时，我和很多同行一样，以为它就
大数据与hdfs创建文件夹猫猫头有亿点炸大数据 hdfs hadoop
注意事项:在hdfs上操作的文件,创建文件的时候注意他与linux是不一样的(模式如下:)hdfsdfs-mkdir/test1错误示例:否则,无论如何hdfsdfs-ls/test1/都没有文件的
【基础5】归并排序流光听风语基础算法排序算法算法
核心思路归并排序基本思想是将一个数组分成两个子数组，分别对这两个子数组进行排序，然后将排好序的子数组合并成一个最终的有序数组，即分治法：分：将数组递归拆分成左右两半，直到每个子数组只剩1个元素（天然有序）。治：将两个有序子数组合并为一个有序数组，直到合并成完整数组。优缺点优点缺点✅稳定排序（相等元素顺序不变）❌额外空间（需O(n)临时数组）✅时间复杂度稳定O(nlogn)❌递归可能栈溢出（极大数据
Spring Boot整合MinIO对象存储教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取以下是一份详细的SpringBoot整合MinIO的教程，包含基础配置和常用文件操作示例：SpringBoot整合MinIO对象存储教程一、MinIO简介MinIO是一款高性能、云原生的分布式对象存储系统，兼容AmazonS3API。适用于存储图片、文档、视频等非结构化数据。二、环境准备安装MinIO服
Java 中操作 R：深度整合与高效应用 froginwe11 开发语言
Java中操作R：深度整合与高效应用引言随着大数据和机器学习的快速发展，R语言在数据分析和可视化方面扮演着越来越重要的角色。而Java作为一种广泛应用于企业级应用开发的语言，其强大的功能和稳定性使其成为构建高性能应用的首选。本文将探讨Java如何操作R语言，实现高效的数据分析应用。一、Java操作R的背景R语言优势：R语言拥有丰富的统计分析、数据可视化工具和机器学习算法库，是数据分析领域的首选语言
SOAP与NETCONF：协议特性、场景与应用全景解析 leo·li SOAP NETCONF
在分布式系统和网络管理领域，SOAP与NETCONF是两类关键协议，它们看似都与“数据传输”相关，但设计理念和应用场景截然不同一、协议定位：跨平台信使与网络配置专家1.SOAP：异构系统的“标准化信使”核心角色SOAP（简单对象访问协议）如同一位精通多国语言的翻译官，专注于解决异构系统间的通信难题。它基于XML定义了一套严格的通信规则，允许Java、.NET、Python等不同技术栈的系统无缝交互
手机租赁平台开发核心技术解析红点聊租赁其他
内容概要在开发手机租赁平台这件事上，技术团队就像在组装一台精密仪器——每个齿轮的咬合都关乎整台机器的运转效率。信用免押系统是这台仪器的核心动力舱，它需要区块链存证技术扮演"数字保镖"，用分布式账本给每笔交易打上防伪钢印；而智能风控模型则化身"AI侦探"，通过机器学习在用户行为数据里嗅出潜在风险。不过千万别以为技术堆砌就能高枕无忧，关键是如何让这些模块像交响乐团般默契配合：建议企业先绘制清晰的业务流
小程序租赁系统弹性架构与分布式部署技术方案解析红点聊租赁其他
内容概要搞个小程序租赁系统可不只是写几行代码那么简单——这玩意儿得比变色龙还能适应市场变化，比瑞士军刀还能应付各种突发状况。想象一下，当百万用户同时抢租最新款Switch时，系统要是敢卡顿半秒，运营团队怕是要连夜改行卖红薯。微服务架构在这儿就像乐高积木大师，把支付、库存、风控这些模块拆得明明白白。用上容器化技术后，服务器资源调配灵活得像智能管家：高峰期自动扩容三倍，闲时又能缩回节能模式，云服务账单
Spark-TTS：基于大模型的文本语音合成工具 CITY_OF_MO_GY 魅力语音语音识别深度学习人工智能
GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成；旨在高效、灵活、强大地用于研究和生产用途。一、介绍SparkTTS完全基于Qwen2.5构建，无需额外的生成模型，它不依赖于单独的模型来生成声学特征，而是直接从LLM预测的代码中重建音频。这种方
分布式ID stay down 分布式分布式
分布式id基本上都基于号段模式或者雪花算法模式实现，但是各有优缺点，需要根据业务情况下确定具体使用方案UUIDUUID(UniversallyUniqueldentifier)，通用唯一识别码。UUID是基于当前时间、计数器(counter)和硬件标识(通常为无线网卡的MAC地址)等数据计算生成的。UUID由以下几部分的组合当前日期和时间，UUID的第一个部分与时间有关，如果你在生成一个UUID之
Java开发高级工程师面试，etcd：一款比Redis更骚的分布式锁的实现方式 m0_60732427 程序员面试 java 后端
Watch机制支持Watch某个固定的key，也支持Watch一个范围（前缀机制）。当被Watch的key或范围发生变化，客户端将收到通知；在实现分布式锁时，如果抢锁失败，可通过Prefix机制返回的Key-Value列表获得Revision比自己小且相差最小的key（称为pre-key），对pre-key进行监听，因为只有它释放锁，自己才能获得锁，如果Watch到pre-key的DELETE事件
基于BMO磁性细菌优化的WSN网络最优节点部署算法matlab仿真软件算法开发 MATLAB程序开发 #网络仿真 matlab BMO 磁性细菌优化 WSN 网络最优节点部署
目录1.程序功能描述2.测试软件版本以及运行结果展示3.核心程序4.本算法原理5.完整程序1.程序功能描述无线传感器网络（WirelessSensorNetwork,WSN）由大量分布式传感器节点组成，用于监测物理或环境状况。节点部署是WSN的关键问题，合理的部署可以提高网络的覆盖范围、连通性和能量效率。磁性细菌是一类能够感知地球磁场并沿磁场方向游动的微生物。在BMO算法中，模拟磁性细菌的这种趋磁
数据集与云计算：云端数据集的管理与应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1大数据时代的数据挑战步入21世纪，我们见证了信息技术的爆炸式增长，数据以前所未有的速度产生、存储和使用。从社交媒体互动到科学研究，从电子商务交易到物联网传感器，各行各业都被海量数据所淹没。这种数据爆炸式增长带来了前所未有的机遇和挑战。1.1.1机遇：数据驱动型决策数据的激增为企业和组织提供了前所未有的洞察力。通过分析和理解这些数据，我们可以识别趋势、预测未来行为并做出更明智的决策
面试必备：Kafka高频面试题及答案解析江-小北面试 kafka 职场和发展
本文，已收录于，我的技术网站aijiangsir.com，有大厂完整面经，工作技术，架构师成长之路，等经验分享Kafka中的ProducerAPI是如何工作的？Kafka中的ProducerAPI允许应用程序发布一流的数据到一个或多个Kafka主题。它的工作原理包括：1、创建Producer实例：通过配置Producer的各种属性（如服务器地址、序列化方式等）来创建Producer实例。2、发送消
AI 大模型应用数据中心建设：数据中心成本优化杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
AI大模型应用数据中心建设：数据中心成本优化1.背景介绍在人工智能（AI）和大模型应用的快速发展中，数据中心（DataCenter）成为了一个至关重要的组成部分。无论是进行深度学习模型的训练，还是大模型应用的推理，数据中心都需要提供充足的计算资源、存储空间和网络带宽。随着AI模型和大数据量的增长，数据中心的建设和管理成本逐渐成为AI技术落地和应用的核心挑战之一。为了优化数据中心成本，同时保持高性能
Hadoop的运行模式对许 #Hadoop hadoop 大数据分布式
Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在
鸿蒙开发API 12 完全解析：核心技术升级与开发实战北辰alk 鸿蒙 harmonyos 华为
文章目录一、API12架构全景图1.1系统架构层次1.2API12核心模块对比二、ArkUI3.0革命性升级2.13D图形能力2.1.13D组件基础结构2.1.2物理引擎集成2.2新增组件库三、分布式能力增强3.1超级终端协同框架3.2分布式数据管理3.2.1跨设备数据库3.2.2设备能力发现四、硬件服务扩展4.1外设统一管理框架4.2新硬件API概览五、安全体系强化5.1安全架构升级5.2关键安
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
【项目实战】使用Apache Curator分布式锁服务实现分布式锁本本本添哥 002 -进阶开发能力 apache 分布式
一、ApacheCurator是什么？ApacheCurator是ZooKeeper的一个高级Java客户端库ApacheCurator提供了一系列分布式锁服务，这些服务可以帮助开发人员在分布式系统中实现可靠的同步和协调。这些服务可以根据不同的需求选择使用。二、使用ApacheCurator的注意事项需要注意的是，在使用这些分布式锁服务时，需要正确地配置和使用Curator提供的ZooKeeper
CCF-GESP Python一级考试全解析：网络协议+编程技能双突破奕澄羽邦 python 网络协议开发语言
第一章CCF-GESP考试全景透视1.1认证体系权威性中国计算机学会（CCF）主办的GESP编程能力等级认证，是国内首个面向青少年的编程能力标准化评估体系。Python一级考试作为入门级认证，主要考察考生对计算机基础逻辑、编程工具使用及网络基础概念的掌握程度，证书受教育部认可，为后续人工智能、大数据等领域学习奠定基石。1.2考试内容三维度编程语言：Python语法基础（变量、循环、条件判断）、函数
2024年大数据最新图解curator如何实现zookeeper分布式锁_curator 锁(3) 2401_84183802 程序员分布式大数据 zookeeper
三、Zookeeper分布式锁概述1、Zookeeper分布式锁实现思路2、Zookeeper分布式锁解决的问题3、Zookeeper分布式锁优缺点？四、InterProcessMute实现分布式锁原理1、加锁流程（acquire()方法）0）加锁流程图1）internalLock()LockDatainternalLock()方法逻辑2）LockInternals#attemptLock()--
分布式锁—7.Curator的分布式锁东阳马生架构分布式锁原理与源码分布式锁 Curator
大纲1.Curator的可重入锁的源码2.Curator的非可重入锁的源码3.Curator的可重入读写锁的源码4.Curator的MultiLock源码5.Curator的Semaphore源码1.Curator的可重入锁的源码(1)InterProcessMutex获取分布式锁(2)InterProcessMutex的初始化(3)InterProcessMutex.acquire()尝试获取锁
kafka + flink +mysql 案例 angen2018 java kafka flink
假设你有两个Kafka主题：user_activities_topic和product_views_topic，并且你希望将user_activities_topic中的数据写入到user_activities表，而将product_views_topic中的数据写入到product_views表。mavenorg.apache.flinkflink-streaming-java_2.121.14
Gateway网关分布式微服务认证鉴权 NaughtyBo #Spring security spring cloud gateway
文章目录学习链接微服务认证方案学习链接【OAuth2系列】SpringCloudGateway作为OAuth2Client接入第三方单点登录代码实践实战干货！SpringCloudGateway整合OAuth2.0实现分布式统一认证授权！spring-cloud-gateway-oauth2的github代码地址-已克隆到gitee微服务权限终极解决方案，SpringCloudGateway+Oa
MR30分布式IO携手PLC实现手工作业产线自动化升级明达技术分布式自动化运维
在制造业不断追求高效、精准与智能化的背景下，手工作业产线面临着提升生产效率、降低人力成本、保障产品质量稳定性等诸多挑战。明达技术通过引入MR30分布式IO模块配合可编程逻辑控制器（PLC），能够对手工作业产线进行有效的自动化升级，从而显著提升产线的整体性能与竞争力。痛点分析目前手工作业产线存在工人劳动强度大、生产效率受人为因素影响波动明显、产品质量一致性难以保证等问题。例如，在产品组装环节，不同工
聊天服务器分布式改造 jforgame 基于Netty的仿QQ聊天室分布式 QQ 聊天室 spring cloud
目前的聊天室是单节点的，无论是http接口还是socket接口都在同一个进程，无法承受太多人同时在线，容灾性也非常差。因此，一个成熟的IM产品一定是做成分布式的，根据功能分模块，每个模块也使用多个节点并行部署。1.技术选型SpringCloudAlibaba和Netflix都是用于构建分布式系统的工具集，它们在微服务架构中发挥着重要作用，但在多个方面存在差异：发展与维护Netflix：部分核心组件
物联网通过数字孪生技术实现设备状态的实时仿真和优化小赖同学啊智能硬件物联网
数字孪生（DigitalTwin）是一种通过虚拟模型实时映射和仿真物理设备状态的技术。它结合了物联网（IoT）、大数据、人工智能（AI）和仿真技术，能够实现对设备状态的实时监控、预测和优化。以下是数字孪生技术在设备状态实时仿真和优化中的应用及实现路径：一、数字孪生的核心概念1.物理实体实际的设备或系统（如工厂设备、风力发电机、汽车）。2.虚拟模型物理实体的数字化表示，通常包括几何模型、行为模型和数
第八十四课：HarmonyOS Next 的教育与培训小_铁 Harmony OS Next 华为 Harmony OS Next
HarmonyOSNext的教育与培训HarmonyOSNext的教育与培训的重要性培养专业人才，驱动技术创新在科技飞速发展的当下，HarmonyOSNext作为新兴的操作系统，对专业人才的需求极为迫切。通过开展针对性的教育与培训，能够为行业培养大量熟悉HarmonyOSNext技术体系的专业人员。这些专业人才在开发过程中，能够基于HarmonyOSNext的特性进行创新。例如，在分布式应用开发方
从零手写Tomcat核心架构：构建简易Servlet容器实战指南 bigH2004 tomcat 架构 servlet
一、自研Tomcat的意义与核心目标在当今分布式架构盛行的时代，理解Web容器底层原理是突破中间件黑盒的关键。本文将基于HTTP协议与Servlet规范，实现一个具备基础Servlet动态请求处理能力的精简版Tomcat（命名为MiniCat），其核心架构目标包括：HTTP通信层：实现TCP连接管理和基础报文解析生命周期管理：支持Servlet的init-service-destroy流程请求分发
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

千亿级爱奇艺数据湖平台建设实践

你可能感兴趣的:(大数据,kafka,hadoop,spark,分布式)