G皮T

【大数据】数据湖：下一代大数据的发展趋势

数据湖：下一代大数据的发展趋势

1.数据湖技术产生的背景
- 1.1 离线大数据平台（第一代）
- 1.2 Lambda 架构
- 1.3 Lambda 架构的痛点
- 1.4 Kappa 架构
- 1.5 Kappa 架构的痛点
- 1.6 大数据架构痛点总结
- 1.7 实时数仓建设需求
2.数据湖助力于解决数据仓库痛点问题
- 2.1 不断完善的数据湖理念
- - 2.1.1 存储原式数据
  - 2.1.2 灵活的底层存储功能
  - 2.1.3 丰富的计算引擎
  - 2.1.4 完善的数据管理
- 2.2 开源数据湖的架构
- - 2.2.1 分布式文件系统
  - 2.2.2 数据加速层
  - 2.2.3 Table format 层
  - 2.2.4 计算引擎
3.数据湖和数据仓库理念的对比
- 3.1 数据湖和数据仓库对比
- 3.2 写时模式和读时模式
- - 3.2.1 写时模式
  - 3.2.2 读时模式
- 3.3 数据仓库开发流程
- 3.4 数据湖的架构方案
- - 3.4.1 解决 Kafka 存储数据量少的问题
  - 3.4.2 支持 OLAP 查询
  - 3.4.3 数据治理一体化
  - 3.4.4 流批架构统一
  - 3.4.5 数据统计口径一致
- 3.5 孰优孰劣
4.数据湖助力数据仓库架构升级
- 4.1 构建数据湖的目标
- 4.2 准实时数据接入
- 4.3 实时数仓 - 数据湖分析系统
- 4.4 Iceberg 替换 Kafka 的优劣势
- 4.5 通过 Flink CDC 解决 MySQL 数据同步问题
5.数据湖技术的发展前景
6.总结

1.数据湖技术产生的背景

国内的大型互联网公司，每天都会生成几十、几百 TB，甚至几 PB 的原始数据。这些公司通常采用开源的大数据组件来搭建大数据平台。大数据平台经历过 以 Hadoop 为代表的离线数据平台、Lambda 架构平台、Kappa 架构平台 三个阶段。

可以把数据湖认为是最新一代大数据技术平台，为了更好地理解数据湖的基本架构，我们先来看看大数据平台的演进过程，从而理解为什么要学习数据湖技术。

1.1 离线大数据平台（第一代）

第一阶段：以 Hadoop 为代表的离线数据处理组件。Hadoop 是以 HDFS 为核心存储，以 MapReduce 为基本计算模型的批量数据处理基础组件。围绕 HDFS 和 MR，为不断完善大数据平台的数据处理能力，先后诞生了一系列大数据组件，例如面向实时 KV 操作的 HBase、面向 SQL 的 Hive、面向工作流的 Pig 等。同时，随着大家对于批处理的性能要求越来越高，新的计算模型不断被提出，产生了 Tez、Spark、Presto 等计算引擎，MR 模型也逐渐进化成 DAG 模型。

为减少数据处理过程中的中间结果写文件操作，Spark、Presto 等计算引擎尽量使用计算节点的内存对数据进行缓存，从而提高整个数据过程的效率和系统吞吐能力。

1.2 Lambda 架构

随着数据处理能力和处理需求的不断变化，越来越多的用户发现，批处理模式无论如何提升性能，也无法满足实时性要求高的处理场景，流式计算引擎应运而生，例如 Storm、Spark Streaming、Flink 等。

然而，随着越来越多的应用上线，大家发现，其实批处理和流计算配合使用，才能满足大部分应用需求，对实时性要求高的场景，就会使用 Flink + Kafka 的方式构建实时流处理平台，来满足用户的实时需求。于是 Lambda 架构被提出，如下图所示。

Lambda 架构的核心理念是 流批分离，如上图所示，整个数据流向自左向右流入平台。进入平台后一分为二，一部分走批处理模式，一部分走流式计算模式。无论哪种计算模式，最终的处理结果都通过服务层对应用提供，确保访问的一致性。

这种数据架构包含非常多的大数据组件，很大程度上增强了整体架构的复杂性和维护成本。

1.3 Lambda 架构的痛点

经过多年的发展，Lambda 架构比较稳定，能满足过去的应用场景。但是它有很多致命的弱点：

数据治理成本高：实时计算流程无法复用离线数仓的数据血缘、数据质量管理体系。需要重新实现一套针对实时计算的数据血缘、数据质量管理体系。
开发维护成本高：需要同时维护离线和实时两套数据仓库系统，同一套计算逻辑要存储两份数据。例如，某一条或几条原式数据的更新，就需要重新跑一遍离线数据仓库，数据更新成本非常大。
数据口径不一致：因为离线和实时计算走的是两个完全不同的代码，由于数据的延迟到达和两类代码运行的时间不一样，导致计算结果不一致。

那么有没有一种架构能解决 Lambda 架构的问题呢？

1.4 Kappa 架构

Lambda 架构的 “流批分离” 处理链路增大了研发的复杂性。因此，有人就提出能不能用一套系统来解决所有问题。目前比较流行的做法就是基于流计算来做。接下来我们介绍一下 Kappa 架构，通过 Flink + Kafka 将整个链路串联起来。Kappa 架构解决了 Lambda 架构中离线处理层和实时处理层之间计算引擎不一致，开发、运维成本成本高，计算结果不一致等问题。

Kappa 架构的方案也被称为 流批一体化 方案。我们借用 Flink + Kafka 来构建流批一体化场景，但是如果需要对 ODS 层数据做进一步的分析时，就要接入 Flink 计算引擎把数据写入到 DWD 层的 Kafka，同样也会将一部分结果数据写入到 DWS 层的 Kafka。Kappa 架构也不是完美的，它也有很多痛点。

1.5 Kappa 架构的痛点

数据回溯能力弱：Kafka 对复杂的需求分析支持能力弱，在面对更复杂的数据分析时，又要将 DWD 和 DWS 层的数据写入到 ClickHouse、ES、MySQL 或者是 Hive 里做进一步分析，这无疑带来了链路的复杂性。更大的问题是在做数据回溯时，由于链路的复杂性导致数据回溯能力非常弱。
OLAP分析能力弱：由于 Kafka 是一个顺序存储的系统，顺序存储系统是没有办法直接在其上进行 OLAP 分析的，例如谓词下推这类的优化策略，在顺序存储平台（Kafka）上实现是比较困难的事情。
数据时序性受到挑战：Kappa 架构是严重依赖于消息队列的，我们知道消息队列本身的准确性严格依赖它上游数据的顺序，但是，消息队列的数据分层越多，发生乱序的可能性越大。通常情况下，ODS 层的数据是绝对准确的，把 ODS 层数据经过计算之后写入到 DWD 层时就会产生乱序，DWD 到 DWS 更容易产生乱序，这样的数据不一致性问题非常大。

1.6 大数据架构痛点总结

从传统的 Hadoop 架构往 Lambda 架构，从 Lambda 架构往 Kappa 架构的演进，大数据平台基础架构的演进逐渐囊括了应用所需的各类数据处理能力，但是这些平台仍然存在很多痛点。

是否存在一种存储技术，既能够支持数据高效的回溯能力，支持数据的更新，又能够实现数据的批流读写，并且还能够实现分钟级到秒级的数据接入？

1.7 实时数仓建设需求

这也是实时数仓建设的迫切需求。实际上是可以通过对 Kappa 架构进行升级，以解决 Kappa 架构中遇到的一些问题，接下来主要分享当前比较火的数据湖技术。

那么有没有这样一个架构，既能够满足实时性的需求，又能够满足离线计算的要求，而且还能够减轻开发运维的成本，解决通过消息队列方式构建的 Kappa 架构中遇到的痛点？答案是肯定的，在文章的后面会详细论述。

2.数据湖助力于解决数据仓库痛点问题

2.1 不断完善的数据湖理念

数据湖是一个集中式存储库，可以存储结构化和非结构化数据。可以按业务数据的原样存储（无需先对数据进行结构化处理），并运行不同类型的分析，从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

2.1.1 存储原式数据

数据湖需要有足够的存储能力，能够存储公司的全部数据。
数据湖可以存储各种类型的数据，包括结构化、半结构化（XML、Json 等）和非结构化数据（图片、视频、音频）。
数据湖中的数据是原始业务数据的完整副本，这些数据保持了他们在业务系统中原来的样子。

2.1.2 灵活的底层存储功能

在实际的使用过程中，数据湖中的数据通常并不会被高频访问，为了达到可接受的性价比，数据湖建设通常会选择性价比高的存储引擎。

对大数据提供超大规模存储，以及可扩展的大规模数据处理能力。
可以采用 S3 / OSS / HDFS 等分布式存储平台作为存储引擎。
支持 Parquet、Avro、ORC 等数据结构格式。
能够提供数据缓存加速功能。

2.1.3 丰富的计算引擎

从数据的批量计算、流式计算，交互式查询分析到机器学习，各类计算引擎都属于数据湖应该囊括的范畴。随着大数据与人工智能技术的结合，各类机器学习 / 深度学习算法也被不断引入进来，例如 TensorFlow / PyTorch 框架已经支持从 S3 / OSS / HDFS 上读取样本数据进行机器学习训练。因此，对于一个合格的数据湖项目而言，计算存储引擎的可插拔性，是数据湖必须具备的基础能力。

2.1.4 完善的数据管理

数据湖需要具备完善的元数据管理能力。包括对数据源、数据格式、连接信息、数据 Schema、权限管理等能力。
数据湖需要具备完善的数据生命周期管理能力。不仅能够存储原始数据，还需要能够保存各类分析处理的中间结果数据，并完整的记录数据的分析处理过程，帮助用户能够完整追溯任意一条数据的产生过程。
数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源，并能从相关的数据源中获取全量 / 增量数据，然后规范存储。数据湖能将数据推送到合适的存储引擎中，以满足不同的应用访问需求。

2.2 开源数据湖的架构

LakeHouse 架构成为当下架构演进最热的趋势，可直接访问存储的数据管理系统，它结合了数据仓库的主要优势。LakeHouse 是基于 存算分离 的架构来构建的。存算分离最大的问题在于网络，特别是对于高频访问的数仓数据，网络性能至关重要。实现 Lakehouse 的可选方案很多，比如 Delta，Hudi，Iceberg。虽然三者侧重点有所不同，但都具备数据湖的一般功能，比如：统一元数据管理、支持多种计算分析引擎、支持高阶分析和计算存储分离。

那么开源数据湖架构一般是啥样的呢？这里我画了一个架构图，主要分为四层：

2.2.1 分布式文件系统

第一层是分布式文件系统，对于选择云上技术的用户，通常会选择 S3 和阿里云存储数据；喜欢开源技术的用户一般采用自己维护的 HDFS 存储数据。

2.2.2 数据加速层

第二层是数据加速层。数据湖架构是一个典型的存储计算分离架构，远程读写的性能损耗非常大。我们常见的做法是，把经常访问的数据（热点数据）缓存在计算节点本地，从而实现数据的 冷热分离。这样做的好处是，提高数据的读写性能，节省网络带宽。我们可以选择开源的 Alluxio，或者阿里云的 Jindofs。

2.2.3 Table format 层

第三层是 Table format 层，把数据文件封装成具有业务含义的表，数据本身提供 ACID、Snapshot、schema、partition 等表级别的语义。这一层可以选择开源数据湖三剑客 Delta，Hudi，Iceberg 之一。Delta，Hudi，Iceberg 是 构建数据湖的一种技术，它们本身并不是数据湖。

2.2.4 计算引擎

第四层是各种数据计算引擎。包括 Spark、Flink、Hive、Presto 等，这些计算引擎都可以访问数据湖中的同一张表。

3.数据湖和数据仓库理念的对比

3.1 数据湖和数据仓库对比

下面跟大家聊聊我所理解的数据湖的本质，对于一种新事物不了解本质，你就很难驾驭它，下面这张图道尽了一切。

对数据湖的概念有了基本的认知之后，我们需要进一步明确数据湖需要具备哪些基本特征，特别是与数据仓库相比，数据湖具有哪些特点。我们引用一下 AWS 数据仓库和数据湖对比官方对比表格。

每个公司需要数据仓库和数据湖，因为它们分别满足不同的需要和使用案例：

数据仓库是一个优化后的数据库，用于分析来自事务系统和业务线应用系统的关系型数据。事先定义好数据结构和 Schema，以便提供快速的 SQL 查询。原始数据经过一些列的 ETL 转换，为用户提供可信任的 “单一数据结果”。
数据湖有所不同，因为它不但存储来自业务线应用系统的关系型数据，还要存储来自移动应用程序、IoT 设备和社交媒体的非关系型数据。捕获数据时，不用预先定义好数据结构或 Schema。这意味着数据湖可以存储所有类型的数据，而不需要精心设计数据结构。可以对数据使用不同类型的分析方式（如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习）。

特性	数据仓库	数据湖
数据	来自事务系统、运营数据库和业务线应用程序的关系数据	来自 loT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
Schema	设计在数据仓库实施之前（写入型 Schema）	写入在分析时（读取型 Schema）
性价比	更快查询结果会带来较高存储成本	更快查询结果只需较低存储成本
数据质量	可作为重要事实依据的高度监管数据	任何可以或无法进行监管的数据（例如原始数据）
用户	业务分析师	数据科学家、数据开发人员和业务分析师（使用监管数据）
分析	批处理报告、BI 和可视化	机器学习、预测分析、数据发现和分析

上表介绍了数据湖与传统数据仓库的区别，下面我们将从数据存储和计算两个层面进一步分析数据湖应该具备哪些特征。

3.2 写时模式和读时模式

3.2.1 写时模式

数据仓库的 “写入型 Schema” 背后隐藏的逻辑就是在数据写入之前，必须确认好数据的 Schema，然后进行数据导入，这样做的好处是：可以把业务和数据很好的结合在一起；不足就是在业务模式不清晰，还处于探索阶段时，数仓的灵活性不够。

3.2.2 读时模式

数据湖强调的是 “读取型 Schema”，背后潜在的逻辑是，认为业务的不确定性是常态：既然我们无法预测业务的发展变化，那么我们就保持一定的灵活性。将结构化设计延后，让整个基础设施具备使数据 “按需” 贴合业务的能力。因此，数据湖更适合发展、创新型企业。

3.3 数据仓库开发流程

数据湖采用的是灵活，快速的 “读时模式” ，在数字化转型的浪潮下真正帮助企业完成技术转型，完成数据沉淀，应对企业快速发展下层出不穷的数据需求问题。

3.4 数据湖的架构方案

数据湖可以认为是新一代的大数据基础设施。在这套架构中，无论是数据的流式处理，还是批处理，数据存储都统一到数据湖 Iceberg 上。很明显，这套架构可以解决 Lambda 架构和 Kappa 架构的痛点问题：

3.4.1 解决 Kafka 存储数据量少的问题

目前所有数据湖基本思路都是基于 HDFS 之上实现的一个文件管理系统，所以数据体量可以很大。

3.4.2 支持 OLAP 查询

同样数据湖基于 HDFS 之上实现，只需要当前的 OLAP 查询引擎做一些适配，就可以对中间层数据进行 OLAP 查询。

3.4.3 数据治理一体化

批流的数据在 HDFS、S3 等介质上存储之后，就完全可以复用一套相同的数据血缘、数据质量管理体系。

3.4.4 流批架构统一

数据湖架构相比 Lambda 架构来说， Schema 统一，数据处理逻辑统一，用户不再需要维护两份数据。

3.4.5 数据统计口径一致

由于采用统一的流批一体化计算和存储方案，因此数据一致性得到了保证。

3.5 孰优孰劣

数据湖和数据仓库，不能说谁更好谁更差，大家都有可取之处，可以实现双方的优势互补，我这里画一张图，方便你的理解：

湖和仓的元数据无缝打通，互相补充，数据仓库的模型反哺到数据湖（成为原始数据一部分），湖的结构化应用沉淀到数据仓库。
统一开发湖和仓，存储在不同系统的数据，可以通过平台进行统一管理。
数据湖与数据仓库的数据，根据业务的发展需要决定哪些数据放在数仓，哪些放在数据湖，进而形成湖仓一体化。
数据在湖，模型在仓，反复演练转换。

4.数据湖助力数据仓库架构升级

4.1 构建数据湖的目标

数据湖技术 Iceberg 目前支持三种文件格式：Parquet，Avro，ORC。如下图所示，Iceberg 本身具备的能力总结如下，这些能力对于构建湖仓一体化是至关重要的。

数据存储层采用标准统一的数据存储模型。
构建准实时数据建设，去 T + 1，保证数据时效性。
数据追溯更加方便，运维成本更低。

4.2 准实时数据接入

数据湖技术 Iceberg 既支持读写分离，又支持并发读、增量读、小文件合并，还可以支持秒级到分钟级的延迟，基于这些优势我们尝试采用 Iceberg 这些功能来构建基于 Flink 的实时全链路批流一体化的实时数仓架构。

如下图所示，Iceberg 每次的 commit 操作，都是对数据的可见性的改变，比如说让数据从不可见变成可见，在这个过程中，就可以实现近实时的数据记录。

4.3 实时数仓 - 数据湖分析系统

在建设离线数据仓库时，首先要进行数据接入操作，比如用离线调度系统定时抽取数据，再经过一系列的 ETL 操作，最后将数据写入到 Hive 表里面，这个过程的延时比较大。因此，借助于 Iceberg 的表结构，可以使用 Flink，或者 Spark Streaming，实现近实时的数据接入，以降低数据延迟性。

基于上面的功能，我们回顾一下前面讨论的 Kappa 架构，我们已经知道 Kappa 架构的痛点，Iceberg 既然能够作为一个优秀的表格式，又可以支持 Streaming Reader 和 Streaming Sink。那么，是否可以考虑将 Kafka 替换成 Iceberg？

Iceberg 底层依赖的存储是像 HDFS 或 S3 这样的廉价存储，并且支持 Parquet、ORC、Avro 等存储结构。可以对中间层的结果数据进行 OLAP 分析。基于 Iceberg Snapshot 的 Streaming Reader 功能，可以把离线任务天级别到小时级别的延迟大大的降低，改造成一个近实时的数据湖分析系统。

在中间处理层，可以用 Presto 进行一些简单的 SQL 查询，因为 Iceberg 支持 Streaming Read，所以在系统的中间层也可以直接接入 Flink，直接在中间层用 Flink 做一些批处理或者流式计算的任务，把中间结果做进一步计算后输出到下游。

4.4 Iceberg 替换 Kafka 的优劣势

总的来说，Iceberg 替换 Kafka 的优势主要包括：

实现存储层的流批统一
中间层支持 OLAP 分析
完美支持高效回溯
存储成本降低

当然，也存在一定的缺陷，如：

数据延迟从实时变成近实时
对接其他数据系统需要额外的开发工作

4.5 通过 Flink CDC 解决 MySQL 数据同步问题

Iceberg 提供统一的数据湖存储表格式，支持多种计算引擎（包括 Spark、Presto、Hive）进行数据分析；可以产生纯列存的数据文件，而列式文件非常适合用来做 OLAP 操作；Iceberg 基于 Snapshot 的设计模式，支持增量读取数据；Iceberg 的接口抽象程度高，兼容性好，既独立于上层的计算引擎又独立于下层的存储引擎，这就方便用户自行定义业务逻辑。

将数据连同 CDC flag 直接 append 到 Iceberg 当中，在 merge 的时候，把这些增量的数据按照一定的组织格式、一定高效的计算方式与全量的上一次数据进行一次 merge。这样的好处是支持近实时的导入和实时数据读取；这套计算方案的 Flink SQL 原生支持 CDC 的摄入，不需要额外的业务字段设计。

5.数据湖技术的发展前景

数据湖可能是在下一场大数据技术变革中的亮点，我们需要抓住机遇、抢占先机，一起来学习数据湖。但是我的建议仍然是 “学而不用”，为什么这么说呢？例如：在 $2018$ 年开始的时候，我们一窝蜂的上线 Flink，然后一个月一个版本的升级。简直是吃尽了苦头。所以，我们就等互联网大厂把坑填完了，我们再直接短平快的上马数据湖，但是我们一定要学习。

6.总结

通过这篇文章，我们基本了解了什么是数据湖，以及为什么要学习数据湖，它能解决哪些实际问题。后面我们将继续重点讲解为什么要选择 Iceberg 作为数据湖的解决方案。

设计开发实时聊天系统的技术实现与最佳实践悉地网 php uniapp vue.js websocket
实时聊天系统是现代应用中的重要组成部分，从社交平台到企业协作工具，聊天功能的实现可以大大提升用户体验。本文将从技术选型、架构设计、实现细节及优化建议等方面，详细阐述如何开发一个功能完善的聊天系统。最近我也开发了一套即时通讯聊天系统，我叫它xidichat，已经发布上线，前端基于uniapp，服务器端基于php开发环境。具体效果可以查看我的演示站点http://chat.xidicom.cn/也可以
系统架构设计师论文分享-论软件架构复用
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该项目为国内纱线工厂提供SAAS服务，旨在提升纱线工厂的数字化和智能化水平。我在该项目中担任架构设计师，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了软件架构复用的实现过程。软件架构复用可以有效降低成本，提高开发速度和质量属性，架构复用方法的步骤分为三个过程：可复用资产的获取、架构复用的管理、架构复用的使
系统架构设计师论文分享-论软件体系结构的演化
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该系统为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的数字化和智能化水平，我在该项目中担任架构设计师，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了软件体系结构的演化。系统上线后，为了满足新需求和适应新场景，就必须修改原有软件架构。在软件架构演化过程中遵循以下原则：演化适应新技术、有利于重构和重用、影响
系统架构设计师论文分享-论单元测试方法及其应用码农卿哥系统架构设计师系统架构单元测试
我的软考历程摘要2023年2月，我所在的公司做了开发纱线MES系统的决定，该系统为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的智能化和数字化水平。我在该项目中被任命为系统架构设计师，全面掌管该项目的架构设计工作。本文将结合我在该项目中的架构设计工作经验，详细介绍如何把单元测试方法应用在项目中。在该项目中，我们采用了多种单元测试方法，包括静态测试和动态测试。静态测试在不运行程序的情况下，通过代码
（阳：算法霸权 / 阴：数据确权）→当GDPR类法规覆盖53%经济体量时，催生出隐私计算新范式百态老人人工智能机器学习深度学习算法
当GDPR类法规覆盖53%经济体量时，隐私计算新范式的兴起可归因于以下多维度因素的相互作用：一、算法霸权与数据确权的矛盾激化算法霸权的危害大型科技公司通过算法歧视、大数据杀熟等手段形成垄断优势，利用数据优势操控用户行为，导致消费者权益受损。这种"算法黑箱"不仅加剧市场不公平，还阻碍数据要素的自由流动。例如，算法框架的底层逻辑掌握在少数企业手中，产生"数据黑箱"问题。数据确权的立法需求数据权属不明确
android FlutterFragment 引入 Flutter ，dartEntrypoint配置多引擎，使用MethodChannel 双向数据交互通信
androidFlutterFragment引入Flutter，dartEntrypoint配置多引擎，使用MethodChannel双向数据交互通信FlutterFragment是Flutter提供的一个组件，用于在Android原生应用中嵌入Flutter模块作为Fragment使用。FlutterFragment允许开发者将Flutter视图集成到现有的Android应用架构中，作为Frag
扒开嵌入式硬件的底裤（上）！从 PCB 到 FPGA/IC 设计，小白到 CTO 的必学秘籍硬核知识点全揭秘！从c语言入门到mcu与arm架构及外设相关 small_wh1te_coder 嵌入式内核嵌入式开发嵌入式硬件算法 c 汇编面试驱动开发单片机
【硬核揭秘】嵌入式硬件工程师的“底裤”：从入门到牛逼，你必须知道的一切！第一部分：破冰与认知——嵌入式硬件工程师的“世界观”嘿，各位C语言老铁，以及所有对“让硬件听你话”充满好奇的朋友们！我是你们的老朋友，一个常年“折腾”在代码和电路板之间的码农。今天，咱们要聊一个真正能让你“硬”起来的话题——如何成为一个合格、优秀、牛逼的嵌入式硬件工程师！你可能正坐在电脑前，敲着C语言代码，刷着力扣算法题，心里
FeignClient客户端调用入门超龄超能程序猿 java spring
在分布式微服务架构广泛应用的技术背景下，服务间通信机制的设计与实现已成为系统开发的核心环节。Feign作为一种基于声明式编程范式的HTTP客户端框架，通过标准化的接口定义与注解配置，显著降低了Web服务调用的开发复杂度，有效提升了微服务间的交互效率。在SpringCloud技术栈体系中，Feign客户端功能的实现主要依托于@FeignClient注解，该注解通过整合Spring框架的依赖注入与动态
App Trace功能实战：一键拉起、快速安装与免提写邀请码的应用实践 tongjiwenzhang 经验分享信息可视化大数据携带参数安装
一、功能概述与业务价值作为移动端技术负责人，我们实现的AppTrace系统已成为公司用户增长的核心引擎。这套系统通过三大功能显著提升了关键指标：一键拉起：将H5/广告页用户转化率提升47%快速安装：应用商店跳转安装成功率提升至92%免提写邀请码：邀请注册转化率提高63%二、技术架构与实现细节1.一键拉起的技术实现Android端实现方案：//DeepLink路由分发器classTraceRoute
极客开发者如何打造下一个DeepSeek：从技术颠覆到生态构建的深度思考山顶望月川人工智能
DeepSeek的成功首先源于其技术范式的根本性突破...1.1架构创新的三大支柱DeepSeek的技术优势建立在三大创新基础之上...1.2极客开发者的技术启示对于有志打造下一个DeepSeek的极客开发者...二、生态战略：从封闭花园到开源雨林DeepSeek的第二个成功密码在于其开放生态战略...2.1开源生态的双重价值DeepSeek的开源策略创造了双重价值...2.2构建开发者生态的关键
【Qt6.3 基础教程 11】深入探索列表型控件：QListWidget和QComboBox 是阿牛啊 C++编程设计编程语言 qt6.3 开发语言人工智能 qt 数据库
文章目录前言QListWidget：便捷的项目列表主要特性示例：使用QListWidgetQComboBox：下拉选择的高效实现主要特性示例：使用QComboBox结合Model/View架构使用总结前言在任何现代用户界面中，列表是展示项目集合的重要组件。Qt框架提供了多种列表型控件，其中QListWidget和QComboBox是最常用的两种。在本篇博客中，我们将深入了解这两种控件的特点和用法，
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
手把手构建智能体：多模态AI Agent视-语-决融合实战指南
目录一、原创架构设计：三重融合智能体系统横向对比流程图：传统AIvs多模态Agent二、企业级可运行代码实现1.跨模态融合模块2.决策生成模块3.YAML配置文件（config.yaml）三、量化性能对比四、生产级部署方案安全部署架构安全审计要点部署步骤五、技术前瞻性分析下一代多模态智能体演进方向六、附录：完整技术图谱结语：构建真正智能的决策系统本文将深入探讨多模态AIAgent的核心架构设计与实
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
【TensorRT】TensorRT及加速原理浩瀚之水_csdn tensorrt
一、TensorRT架构概览TensorRT是NVIDIA推出的高性能推理优化器，专为GPU加速设计。其核心架构分为三层：前端解析器支持ONNX/UFF/Caffe等格式的模型解析执行格式验证和初步结构优化优化引擎核心优化层（层融合、精度校准、内存优化等）生成优化后的计算图（OptimizedGraph）运行时环境管理GPU内存分配执行优化后的计算图二、核心加速原理（8大关键技术）1.层融合（La
NV205NV209美光固态闪存NV210NV215 18922804861 大数据服务器科技人工智能
在数字化浪潮汹涌澎湃的当下，数据存储作为信息技术的核心支柱，其重要性不言而喻。美光作为存储领域的佼佼者，其NV系列固态闪存一直以先进技术与卓越性能著称。今天，我们将聚焦NV205、NV209、NV210、NV215四款产品，从技术评测、使用体验、行业趋势等多维度进行深度剖析，为资深IT工程师、硬件发烧友、数据中心管理员等专业人士提供全面参考。一、技术架构与核心创新美光NV系列固态闪存的技术底蕴深厚
NV224NV227美光固态闪存NV256NV257 18922804861 性能优化
NV224NV227美光固态闪存NV256NV257美光NV系列固态闪存深度解析：技术、应用与未来趋势在数据存储领域，美光科技（MicronTechnology）凭借其NV系列固态闪存产品，持续引领行业创新。本文将从技术解析、产品评测、行业趋势、应用案例及购买指南五个维度，深入剖析NV224、NV227、NV256、NV257四款产品的核心竞争力与市场价值。一、技术解析：3DNAND工艺与架构创新
NV183NV185美光固态闪存NV196NV201 18922804861 服务器科技人工智能大数据
美光固态闪存技术深度解析：NV183、NV185、NV196与NV201系列一、技术架构与核心参数对比1.制程工艺与容量布局美光NV183/NV185/NV196/NV201系列采用176层3DNAND技术，通过垂直堆叠提升存储密度。其中：NV183：主打256GB容量段，适用于消费级SSDNV185：可扩展至1TB-2TB范围，面向主流PCIe4.0市场NV196：企业级规格，支持4TB-8TB
React 核心原理与Fiber架构旺代 react.js
目录一、虚拟DOM二、Diffing算法三、Fiber架构四、渲染流程1.Render阶段（可中断异步过程）2.Commit阶段（同步不可中断）五、时间切片（TimeSlicing）六、核心流程步骤总结1.状态更新触发2.Render阶段（异步可中断，构建Fiber树）3.Commit阶段（同步不可中断，更新真实DOM）4.双缓存机制切换5.调度系统核心支撑七、组件触发渲染的时机八、Hooks顶层
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
介绍electron 几道之旅 electron javascript 前端
一、Electron是什么？Electron是一个基于Chromium和Node.js的框架，允许开发者使用前端技术（HTML/CSS/JavaScript）构建原生桌面应用。其核心优势在于：跨平台：一次开发，生成Windows、macOS、Linux三端应用；技术栈统一：前端开发者无需学习新语言，直接复用Web生态（如Vue/React）；混合架构：Chromium：负责渲染界面，支持现代CSS
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
UI自动化-Appium Oooon_the_way ui 自动化 appium
前言Appium是一款开源的跨平台移动应用UI自动化测试框架，支持Android、iOS和Windows平台的原生（Native）、混合（Hybrid）及移动Web应用。其核心设计基于WebDriver协议（即SeleniumWebDriver的W3C标准），通过客户端-服务器（C/S）架构（常见面试题）实现多语言支持和高扩展性。一、核心架构与工作原理C/S架构分层客户端（Client）：测试脚本
基于Elasticsearch的短视频平台个性化推荐系统设计与实现亲爱的非洲野猪 elasticsearch 音视频推荐算法
在当今内容爆炸的时代，个性化推荐系统已成为短视频平台的核心竞争力之一。本文将详细介绍如何利用Elasticsearch（ES）构建一个高效、可扩展的短视频个性化推荐系统。一、系统架构概述我们的推荐系统将采用混合推荐策略，结合协同过滤、内容相似度和热度推荐等多种方法。Elasticsearch作为核心搜索引擎和数据存储，将承担以下职责：用户画像存储与查询视频内容索引与检索实时行为日志分析推荐结果计算
MySQL CDC与Kafka整合指南：构建实时数据管道的完整方案亲爱的非洲野猪 mysql kafka 数据库
一、引言：现代数据架构的实时化需求在数字化转型浪潮中，实时数据已成为企业的核心资产。传统批处理ETL（每天T+1）已无法满足以下场景需求：实时风险监控（金融交易）即时个性化推荐（电商）物联网设备状态同步微服务间数据一致性本文将深入探讨如何通过MySQLCDC与Kafka的整合，构建高效可靠的实时数据管道。二、技术选型：三大CDC工具深度对比功能矩阵比较特性DebeziumCanalMaxWell多
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
深度解析：轻量级CLR/JIT即时编译系统设计与实现（一） liulilittle Markdown Extension C#c#clr jvm jit x86 汇编编译器
深度解析：轻量级CLR/JIT即时编译系统设计与实现引用：liulilittle/SimpleClr️系统架构全景图核心组件指令调度器JIT编译器寄存器分配器X86机器码生成器分支回填器内存保护器内存管理器IL指令集可执行代码区委托调用器执行结果一、系统架构深度解析️1.1核心组件交互关系后端执行JIT引擎前端IL指令流编译请求机器码输出可执行内存执行结果接口实现委托调用builtins_x86.
无人机一机多控技术要点难点云卓SKYDROID 无人机人工智能高科技云卓科技科普
一、运行方式1.核心架构：集中式控制(最常见)：遥控器作为主控端，通过无线通信模块与多架无人机建立连接。遥控器运行核心控制逻辑，负责：接收操作员的输入指令（如整体移动、队形变换）。根据预设的编队逻辑或算法，将整体指令解算为每架无人机的个体指令（目标位置、速度、航向等）。通过通信链路同时或分时向所有或指定的无人机发送个体指令。接收所有无人机的状态信息（位置、速度、姿态、电池、传感器数据等），进行监控
ClickHouse【理论篇】02：ClickHouse架构和组件做一个有趣的人Zz ClickHouse clickhouse 架构
ClickHouse的架构设计深度适配OLAP（在线分析处理）场景，通过列式存储、向量化执行、分布式分片与副本等核心技术，实现了对海量数据的高效分析与实时查询。以下从核心存储引擎、查询处理流程、分布式架构、元数据管理、复制与分片等维度详细解析其内部架构与关键组件。一、核心存储引擎：MergeTree系列ClickHouse的存储引擎是其性能的核心，其中MergeTree系列引擎（如MergeTre
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p