ClickHouseDB

使用 ClickHouse 推动特征存储

本文字数：7833；估计阅读时间：20 分钟

作者：Dale McDiarmid

审校：庄晓东（魏庄）

本文在公众号【ClickHouseInc】首发

介绍

在本文中，我们将深入探讨 MLOps 领域，并探讨特征存储：不同类型、为什么需要特征存储、以及特征存储的主要组件。我们将介绍如何使用 ClickHouse 来推动特征存储，从而推动模型的生命周期，并提供性能和灵活性。

这篇博客主要是关于此主题的入门内容，旨在作为一个前导，后续我们介绍：使用存储在 ClickHouse 中的特征训练 ML 模型的示例。作为这一ML潜在能力的证明，我们展示了与 Featureform 的最新集成 - 一个开源的“虚拟”特征存储，我们将在以后的示例中使用到它。

什么是特征？

在解释特征存储是什么之前，先搞清楚什么是特征可能会有帮助。

简而言之，在机器学习模型中，特征是对具有预测能力的实体的某些属性。在这种情况下，实体是特征的集合，还包括代表现实世界概念的类别或标签。如果特征具有足够的质量。并且存在这样的关系，它们在预测实体的类别时，应该是有用的。例如，银行交易可以被视为一个实体。这可以包含诸如交易金额和涉及的购买者/卖家等特征，类别描述交易是否是欺诈行为。

开发特征通常需要一些先前的数据工程步骤和数据转换逻辑，然后它们才能用于训练模型或从中推断结果（进行预测）。在前一种情况下，许多特征（和实体）将被组合并公开为训练数据（通常是相当大的规模），并用于训练模型。在后一种推理情况下，模型将使用包含仅在预测时可用的数据的特征调用，例如欺诈预测案例中的交易详细信息。其他特征可能源自与训练数据相同的来源，但包含最新值，例如用户账户余额。

以上假设特征始终可以在推断时按需构建，使用在训练时使用的相似转换。由于延迟要求，有时无法做到这一点，因此某些特征的最新版本通常需要在“在线”存储中缓存和预处理。

要让模型准确预测，几乎总是需要数据科学家仔细选择与正在预测的类别相关的特征，除非是深度学习（有时也有例外）。

什么是特征存储？

在其最简单的形式中，特征存储是用于存储和管理特征数据，并充当事实源的集中式存储库。

通过提供可存储、版本控制和检索特征的 API，特征存储旨在为从开发到生产环境的训练和推理提供一致的特征视图。无论是自定义的内部解决方案还是现成的产品，特征存储提供的实际产品级特征会有所不同，有些提供完整的数据平台，能够将数据聚合成特征，甚至提供用于训练模型的计算引擎 - 请参阅下面的“特征存储的类型”。其他提供较轻量的抽象，管理元数据和版本控制，但将训练和数据/特征存储推迟到与其集成的其他平台和数据库。

无论特征存储具备多少功能，它们都提供对数据的抽象，数据科学家和工程师熟悉这些抽象。除了将数据提供为版本化的实体、特征和类别之外，大多数还公开了特征组、训练集、批处理、流处理和时间点查询（例如能够识别特定时间点的特征值，如最新值）的概念。

为什么要使用特征存储？

理论上，特征存储将不同的系统和能力联系在一起，形成一个完整的 ML 数据层，既可以作为训练数据的事实源，也可以在进行预测时提供上下文。

虽然它们提供的确切功能各不相同，但目标保持不变：

通过集中特征及其转换逻辑，提高数据科学家和数据工程师之间的协作和可重用性
通过允许在训练和推断时重复使用特征，减少实验和部署过程中的模型迭代时间
通过规则和版本控制实现治理和合规性，可以限制模型对敏感数据（和特征）的访问
通过从数据科学家那里抽象出数据工程的复杂性，确保他们只使用通过 API 交付的质量一致的特征，从而提高模型性能和可靠性。

虽然，这是特征存储解决的一些问题的非常高级的概述，但这里的主要好处是：能够在团队之间共享特征，并在训练和推理时利用相同的数据。

特征存储还解决了 MLOps 中存在的一些其他挑战，比如：如何回填特征数据、处理对源数据的增量更新（以更新特征）或监控数据漂移。最近，它们还集成了矢量数据库，充当 RAG 流水线的编排层或使用嵌入来帮助查找相似特征 - 这是在某些模型训练过程中非常有用的功能。

那么，你真的需要吗？

在决定是使用现成的特征存储，还是构建自己的方案时，决策可能会参考下面的因素（据我们看来）：

现有工具 - 如果你使用了一个完整的 ML 平台，那么你可能不需要特征存储。这些功能大多是这种平台的子集。然而，这些平台通常最不灵活，成本和复杂性最高。相反，如果你使用一组不同的系统和工具来完成 ML 训练和推理过程的不同部分，也许这是有意义的。
复杂性和规模 - 尽管 ML 模型训练不需要成为业务的基本部分，但你可能需要足够多的数据集、模型和数据科学家，以证明额外的复杂性是合理的。虽然在较小的用例中，也可能用临时的替代方式工作，但将更大、更关键的模型迁移到生产环境时，你将需要更大的治理和更强大的流水线。
抽象的好处 - 特征存储提供的抽象对某些团队更有益。如果你有非常明确的数据科学家和数据工程师的角色，那么特征存储可以实现关注点的分离，工程师可以通过一个简单的 API（他们理解的术语）向数据科学家提供特征，后者从特征准备过程中抽象出来。

相反，如果你的数据科学家熟悉特征工程，提供的抽象可能带来较少的好处。例如，假设你的数据存储在一个兼容 SQL 的数据库或数据湖中（可通过查询引擎访问），那么转换可能通过诸如 dbt 的工具来管理。这将需要你的数据科学家直接在 SQL 中查询表，但可能已经足够了，因为 dbt 提供了转换的版本控制和文档。然而，这确实需要你通过特定的单点解决方案来解决 ML Ops 的许多其他挑战。

特征存储的组件

在我们探讨ClickHouse如何适用于特征存储之前，了解常见组件对于背景知识是有帮助的。通常，特征存储将通常具有的4个主要组件：

数据源 - 虽然这可以是一个简单的CSV文件，但通常是一个带有像Iceberg这样的文件格式的数据库或数据湖，并通过查询引擎访问。
转换引擎（可选） - 原始数据需要转换为特征。在简单情况下，特征可以与列的值相关联。更可能的情况是，它是一个涉及连接、聚合和改变列值结构和/或类型的表达式的转换过程的结果。一些特征存储（参见特征存储的类型）可能提供内置功能来实现这一点；其他可能会将工作转移到本地Python函数，或者对于更大的数据集，通过材料化工具（甚至可能在底层使用dbt）或处理引擎（如Spark）来实现。使用ClickHouse，可以通过Materialized Views来实现这一点。经常需要更新的特征通常需要某种形式的流水线，通常使用诸如Flink或Spark Streaming之类的工具来实现。通常，如果这些转换被链接，并且需要跟踪依赖关系，就需要某种有向无环图（DAG）。
离线（训练）存储 - 离线存储保存了前述转换流水线生成的特征。这些特征通常被分组为实体，并与标签（目标预测）关联。通常，模型需要有选择地使用这些特征，可以是迭代的，也可以是通过聚合，可能多次且随机地。模型通常需要不止一个特征，需要将特征组合在一起形成“特征组” - 通常由实体ID和时间维度组成。这要求离线存储能够为特定时间点交付特征和标签的正确版本。这种“时间点正确性”通常对模型至关重要，需要进行增量训练。
在线（推理）存储 - 一旦模型经过训练，就可以部署并用于进行预测。

这个推理过程需要在预测时才能获得的信息，例如交易的用户ID。

然而，它还可以需要用于预测的特征，这些特征可能是预先计算的，例如代表历史购买的特征。即使对于ClickHouse来说，计算这些特征在推理时可能也太昂贵了。这些特征需要在对延迟敏感的情况下提供，基于数据的最新版本，特别是在需要实时进行预测的情景中，比如欺诈检测。特征可能会从离线存储材料化到在线存储以供服务。

上述省略了一些组件，虽然它们不一定是特征存储的组成部分，但它们与任何ML流水线都有很大的关联并且是必需的：

训练引擎和模型托管 - 任何流水线都需要一个计算框架和引擎，用于使用离线存储中的特征训练模型。这个模型反过来需要进行版本控制和托管，以便能够调用它进行推理。模型注册表可能是这一过程的重要组成部分，提供模型谱系、版本控制、标记和注释。
矢量数据库 - 我们在先前的博客文章中探讨了矢量搜索及其在RAG工作流中的应用。虽然传统上不是特征存储的组成部分，但它们与在线存储有相似之处。通常，矢量嵌入将与存储中存在的实体相关联。然后，数据库可以在经典的RAG工作流程中部署，或者使用嵌入来识别相似特征 - 这是在训练和推理时非常有用的功能。

上述所有内容都需要某种形式的状态管理，例如跟踪特征版本。这通常是局部于存储的，并且通常相对于源数据和特征本身来说较小。

特征存储的类型

并非所有的特征存储都能直接提供上述组件，它们在灵活性和所提供的功能方面各不相同。例如，一些可能具有现有的转换引擎，并部署诸如Postgres之类的数据库作为离线存储，或者Redis作为在线组件。因此，ClickHouse要集成到特征存储中，需要一定程度的架构灵活性和开放性。

我们将在下文中探讨：它们之间的差异，以及它们如何与ClickHouse共存。关于虚拟特征存储与其他存储的差异，以及字面和物理存储之间的更详细描述，我们推荐阅读Featureform的博客（https://www.featureform.com/post/feature-stores-explained-the-three-common-architectures）。

物理存储

物理存储提供了一种更集成的解决方案，计算和存储特征。这种存储类型在专有供应商中很常见，如Tecton，通常包括一个集成在线和离线存储的转换引擎，以及一些流处理功能。通常，它们与外部数据存储集成，并可以将一些工作推送到这些存储中，例如进行数据子集选择。在这种情况下，用户正在投资于一个完整的解决方案，灵活性有限。在历史上，这种缺乏灵活性通常是以更高的性能来弥补的。用户还需要学习的技术较少，但代价可能会出现在彻底的供应商锁定上。

Tecton architecture - Credit: https://www.tecton.ai/

在这种架构中，ClickHouse充当训练数据的源存储库，几乎没有其他集成的机会。

字面存储

在字面存储中，特征在存储外部进行处理，存储仅充当中央存储库。特征通常被发送到离线存储，将这些特征实体化到在线存储的过程由用户完成。然后，这些特征用于推理，具有通常如上所述的“时效性”能力。在这个意义上，特征存储实际上是一个实际的数据存储，只能存储和提供特征，同时位于实际真实数据存储之上。这种架构的经典实现是Feast。这种方法提供了最大的灵活性，但对采纳者构建从源生成特征的转换流水线的负担最大。在这里，用户必须学习和连接各种技术，以构建强大的MLOps流水线。

Feast architecture - Original: https://feast.dev/

虽然ClickHouse可能潜在地用作字面存储的存储引擎，但这种特征存储类型并未能充分利用ClickHouse的能力。ClickHouse不仅可用于存储和提供特征。虽然字面存储用户可能可以使用ClickHouse进行存储外部的转换，但它并不提供集成的体验。

虚拟存储

Featureform是一个自我描述为“虚拟特征存储”的开源项目。Featureform将虚拟存储的概念呈现为上述架构之间的平衡。在这种情况下，用户可以在基础架构中使用他们选择的任何存储、转换和流处理引擎。特征存储负责管理转换以及特征的持久性和版本控制，但仅充当协调器。这种插件架构使采纳者能够选择他们喜欢的每个组件的首选技术，从而在保留与字面存储相关的灵活性的同时，获得与物理存储类似的集成体验。在这个意义上，虚拟存储可以被看作是一个工作流管理和协调层，确保对于数据科学家和工程师来说，使用相同的抽象层。

Featureform architecture - Credit: https://www.featureform.com/

具有ClickHouse的虚拟存储

这种架构的传统实现可能会牺牲物理存储的一些性能，以提供与字面存储相当的协调和管理层，同时保留字面存储的灵活性。这种灵活性还会带来一些部署成本，因为异构架构本质上具有更大的DevOps开销。然而，通过利用ClickHouse来支持架构的重要组件，用户可以实现比更异构架构更卓越的性能，并降低管理开销。对于PB数据集上的昂贵操作，如特征缩放和相关矩阵计算，可以在几秒钟内完成。灵活性也仍然得到保留 - 如果用户希望替换ClickHouse，他们可以自由地这么做，同时仍保留一致的版本方案和对特征定义的集中跟踪。

特征存储与ClickHouse

作为实时数据仓库，ClickHouse可以担当多个组件的角色，很可能会显著的简化特征存储架构。

具体而言，ClickHouse可以担当以下角色：

数据源 - 具备查询或摄取70多种不同文件格式的能力，包括数据湖格式如Iceberg和Delta Lake，ClickHouse成为一个理想的长期存储或查询数据的仓库。通过使用对象存储分离存储和计算，ClickHouse Cloud还允许数据无限期地持久化保留 - 可以将计算缩小或完全空闲以最小化成本。灵活的编解码器，与列式存储和数据在磁盘上的排序相结合，最大程度地提高了压缩率，从而最小化了所需的存储空间。用户可以轻松将ClickHouse与数据湖结合使用，并使用内置函数在对象存储中原地查询数据。
转换引擎 - SQL提供了声明数据转换的自然手段。当与ClickHouse的分析和统计函数相结合时，这些转换变得简洁而优化。除了应用于ClickHouse表的情况外，在ClickHouse用作数据存储的情况下，表函数允许使用格式（如Parquet）存储的数据编写SQL查询，存储在磁盘或对象存储中，甚至是其他数据存储，如Postgres和MySQL。完全并行化的查询执行引擎，再加上列式存储格式，使ClickHouse能够在几秒钟内对PB级数据执行聚合操作 - 与在内存数据框上进行的转换不同，用户不受内存限制。此外，物化视图允许在插入时转换数据，从而在查询时间之前从计算时间过载到数据加载时间。这些视图可以利用与数据分析和汇总非常理想的相同范围的分析和统计函数。如果ClickHouse的现有分析函数不足或需要集成自定义库，用户还可以利用用户定义函数（UDF）。

虽然用户可以直接在ClickHouse中或在使用SQL查询之前转换数据，但ClickHouse还可以在编程环境（如Python）中通过chDB使用。

这允许嵌入式ClickHouse被公开为Python模块，并用于在笔记本中转换和操作大型数据框。

这使得转换工作可以由数据工程师在客户端执行，结果可能被实现为集中的ClickHouse实例中的特征表。
离线存储 - 借助从多个源读取数据并通过SQL应用转换的上述功能，通过INSERT INTO SELECT语句，这些查询的结果也可以在ClickHouse中持久化。由于转换通常按实体ID分组并返回多列结果，ClickHouse的模式推断可以自动从这些结果中检测到所需的类型，并生成适当的表模式来存储它们。用于生成随机数和统计抽样的函数允许数据以每秒数百万行的速度进行高效迭代和扩展，以供模型训练管道使用。

通常，特征以表格的形式表示，其中时间戳表示实体和特征在特定时间点的值。如前所述，训练管道通常需要在特定时间点以及按组返回特征的状态。ClickHouse的稀疏索引允许快速过滤数据以满足时点查询和特征选择过滤的要求。虽然其他技术，如Spark、Redshift和BigQuery，依赖于缓慢的有状态窗口方法来确定特定时间点的特征状态，但ClickHouse支持ASOF（截至此时）LEFT JOIN查询和argMax函数。除了简化语法，这种方法通过使用排序和合并算法在大型数据集上实现高性能。这允许快速构建特征组，减少训练之前的数据准备时间。

所有这些工作都可以下沉到ClickHouse中，进行并行化并在集群中执行。这使得离线存储可以扩展到PB级，而特征存储本身仍然是一个轻量级的协调层。

在线存储 - 作为实时分析数据库，ClickHouse可以以低延迟服务于高并发查询工作负载。虽然这需要数据通常是非规范化的，但这与在训练和推理时使用的特征组的存储方式相一致。重要的是，由于其日志结构合并树，ClickHouse能够在高写入工作负载下交付这种查询性能。这些属性在在线存储中是必需的，以保持特征的最新状态。由于特征已经在离线存储中可用，因此它们可以轻松地被实现为同一ClickHouse集群内的新表，或通过现有的功能（例如remoteSecure）到不同实例中。

通过Kafka的集成，可以通过Kafka Connect提供的确切一次提供或通过ClickHouse Cloud中的ClickPipes，从流源简单可靠地消费流数据。

对于需要非常高的请求并发性（即每秒数千次）和非常低延迟的用例，我们建议用户仍然考虑专用数据存储，例如为这些工作负载设计的Redis。

向量数据库 - ClickHouse通过浮点数组内置支持向量嵌入。这些可以通过距离函数进行搜索和比较，允许ClickHouse用作向量数据库。这种线性比较可以轻松地扩展和并行化以适应更大的数据集。此外，ClickHouse对近似最近邻（ANN）索引以及使用纯SQL的超平面索引提供了成熟的支持，这对于更大的向量数据集是必需的。

通过满足上述每个角色，ClickHouse可以显著简化特征存储架构。除了简化操作外，该架构还允许更快地构建和部署特征。ClickHouse的单个实例可以垂直扩展以处理PB级的数据，只需在需要时动态地添加其他实例以实现高可用性。这最小化了在数据存储之间传输数据，从而减少了典型的网络瓶颈。ClickHouse Cloud通过仅在对象存储中存储数据的单一副本，并在需要时动态地响应负载而将节点垂直或水平扩展，进一步扩展了这一点。

上述架构仍然需要ClickHouse未满足的几个关键组件：流引擎，如Kafka + Flink，以及提供模型训练的计算框架。还需要一种托管模型的方式。为简单起见，我们假设使用云托管的解决方案，如Confluent和Amazon SageMaker。

ClickHouse 与 Featureform集成

为了实现我们对由ClickHouse强化的“虚拟”特征存储的愿景，我们确定Featureform是与之集成的理想解决方案。除了是开源的，因此可以轻松贡献外，Featureform还提供了成熟（设计上）的离线存储、在线存储和向量数据库的集成点。

在我们的初始集成中，我们将ClickHouse添加为离线存储。这代表了最大的工作量，使ClickHouse可以用作数据源和特征以及训练集的主要存储。用户还可以利用ClickHouse来在创建特征组并从其他源插入数据时推动转换。

这代表了我们与Featureform集成的第一步。预计不久将能够将ClickHouse用作在线存储和向量数据库！

结论

在本博客中，我们介绍了特征存储的概念及其在MLOps工作流中的用途。我们探讨了为什么要使用特征存储，特征存储的主要类型以及其核心架构组件。在此基础上，我们介绍了ClickHouse作为高性能实时数据仓库，如何用于支持“虚拟”特征存储的多个组件，并宣布了与Featureform的最新集成作为示例。

联系我们

手机号：13910395701

邮箱：[email protected]

满足您所有的在线分析列式数据库管理需求

【软件工程】Waitress + Nginx 部署 Python Web 服务 meisongqing nginx python WEB
下面是完整的Windows系统部署方案，使用Waitress作为WSGI服务器运行Python后端，Nginx作为反向代理同时提供前端服务：项目结构text复制下载myapp/├──backend/#Python后端│├──app.py#Flask应用入口│├──requirements.txt#Python依赖│└──api/#API模块├──frontend/#前端文件│├──index.ht
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
软件工程领域框架复用：提升开发效率的秘诀项目管理实战手册项目管理最佳实践软件工程网络 hadoop ai
软件工程领域框架复用：提升开发效率的秘诀关键词：框架复用、软件开发效率、代码重用、设计模式、组件化、模块化、最佳实践摘要：本文深入探讨软件工程中框架复用的概念、原理和实践方法。我们将从基础概念出发，逐步分析框架复用的优势、实现方式和常见模式，并通过实际案例展示如何通过框架复用显著提升开发效率。文章还将讨论框架复用的适用场景、工具推荐以及未来发展趋势。背景介绍目的和范围本文旨在全面介绍软件工程中的框
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
3驾马车: 做什么，怎么做，怎么卖 waterHBO 商业启发
https://www.youtube.com/watch?v=KpVPST_P4W8这个视频讲了什么内容，有什么启发好的，这个视频非常有价值，它采访了一位名叫JureSotosek的年轻创业者。以下是视频的核心内容和它带来的主要启发：视频内容概要这个视频是关于一位名叫JureSotosek的前微软软件工程师，他如何通过创办4个完全不同的在线业务，实现了每月6万美元的集体收入。视频的核心在于揭示他
Clickhouse源码分析-Replicated Database创建流程
前置准备DDL：CREATEDATABASEmy_replicated_dbENGINE=Replicated('/clickhouse/databases/my_replicated_db','{shard}','{replica}');这里需要你提前启动1个clickhouse，1个clickhouse-keeper。源码分析断点：bInterpreters/DDLWorker.cpp:146
C#库存管理系统源码与详解 weixin_42613017
本文还有配套的精品资源，点击获取简介：本文深入剖析C#开发的库存管理系统源码，涵盖从设计到实现的各个方面。详细解释了面向对象编程思想在库存管理中的应用，包括商品、仓库、订单等实体的类设计，以及关键的库存管理模块如入库、出库、查询、预警、盘点、报表生成、数据库设计、用户界面设计、错误处理与安全性的实现。此项目旨在帮助开发者深入理解C#语言及其在业务系统开发中的实践经验，涵盖软件工程的核心概念。1.面
关于“重现bug—探查bug—解决bug“的一本书人邮异步社区 bug 软件开发程序员
《EffectiveDebugging：调试软件和系统的66个有效方法》是一本关于软件和系统调试的实用指南。作者迪欧米迪斯.斯宾奈里斯（DiomidisSpinellis）是希腊雅典经济与商业大学管理科学与技术系教授。他的研究涵盖软件工程、IT安全和云系统工程。他撰写了两本屡获殊荣的技术图书，《代码阅读方法与实践》（CodeReading:TheOpenSourcePerspective）和《高质
计算机英语上期末复习(广外软工) 记忆中的你问我学习经验分享课程设计笔记其他
前言广外21级软件工程计算机英语期末复习，考试据说只考前10页的内容期末考试题型：1.名词解释2.翻译（如果有翻译错误/小道消息/未补充的知识点请评论，祝大家期末科科4.0！）Chapter01.名词解释computerscienceItisthedisciplinethatseekstobuildascientificfoundationforsuchtopicsascomputerdesign
ClickHouse：在 CentOS7.4 中编译 ClickHouse
目录一、环境准备二、创建编译使用的脚本三、编译ClickHouse一、环境准备1.1、CentOS版本为7.4.17081.2、从githubcloneClickHouse源码，checkout到tagv21.2.6.1-stable。cloneClickHOuse代码的时候需要把依赖的子项目也都clone下来，命令如下：gitclone--recursivehttps://github.com/
CentOS 7 编译ClickHouse 24.8完整指南
前言在CentOS7上编译ClickHouse24.8可能会遇到一些挑战，主要是因为CentOS7的默认软件版本较旧。本文将详细介绍从零开始构建ClickHouse24.8的完整过程，包括依赖安装和环境配置。准备工作首先确保系统已更新到最新版本：yumupdate-y1.安装CMakeClickHouse需要CMake3.1.7以上版本，我们安装3.25.3：wget--no-check-cert
掌握软件工程领域持续集成的部署流程
掌握软件工程领域持续集成的部署流程关键词：持续集成、自动化构建、版本控制、单元测试、持续交付、DevOps、流水线摘要：本文通过面包工厂的生动比喻，揭示持续集成的核心原理。我们将构建一条"代码加工流水线"，用真实的Jenkins配置案例展示从代码提交到自动化部署的全过程，并探讨现代软件开发中持续集成带来的革命性变化。背景介绍目的和范围本文面向初入软件行业的开发者，系统讲解持续集成（Continuo
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
事件驱动架构（EDA）：不止是代码，更是现代运维的灵魂运维开发王义杰系统运维系统架构 aws 架构运维
今天我们来聊一个在云原生时代越来越火热的概念——事件驱动架构（Event-DrivenArchitecture,EDA）。大家可能在浏览AWSEventBridge、ApacheKafka或RabbitMQ的文档时遇到过它。起初，可能会觉得这只是软件工程师在设计微服务时用到的一种模式。但如果我们深入思考就会发现，EDA的精髓早已渗透到现代系统运维的方方面面，甚至可以说，它是一种构建和管理高韧性、高
燕山大学编译原理期末考试能运行就算成功经验分享
软件工程专业的首先，这一门课无法在三四天内速成（指零基础的）要是有考前才开始学到同学至少要提前一周开始学习（我觉得这都比较紧张，两周才算宽裕），b站上的速成课不全！不全！不全！不要想着完全看速成课，你要非这样我也没办法。考试范围如下：编译程序构成、编译程序与解释程序区别，词法分析、语法分折、语义分折及其任务，文法，语言，句型，句子，短语，推导，归约，句柄，文法、语言二义性，文法分类，有穷自动机、正
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
中国计算机学会（CCF）推荐学术会议-C（软件工程/系统软件/程序设计语言）：FPT 2025 爱思德学术 AI编程极限编程重构
FPT2025FPTisthepremierconferenceintheAsia-Pacificregiononfield-programmabletechnologies,reconfigurablecomputingdevicesandsystems.Field-programmabledevicesoffertheflexibilityofsoftwarewiththeperformanc
软件架构评估：关键方法与实战指南你一身傲骨怎能输架构设计架构
文章摘要架构评估是软件工程中确保系统满足业务目标和非功能需求的关键环节。常见方法包括：ATAM（架构权衡分析）：围绕质量属性（性能、安全等）进行场景化评估，适合复杂系统清单检查法：标准化检查表快速评估架构各维度专家评审：多角色头脑风暴发现设计盲点量化评估：通过测试验证性能等可量化指标评估流程通常分为准备、评估、输出三阶段，需多角色参与，关注典型场景分析。评估报告应包含优缺点、风险和改进建议，并跟踪
为什么我们需要工程师文化？架构
引言随着AI技术的飞速发展，软件工程的范式正在经历前所未有的转变。工程师不再仅是代码的编写者，而是成为了人机协作的设计师、AI能力的引导者和技术创新的推动者。在这场变革中，真正的竞争优势不仅来自于技术工具的选择，更源于深植于组织DNA中的工程师文化。AI时代，工程师面临的不仅是技术挑战，更是职业发展与价值定位的重新思考。当AI能够生成代码、设计架构、自动化测试，工程师的核心价值在哪里？如何在这场变
软件架构 vs 系统架构 vs 解决方案架构 vs 企业架构——你真的懂它们的区别吗？数字时代的探索者数字化转型系统架构软件架构解决方案架构企业架构
软件架构、系统架构、解决方案架构、企业架构……听起来都带"架构"，但根本不是一个东西啊！（就像"茶"可以是珍珠奶茶、水果茶、乌龙茶——虽然都叫茶，但差别大了去了！）为了澄清这些概念，本文将梳理这些概念的演变历程、发展现状，并阐明它们之间的异同。软件架构：代码的整体规划前世与今生软件架构是最早得到广泛认可的一种架构形式，起源于软件工程发展的早期阶段。最初，软件架构关注的是如何结构化地编写代码，以提高
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
Sui 随全球加速采用，正式启用雅典 SuiHub 创新中心 Sui_Network Sui 重要公告区块链量子计算人工智能物联网 web3
希腊凭借其独特的人才优势、地理位置和机构参与度，成为Sui全球线下扩张的重要战略据点。该国高校在数据科学、软件工程与人工智能领域具备卓越声誉，这些正是Sui生态发展的核心支柱。近年来，雅典的科技生态日益成熟，越来越多初创公司和创新项目（包括Sui）在此落地，创造高薪岗位，吸引顶尖人才。Sui在希腊的布局始于为高中生推出的：区块链与商业创新”课程，随后ATHEX宣布完成基于Sui的EBB平台升级的技
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
软件工程领域敏捷开发的人工智能应用探索软件工程实践软件工程最佳实践 AI软件构建大数据系统架构软件工程敏捷流程人工智能 ai
软件工程领域敏捷开发的人工智能应用探索关键词：敏捷开发、人工智能、软件工程、自动化测试、智能代码生成、需求分析、DevOps摘要：本文深入探讨了人工智能技术在敏捷软件开发中的应用前景和实践方法。我们将从敏捷开发的核心原则出发，分析AI如何增强和优化敏捷流程中的各个环节，包括需求分析、任务规划、代码生成、测试自动化和持续交付。文章将提供具体的技术实现方案、数学模型和实际案例，帮助读者理解AI如何赋能
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
掌握设计模式：23种经典设计模式实战指南.zip 魔都财观
本文还有配套的精品资源，点击获取简介：设计模式是软件工程中用于解决常见问题的可重用解决方案，涵盖了创建型、结构型和行为型三大类别。创建型模式关注对象创建过程和系统灵活性；结构型模式关注类或对象的组合方式；行为型模式关注对象间的责任分配和通信。这些模式由经验丰富的开发者总结而成，有助于编写更灵活、可维护和可扩展的代码。本课程设计项目将帮助学生深入理解并应用这些设计模式，解决实际编程中的复杂设计挑战。
【架构】软件成熟度模型与评估体系深度解析 EulerBlind 架构架构
一、软件成熟度概述1.1软件成熟度的定义与内涵软件成熟度是指软件组织在软件开发、维护和管理过程中的能力水平和规范化程度。它反映了组织在软件工程实践中的系统性、可预测性和有效性。高成熟度的组织能够持续稳定地交付高质量的软件产品，并能够根据业务需求和技术变化及时调整其流程。成熟度模型的核心理念是通过定义一系列阶段性的目标和标准，引导组织系统性地提升其能力水平，最终实现可预测、高效和高质量的软件开发。1
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地