无心六神通

持续交付-Devops-CI/CD-流水线-引擎-架构-美团技术团队

1. 背景

持续交付这个概念最早在2006年敏捷大会上被提出，经过多年的发展，目前已成为很多技术团队提升研发效能的必经之路。通过建设部署流水线，打通从代码开发到功能交付的整个环节，以自动化的方式完成构建、测试、集成、发布等一系列行为，最终实现向用户持续高效地交付价值。

流水线引擎作为支撑部署流水线的底座，它的好坏直接影响着部署流水线建设的水平。业界通常的做法是通过Jenkins、GitlabCI等开源工具（或公有云产品）进行搭建，这是一条能帮助业务快速落地持续交付的道路，美团早期也是采用搭建Jenkins的方式来快速支撑业务。

但随着越来越多业务开始做持续交付的建设，这种“短平快”方式的弊端逐渐显现。比如，工具建设没有统一的标准，各业务都需要去了解整个工具链的细节，建设成本高、水平参差不齐，很少有业务能搭建完整的部署流水线。同时，业务每天的构建量都在快速增长，逐渐超过Jenkins等开源工具所能承受的极限，在交付高峰期任务严重排队、服务不可用现象频出，严重影响着业务交付的顺畅度。

美团在流水线引擎的建设层面大概经历了几个阶段。在2019年以前，主要围绕Jenkins进行优化，2019年开始正式立项打造自研的流水线引擎，大致的历程如下：

第一阶段（2014-2015）：搭建Jenkins统一集群，解决业务接入的通用问题（如单点登录、代码仓库集成、消息通知、执行机的动态扩缩等），降低业务的建设成本。
第二阶段（2016-2018）：拆分多个Jenkins集群，解决业务增长导致单集群性能瓶颈。最多时有十几个集群，这些集群通常是按业务线维度划分，并由业务自行建设。但随着时间的推移，集群的拆分管理难度越来越大，Jenkins安全隐患频出，对平台方造成了很大的运维负担。
第三阶段（2019-至今）：为了彻底解决引擎单机瓶颈和工具重复建设问题，我们开始自研分布式流水线引擎（美团内部项目名称为Pipeline），并逐步收敛各业务依赖的底层基建。

经过3年左右的建设打磨，流水线引擎完成了服务端的基建统一，涵盖到店、到家、大众点评、美团优选、美团平台、自动配送车、基础研发平台等几乎所有的业务，支持Java、C++、NodeJS、Golang等多种语言。在性能和稳定性方面，引擎每日支撑近十万次的流水线执行量（作业调度峰值每小时达上万次），系统成功率保持在99.99%以上（排除业务代码自身原因和第三方工具的问题）。

下面我们主要介绍下我们在自研引擎建设上遇到的挑战以及对应的解决方案。

2. 问题及思路

2.1 业务介绍

1）什么是流水线

我们可以把流水线的执行看作是对代码一步步加工，最终交付到线上的过程。根据业务定义的顺序关系，依次执行相应的加工或质量校验行为（如构建、代码扫描、接口测试、部署工具等），整个执行过程类似一个有向无环图。

图1 流水线概念

2）基本概念

组件：出于代码复用和业务共享的考虑，我们将某一工具的操作行为封装成一个组件，表示对于一项具体的加工或校验行为。通过组件方式，业务可以便捷地使用已集成的质量工具（如静态代码扫描、安全漏洞分析等），减少在同一工具上的重复开发成本；对于不满足需求的场景，业务可以自定义一个新的组件。
组件作业：表示组件的一次运行实例。
资源：为组件作业分配的一个可执行环境。
流水线编排：表示流水线中不同组件执行的先后顺序。
引擎：负责调度所有的组件作业，为其分配相应的执行资源，保证流水线执行按预期完成。

2.2 主要挑战

1）调度效率瓶颈

对调度时间相对敏感，流水线大部分是短时作业（作业持续数十秒到分钟不等），如果调度时间过长，业务能明显感知到流水线执行变慢了。我们需要保证作业调度时间在一个可控的范围内，避免出现调度瓶颈。

从业务场景考虑，调度逻辑存在一定的业务复杂性（如组件串并行判断、优先级抢占、降级跳过、复用上一次结果等），不仅仅是作业与资源的匹配计算，作业调度耗时存在一定的业务开销。
引擎支撑公司每天近十万次的执行量，峰值量情况下，并发调度的作业量大，常见的开源工具（Jenkins/GitLab CI/Tekton等）都是采用单体调度模式，作业是串行调度的，容易出现调度瓶颈。

2）资源分配问题

对于作业系统来说，作业数通常都是大于资源数的（真实部署情况，资源不是无限的），作业积压是系统设计时必须考虑的问题。如何在有限的资源下，尽可能提高作业的吞吐能力，同时降低在资源不足情况时造成对核心业务场景的影响。

如果只依靠动态扩容，容易出现资源不足时无法扩容、作业排队等待的情况。特别是对于依赖流水线做研发卡控的业务，这会直接阻塞业务的上线流程。
出于执行耗时的考虑，大部分资源采用预部署的方式，缩短资源申请和应用启动的准备时间。而对于预部署的资源，如何进行有效划分，既保证每类资源都有一定配额，同时也避免出现部分资源利用率过低，影响作业整体的吞吐能力。
不是所有工具的执行资源都由引擎管理（如发布系统，部署任务的资源管理是单独的），在作业的资源分配上，还需要考虑不同的资源管理方式。

3）工具差异化问题

公司内不同业务的差异化大，涉及的质效类工具众多，如何设计一个合适的插件化架构，满足不同工具的接入需求。

不同工具实现形式差异化大，有些工具有独立的平台，可以通过接口方式进行集成，有些仅仅是一段代码片段，还需要提供相应的运行环境。面对不同的接入形态，引擎如何屏蔽不同工具带来的差异，使业务在编排流水线时不用关注到工具的实现细节。
随着业务场景的不断丰富，组件执行还会涉及人工交互（审批场景）、支持重试、异步处理、故障恢复等能力，这些能力的扩展如何尽可能减少对系统的冲击，降低实现的复杂度。

2.3 解决思路

1）拆分调度决策与资源分配，解决调度效率瓶颈

从上述分析，一个作业的实际调度耗时 = 单个作业的调度耗时 * 待调度的作业数。因为单个作业的调度耗时会受具体的业务逻辑影响，不确定性大，优化空间有限。而串行调度问题相对明确，在作业调度时间和数量不可控的情况下，是一个合适的优化方向。

关于串行调度，业界常见的做法是按照业务线维度拆分多个集群，分摊总的调度压力。但这种方式存在的问题是资源分配不具备灵活性，很容易出现资源的分配不均，在整体资源不足时，无法从全局上考虑高优作业的资源分配。并且，多集群管理（新增集群/拆分现有集群）也是不小的运维负担。

进一步分析，串行调度主要是为了避免资源竞争问题，获得相对最优的资源。这对于流水线场景（作业量大于资源量且都是短时作业），资源最优解不是强诉求。并且，资源量的并发度相对作业量更可控，根据作业执行快慢不同，我们通过主动拉取作业的方式，控制拉取的数量和频率，从而有效降低了资源竞争的情况。

最终，我们在设计上采取了调度决策与资源分配分离的模式：

调度决策：负责计算出可以调度的作业，提交决策，等待合适的资源来执行。该模块具体水平扩展，分担调度决策的压力。
资源分配：负责维护作业与资源的关系，通过主动拉取作业的方式，资源可以向任意的实例拉取作业，取消了原先串行分配资源的单点限制。

在这种模式下，作业调度、资源分配都具备水平扩展能力，拥有更高的性能和系统可用性。也利于作业调度的逻辑能够独立演进，便于开发、测试以及灰度上线。

2）引入资源池管理模式，实现资源的灵活分配

考虑到不是所有资源都由引擎管理，我们引入资源池的概念来屏蔽不同资源方式的差异，每个资源池代表一类资源的集合，不同资源池的资源管理方式可以是多样化的。通过该方式，我们将资源分配的问题简化为作业与资源池的匹配问题，根据作业的实际情况，合理设置不同的资源池大小，并配合监控手段对资源池进行动态调整。

在具体措施上，我们选择“标签”的方式建立作业与资源池的匹配关系，通过从作业与资源两个维度来满足上述条件。

在作业端，作业基于标签属性拆分到不同的作业队列，并引入优先级概念，保证每个队列中作业按优先级高低被拉取到，避免在积压时，高优作业排在后面无法被及时处理，阻塞业务研发流程。
在资源端，结合资源的实际场景，提供三种不同的资源池管理方式，以解决不同资源类型的配额和利用率问题。
- 预置的公共资源，这部分资源会提前在资源池上扩容出来，主要应对业务高频使用的且对时间敏感的组件作业。在资源配额和利用率上，根据资源池的历史情况和实时监控，动态调整不同资源池的大小。
- 按需使用的资源，主要针对公共资源环境不满足的情况，业务需要自定义资源环境，考虑到这部分作业的体量不大，直接采用实时扩容的方式，相比预置资源的方式，可以获得更好的资源利用率。
- 外部平台的资源，这些资源的管理平台方比我们更有经验，平台方通过控制向引擎拉取作业的频率和数量，自行管理作业的吞吐情况。

3）引入组件的分层设计，满足工具差异化需求

为了保持工具接入的自由度，引擎提供了作业维度最基本的操作接口（拉取作业、查询作业状态、上报作业结果），不同工具可以根据作业接口形式实现定制化的组件开发。

组件开发主要涉及①实现业务逻辑和②确定交付方式两部分工作，而与引擎的系统交互相对是标准的。我们根据组件执行过程进行分层设计，拆分出业务逻辑、系统交互与执行资源三层。在向引擎屏蔽工具实现细节的同时，可以更好地满足多样化的接入场景。

系统交互层，该层相对组件开发者是透明的，根据引擎提供的接口制定统一的流程交互标准，以向引擎屏蔽不同组件的实现差异。
执行资源层，主要解决工具运行方式的差异化，通过支持多种组件交付形式（如镜像、插件安装、独立服务）满足工具与引擎的不同集成方式。
业务逻辑层，针对业务不同的开发场景，采用多种适配器的选择，来满足业务不同的开发诉求。

3. 整体架构

图2 流水线架构

触发器：作为流水线的触发入口，管理多种触发源及触发规则（Pull Request、Git Push、API 触发、定时触发等）。
任务中心：管理流水线构建过程中的运行实例，提供流水线运行、中止、重试、组件作业结果上报等操作。
决策者：对所有等待调度的作业进行决策，并将决策结果同步给任务中心，由任务中心进行作业状态的变更。
Worker：负责向任务中心拉取可执行的作业，并为作业分配具体的执行资源。
组件SDK：作为执行组件业务逻辑的壳，负责真正调起组件，完成组件初始化与状态同步的系统交互。

4. 核心设计点

4.1 作业调度设计

1）调度过程

下面，我们以一个简单的流水线调度示例（源码检出 - [并行：代码扫描，构建] - 部署），来介绍调度设计中各模块的协作过程。

图3 调度过程

大致逻辑如下：

当触发流水线构建后，系统会在任务中心创建该编排所要执行的所有组件作业。并且将作业状态的变化以事件方式通知决策者进行决策。
决策者接收决策事件，根据决策算法计算出可被调度的作业，向任务中心提交作业的状态变更请求。
任务中心接收决策请求，完成作业状态变更（作业状态变更为已决策），同时加入相应的等待队列。
Worker 通过长轮询方式拉取到和自己匹配的等待队列的作业，开始执行作业，执行完成后将结果上报给任务中心。
任务中心根据Worker上报的作业执行结果变更作业状态，同时向决策者发起下一轮决策。
以此反复，直至流水线下所有作业都已执行完成或出现作业失败的情况，对流水线进行最终决策，结束本次执行。

整个过程中，任务中心作为一个分布式存储服务，统一维护流水线和作业的状态信息，以API方式与其他模块进行交互。而决策者和Worker通过监听作业状态的变化执行相应的逻辑。

2）作业状态流转

下面是一个作业完整的状态机，我们通过作业决策、拉取、ACK以及结果上报一系列事件，最终完成作业从初始状态向完结状态的流转过程。

状态机在接收某种状态转移的事件（Event）后，将当前状态转移至下一个状态（Transition），并执行相应的转移动作（Action）。

图4 状态机

在实际场景中，由于调度过程涉及链路长、各环节稳定性无法完全保证，容易产生因异常情况导致状态不流转的情况。为此，在设计上利用数据库保证状态变更的正确性，同时为非完结状态作业设立相应的补偿机制，确保任一环节异常后作业可以恢复正确流转。

我们重点从作业决策和作业拉取这两个关键过程来看状态流转过程可能出现的问题，以及在设计上是如何解决的。

作业决策过程：任务中心接收调度作业的决策，将可调度的作业从unstart变为pending状态，同时将作业加入等待队列，等待被拉取。

图5 状态机-决策

未收到决策事件：由于决策者服务自身的问题或网络原因，导致决策事件的请求失败，作业长时间处于未调度状态。

解决方案：引入定时监测的机制，对于无过程状态作业且处于未完结状态的流水线进行重新决策，避免决策服务短时间异常导致决策失败。

重复决策：由于网络延迟、消息重试现象可能出现多个决策者同时决策同一个作业，产生作业转移的并发问题。

解决方案：增加pending的状态表示作业已被决策到，并通过数据库乐观锁机制进行状态变更，保证仅有一个决策会真正生效。

状态变更过程异常：由于存在异构数据库，状态变更和加入队列可能存在数据不一致，导致作业无法被正常调度。

解决方案：采用最终一致性的方案，允许调度的短暂延迟。采用先变更数据库，再加入队列的操作顺序。利用补偿机制，定时监测队列队首的作业信息，若pending状态下的作业有早于队首作业的，进行重新入队操作。

作业拉取过程：任务中心根据Worker拉取作业的事件请求，从等待队列中获取待调度作业，将作业的状态从pending变更为scheduled，并返回给Worker。

图6 状态机-ACK

作业丢失问题：这里存在两种情况，①作业从队列中移除，但在状态将要变更时异常了；②作业从队列中移除，也正确变更了状态。但由于poll请求连接超时，未正常返回给Worker。

解决方案：前者通过作业决策环节中对pending状态的作业补偿机制，重新加入队列；后者对于状态已变更的情况，已调度的作业增加ACK机制，若超时未确认，状态会流转回pending状态，等待被重新拉取。

作业被多个Worker拉取：Worker在接收到作业后，遇到长时间的GC，导致状态流转回pending状态，在Worker恢复后，可能出现作业已分配到另一个Worker上。

解决方案：通过数据库乐观锁机制保证仅有一个Worker更新成功，并记录作业与Worker的关系，便于对作业进行中止以及Worker故障后的恢复操作。

3）决策过程

决策过程是从所有未启动的作业中筛选出可以被调度的作业，通过一定的顺序将其提交给任务中心，等待被资源拉取的过程。整个筛选过程可以分为串并行顺序、条件过滤、优先级设置三部分。

图7 决策过程

串并行顺序：相对于DAG中复杂的寻路场景，流水线场景比较明确，是将代码逐步加工验证，通过开发、测试、集成、上线等一系列阶段的过程。阶段间是严格串行的，阶段内出于执行效率的考虑，会存在串并行执行的情况。这里通过模型设计，将DAG的调度问题转变成作业的先后次序问题，引入run order概念，为每个组件作业设置具体的执行次序，根据当前已执行作业的次序，快速筛选出下一批次序仅大于当前的作业，若并行执行，仅需将作业的次序设置成相同即可。

图8 串并行决策

条件过滤：随着业务场景扩展，不是所有的作业都需要调度资源，进行真正的执行。如某类耗时的组件，在代码和组件参数都不变的情况下，可以直接复用上一次的执行结果，或者在系统层面针对某类工具异常时进行组件跳过的降级操作。针对这类情况，在作业真正提交给任务中心之前，会增加一层条件判断（条件分为全局设置的系统条件以及用户条件），这些条件以责任链形式进行依次匹配过滤，根据匹配到的条件单独向任务中心提交决策。
优先级设置：从系统全局考虑，在作业出现积压时，业务更关心核心场景下整条流水线是否能尽早执行完成，而不是单个作业的排队情况。所以，在优先级设置上除了基于时间戳的相对公平策略外，引入流水线类型的权重值（如发布流水线>自测流水线；人工触发>定时执行），保证核心场景流水线相关作业能够尽早被调度到。

4.2 资源池划分设计

1）整体方案

我们采用多队列的设计，结合标签建立作业队列与资源池的匹配关系，以保障不同队列资源的有效划分，在出现队列积压、资源池故障、无可扩资源等情况时，最大限度地降低影响范围，避免所有作业全局排队等待的现象。

图9 资源池架构

2）模型关系

图10 资源池模型对象

作业队列与标签的关系：队列与标签采用1对1的关系，降低业务理解和运维成本。

当队列积压时，能快速定位到某个标签没资源了。
标签资源不足时，也能快速判断影响的具体队列情况。

标签与资源池的关系：标签和资源池采用多对多的关系，主要从资源整体利用率和对核心队列的资源可用性保障考虑。

对于一些作业量较少的队列，单独分配一个资源池会造成大部分时间资源是空闲状态，资源利用率低。我们通过给资源池打多标签的方式，既保证了队列有一定的资源配额，同时也能处理其他标签的作业，提高资源的利用率。
对于核心场景的队列，通常标签资源会分配到多个资源池上，保证资源的一定冗余，同时也降低单个资源池整体故障带来的影响。

3）标签设计

标签的目的是建立资源（池）与作业（队列）的匹配关系。在设计上，为便于标签管理和后期维护，我们采用二维标签的形式，通过组件和流水线两个维度，共同决定一个作业所属标签及对应的资源。

第一维度：组件维度，对资源做通用划分。结合组件的业务覆盖情况、作业执行量、对机器和环境的特殊要求（如SSD、Dev环境等），对需要独立资源的组件进行打标，划分出不同的公共资源池（每个公共资源池执行一类或多类组件作业），在引擎层面统一分配，保证所有作业都有可正常运行。
第二维度：流水线维度，根据业务场景进行划分。结合业务对资源隔离/作业积压敏感度的诉求，按需进行划分。有些希望资源完全独立的业务，会从所有的公共资源池进行切分；有些仅对部分核心场景下的资源需要保障，根据链路上涉及的组件，选择性地从部分公共资源池进行划分，实现业务隔离和资源利用率的平衡。

注：每个维度都会设一个other的默认值用来兜底，用于处理无资源划分需求的场景。

图11 标签设计

4）队列拆分设计

根据作业所属标签不同拆分出多个队列，保证每个队列的独立性，降低作业积压的影响范围。整个拆分过程可以分为入队和出队两部分：

入队过程：通过计算作业在组件和流水线两个维度的属性值，来确定作业对应的标签。结合模型关系中标签与队列（1对1）的关系，为每个标签按需创建一个队列，存储该标签作业，不同队列间作业做排他处理，简化出队的实现复杂度。
出队过程：队列拆分后，因为标签和资源池（多对多）的关系，资源池的一次作业拉取请求往往会涉及多个队列。出于拉取效率的考虑，采用轮询的方式依次对单队列进行出队操作，直到达到该次请求的作业数上限或所有可选队列为空时返回结果。该方式可以避免同时对多个队列加锁，并且在前置环节会对多标签进行随机排序，降低多个请求同时操作一个队列的竞争概率。

图12 队列拉取设计

4.3 组件分层设计

1）分层架构

图13 组件架构设计

业务层：引入适配层，满足组件开发中多样化的需求场景，同时避免上层差异污染到下层。
系统交互层：设立统一的流程标准，保证引擎和组件交互过程的一致性，便于统一处理非功能性的系统优化。
执行资源层：提供多种资源策略，向上层屏蔽不同资源类型的差异。

2）标准的交互流程设计

在系统交互层，组件与引擎交互的过程中，有两个环节是确定的，①组件作业的状态机流转，这涉及到组件执行的整个生命周期管理，若允许存在不同的状态流转关系，整个管理过程会十分混乱；②引擎对外提供的接口范围，从服务间解耦的角度，对外提供的接口主要是组件作业维度的接口操作，不应该耦合任何组件内部的实现细节。

结合作业状态机 + 引擎提供的接口，确定了组件执行基本的系统交互流程。利用模版模式，抽象出init()、run()、queryResult()、uploadArtifacts() 等必要方法供业务实现，整个交互流程则由系统统一处理，业务无需关心。

图14 组件标准流程设计

3）扩展基础能力

组件执行除了正常的执行流程外，随着业务场景的丰富，还会涉及组件中止、回调（人工审批场景）等操作，这些操作的引入势必会改变原先的交互流程。为了不增加额外的交互复杂度，在拉取作业环节，增加作业的事件类型（运行、中止、回调等事件），Worker根据拉取到的不同事件，执行相应的扩展逻辑。同时，引入新的扩展也不会影响到已有的交互流程。

图15 组件扩展能力设计

基于上述扩展，我们可能更好地将一些通用能力下沉到Daemon Thread层。如结果查询流程，通过守护线程的方式，取消了原先同步等待的查询限制，这对于需要异步化处理的场景（如组件作业逻辑已执行完，仅在等待外部平台接口返回结果）可以提前释放资源，提高资源执行的利用率。并且，当执行资源故障重启后，结果查询线程会自动恢复待处理异步作业。这部分能力的支持在业务层是透明的，不改变整个交互流程。

4）引入适配器

业务虽可以通过必要方法完成自定义组件，但这些方法过于基础，业务在一些特定场景下实现成本较高。如对于组件支持Shell的脚本化调用，业务其实仅需提供可执行的Shell即可，通用约定的方式，其他必要方法的实现都可以交由系统完成。

针对业务个性化的处理，采用适配器模式，通用引入不同Command（ShellCommand、xxCommand）来默认实现特定场景下的必要方法，降低业务的开发成本。同时，保持系统侧流程的一致性，通过动态注入 Command的方式，防止对业务个性化处理的耦合。

图16 组件适配器设计

5）效果

目前已支持Shell组件、服务组件、容器组件等多种接入方式，平台上已提供数百个组件，组件开发方涉及数十个业务线。组件库覆盖源码域、构建域、测试域、部署域、人工审批域等多个环节，打通了研发过程所涉及的各个基础工具。

图17 组件库

5. 后续规划

借助Serverless等云原生技术，探索更轻量、高效的资源管理方案，提供更精细化的资源策略，从资源的弹性、启动加速、环境隔离三个方面为业务提供更优的资源托管能力。
面向组件开发者，提供从开发、上线到运营的一站式开发管理平台，降低组件开发、运营成本，使更多工具方、个人开发者能参与其中，共同打造丰富多样的业务场景，形成良性的组件运营生态。

6. 本文作者

耿杰、春晖、志远等，来自研发质量与效率部研发平台团队。

你可能感兴趣的:(持续交付,devops,ci/cd,架构,持续交付,持续集成,持续部署)

deepseek v1手机端部署哎呀——哪是啥智能手机
在iPhone上部署DeepSeekR11.安装快捷指令：打开iPhone上的Safari浏览器，访问[这个链接](https://www.icloud.com/shortcuts/e0bc5445c39d45a78b90e1dc896cd010)下载快捷指令。下载后，按照提示完成安装。2.获取并配置APIKey：访问[这个链接](https://dev.hkgpt.top/shop/46)获取你
Apache TVM：开源深度学习编译器栈的领跑者计攀建Eliza
ApacheTVM：开源深度学习编译器栈的领跑者tvmOpendeeplearningcompilerstackforcpu,gpuandspecializedaccelerators项目地址:https://gitcode.com/gh_mirrors/tv/tvm项目介绍ApacheTVM是一个专为深度学习系统设计的编译器栈。它旨在弥合生产力导向的深度学习框架与性能和效率导向的硬件后端之间的差
可扩展性设计架构模式——开闭原则 goTsHgo Java 开闭原则 java
1.概述在架构设计中，遵循开闭原则（Open/ClosedPrinciple,OCP）,代码应该“对扩展开放，对修改关闭”是实现可扩展性的关键。这个原则指导我们设计系统时，应使其对新增功能开放，而对现有代码的修改封闭。这样，当系统需求变化或需要添加新功能时，我们可以通过添加新的代码模块而不是修改现有代码来实现，从而减少了对现有系统稳定性和已有功能的风险。底层原理解释开闭原则基于抽象构建架构。系统中
Apache Airflow 全面解析由数入道人工智能 apache Airflow
1.Airflow的定义与核心定位ApacheAirflow是一个开源的工作流自动化与调度平台，由Airbnb于2014年创建，2016年进入Apache孵化器，2019年成为顶级项目。其核心设计理念是“WorkflowsasCode”，通过编程方式定义、调度和监控复杂的数据流水线（Pipeline），适用于ETL、机器学习模型训练、数据湖管理、报表生成等场景。2.核心概念与架构解析2.1核心组件
什么是 ocp架构服务器？OCP架构服务器有什么优势恒创HengHost 开闭原则架构服务器
OCP（OpenComputeProject）架构服务器是基于Facebook发起的一个开源硬件项目，旨在设计和构建高效、可扩展的数据中心基础设施。OCP服务器设计的核心目标是提高硬件的能源效率、降低数据中心的总体拥有成本（TCO），并促进硬件创新。OCP架构服务器具有以下优势：模块化设计：OCP服务器通常采用高度模块化的设计，使得硬件升级、维护和替换变得更加容易，从而提高了数据中心的灵活性和可扩
Spring AI 在微服务中的应用：支持分布式 AI 推理 drebander AI 编程 springAI
1.引言在现代企业中，微服务架构已成为开发复杂系统的主流方式，而AI模型推理也越来越多地被集成到业务流程中。如何在分布式微服务架构下高效地集成SpringAI，使多个服务可以协同完成AI任务，并支持分布式AI推理，是企业面临的关键挑战。本篇文章将探讨：在微服务架构中如何部署SpringAI服务；如何通过分布式AI推理提高推理性能与扩展性；典型应用场景，如电商推荐、智能客服、实时分析等。2.Spri
【PostgreSQL 】运维篇——PostgreSQL 高可用性架构 AI人H哥会Java sql 数据库 postgresql 运维
数据库的可用性和可靠性是至关重要的，随着业务需求的增长，系统必须能够持续运行，并在发生故障时迅速恢复。高可用性（HA）解决方案确保数据库系统能够在出现硬件故障、软件故障或其他意外情况下保持可用性，从而最小化停机时间和数据丢失。PostgreSQL提供了多种高可用性解决方案，包括主从复制、流复制和故障转移。这些解决方案可以帮助企业实现数据的冗余备份、负载均衡和快速恢复。以下是对这些解决方案的详细讨论
Deepseek的api调用报错乱码问题 2301_78002904 AI编程
最近的deepseek也是很火，但是在调用api的过程中也会出现一些大大小小的问题，所以这里也给出一种问题和他的解决方案，报错的类型如下图所示APIStreamingFailedCommandfailedwithexitcode1:powershell(Get-CimInstance-ClassNameWin32_OperatingSystem).caption'powershell'��ڲ
架构师考试系列（２）论文专题：论统一过程开发方法RUP的应用 CoderIsArt 架构设计研究软件架构
摘要：2020年6月，我参加了本公司的“虚拟现实（VR）”（下面称为该项目）平台的开发工作。我在此项目中，作为主要管理人员，担任系统架构师，负责整个项目的架构设计工作。该项目包括素材管理、热点管理、场景管理、VR产品制作、VR产品管理、VR产品展示等相关功能模块。该项目主要采用了RUP开发模型，对项目的开发过程进行规范和改进。本文以该项目为例，结合了作者的实践，讨论RUP(统一过程)在开发中的应用
云原生架构的核心原则：微服务、容器与DevOps zhousenshan 论文素材云原生架构微服务
云原生架构正以前所未有的速度席卷各行各业，成为众多企业迈向高效、敏捷与创新之路的关键力量。据Gartner预测，到2025年，将有95%的新建数字工作负载基于云原生平台，这一数据直观地反映出云原生架构在未来企业技术布局中的核心地位。云原生架构之所以备受瞩目，源于它能充分释放云计算的潜能，为企业带来诸多显著优势。它打破了传统架构的诸多束缚，让应用开发、部署与运维变得更加灵活、高效，极大提升了企业应对
Ceph的原理与架构 stybxiao Ceph ceph
Ceph的原理与架构Ceph的原理与架构Ceph的起源与哲学Ceph的技术Ceph的架构及组件
LoongServe论文解读：prefill/decode分离、弹性并行、零KV Cache迁移 04290629 LLM笔记 transformer 人工智能算法深度学习
LoongServe论文解读：prefill/decode分离、弹性并行、零KVCache迁移LoongServe:EfficientlyServingLong-contextLargeLanguageModelswithElasticSequenceParallelism论文提出了一种支持弹性分配的推理框架，通过引入弹性序列并行（ElasticSequenceParallelism，简称ESP）
【Python进阶】Python中的电子邮件处理：SMTP、IMAP和MIME m 哆哆.ღ python python 服务器网络
1、电子邮件概述1.1电子邮件的工作原理1.1.1邮件服务器与客户端电子邮件的运作基于客户端-服务器架构，用户通常通过邮件客户端软件（如Outlook、Thunderbird等）或者网页版邮件服务（如Gmail、YahooMail等）撰写、发送和接收邮件。邮件客户端负责与邮件服务器进行通信，邮件服务器则承担着存储、转发和管理邮件的任务。当用户编写一封电子邮件后，邮件首先被客户端软件打包并通过SMT
Ceph存储架构详解 wespten 虚拟化技术 SDN NFV 云计算技术 OpenStack 数据库存储块存储文件存储对象存储分布式网络存储 ceph 架构
1、Ceph三大存储接口Ceph能够提供企业中三种常见的存储需求：块存储、文件存储和对象存储。正如Ceph官方所定义的一样“Cephuniquelydeliversobject,block,andfilestorageinoneunifiedsystem.”，Ceph在一个统一的存储系统中同时提供了对象存储、块存储和文件存储，即Ceph是一个统一存储，能够将企业企业中的三种存储需求统一汇总到一个存
秒杀架构-详细 Ybb_studyRecord 笔记架构 java 分布式
秒杀架构秒杀架构秒杀活动的特点要解决的问题涉及技术点问题解决方案瞬时大流量的冲击超卖、少卖问题高可用恶意请求用户秒杀流程图秒杀架构核心：把量变少，限流适当增加机器，重新设计秒杀架构，让普通业务和秒杀业务分离开，秒杀不影响普通业务，分治法，分而治之（分散流量）把量拆开1.在不同地区部署同样的架构+限流，分散流量2.所有静态页全部扔到CDN中，原生支持多地域分散流量秒杀活动的特点1，瞬时大流量所以需要
vLLM源码之分离式架构 Bj陈默架构
一、vLLM分离式架构概述1.基本概念vLLM是一个用于高效地服务大语言模型（LLM）推理的库。其分离式架构是一种创新的设计理念，旨在优化LLM的运行效率。这种架构将模型执行的不同阶段进行分离处理，主要包括请求处理、模型执行和结果输出等关键环节。2.设计目的提升吞吐量。通过分离式架构，可以并行处理多个请求，避免不同请求在处理过程中的相互干扰，充分利用硬件资源，特别是在处理高并发请求时能显著提高系统
RUP：用例驱动、以架构为中心的迭代增量开发模式 zhousenshan 软考-系统架构师架构
1RUP特点RationalUnifiedProcess(RUP)，即Rational统一过程，二维的开发模型，涉及九大工作流，是一种为了满足这些需求而生的开发模式。RUP是一个用例驱动、以架构为中心的迭代增量开发模式，可以帮助我们更好地进行软件开发用例驱动在RUP中，用例是驱动软件开发的主要力量。用例是一种以用户的视角描述系统功能的方法，通常以一组交互的形式表达，定义了系统如何响应外部事件。通过
高并发场景下的秒杀系统架构设计与实现一休哥助手系统架构
引言秒杀系统是一种高并发场景的典型应用，广泛存在于电商平台、抢票系统和促销活动中。秒杀活动的特点是短时间内吸引大量用户同时访问并尝试抢购商品，这对系统的高并发处理能力、稳定性和用户体验提出了极高的要求。在秒杀系统中，常见的挑战包括高并发流量的处理、库存超卖的防范、接口的高效响应以及系统的容错能力等。本文将从秒杀系统的核心需求入手，详细解析秒杀系统的架构设计、实现关键技术及优化方案，为构建高效稳定的
JavaScript逆向高阶指南：突破基础，掌握核心逆向技术不做超级小白 web逆向知识碎片 web前端 javascript 开发语言 ecmascript
JavaScript逆向高阶指南：突破基础，掌握核心逆向技术JavaScript逆向工程是Web开发者和安全分析师的核心竞争力。无论是解析混淆代码、分析压缩脚本，还是逆向Web应用架构，掌握高阶逆向技术都将助您深入理解复杂JavaScript逻辑。本文将通过实战案例，带您探索JavaScript逆向的深层技术原理。1.JavaScript反混淆实战现代Web应用常采用多重混淆技术保护代码，以下为高
【架构设计】如何让你的应用做到高内聚、低耦合？肥肥技术宅 java java 开发语言
前言最近review公司的代码，发现代码耦合程度特别高，修改一处，不知不觉就把其他地方影响到了，这就让我思考该如何让我们写的代码足够内聚，减少耦合呢？"高内聚、松耦合"是一个非常重要的设计思想，能够有效地提高代码的可读性和可维护性，缩小功能改动导致的代码改动范围。它可以用来指导不同粒度代码的设计与开发，比如系统、模块、类，甚至是函数，也可以应用到不同的开发场景中，比如微服务、框架、组件、类库等。本
架构整合要点。 jc_dreaming2 OPEN Spring Struts Java Hibernate XML
整合spring2+struts1.2+hibernate3.2程序要使用spring2,需要spring插件jar包和spring的类库外。1.web.xml配置spring的监听。org.springframework.web.context.ContextLoaderListener通过contextConfigLocation上下文参数指定spring配置文件javax.servlet.j
MVP框架——MvpFrame 码农壹号 mvp架构 mvp 框架设计
MvpFrameMvpFrame是一款是一款MVP通用框架，使用简单，有效的解决项目中的高度耦合性，使项目更有层次结构。版本更新记录版本更新记录前序随着项目的功能迭代，传统的MVC架构已经很难满足开发需求了，高耦合让维护成本变得越来越高，代码冗余程度也越来越高，代码最后变得臃肿不堪。所以，在实际项目中，我们跟多的选择MVP架构。MVP架构是代码结构层次更加清晰、项目更加容易维护，代码耦合性降低了。
Liunx上安装nginx详细步骤以及nginx配置前端页面 a754782427 nginx 前端服务器
1.安装依赖包安装wgetyuminstallwgetyum-yinstallgcczlibzlib-develpcre-developensslopenssl-devel2.下载并解压安装包//创建一个文件夹cd/usr/localmkdirnginxcdnginx//下载tar包wgethttp://nginx.org/download/nginx-1.13.7.tar.gztar-xvfng
【系统架构设计师】隐式调用（事件驱动）架构 Evaporator Core 软考信息系统项目管理师基础班系统架构设计师架构
隐式调用（ImplicitInvocation）架构风格，也被称为事件驱动架构（Event-DrivenArchitecture,EDA），是一种基于事件的软件设计模式。在这种架构中，组件间的交互不是通过直接的函数调用或方法调用来实现的，而是通过事件来进行。这种架构风格强调组件间的松耦合和高内聚，使得系统更加灵活和可扩展。一、隐式调用的基本概念隐式调用架构风格的核心在于事件、事件生成器、事件监听器
分层架构设计概念祈遇& java
技术架构分层设计系统分层设计是一种设计思想（分而治之），是让每层对象都有一个独立职责，再让多层对象协同（耦合）完成一个完整的功能。这样做可以更好提高系统可扩展性,但同时也会增加系统整体运维的难度springBoot技术简介和特性 SpringBoot是Java软件开发框架（很多人现在把它理解为一个脚手架），其设计目的是用来简化Spring项目的初始搭建以及开发过程。该框架使用了特定的注解方式
DeepSeek：LLM在MoE训练中的无损平衡大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：AUXILIARY-LOSS-FREELOADBALANCINGSTRAT-EGYFORMIXTURE-OF-EXPERTS来源：arXiv,2408.15664摘要对于混合专家（MoE）模型，不平衡的专家负载将导致路由崩溃或计算开销增加。现有方法通常采用辅助损耗来促进负载平衡，但较大的辅助损耗会在训练中引入不可忽略的干扰梯度，从而损害模型性能。为了在训练过程中控制负载平衡，同时不产生不希望
为什么要做代码分层架构？我爱娃哈哈趣学设计模式架构设计模式 java
软件程序通常有两个层面的需求：功能性需求，简单来说，就是一个程序能为用户做些什么，比如，文件上传、查询数据等；非功能性需求，这个是指除功能性需求以外的其他必要需求，比如，性能、安全性、容错与恢复、本地化、国际化等。事实上，非功能性需求所构建起来的正是我们所熟知的软件架构。什么是软件架构？简单来说，就是软件的基本结构，包括三要素：代码、代码之间的关系和两者各自的属性。我们都知道，软件架构非常重要，为
UEFI和BIOS 网络战争 linux 运维服务器
UEFI(UnifiedExtensibleFirmwareInterface)是一种用于替代传统BIOS(BasicInputOutputSystem)的固件接口标准。它提供了操作系统和硬件之间的桥梁，负责启动计算机并加载操作系统。与传统的BIOS相比，UEFI具有以下优势：1.容量更大：BIOS由于限制在16位模式下，其容量和功能有限。而UEFI采用64位的方式运行，可以支持更多的功能和技术。
bkcrack安装 x0da6h 网络安全
bkcrack是一款破解密码算法工具在ctf中主要用于破解压缩包密码本文主要介绍它的下载、安装方法先从github获取资源，windows中安装bkcrack还需要额外安装VC++的Redistributablegitclonehttps://github.com/kimci86/bkcrack.git然后配置cmake工具，需要用到cmake手动构建brack的项目代码pipinstallcma
02.DockerCompose部署Nginx Felix_XY DockerCompose Nginx nginx docker docker compose
目录参考链接获取镜像单机部署(bridge模式)单机部署(host模式)单机部署使用templates配置nginx.conf官方镜像支持的环境变量准备template文件创建docker-compose.yml验证转载请注明出处参考链接https://hubgw.docker.com/_/nginxhttps://devopsian.net/p/nginx-config-template-wit
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h