字节跳动云原生计算

从100w核到450w核：字节跳动超大规模云原生离线训练实践

本文整理自字节跳动基础架构研发工程师单既喜在 ArchSummit 全球架构师峰会上的演讲，主要介绍字节跳动离线训练发展的三个阶段和关键节点，以及云原生离线训练中非常重要的两个部分——计算调度和数据编排，最后将结合前两部分分享字节跳动在实践中沉淀的4个案例。

作者｜单既喜-字节跳动基础架构研发工程师

业务背景

云原生离线训练框架支撑了字节跳动内部“推荐”“广告”“搜索”等场景，如头条推荐、抖音视频推荐、穿山甲广告、千川图文广告、抖音搜索等业务的超大规模深度学习训练——以上场景的机器学习训练均是基于 Primus 训练框架完成。

整个机器学习生态从上到下分为“平台层”“框架层”“资源层”3个部分。字节跳动算法工程师使用 Reckon 训练平台完成了模型编写、训练、上线的全部过程。Reckon 训练平台中包含基于 TF 深度优化定制的 4 大深度学习框架——Lagrange 框架、Lagrange-Lite、蒲公英、美洲豹，这4个框架均通过 Primus 框架进行托管。

在托管观察中，Primus 作为分布式机器学习调度与数据融合框架，实现了云原生训练框架部署、分布式训练数据读取的全部过程，Primus 框架以云原生的方式运行在 YARN 和 Kubernetes 调度系统中，并通过 HDFS、FeatureStore 等方式获取训练数据交给 TF Worker 进行训练

字节跳动在离线训练方向的发展历程

云原生计算是软件开发中的一种方法，它利用云计算“在现代动态环境（例如公共云、私有云和混合云）中构建和运行可扩展的应用程序”。通过声明性代码部署的容器、微服务、无服务器功能和不可变基础设施等技术是这种架构风格的常见元素。

字节跳动在云原生离线训练方向的发展大概分为三个阶段：单角色云原生训练 1.0，多角色云原生训练 2.0，云原生训练 3.0 三个阶段。

单角色云原生训练 1.0

离线训练框架 1.0 系统诞生于2015年10月（内部代号 Zion）。

离线训练 Zion 框架是基于 Hadoop Streaming 架构在深度学习场景下的深度定制，每个训练作业对应一个 Hadoop YARN 上的 Zion 任务，具有（PS-Worker）架构分布式训练器、多数据格式多数据源混合训练、HDFS 样本读取、训练训练进度 Checkpoint 功能。

（PS-Worker）架构分布式训练器基于 Google 的 Tensorflow 框架深度定制，主要采用 Worker-PS 架构进行训练。此架构分为 PS 端与 Worker 端两个部分——其中 PS(ParameterServer) 是参数服务器，主要功能是存储并更新参数；Worker 是模型训练器，按训练数据分片，主要功能是读数据，对变量求梯度。

离线训练框架 1.0 对每个模型创建一套 Worker 实例，每个实例 Worker 和预部署在 Mesos 上的服务化 PS 完成通讯、读取样本、计算梯度、模型 Dump 的全过程。

离线训练框架 1.0 于 2019 年进行了系统级重构，新一代离线训练框架 2.0 增加了“多角色弹性调度”“多角色 Failover 能力”“训练进度增量 Checkpoint ”等功能，提供“灵活”“高效”“易用”的模型训练能力。

多角色云原生训练 2.0

在 “云原生训练 1.0” 实施过程中，我们发现了很多影响系统稳定性、易用性、维护性的问题。

问题1：训练作业调度集中化问题

字节跳动所有的离线训练作业管理都是基于集中式的训练调度服务（对应开源系统的 TF-Extend）。这个调度服务通过轮训的方式，完成每个训练作业的 PS 资源和 YARN 资源申请，如 PS 模型加载、YARN 训练任务创建、PS 模型保存等整个训练声明周期的各项工作，因此随着训练作业的增加，集中式调度出现了性能瓶颈，且调度服务的升级与不稳定等影响了较多的训练作业运行。

问题2：PS 资源与 Worker 资源匹配问题

离线训练 1.0 阶段，公司所有的 PS 均通过服务化的方式申请使用。采用服务化的方式是为了解决 PS 分片修复、服务扩容、分片 Reshard 等需要复杂运维操作的问题。同时，通过服务化方式也可以实现多个训练作业 PS 资源共享，提高物理机资源利用率。

但是，随着业务量的增长，服务化 PS 逐渐暴露出了与训练 Worker 难匹配的问题：

资源不匹配：新增的训练物理资源需要分别充值到 PS 服务端并上线，同时充值到 YARN 服务中才能进行训练；
网络不匹配：需要解决服务化 PS 与 YARN 训练资源之间的跨机房、跨网段导致的通讯开销。

离线训练 2.0 增加了独占式的 API Server ，用于提供云原生分布式调度能力：

伴生式训练管理 Norbert Driver：将每个核心调度中枢的作业都配备对应的调度大脑，通过声明式的 API Server 控制每个调度的拓扑——Worker 角色和 PS 角色。
声明式 API Server：在每个离线训练 Job 中，都内建了一个独占式的 API Server。Norbert 训练管理 Driver 大脑通过声明式 API Service，发布控制训练拓扑、动态添加数据源、动态创建角色等训练需求；Primus 框架 Watch 并响应声明，完成重新申请容器、重新规划角色、重新构建 Task 等具体工作。
伴生式 Parameter Server：声明式 API Server 创建的伴生 PS 角色，实现每套训练作业专属自己的 Prameter Server，能够支持 PS Shard Failover、自动 PS 分片 ReHash、PS 资源弹性扩缩容等能力，彻底解决了服务化 PS 和训练 Worker 的资源匹配难题。

基于云原生训练的 2.0 架构，字节跳动离线训练的作业规模从 2020 年至 2022 年，实现了从 150 万核到 400 万核的突破，并且与 Flink、Spark 一起成为公司离线 YARN 集群的 TOP 计算框架。

云原生离线训练 3.0

云原生训练 2.0 资源部署在字节跳动深度定制的离线调度 YARN 集群中。为进一步实现离线在线资源并池、离线与在线训练统一，云原生离线训练 3.0 基于 Operator 架构增加了对 Kubernetes 运行环境的支持，实现了 YARN+Kubernetes 的云原生多 Runtime 训练。

当内部大量资源从 YARN 迁移到 Kubernetes 后，系统不再为每个作业都产生一个 API Server 而是复用 Kubernetes 集群的全局 API Server，由 Norbert Driver 向全局 API Server 发布训练需求声明。

3.0 阶段整个离线训练的框架拓扑可以达到每天 10000 Job 的量级，单最大作业数 4000 个，每天 400 万 vCore 的总量。框架同时支持 YARN Runtime 与 K8s Runtime 等多种Runtime，目前已经有约 160 万核的离线训练作业部署在 Kubernetes 集群上（占总训练量的40%）。

云原生离线训练-弹性调度

字节跳动云原生离线训练包含了两个重要的组成部分——弹性调度和数据编排。

弹性计算调度简述

云原生的计算调度体系是通过字节自研的 Primus Operator 打造实现的，具有以下四个特点：

容器化：在 Kubernetes 和 YARN 上大规模践行容器化带来的隔离和环境准备方面的优势；
弹性 API-Server：通过自研的 API Server 在 Kubernetes 上复用 API Server 的形式实现弹性作业调度的能力；
多角色+异构：不仅能调动 CPU 还能调动有状态的 GPU，实现多角色异构架构的能力；
微服务：实现调度 Operator 及神经中枢 Norbert 微服务之间的通讯互联。

Primus Operator 总体基于开源 Cookie Builder 架构，拥有四个流转状态：首先观察整个 Job 的状态，然后将状态 Update 到 Job CRD 的 Status 内，再去查看用户/作业需求方的作业拓扑期望，计算需要申请的 POD 资源，最后在 Reconcile 时实现第二步 Update 结果和第三步 Compute 期望值之间的协调，从而完成整个状态的流转。

弹性计算调度架构

每个 Job CRD 都有 Spec 和 Status 两个部分，为了实现多角色调度，我们进一步打造了 CRD 家族。除了上文提到的 Job CRD，每个 Job 会关联若干个 PrimusRole CRD。同时针对数据部分，我们抽象了 PrimusData CRD。在 PrimusRole CRD 中，每一个角色都对应一个 Role 的 CRD。所有 Primus Job 的拓扑最终被协调出来的结果，就是在 Kubernetes 或者 YARN 中的一个作业框架（如上图下方）。

我们可以看到，TensorFlow 和 PS Worker 等相关的作业都被创建出来，同时每一个 Job 都有自己的总控中枢，即我们基于 Java 写的 Primus AM Pod。这个中枢主要负责协调整个过程、记录训练进度、提供 UI 展示、记录历史过程。基于这样一个体系，我们完成了 Primus Job 的创建。

Primus Job 创建成功后，当某一个副本失败时，我们就可以通过调度大脑获取到当前副本的信息，每个角色对应的若干副本，多个角色就组成了整个弹性调度的拓扑。

下面来看弹性调度策略到底有多弹性？我们为了弹性调度都解决了哪些问题？

针对原生的 TensorFlow，我们将其分为自研的 Dynamic 策略和针对原生 TensorFlow 的刚性策略：

原生的 Dynamic 策略指角色可以动态地互相服务，可以在任何时刻重启角色，不要求所有角色重启之后才能开始训练；
刚性策略指对于原生的 TensorFlow 需要支持 Work 和 PS 服务的互相发现，所以基于这种策略，在所有角色都申请到资源后统一发送启动命令，实现 IP 加端口的相互传递。

后面我们引入了 Order 策略，以弹性的方式申请 Worker 角色，大大减少等待的周期，避免了在等待过程中造成的资源浪费。

弹性计算调度应用

应用1：训练 SlowStart 优化模型训练

针对 Worker 无状态的 Sailor 角色，我们采用弹性声明，通过不断修改 API Server 控制角色内的副本数进行训练。

在开始阶段，我们以两个副本的方式进行慢速训练，使模型快速找到局部最优状态。

模型趋于稳定后，我们再不断地扩展模型 Worker 的数量，实现大吞吐的模型训练，从而提高模式训练的速度。

应用2：Gang 性多角色调度支持

针对有状态的 Parameter Server 的角色，我们引入了刚性的申请策略：

在 YARN 集群上，通过修改 YARN 调度器实现了 GangScheduler，支持对 PS 拓扑的资源 Gang 性申请与释放；
在 Kubernetes 集群上，通过自研的 Pod Group 实现了 PS 角色的精细化资源管理，同时支持了调度打散、最小 Gang 性数量、调度亲和与反亲和策略等复杂场景的 PS 调度需求。

应用3：超大规模的在离线混部训练

混部 Smart Resource：弹性调度不仅控制角色数量的多少，并且可以控制角色的规格，从而提升集群利用率，比起通过声明式的 API 动态修改角色的规格，Smart Resource 将混部资源的利用率从20%提升到了70%；
潮汐/反潮汐策略：资源利用存在高峰和低谷，针对这一情形，我们应用了面向 API Server 的弹性调度机制——在在线业务低峰时，我们有资源用于训练，于是我们就拉起更多角色，提高训练效率；在在线业务的晚高峰时，我们又会把训练资源缩容到0，把离线训练的机器学习暂时挂起，出让资源去支援在线业务，如抖音、头条的推荐，但此时 Job 还是正在运行的。借此，我们达到了更好地节省资源和开支、提高资源集群利用率的目的。

云原生离线训练-数据编排

在离线模型训练中，训练样本数据管理、读取、加工等对模型训练起到了至关重要的作用。

样本数据在字节跳动内部不同场景下存放在不同的系统中——有存储在 HDFS 中的文件类样本资源，也有存在 Kafka 里的流式训练样本资源，还有团队自研的 Feature Store 样本资源。

云原生离线训练框架（Primus）同时覆盖多种数据源的编排，支持不同数据源在天、小时、分钟级的编排策略；能够实现上面提到的三个训练资源中的交叉组合、过滤、打散、对齐等丰富数据编排能力。

同时，在元数据编排过程中，训练框架有新数据的感知和增量编排能力。Primus通过持续扫描 HDFS 和 Feature Store 的新增数据进行模型更新，保证训练效果能够匹配用户最新行为。

多数据源训练元数据编排

在广告等 CVR 转化模型中，天然地需要对同一用户不同 APP 上的行为数据进行建模并预测。

字节跳动的算法工程师依托云原生离线训练的数据编排能力，对抖音、头条和西瓜业务的三个数据源进行了建模训练，每个数据源分别按 00 小时、01 小时、02 小时进行存储，同时在头条和西瓜中每个小时都进行一次聚合，最终达到在 00 小时分别消费了头条、西瓜和抖音的一个数据，而在第 01 小时通过多个数据源的重新排列，避免了模型编排的趋向性，在第 02 小时进一步进行数据源打散。

这个例子充分展示了我们在 Partition 内 Shuffle，按小时 Group By，以及持续追新的能力。

训练样本元数据管理

在样本元数据分发阶段，我们将多个元数据组成了 DataStreamA，在流式阶段叫 DataStreamB，这是一个多阶段训练的过程。这两个 DataStream 都组成了同一个 PrimusData CRD。

DataStream 里的若干个 DataSource 被按天、按小时聚合之后，会通过 Primus AM 实现文件的切分，切分的力度是按天、按小时聚合之后的原始 HDFS 路径或者 Feature Store 目录。切分的结果是若干个 Split 通过心跳的方式下发 Task 到 Executor。
随着心跳，我们还会每时每刻回发当前训练中 Task 的消费进度，以方便 FellOver 的时候，我们能够从断点当中继续消费来进行训练。同时，训练的进度被 Primus AM 记录到 HDFS 中，并且持久化，以方便整个 Application 挂掉之后，我们可以从 HDFS 的训练状态当中得到恢复。

跨进程数据传输实践

基于匿名管道的数据传输：Executor 里有两个进程，一个是 TensorFlow Worker，用于从管道里读取我们通过 HDFS 解析之后的样本数据；另一个是 Executor JVM 数据进程，进行 HDFS Client 读取后，将序列化的样本通过 Linux 匿名管道传输给 TensorFlow Worker 进程。

在实践过程中，我们发现匿名管道天然存在两个问题：跨进程通讯和多个 Producer 竞争抢锁，由此也就增加了从用户态到内核态拷贝的开销和资源竞争的问题。

高级数据传输方式：如 Domain Socket，我们采用 Producer 和 Worker 通过两个 TCP Socket 传输的方式，避免了多个 Producer 的管道竞争，但这样依然会存在内核带的拷贝以及序列化和反序列化的开销。随后，我们引入了跨进程之间 Share Memory 机制，做到了多进程管理。最后我们采用 JNI 统一进程机制合并两个进程，实现了样本读取、加工、传输全流程 Lib 化，彻底解决了跨进程之间的 IPC 开销。

案例与最新实践

上文阐述了我们在数据编排和计算调度方面的积累与沉淀，下面介绍我们将这两部分组合起来，同时结合业务的需求，在实践中进行运用的重要案例。

从服务化 PS 到云原生全伴生 PS

在 1.0 阶段，我们没有将 PS 纳入到云原生中，而是采用了服务化的 PS，这种方式存在如下弊端：

需要同机房撮合
资源利用率低
运维与部署难度大
隔离性差（网络、内存带宽、CPU）

于是我们就引入了云原生化的 PS on YARN/K8s SavePoint，即伴生 Parameter Server 训练机制，这一演进同时也伴随着我们的作业规模从 150 万核到 400 万核的增长。我们在这一阶段实现了如下功能：

PS 拓扑刚性调度：在 YARN 和 Kubernetes 上都实现了 PS 刚性申请和刚性调度；
服务发现 (consul -> 自研）、健康检查：通过自研的声明式 API Server 实现了服务发现，同时实现了 Parameter Server 的健康检查、定时检查以及故障恢复机制；
单作业 + 容器化部署：基于容器化的方式隔离不同的 Parameter Server，避免它们 CPU 利用之间的相互干扰；
PS 进程 Numa 隔离：Numa Bind：避免 CPU 跨 Numa 访问内存带来的性能退化；
PS SavePoint 机制：定时记录 Parameter Server 目前整个拓扑中最新的模型状态；同时我们为数据也设置了 SavePoint 机制，将两个检查点进行对齐和同时恢复，从而实现伴生 Primus Server 训练的异常恢复；
全链路 Incremental Checkpoint：不止 Parameter Server 可以增量 Checkpoint，训练 Worker 也可以增量 Checkpoint，这就意味着在任何时刻，当一台 Primus Server 发生故障之后，它只需用增量的方式去恢复这一个单点即可；
PS Smart Resource 机制：不断地压缩 Parameter Server 声明规格和它的使用规格之间的 Gap，提高集群的利用率。

PrimusFlow 训练数据实时预处理

在模型的调研中一般会面临的问题是：一个等待和两个浪费——即 Spark 预处理的等待、模型训练过程中 Spark 计算的开销和存储的开销。

为此，我们引入了伴生数据预处理的模型训练机制——PrimusFlow。一方面，它可以支持丰富的数据源，任何一个被 Spark 预处理的数据源，都可以被 PrimusFlow 机制处理，我们通过 Spark 读取，Load 中间状态进行训练。另外，PrimusFlow 支持更丰富的调研模式，支持行级 Shuffle，我们可以进行数据预处理，按行或按某个用户 ID 进行加工处理，以此来提升模型训练效果。

此外，我们采用多数据流编排，先对 Spark 进行预处理，在下一个阶段用上一个 Spark 预处理的结果进行模型训练，同时在这一阶段并行进行第二个单元的 Spark 预处理，由此真正实现了无需等待的单元调度模式。

通过 PrimusFlow 机制，加上行级 Shuffle 的能力，我们在非常多的场景中都取得了模型效果提升 10% 以上的收益，并且在国外很多场景进行了落地。通过上述方式，我们解决了一个等待和两个浪费的问题。

训练批流一体架构

在实践过程中，我们发现批式处理框架也有流式消费的能力。目前的模型建模，一方面是烧脑建模，另一方面是烧卡建模。离线训练在不断地烧卡，同时流式训练过程中也需要烧卡，这主要是因为现有的 Flink 流式训练消费已经无法满足晚高峰时抖音推荐里复杂模型需要的训练能力，因此就需要增加算力，引入 GPU 资源。但 Flink 并不支持异构角色的 Task Manager，而 Primus 天然就是一个异构多角色的训练框架。

基于上述需求，我们在 Primus 中加入了流式训练的能力，打造了多角色异构的流式训练框架，同时支持 GPU 调度、伴生的 API Server 及故障恢复，同时我们实现了 All to All 的 Shuffle 能力，即引入 Rebalance 机制提高流式训练的能力。

此外，因为 Primus 框架本身就是批流协同的框架，既能够支持多角色 GPU 的批训练，也能够支持多角色异构的流训练，在离线训练完毕之后，能够直接切换到流式训练阶段去复用同一个 Partition Server，我们以此实现了流批协同和流批一体的目的。

Primus Native 样本数据传输 Library

Primus Native 系统是针对字节跳动深度学习的数据子系统增强，分别在 Data Master 部分和 Data Executor 部分进行了云原生改造，发展为更加灵活、更加高效的深度学习数据引擎。

元数据 Meta Manager 编排部分：我们不仅引入了声明式 API，也引入了 Python for Java 的 Gateway 架构，这个架构支撑起了 Primus Native 的数据声明体系。相比于声明式 API 的数据定义方法，Python Gateway 架构在灵活性+扩展性方面更有优势：

用户可以更加灵活的利用 Primus Native Python UDF 灵活控制样本按文件时间排列、按特定字段排列等高度自由的样本文件编排策略；
实现了 Python 数据和 Java 数据的灵活转换，训练器可以更好地获取当前任务编排和任务消费样本的详细信息，灵活地进行训练效果评估、抽样等操作。

训练 Worker 读取部分：我们引入了 SO 化的数据传输机制，合并两个进程到一个训练进程内部，彻底免除了序列化和反序列化的开销、用户态到内核态的数据拷贝，也节省了云原生环境下单容器内多进程的维护难度。

通过上述优化，针对一个标准推荐训练任务：

总吞吐量从 3.3GB/s 提升至 13.5GB/s，提升了4倍；
单节点吞吐率从 411MB/s 提升到 1.2GB/s，提升了4倍；
CPU 使用率从 2.25 核心提升到 5.25 核心，提升了2.3倍。

总结

综上所述，我们在本文中阐述了字节跳动离线训练发展的三个阶段，以及云原生离线训练中非常重要的两个部分——计算调度和数据编排，最后结合前两部分分享了字节跳动在实践中沉淀的重要实践案例。

喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
开发岗一干就是10年，中年危机又迷茫咋办？
非计算机专业毕业的我，能在开发岗位干十年，现在又成功转型到项目负责人，属实不易，一路走来充满了努力和机遇。作为一个奔四的人，在而立和不惑之间，我想写几条忠告给马上就要经历这些，和正在经历这些的人。以下内容写给普通人和普通岗位：1.你认为错误的方案同样会有正确的结果，甚至更好。《这就是马云》书中讲了一个马云的故事：在一次会议上，有员工问马云：“马总，如果您的决定，出现了明显的错误，谁来制衡您？”马云
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
大文件断点续传 reiraoy spring
断点续传在浏览器中实现“刷机后不丢失”需要综合考虑前端和后端的设计。以下是实现思路和常用方案：使用唯一文件标识（文件哈希或唯一ID）：在上传前，计算文件的唯一标识（如MD5、SHA-1等）或由用户提供的唯一ID。通过存储在浏览器本地（localStorage、IndexedDB）中的上传状态，记录已上传的片段或进度。断点续传机制（块级上传）：将文件切分成多个块（chunk），每个块单独上传。在上传
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
操作系统NUMA架构下的内存一致性优化操作系统内核探秘架构 perl 开发语言 ai
操作系统NUMA架构下的内存一致性优化关键词：NUMA架构、内存一致性、缓存一致性、多核处理器、性能优化、操作系统调度、内存访问延迟摘要：本文深入探讨了NUMA(Non-UniformMemoryAccess)架构下的内存一致性优化问题。我们将从基础概念出发，逐步分析NUMA架构的特点、内存一致性的挑战，以及操作系统层面的优化策略。通过实际代码示例和性能分析，帮助读者理解如何在高性能计算环境中有效
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
GitHub Actions × AWS 集成终极指南：从零构建安全高效的CI/CD流水线 ivwdcwso 运维与云原生 github aws 安全 GitHub Actions DevOps CI/CD
引言：云原生时代的自动化革命在DevOps实践中，GitHubActions与AWS的深度集成已成为现代应用交付的黄金标准。这种组合让开发者能够：✅实现端到端自动化：从代码提交到生产部署的全流程自动化内置企业级安全：通过OIDC消除密钥泄露风险优化资源成本：按执行分钟计费，无闲置资源浪费加速迭代速度：将部署时间从小时级缩短至分钟级本文将全面解析最佳实践、安全策略和高级技巧，助您构建工业级CI/CD
elkai库高效求解旅行商（TSP）问题（Pycharm23.01）一九天虚 python tsp问题旅行商问题
技术文档摘要简介本技术文档描述了一个基于elkai库实现的‌旅行商问题（TSP）求解与可视化工具‌，用于计算给定城市坐标的最优路径并展示结果。以下是核心功能与技术实现要点：1.‌核心功能‌‌TSP求解‌：通过elkai库高效求解城市坐标的最优访问顺序，最小化总路径成本。‌路径可视化‌：基于Matplotlib绘制路径图，动态标注起点、城市序号及路径走向。‌结果分析‌：输出路径总成本（目标值）及城市
网络安全人士必备的30个安全工具_在网络安全方面,有哪些必备的安全软件和工具（非常详细）从零基础到精通，收藏这篇就够了！
1.WiresharkWireshark（前称Ethereal）是一个网络封包分析软件。网络封包分析软件的功能是截取网络封包，并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口，直接与网卡进行数据报文交换。2.MetasploitMetasploit是一个免费的、可下载的框架，通过它可以很容易地获取、开发并对计算机软件漏洞实施攻击。它本身附带数百个已知软件漏洞的专业
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
【AIDD药物研发】张载熙-生成式AI4药物发现静静喜欢大白医疗影像人工智能 AIDD 药物研究药物生成生成
目录1、简介2、生成式AI用于基于结构式的药物发现背景生成用于靶标结合的类药小分子功能性蛋白质的生成与优化其他新的药物形式及生物安全/安全性小结3、参考4、补充学习资料1、简介最近需要简单了解喜爱AIDD流程以及相关进展调研，看到zaixizhang正在做相关研究，进行下面的学习记录张载熙中国科学技术大学计算机科学与技术学院2021级博士生（导师刘淇教授），认知智能全国重点实验成员，本科毕业于中国
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
解锁阿里云ACK：开启Kubernetes容器化应用新时代云资源服务商阿里云云计算云原生
引言：云原生时代下的ACK在当今数字化飞速发展的时代，云原生技术正以前所未有的速度改变着软件开发和部署的格局。随着企业对应用敏捷性、弹性扩展以及成本优化的需求日益增长，云原生已成为众多企业实现数字化转型的关键路径。在云原生的技术体系中，容器编排技术无疑是核心之一，而阿里云Kubernetes版（ACK）则是这一领域的佼佼者，为企业提供了强大、高效且易于管理的容器编排解决方案。Kubernetes作
Unity-MMORPG内容笔记-其三 KhalilRuan 笔记
继续之前的内容：战斗系统无需多言，整个项目中最复杂的部分，也是代码量最大的部分。属性系统首先我们要定义一系列属性，毕竟所谓的战斗就是不断地扣血对吧。属性系统是战斗系统的核心模块，负责管理角色的所有属性数据，包括初始属性、成长属性、装备加成和Buff效果，并通过多阶段计算得出最终属性值。系统支持属性实时更新，当角色等级提升、装备变化或Buff增减时，会自动重新计算并同步属性数据。属性含义说明-Max
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
踏入真实：具身智能与物理世界的认知交响
当大型语言模型在文本的海洋中纵横捭阖，生成式AI在数字画布上挥洒创意时，人工智能仍有一个根本性的疆域尚未完全征服——真实的三维物理世界。理解一个苹果，不能仅靠词向量坐标；学会行走，无法通过阅读说明书达成；在拥挤的街道导航，远非处理符号逻辑那般简单。智能的进化，自生命诞生之初，便与具身性（Embodiment）和环境交互（Interaction）密不可分。我们的认知、学习、乃至意识的雏形，都源于身体
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
分布式系统核心概念与Go语言实现方案学历真的很重要 golang 面试开发语言 go 职场和发展
GoGoGo，出发咯！一、分布式系统1.分布式系统基础概念定义：分布式系统由多台计算机通过网络连接协同工作，对外表现为单一系统。核心特点：包括可扩展性、一致性、高容错性和透明性。Go语言凭借高并发、轻量级协程（goroutine）和简洁的同步机制（如channel），成为构建分布式系统的理想选择。2.分布式系统的关键特性高容错性：部分节点故障不影响整体服务。可扩展性：通过增加节点横向扩展处理能力。
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
【动态规划】一次性整理子序列问题题型系列，八个例题实战详细解析（包含我自己精心整理的动态规划解题思路） ngioig 动态规划 leetcode 算法职场和发展后端
前言最近刷了子序列系列的题型，一共八个力扣题，这里对子序列问题进行一个简单的总结，全是动态规划的解法，当然里边有些题选有更优的解法。1.动态规划解题思路动态规划（DynamicProgramming,DP）是一种在计算机科学和数学中用于解决最优化问题的方法。它特别适用于可以分解为互相重叠的子问题的问题，并且这些子问题的解可以被存储起来以避免重复计算，从而提高效率。首先，我们要熟悉动态规划的套路也要
树的分裂操作的性能评估 hi error.cn 经验分享
树的分裂操作的性能评估在计算机科学中，树是一种常用的数据结构，广泛应用于文件系统、数据库索引等场景。树的分裂操作是维护树平衡性和高效性的重要手段之一。本文旨在对树的分裂操作进行详细的性能评估，探讨不同实现方式下的表现和优劣。树的基本概念树是由节点（Node）组成的一种层次结构，其中每个节点包含一个值以及指向其子节点的指针。常见的树类型包括二叉搜索树、B树、红黑树等。分裂操作通常用于处理超过最大节点
网络拓扑结构对云计算性能的影响 hi error.cn c语言 java 数据库经验分享
网络拓扑结构对云计算性能的影响在现代信息技术环境中，网络拓扑结构扮演着至关重要的角色，它直接影响着云计算服务的性能和效率。网络拓扑结构不仅决定了数据在网络中的传输路径，还影响了系统的服务可用性、响应时间和安全性等方面。因此，在设计和优化云计算环境时，了解并合理选择合适的网络拓扑结构显得尤为重要。网络拓扑结构的基本概念网络拓扑结构是指网络中各个节点（如服务器、客户端等）之间的连接方式，它决定了数据在
使用 C++/OpenCV 和 MFCC 构建双重认证智能门禁系统
使用C++/OpenCV和MFCC构建双重认证智能门禁系统引言随着物联网和人工智能技术的发展，智能门禁系统在安防领域的应用越来越广泛。相比于传统的钥匙、门禁卡或密码，生物识别技术（如人脸识别、指纹识别、虹膜识别等）提供了更高的安全性与便利性。然而，单一的生物识别方式在某些场景下可能存在安全隐患。例如，人脸识别可能被高清照片或视频欺骗（称为“欺骗攻击”），在光照、姿态变化剧烈时识别率也可能下降。为了
告别烦人的休眠：Ubuntu 20.04 彻底禁用自动休眠的七种武器芯作者 D2：ubuntu linux ubuntu
系统休眠就像那个过于热心的同事——在你专注工作时突然关掉你的电脑，还一脸无辜地说"我以为你不需要了"**。本文将为你提供七种专业解决方案，彻底驯服Ubuntu20.04的休眠机制。一、为什么我们需要禁用自动休眠？想象这些场景：深夜挂着下载大文件，早上发现下载中断远程服务器运行着关键任务，突然失联科学计算跑了三天三夜，结果因休眠前功尽弃在线会议中途屏幕突然变黑Ubuntu的休眠机制设计初衷是节能，但
PHP接单涨薪系列（九）之计算机视觉实战：PHP+Stable Diffusion接单指南（2025高溢价秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI php 计算机视觉 stable diffusion
案例场景某电商公司使用本方案后，产品图制作成本降低90%，广告转化率提升35%，单月节省设计费用超¥80,000。本文将彻底解密如何用PHP+AI视觉技术接取高单价设计外包，让你在竞争激烈的市场中脱颖而出！一、视觉设计市场的AI革命1.1传统设计vsAI设计设计任务传统流程AI流程需求沟通初稿设计反复修改最终交付AI生成微调即时交付2025年设计市场数据对比：指标传统设计AI设计提升幅度单图制作时
【云原生技术】代码解析-Jenkinsfile 脚本在流水线里调用 SonarScanner CLI，把代码分析结果上传到 SonarQube 服务器阿寻寻云原生 kubernetes 容器服务器
下面这段Jenkinsfile脚本是在流水线里调用SonarScannerCLI，把代码分析结果上传到SonarQube服务器。逐行解释如下：sh"""$SCANNER_HOME/bin/sonar-scanner\#①调用SonarScanner，可执行文件放在SCANNER_HOME/bin-Dpmd.skip=true\#②跳过PMD规则集（如果只想跑Sonar内置规则）-Dmaven.te
多线程和JUC
进程进程就是正在运行的程序，是系统进行资源分配和调用的独立单位。每一个进程都有他自己的内存空间和系统资源多进程意义在于计算机可以执行多个任务，提高cpu使用率我们在一边玩游戏，一边听音乐的时候，是cpu在做着程序间的高效切换让我们觉得是同时进行的注意：很多多线程是模拟出来的，真正的多线程是指有多个cpu，即多核，如服务器。如果是模拟出来的多线程，即在一个cpu的情况下，在同一时间点，cpu只能执行
python定义向量内积_Python 设计一个向量类，实现数据的输入、输出、向量的加法、减法、点积、夹角等计算... weixin_39927623 python定义向量内积
Python设计一个向量类，实现数据的输入、输出、向量的加法、减法、点积、夹角等计算练习题2018.10.25importmathclassVectors:def__init__(self):self.x1=0self.x2=0self.y1=0self.y2=0self.x=self.x2-self.x1self.y=self.y2-self.y1defadd(self):self.x1=int
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。