阿里云云原生

Koordinator 异构资源/任务调度实践

作者：李涛（吕风）

前言

Koordinator 是阿里云基于过去我们建设的统一调度系统中积累的技术和实践经验，对外开源了新一代的调度系统。Koordinator 支持 Kubernetes 上多种工作负载的混部调度。它的目标是提高工作负载的运行时效率和可靠性（包括延迟敏感型负载和批处理任务）。Koordinator 不仅擅长混部场景，也同样支持大数据、AI 训练等任务调度场景。本文分享了使用 Koordinator 支持异构资源管理和任务调度场景的实践经验。

AI/LLMs 带来新机遇和新挑战

从 2022 年 11 月 ChatGPT 发布到现在，ChatGPT 所引起的关注、产生的影响可能已经超越了信息技术历史上的几乎所有热点。众多业界专家都被它征服，比如阿里云 CEO 张勇的看法是：“所有行业、应用、软件、服务，都值得基于大模型能力重做一遍。”NVIDIA CEO 黄仁勋称它带来了 AI 的 iPhone 时刻。ChatGPT 开启了新的时代，国内外的企业和科研机构纷纷跟进，几乎每周都有一个甚至多个新模型推出，从自然语言处理、计算机视觉到人工智能驱动的科学研究、生成式 AI 等，应用百花齐放；大模型成为业务提效和打开下一个增长点的关键。同样对于云计算、基础设施、分布式系统的需求也扑面而来。

为支撑百亿级、千亿级别参数量的大模型训练需求，云计算和基础设施需要提供更强大、可扩展的计算和存储资源。大模型训练依赖的的核心技术之一是分布式训练，分布式训练需要在多个计算节点之间传递大量的数据，因此需要一个带宽更高、延迟更低的高性能网络。为了发挥计算、存储和网络资源的最佳效能，保障训练效率，调度和资源管理系统需要设计更合理的策略。在此基础上，基础设施还需要在可靠性上持续增强，具备节点故障治愈和容错能力，确保训练任务的持续运行。

大模型训练离不开异构计算设备，典型的就是我们熟知的 GPU。在 GPU 领域，NVIDIA 仍然占据着主导地位，其他厂商如 AMD 和国内的芯片制造商的机会在努力追赶。以 NVIDIA 为例，其强大的产品设计能力、扎实的技术实力和灵活的市场策略使其能够快速推出更优秀的芯片，但产品间的架构差异较大，例如 NVIDIA A100 型号和 NVIDIA H100 型号的系统架构差异十分明显，使用方式上也存在许多需要注意的细节，这给上层的调度系统和资源管理系统带来了不小的挑战。

Koordinator+KubeDL 的强强联合

我们在阿里云支撑的大模型训练场景中，使用了 Koordinator 来解决基本的任务调度需求和异构设备资源管理需求。同时，使用 KubeDL 管理训练作业生命周期和训练作业排队调度需求。

Koordinator 不仅擅长混部调度场景，还针对大数据、AI 模型训练场景，提供了包括弹性 Quota 调度、Gang 调度等通用的任务调度能力。此外，它还具备精细化的资源调度管理能力，不仅支持中心化分配 GPU，还能感知硬件系统拓扑分配资源，同时支持 GPU&RDMA 的联合分配和设备共享能力。

我们选择使用 KubeDL 来管理训练作业生命周期，是因为它不仅在支撑了内部大量 AI 领域相关场景，而且得益于其优秀的设计和实现都十分优秀，可运维性、可靠性和功能扩展性都非常出色，自身是一个统一的 controller，可以支持多种训练工作负载，如 TensorFlow、PyTorch、Mars 等。此外，它还可以适配不同调度器提供的 Gang 调度能力，可以帮助已经使用 KubeDL 项目的存量场景平滑的切换到 Koordinator；KubeDL 还内置了一个通用的作业排队机制，可以有效解决作业自身的调度需求。

Koordinator 和 KubeDL 的强强联合，可以很好的解决大模型训练的调度需求。

Job 调度

Job 是一种更高层次的抽象，通常具有特定的计算任务或操作。它可以分割成多个子任务并行完成，也可以拆分成多个子任务协作完成。通常 Job 不会依赖其他的工作负载，可以独立的运行。而且 Job 比较灵活，在时间维度、空间维度、或者资源方面的约束都比较少。

Job 排队

Job 同样需要经过调度程序调度，这也就意味着 Job 同样在调度时需要排队。那为什么需要排队呢？或者说我们可以通过排队解决哪些问题？

是因为系统中的资源有限的，我们的预算也是有限的，而 Job 的数量和计算需求往往是无限的。如果不进行排队和调度，那些计算需求较高或者执行时间较长的 Job 就会占用大量的资源，导致其他 Job 无法获取到足够的资源进行计算，甚至可能导致集群系统崩溃。

因此，为保证各个 Job 能够公平的获得资源，避免资源争夺和冲突，就需要对 Job 进行排队和调度。

我们使用 KubeDL提供的通用的 Job 排队和调度机制解决这个问题。KubeDL 因为本身就内置支持了多种训练工作负载，因此它天然支持按照 Job 粒度进行调度；并且它具备多租户间的公平性保障机制，减少 Job 间的资源争夺和冲突，排队和调度的过程中，KubeDL 根据 Job 的计算需求、优先级、资源需求等因素进行评估和分配，确保每个 Job 都能够得到合适的资源进行计算。KubeDL 支持多种扩展插件，如 Filter 插件，Score 插件等，可以进一步扩展其功能和特性满足不同场景的需求。

弹性 Quota

Job 排队要解决的核心问题之一是资源供给的公平性，一般在调度系统中都是通过弹性 Quota 机制来解决。

弹性 Quota 机制要解决的几个核心问题：首先是保障公平性，不能让某一些任务的资源需求过高导致其他任务被饿死，应尽量让大部分任务都能得到资源；其次需要有一定的弹性能力，能够把空闲的额度共享给当下更需要资源的任务，同样还要能够在需要资源时，把共享出去的资源拿回来，这意味还需要提供具备灵活的策略满足不同场景的需求。

Koordinator 实现了弹性 Quota 调度能力，可以保障租户间的公平性。我们在设计之初就考虑兼容 scheduler-plugins 社区项目中定义的 ElaticQuota CRD，这样方便存量的集群和用户可以平滑的过度到 Koordinator。

另外，我们不仅是兼容 ElasticQuota 原有按照 Namespace 管理 Quota 的能力，还支持按照支持按照树形结构进行管理，可以跨 Namespace。这样的方式可以很好的支持一个复杂的组织的额度管理需求，比如一家公司里多个产品线，每个产品线的预算和使用情况都不一样，都可以转为 Quota 进行管理，并借助弹性 Quota，把暂时没有用到的空闲资源通过额度的形式临时共享给其他部门使用。

Coscheduling

当一个 Job 经过排队被调度后，Job Controller 会创建出一批子任务，对应到 K8s，就是一批 Pod。这些 Pod 往往需要协调一致的启动运行。这也就要求调度器在调度时一定要按照一组 Pod 分配资源，这一组 Pod 一定都可以那可以申请到资源或者一旦有一个 Pod 拿不到资源都认为是调度失败。这也就是调度器需要提供的 All-or-Nothing 调度语义。

如果我们不这样按照一组调度，会出现因为多个作业在资源调度层面出现争抢，是有可能出现资源维度的死锁，即至少两个 Job 会出现拿不到资源的情况，即使原本空闲资源足够其中一个 Job 运行的，也会拿不到。

比如下图中，Job A 和 Job B 同时创建一批 Pod，如果不在中间的 Scheduling Queue 进行排序而是随意的调度，就会出现 Job A 和 Job B 的 Pod 各持有了一部分节点的部分资源，如果此时集群资源紧张，很有可能 Job A 和 Job B 都可能拿不到资源。但如果排序后，我们尝试先让其中一个 Job 的 Pod 先一起尝试优先分配资源，那么至少保障一个 Job 可以运行。

当一个 Job 切分的一组 Pod 非常大时，而集群内的资源又不是十分充足，或者 Quota 不是很多时，可以把这样的一组 Pod 切分成更多个子组，这个切割的大小以能运行任务为基础，假设一个 Job 要求最小切割粒度是每组 3 个 Pod，那么这个最小粒度，一般在调度域中称为 min available。

具体到 AI 模型训练领域，一些特殊的 Job 比如 TFJob，它的子任务有两种角色，这两种角色在生产环境中，也是需要设置不同的 min available 的。这种不同角色的区分的场景还有可能要求每个角色的 min available 都满足时才可以认为符合 All-or-Nothing 语义。

Koordinator 内置了 Coscheduling 调度能力，它兼容社区的 scheduler-plugins/coscheduling 定义 PodGroup CRD，还支持把多个 PodGroup 联合调度，这样就可以支持按角色设置 min available 场景。Koordinator 实现了一个 KubeDL Gang Scheduler 插件，这样就可以和 KubeDL 做集成一起支撑这类调度场景。

精细化设备管理

K8s 设备管理的局限性

K8s 是通过 kubelet 负责设备管理和分配，并和 device plugin 交互实现整套机制，这套机制在 K8s 早期还是够用的，其他厂商如 AMD 和国内的芯片制造商也抓住机会努力追赶。

kubelet 与 device plugin 协作流程

首先 K8s 只允许通过 kubelet 来分配设备，这样就导致无法获得全局最优的资源编排，也就是从根本上无法发挥资源效能。比如一个集群内有两台节点，都有相同的设备，剩余的可分配设备数量相等，但是实际上两个节点上的设备所在的硬件拓扑会导致 Pod 的运行时效果差异较大，没有调度器介入的情况下，是可能无法抵消这种差异的。

其次是不支持类似 GPU 和 RDMA 联合分配的能力。大模型训练依赖高性能网络，而高性能网络的节点间通信需要用到 RDMA 协议和支持 RDMA 协议的网络设备，而这些设备又和 GPU 在节点上的系统拓扑层面是紧密协作的，比如下面这张图是 NVIDIA 的 A100 型号机型的硬件拓扑图，我们可以看到，PCIe Switch 下挂了 GPU 和高性能网卡，我们需要就近分配这两个设备，才能做到节点间通信的低延迟。而且这里比较有意思的是，当如果需要分配多个 GPU 时，如果涉及到了多个 PCIe Switch，就意味着需要分配多个网卡，这就和 K8s 的另一个限制有关系，即声明的资源协议是定量的，而不是随意变化的，也就是说用户实际上也不知道这个 Pod 需要多少支持 RDMA 的网卡，用户只知道要多少个 GPU 设备，并期望就近分配 RDMA 的网卡而已。

而且 kubelet 也不支持设备的初始化和清理功能，更不支持设备的共享机制，后者在训练场景一般用不到，但在线推理服务会用到。在线推理服务本身也有很明显的峰谷特征，很多时刻并不需要占用完整的 GPU 资源。

K8s 这种节点的设备管理能力一定程度上已经落后时代了，虽然现在最新的版本里支持了 DRA 分配机制（类似于已有的 PVC 调度机制），但是这个机制首先只在最新版本的 K8s 才支持，但实际情况是还有大量存量集群在使用，并且升级到 K8s 最新版本也并不是一个小事情，所以我们得想其他办法。

Koordinator 精细化设备管理机制

我们在 Koordinator 中提出了一种方案，可以解决这些问题，做到精细化的资源调度。

Koordinator 精细化设备管理机制

从上面的图中可以看到，用户创建的一个 Pod，由 koord-scheduler 调度器根据 koordlet 上报的 Device CRD 分配设备，并写入到 Pod Annotation 中，再经 kubelet 拉起 Sandbox 和 Container，这中间 kubelet 会发起 CRI 请求到 containerd/docker，但在 Koordinator 方案中，CRI 请求会被 koord-runtime-proxy 拦截并转发到 koordlet 内的 GPU 插件，感知 Pod Annotation 上的设备分配结果并生成必要的设备环境变量等信息返回给 koord-runtime-proxy，再最终把修改后的 CRI 请求转给 containerd/docker，最终再返回给 kubelet。这样就可以无缝的介入整个容器的生命周期实现自定义的逻辑。

Koordinator Device CRD 用来描述节点的设备信息，包括 Device 的拓扑信息，这些信息可以指导调度器实现精细化的分配逻辑。

Koordinator Device 对象

Future: NRI 模式

前面提到了 Koordinator 单机侧依靠 koord-runtime-proxy 协作完成设备信息注入，我们自己也意识到，koord-runtime-proxy 这种方式其实不太好在大家的集群内落地。这涉及到修改 kubelet 的启动参数问题。

所以 Koordinator 社区后续会引入 NRI/CDI 等机制解决这个场景的问题。这块工作正在和 Intel 相关团队共建。

NRI/CDI 是 containerd 支持的一种插件化机制。其部署方式有点类似于大家熟悉的 CNI，支持在启动 Sandbox/Container 前后获得机会修改参数或者实现一些定制逻辑。这相当于是 containerd 内置的 runtimeproxy 机制。

GPU&RDMA 按照硬件拓扑联合分配

前面也提到，大模型训练不仅仅只用到了 GPU，还依赖 RDMA 网络设备。要确保 GPU 和 RDMA 之间的延迟尽可能的低，否则会因为设备间的延迟放大到整个分布式训练网络中，拖慢整体的训练效率。

这就要求在分配 GPU 和 RDMA 时需要感知硬件拓扑，尽可能就近分配这种设备。尝试按照同 PCIe，同 NUMA Node，同 NUMA Socket 和跨 NUMA 的顺序分配，延迟依次升高。

而且我们还发现同一个硬件厂商的不同型号的 GPU，它们的硬件系统拓扑是不一样的，这就要求我们的调度器需要感知这些差异。比如下图是 NVIDIA A100 型号的 System Topology 和 NVIDIA H100 的一个简单的设备连接图。

NVIDIA A100 System Topology

NVIDIA A100 GPU 之间的 NVLINK 联通方式和 NVIDIA H100 型号就不一样，NVSwitch 的数量也不一样，这种差异就会给使用方式带来很大的差异。

NVIDIA H100

NVIDIA-based system 在多租模式下的差异

NVIDIA H100 GPU 在多租 VM 场景下的特殊之处，多个 GPU 之间联通需要操作 NVSwitch 才可以实现。

在多租场景中，NVIDIA 为保障安全，会通过 NVSwitch 管理 NVLink 的隔离状态，并且要求只能由授信的软件操作 NVSwitch。这个授信软件是可以自定义的。

NVIDIA 支持多种模式，一种是 Full Passthrough 模式，这种模式把 GPU 和 NVSwitch 都直通到 VM 的 Guest OS，这样做的好处是使用起来很简单，但代价是当 GPU VM 多了，NVLINK 的带宽会减少（原文：Reduced NVLink bandwidth for two and four GPU VMs）。

另一种称为 Shared NVSwitch 多租户模式，它只要求把 GPU 直通到 Guest OS，然后通过一个特殊的 VM，称为 Service VM 管理 NVSwitch，并通过 ServiceVM 调用 NVIDIA Fabric Manager 激活 NVSwitch 实现 GPU 间通信。这种模式就不会出现因为 Full Passthrough 模式的弊端，但使用方式明显要更复杂一些。这种特殊的硬件架构和使用方式，还导致在分配 GPU 时有一些额外的要求。NVIDIA 定义了哪些 GPU 设备实例可以组合一起分配，比如用户申请分配 4个 GPU，那必须是按照规定的 1,2,3,4 号一起或者 5,6,7,8 一起分，否则就会导致 Pod 无法运行。

这种特殊的分配方式的背后原因我们不得而知，但分析这些分配约束可以发现，厂商规定的这种组合关系正好符合硬件系统拓扑结构，也就是可以满足前面讲到的 GPU&RDMA 联合分配期望的分配结果。

关于 Koordinator

Koordinator 开源到现在也有一年多的时间了，吸引到国内众多企业或者团队参与到项目中，并在生产中应用；我们在阿里云内部环境中也应用广泛，支撑了内部丰富场景的调度需求和混部需求。

我们十分期待大家能参与到这个项目中一起做点好玩的有意思的事情，我们鼓励所有贡献者成为成员，我们的目标是发展一个活跃、健康的社区；我们非常期待您使用 Koordinator，并反馈遇到的任何问题。

我们每隔两周会有一次周会，周会上会交流一些最新的进展，和讨论或者分享一些技术细节。

点击此处，立即了解 Koordinator 项目！

Go内存压力测试：模拟与应对高负载 Go高并发架构_王工 golang 压力测试后端
一、引言在当今微服务架构和云原生应用盛行的时代，Go语言凭借其出色的并发处理能力和较低的资源消耗，成为构建高性能后端服务的首选语言之一。然而，随着业务规模的扩大和用户量的增长，我们的服务经常会面临突如其来的流量高峰和持续的高负载挑战。就像一辆汽车需要在极端条件下测试其性能极限一样，我们的Go应用也需要在上线前经受住内存压力测试的洗礼。这不仅能帮助我们发现潜在的内存泄漏和性能瓶颈，还能确保系统在高负
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
探秘阿里云消息队列：解锁分布式系统的异步通信奥秘云资源服务商阿里云云计算中间件
阿里云消息队列：分布式架构的基石在当今数字化快速发展的时代，分布式系统已成为企业构建高可用、高性能应用的关键架构。而消息队列，作为分布式系统中的重要组件，犹如基石一般，支撑着整个架构的稳定运行。它能够有效地解决分布式系统中的异步通信、解耦、削峰填谷等问题，为系统的可靠性和扩展性提供了强大的保障。阿里云作为云计算领域的领军者，其推出的阿里云消息队列凭借着卓越的性能、高可靠性以及丰富的功能，成为了众多
一会通一会不通一台设备ping_Linux刚开机能ping通网关,一会就ping不通了毕须喝芮幸冰咖啡一会通一会不通一台设备ping
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":2,"count":2}]},"card":[{"des":"阿里云云盾基于对海量用户设备、IP、账户行为的画像分析，自动识别虚假账户及盗号，屏蔽垃圾信息及非法广告，同时对图片和视频进行智能鉴黄、鉴恐，降低spam，专注正
领域驱动设计核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
DDD实践精髓：战略与战术 Java廖志伟 Java场景面试宝典 DDD Software Architecture Business Logic
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere核心技术揭秘 Java廖志伟 Java场景面试宝典 Database Sharding Distributed Systems Performance Scaling
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
从点子到原型只需10分钟：用 Copilot 快速验证产品功能网罗开发 AI 大模型 Python 技术汇总人工智能 copilot
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Docker免费时代终结？2025最新开源政策与替代方案全解析 109702008 编程 docker 开源人工智能
标签:#Docker#容器技术#云原生#开源治理引言：从全民免费到分层收费，Docker经历了什么？“曾经的开源先锋，如今因商业策略频遭争议。”2023年起，DockerHub取消免费组织账户，2024年拉取限流升级，2025年服务账户开始按量收费——这一系列动作让开发者不得不重新思考：Docker还是当初那个‘开源宠儿’吗？本文将结合技术演进与商业逻辑，为你揭开真相。一、Docker的核心：开源
企业如何用Data Agent实现数据价值效率的飞跃数据库观点资讯
作者阿里云数据库高级技术专家徐大丁(辰马)一、引言：数据价值实现的困境在数字化转型的浪潮中，数据被誉为“新时代的石油”。然而，对于大多数企业而言，这座“油田”的价值却远未被充分开采。下图简单概括了企业在数据价值效率追求上的演进路径，反映出业界对数据价值效率指标的追求。组织，技术都在不断地升级。以价值效率为牵引，从报表到洞察，从分析到预测，追求更高的效率提升和决策速度。这带来了技术架构的不断演进，从
深度剖析：向70岁老系统植入通信芯片——MCP注入构建未来级分布式通信 Loving_enjoy 计算机学科论文创新点迁移学习人工智能机器学习深度学习
>如何让老旧系统重获新生？协议注入技术是关键。##一、当遗留系统遇上分布式未来：一场艰难的对话想象一下：你负责维护一套诞生于20年前的单体式银行核心系统，它像一位固执的70岁老人，使用着陈旧的TCP自定义协议。这时业务部门要求实现与云原生风险分析引擎的实时交互。直接改造？风险巨大；推倒重来？成本天文数字。这就是**分布式通信协议断层**带来的典型困境。###传统桥接方案痛点1.**协议转换地狱**
【云计算解决方案面试整理】3-7主流云计算平台、云计算架构、安全防护不太灵光的程序员阿里云云计算工程师ACP认证云计算云计算面试架构
准备面云计算解决方案的岗位，整理了一些，也请大佬们指点。文档分为云计算基础概念、云计算技术原理、主流云计算平台（以天翼云为例）、云计算架构（弹性设计、高可用设计、高性能设计）、安全防护几个方面。三、主流云计算平台1.阿里云云计算平台强大的计算能力：拥有自主研发的飞天操作系统，可提供高效、稳定的计算服务，能够满足大规模数据处理和高并发业务的需求。例如，在应对双11这样的高并发场景时，飞天系统可以快速
云原生时代的日志管理：ELK、Loki、Fluentd 如何选型？
一、引言在微服务和Kubernetes普及的今天，传统的日志管理方式已经难以应对高并发、分布式架构带来的挑战。随着容器化应用数量激增，日志数据量呈指数级增长，如何高效地收集、存储、查询和分析日志，成为每个团队必须面对的问题。在这样的背景下，ELK（Elasticsearch+Logstash+Kibana）、Loki和Fluentd成为当前主流的日志解决方案。它们各有特色，适用于不同规模和技术栈的
一文读懂主流云厂商的云安全产品对比｜小白也能看懂！
☁️一文读懂主流云厂商的云安全产品对比｜小白也能看懂！云服务器是“家”，安全产品就是“门锁、摄像头、护栏”——你搭了房子，总得保护吧？无论你是初创开发者，还是企业运维，选对安全产品比你想象中更重要。但问题来了，阿里云、腾讯云、华为云这三大厂商的云安全产品看起来都差不多，到底有什么区别？作为一个云安全小白，云安全产品那么多到底是什么以及最后该怎么选？！一、安全防护到底防的是什么？很多人以为“云安全”
大同小异——服务器环境搭建 sohoAPI 【工具】服务器 mysql linux flask
干货满满，带你玩转不同服务器配置，以Linux操作系统为例，这里使用云服务，像阿里云云服务购买成功，查看到之后只是一个界面信息，如果想要使用它，则需要远程连接java环境主要配置三个：jdk—java应用程序开发或者运行必须得有Java环境MysQL----如果我们要去开发一个项目，那么项目中的数据必须放到数据库中持久化存储tomcat–专门用来部署Java应用程序的一款软件配置jdk安装包地址将
Spring MVC 框架解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC深度解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring Cloud服务治理精讲 Java廖志伟 Java场景面试宝典 Spring Cloud Service Governance Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
领域设计关键技术解析 Java廖志伟 Java场景面试宝典
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Overlay网络如何颠覆互联网规则？来自于狂人网络云计算
引言：当网络变成“俄罗斯套娃”2010年，阿里云工程师王坚盯着机柜发愁：“要把5000台服务器伪装成1台超级计算机，传统网络像钢筋水泥墙——必须发明‘隐形通道’！”这就是Overlay网络的诞生现场——它用软件魔法在物理网络上“挖地道”，最终让阿里云扛住双11洪峰。第一章前传：为什么传统网络像“老城区单行道”？1.1困局：交换机统治下的黑暗时代场景还原：2005年某网吧老板愤怒拍桌：“加台机器就要
开源的服务网格:Istio 深海科技服务行业发展开源 istio 云原生
一、lstio介绍Istio是一个开源的服务网格（ServiceMesh），它为微服务架构中的服务间通信提供了统一的管理、连接、安全、控制和可观测性。在复杂的云原生环境中，尤其是基于Kubernetes的部署中，随着微服务数量的增加，管理它们之间的网络通信会变得异常复杂。Istio就是为了解决这些挑战而设计的。1、为什么需要Istio？在传统的微服务架构中，开发人员需要在每个服务中编写代码来处理服
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
WiFi通信——STM32通过ESP8266-01S上传DHT11温湿度和LED灯状态到阿里云物联网平台上（二）MQTT协议代码讲解文科比理科更擅长的工科男 STM32单片机实战项目讲解 stm32 阿里云物联网
上一篇博客讲了ESP8266-01S的MQTT固件包烧录过程，配置了阿里云物联网平台，并且利用MQTT.fx验证和阿里云通信的过程，链接如下：https://blog.csdn.net/weixin_41011452/article/details/1406451301MQTT协议MQTT(MessageQueuingTelemetryTransport,消息队列遥测传输协议)是IBM在1999年
多线程导出excel高并发_表格存储：使用TableStoreWriter进行高并发、高吞吐的数据写入-阿里云开发者社区... rayyangul 多线程导出excel高并发
概述表格存储(原OTS)的一大特性是能够支撑海量数据的高并发、高吞吐率的写入，特别适合日志数据或物联网场景(例如轨迹追踪或溯源)数据的写入和存储。这些场景的特性是，会在短时间内产生大量的数据需要消化并写入数据库，需要数据库能够提供高并发、高吞吐率的写入性能，需要满足每秒上万行甚至上百万行的写入吞吐率。针对这些场景，我们在存储层做了很多的优化(本篇文章不赘述)，同时在SDK接口层也做了一些优化，专门
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Windows 环境下 Nginx 搭建 HTTPS 图片存储服务器（阿里云域名、SSL 证书与安全配置）只因在人海中多看了你一眼摸索学习心得 windows nginx https
在互联网应用中，图片存储是至关重要的一环。为了保证图片的安全性和访问速度，搭建一个基于HTTPS的图片存储服务器是最佳选择。本文将详细介绍如何在Windows环境下使用Nginx搭建一个HTTPS图片存储服务器，并涵盖域名购买、DNS解析、SSL证书申请与配置、Nginx部署以及端口开放等关键步骤。一、准备工作Nginx：下载Windows版本的Nginx(建议选择稳定版)。Q1:Nginx(en
二进制部署Kubernetes1.32.4最新版本高可用集群及附加组件 Nova_CaoFc 容器云技术专栏 kubernetes 容器云原生
一、前言在云原生技术席卷全球的今天，Kubernetes（K8s）已成为容器编排领域的事实标准。当大家都习惯了kubeadm、kubeasz等自动化工具一键部署的便利时，选择通过二进制方式手动搭建K8s集群更像是一场"知其然亦知其所以然"的深度修行。这种方式将带您穿透抽象层，直面etcd的分布式存储机制、kube-apiserver的RESTful接口设计、kubelet与CRI的交互细节，以及各
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
seata 的使用初步 RR1335 微服务 SEATA 事务处理 seata 分布式事务 TC TM RM
Seata是一款开源的分布式事务解决方案，致力于在微服务架构下提供高性能和简单易用的分布式事务服务。在Seata开源之前，其内部版本在阿里系内部一直扮演着应用架构层数据一致性的中间件角色，帮助经济体平稳的度过历年的双11，对上层业务进行了有力的技术支撑。经过多年沉淀与积累，其商业化产品先后在阿里云、金融云上售卖。2019.1为了打造更加完善的技术生态和普惠技术成果，Seata正式宣布对外开源，未来
【运维项目经历|005】：云端智慧运维服务升级上云项目小鹏linux 运维
博主简介：云计算领域优质创作者2022年CSDN新星计划python赛道第一名2022年CSDN原力计划优质作者阿里云ACE认证高级工程师阿里云开发者社区专家博主交流社区：CSDN云计算交流社区欢迎您的加入！目录项目名称项目背景项目目标项目成果我的角色与职责我主要完成的工作内容本次项目涉及的技术本次项目遇到的问题与解决方法本次项目中可能被面试官问到的问题及答案经验教训与自我提升
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http