Deegue

阿里云分布式调度系统-伏羲

最近在做一个类似的东西，看了一篇讲FuxiSort的paper，就去详细学习了下。

paper链接:

链接: https://pan.baidu.com/s/1H9GdDd7lgcgWkw0tkC95Jw 提取码: gix8

下文作者：陶阳宇，花名举水，阿里云高级技术专家，飞天分布式系统早期核心开发人员，开发和优化过伏羲系统中多个功能模块，参加了飞天5K、世界排序大赛等多个技术攻坚项目。在分布式计算、高并发系统的设计和开发方面有较丰富的经验。

本文涉及阿里云分布式调度团队在分布式调度系统的设计、实现、优化等方面的实践以及由此总结的分布式系统设计的一般性原则，具体包括分布式调度的任务调度、资源调度、容错机制、规模挑战、安全与性能隔离以及未来发展方向六部分。

云计算并不是无中生有的概念，它将普通的单台PC计算能力通过分布式调度软件连接起来。其最核心的问题是如何把一百台、一千台、一万台机器高效地组织起来，灵活进行任务调度和管理，从而可以像使用台式机一样使用云计算。在云计算中，最核心的模块是分布式调度，它好比云计算的中央处理器。目前，业界已存在多种分布式调度实现方案，如伏羲、Hadoop MapReduce、YARN、Mesos等系统。

阿里云伏羲

伏羲系统在前人的基础上进行了一系列改造，首先与YARN和Mesos系统类似，将资源的调度和任务调度分离，形成两层架构，使其具备以下优势：

规模：两层架构易于横向扩展，资源管理和调度模块仅负责资源的整体分配，不负责具体任务调度，可以轻松扩展集群节点规模；
容错：当某个任务运行失败不会影响其他任务的执行；同时资源调度失败也不影响任务调度；
扩展性：不同的计算任务可以采用不同的参数配置和调度策略，同时支持资源抢占；
调度效率：计算framework决定资源的生命周期，可以复用资源，提高资源交互效率。
这套系统目前已经在阿里集团进行了大范围的应用，能支持单集群5000节点、并发运行10000作业、30分钟完成100T数据terasort，性能是Yahoo在Sort Benchmark的世界纪录的两倍。

伏羲的系统架构

伏羲的系统架构如图1所示，整个集群包括一台Fuxi Master以及多台Tubo。其中Fuxi Master是集群的中控角色，负责资源的管理和调度；Tubo是每台机器上都有的一个Agent，负责管理本台机器上的用户进程；同时集群中还有一个叫Package Manager的角色，因为用户的可执行程序以及一些配置需要事先打成一个压缩包并上传到Package Manager上，Package Manager专门负责集群中包的分发。

集群部署完后，用户通过Client端的工具向Fuxi Master提交计算任务；Fuxi Master接收到任务后首先通知某一个Tubo启动这个计算任务所对应的APP Master；APP Master启动之后，它获知了自己的计算任务，包括数据分布在哪里、有多少的任务需要计算等等信息；接着APP Master会向Fuxi Master提交资源申请，表明它需要多少计算资源；Fuxi Master经过资源调度以后，将资源的分配结果下发给APP Master；APP Master在这个资源的基础之上进行它的任务调度，来决定哪些机器上运行哪些计算任务，并且将这个计算任务发送给对应机器上的Tubo进程；Tubo接受到命令之后就会从Package Manager中下载对应的可执行程序并解压；然后启动用户的可执行程序，加载用户的配置（图1中的APP Worker）；APP Worker根据配置中的信息读取文件存储系统中的数据，然后进行计算并且将计算结果发往下一个APP Worker。其中，数据的切片称之为Instance或者叫计算实例。

Fuxi Master与Tubo这套结构解决了分布式调度中的资源调度，每个计算任务的APP Master以及一组APP Worker组合起来解决任务调度的问题。

任务调度

伏羲在进行任务调度时，主要涉及两个角色：计算框架所需的APP Master以及若干个APP Worker。

APP Master首先向Fuxi Master申请/释放资源；拿到Fuxi Master分配的资源以后会调度相应的APP Worker到集群中的节点上，并分配Instance（数据切片）到APP Worker；APP Master同时还要负责APP Worker之间的数据传递以及最终汇总生成Job Status；同时为了达到容错效果，APP Master还要负责管理APP Worker的生命周期，例如当发生故障之后它要负责重启APP Worker。

而APP Worker的职责相对比较简单，首先它需要接收App Master发来的Instance，并执行用户计算逻辑；其次它需要不断地向APP Master报告它的执行进度等运行状态；其最为主要的任务是负责读取输入数据，将计算结果写到输出文件；此处的Instance是指输入数据的切片。伏羲任务调度系统的技术要点主要包括数据的Locality、数据的Shuffle以及Instance重试和Backup Instance三点。

数据Locality

数据Locality是指调度时要考虑数据的亲近性，也就是说APP Worker在处理数据时，尽量从本地的磁盘读取数据，输出也尽量写到本地磁盘，避免远程的读写。要实现这一目标，在任务调度时，尽量让Instance（数据分片）数据最多的节点上的AppWorker来处理该Instance。

数据Shuffle

数据Shuffle指的是APP Worker之间的数据传递。在实际运行中，APP Worker之间是有多种传递形态的，如一对一、一对N、M对N等模式。如果用户去处理不同形态的传输模式，势必会带来较大的代价。伏羲分布式调度系统将数据传递的过程封装成streamline lib，用户无需关心数据传递的细节。首先Map进行运算，将结果直接交给streamline，streamline底层会根据不同的配置将数据传给下游计算任务的streamline；然后streamline将接到的数据交给上层的计算任务。

Instance重试和backup instance

在Instance的运行过程中可能有多种原因导致Instance失败，比如APP Worker进程重启或运行时机器、磁盘发生故障，种种原因都可能导致一个Instance在运行时最终失败；另外APP Master还会监控Instance的运行速度，如果发现Instance运行非常慢（容易造成长尾），会在另外的APP Worker上同时运行该Instance，也就是同时有两个APP Worker处理同一份数据，APP Master会选取最先结束的结果为最终结果。判断一个Instance运行缓慢的依据有：

该Instance运行时间超过其他Instance的平均运行时间；
该Instance数据处理速度低于其他Instance平均值；
目前已完成的Instance比例，防止在整体任务运行初期发生误判。

资源调度

资源调度要考虑几个目标：一是集群资源利用率最大化；二是每个任务的资源等待时间最小化；三是能分组控制资源配额；四是能支持临时紧急任务。在飞天分布式系统中，Fuxi Master与Tubo两者配合完成资源调度。

在飞天分布式系统中，Fuxi Master与Tubo两者配合完成资源调度。Tubo是每个节点都有的，用于收集每个机器的硬件资源（CPU、Memory、Disk、Net），并发送给FuxiMaster；FuxiMaster是中控节点，负责整个集群的资源调度。当启动计算任务时，会生成APP Master，它根据自己的需要向Fuxi Master申请资源，当计算完成不再需要时，归还该资源。

飞天分布式调度常用的分配资源策略包括优先级和抢占、公平调度、配额。在实际应用场景中，不同策略可配合起来使用。

策略之优先级和抢占

每个Job在提交时会带一个priority值（整数值），该值越小优先级越高；相同优先级按提交时间，先提交的优先级高；FuxiMaster在调度时，资源优先分配给高优先级的Job，剩余的资源继续分配给次高优先级Job。

如果临时有高优先级的紧急任务加入，FuxiMaster会从当前正在运行的任务中，从最低优先级任务开始强制收回资源，以分配给紧急任务，此过程称为“抢占”。抢占递归进行，直到被抢任务优先级不高于紧急任务，也就是不能抢占比自己优先级高的任务。

策略之公平调度

公平调度策略是指当有资源时Fuxi Master依次轮询地将部分资源分配给各个Job，它避免了较大Job抢占全部资源导致其他Job饿死现象发生。公平调度首先按优先级分组，同一优先级组内的平均分配，如果有剩余资源再去下一个优先级组进行分配，依此类推。

配额

配额是资源分配时的第三个策略，通常是按照不同的业务进行区分，多个任务组成一个组，例如淘宝、支付宝等；集群管理员会设立每一个组的资源上限，意味着这个组最多能使用这么多CPU、Memory、磁盘等，该上限值称为Quota；每个组的Job所分配的资源总和不会超过该组内的Quota，当然如果每一个组内没有用完的Quota是可以分享给其他组的，会按照Quota的比例进行均分。

容错机制

在大规模进程集群中故障是常态，这些常态会来自硬件，比如主板、电源、内存条；也可能来自软件，比如进程有Bug导致进程Crash，机器故障导致性能慢。因此，分布式调度必须具有容错机制，以保证正在运行的任务不受影响，并对用户透明，能够从故障中恢复过来，保障系统的高可用。下面将从任务调度的Failover和资源调度的Failover两个方面介绍。

AppMaster进程重启后的任务调度Failover

每个计算任务有自己的APP Master，如果APP Master进程发生了重启，那其重启之后的任务调度如何进行Failover呢？这里采用了Snapshot机制，它将Instance的运行进度保存下来，当APP Master重启之后会自动加载Snapshot以获取之前每个Instance的执行进度，然后继续运行Instance；当APP Master进程重启之后，从APP Worker汇报的状态中重建出之前的调度结果，继续运行Instance。

FuxiMaster进程重启后的资源调度Failover

另一种情况是Fuxi Master发生了Failover。Fuxi Master Failover起来之后需要重建内部状态，该状态通常分为两种：一是Hard State，主要是之前提交的Application配置信息，如不同的Job配置参数等，它们来自于Fuxi Master写的Snapshot；另一类是Soft State，Fuxi Master会收集来自各个Tubo以及APP Master的信息重建出自己的状态，这些信息包括机器列表、每个APP Master的资源请求以及之前的资源分配结果。

Fuxi Master进程重启之后的资源调度过程如图4所示，首先会从Checkpoint中读取出所有Job的配置信息；同时会收集所有的Tubo以及APP Master上报上来的关于资源分配的结果，如CPU多少、Memory多少等等。

规模挑战

分布式系统设计主要目标之一就是横向扩展（scale-out），目前阿里云飞天在2013年时已支撑单个集群5000个节点、并发1万个任务。在做横向扩展设计时，需要注意两个要点：一是多线程异步；二是增量的资源调度。

多线程异步

多线程异步是编写分布式程序一个非常重要而且常用的技术手段。在网络通信模块中，每个APP Master都需要跟Fuxi Master进行资源通信，同时也需要跟多个Tubo进行通信以启动它们的APP Worker。APP Master处理网络通信的过程称之为RPC，RPC通信时必须采用线程池来处理。如图5中采用四个线程池来处理这些消息。由于Fuxi Master是一个中控节点，而Tubo的数量非常众多，如果将这些消息都在同一个线程池中处理，则Fuxi Master的消息有可能会被大量的Tubo消息阻塞（对头阻塞问题）。为了解决该问题，在伏羲系统当中设立了一个独立的线程池来处理Fuxi Master的消息；另外一个线程池来处理Tubo的消息，将线程池进行分开，也称之为泳道；独立的泳道能有效解决Fuxi Master的消息被对头阻塞的问题。

增量的资源调度

伏羲解决规模问题的另一个技术点是增量。目前，伏羲采用增量的消息通信和资源调度，下面通过具体例子，来介绍伏羲所采用的增量资源调度的协议。

图6左侧是中控节点Fuxi Master；右边为某一个APP Master，如果说APP Master需要1000份资源，最直接的一种实现方式是将“我要1000个资源”这样的消息直接发送给Fuxi Master；Fuxi Master在接到消息之后可能当前的剩余资源只有200份，它将会“我分配给你200”这样的消息发送给APP Master；那APP Master还会继续发送消息“我还要剩余的800”，Fuxi Master回复“此时没有资源，我分配0个给你”；则APP Master在下一次通信的时候需要继续发送“我还要剩余的800”……依此类推，可能某一个时刻Fuxi Master还能分一点资源下来。这就是最直观的全量消息通信，每一次APP Master提出请求时都要指明它总共需要多少。

而在伏羲的实现当中为了减小通信量和不必要的开销，采用了增量的语义。首先APP Master发送一个请求“我要1000个资源”，Fuxi Master收到之后将当时空闲的200个资源返回给APP Master；之后APP Master无需再提交请求说我还需要800，因为Fuxi Master会将这1000个请求记录下来等到某一时刻又有更多的资源，比如150个资源释放，它直接将150个分配结果发送给APP Master即可。这期间APP Master无需再发多余的网络通信。

安全与性能隔离

在分布式系统当中通常有多个用户在执行自己的计算任务，多个任务之间需要互相隔离、互相不影响。飞天伏羲实现了全链路的访问控制，采用了两种访问控制进行安全的验证，一种是Capability，指通信双方基于私钥进行解密并验证的一种方式；还有一种称为Token的方式，这种方式需要通信的双方临时生成基于私钥加密的口令，在通信时进行验证。

两种方式最大区别在于口令生成的时机，Capability方式是在通信之前就已经加密好；而Token是需要在通信时临时生成。

两种方式使用于不同的场景，如图7所示FuxiMaster与Tubo通信采用的是Capability方式，因为这两个角色在集群部署时就已启动，可以事先进行加密生成好Capability；FuxiMaster与APP之间是采用Token的方式，这是因为APP与FuxiMaster进行通信时，当每个任务执行完计算之后会退出；在进程与进程之间，伏羲采用了沙箱的方式将不同的进程进行隔离开、互不干扰。

除了安全的隔离之外，还需要考虑性能的隔离。目前伏羲采用的几种技术手段：Cgroup（Linux LXC）、Docker container、VM等。这几种技术的隔离性、资源配额/度量、移动性、安全性的比较如图8所示，不再一一叙述。

伏羲目前采用的隔离技术是基于Docker和LXC混合部署的方式，之所以抛弃虚拟机的方式，是因为其性能损耗太多。当运行计算任务时，如果完全放在虚拟机当中，它的IO以及CPU时间片会受到很大的影响，会降低任务的执行效率。在目前阿里的生产环境中，实践发现基于Docker和LXC的隔离技术已经可以很好地满足需求。

分布式调度的发展方向

随着计算能力和数据量的持续增长，分布式调度未来可能朝向以下几个方向发展：

在线服务与离线任务混跑。云计算最终的目的是降低IT成本，最大限度地利用单台PC的CPU处理能力，所以未来的趋势一定是在线服务与离线任务能够在同一物理集群上运行从而实现削峰填谷效果、最大化提高集群利用率。但是由于两种任务的特点不同，在线运用对于响应时间要求很高，而离线运用则对调度的吞吐率要求比较高，因此混跑会带来性能隔离与资源利用率之间的矛盾。

实时计算的发展，Map Reduce是一个很伟大的框架，但其是为数据量一定的批处理而设计的。随着云计算越来越普及，很多计算形态需要实时拿到计算结果，并且其输入数据可能是不间断的。目前，伏羲也已经开发出了实时的计算框架——OnlineJob，它可以提供更快的执行速度。

更大的规模，目前已能够支撑5000台的节点，随着计算量越来越大，客户的需求越来越多，需要进一步优化伏羲系统，能够支撑起1万、5万、10万等更大规模单集群，同时能够支撑更多的并发任务。

企业架构设计中的CBAM方法深度解析：成本效益驱动的架构决策艺术架构进化论系统架构设计师架构微服务云原生后端
目录CBAM方法概述与核心价值CBAM核心流程与实施步骤前期准备与场景确定成本效益建模与分析风险调整与决策制定实施技巧与挑战克服CBAM实战案例与应用场景案例一：电商平台促销系统架构选型案例二：制造业ERP系统云迁移决策案例三：金融机构实时风控系统重构跨案例经验总结CBAM与其他架构评估方法的集成应用CBAM与ATAM的协同机制分层评估框架构建行业定制化集成模式敏捷环境中的轻量级CBAM组织能力建
【目标检测】YOLOv13：超图增强的实时目标检测新标杆，值得收藏。 Carl_奕然机器视觉与目标检测目标检测 YOLO 人工智能
一文掌握YOLOv13最新特性1、引言2、Yolov13详细讲解2.1发布时间与背景2.2相对于YOLOv12的核心提升2.2.1精度显著提升2.2.2轻量化与效率优化2.2.3高阶语义建模能力2.3架构设计与核心创新2.3.1超图自适应关联增强（HyperACE）2.3.2全流程聚合-分发（FullPAD）2.3.3轻量化模块设计2.4性能对比2.4代码示例2.4.1环境配置2.4.2训练代码2
C++ 第三阶段项目二：异步日志系统程序员弘羽 C++从入门到入土连载 c++开发语言
目录一、项目目标二、功能需求1.核心功能2.扩展功能（后续可实现）三、实现思路1.整体架构设计2.关键技术点3.性能优化策略4.示例代码结构四、代码实现1.日志消息结构体2.线程安全队列（阻塞队列）3.日志处理器（后台线程）4.日志记录器（对外接口）五、运行示例1.示例代码：调用日志接口2.输出日志文件示例3.编译与运行六、代码关键点说明七、注意事项性能优化：线程安全：扩展性：八、扩展示例1.远程
从优劣势看：主流AI代码辅助工具 scuter_yu 人工智能
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。本文将详细介绍几款热门的AI代码编程工具，包括通义灵码、Trae、腾讯云代码助手CodeBuddy、GitHubCopilot、Codeium和Cursor，从优缺点两方面进行分析，帮助开发者更好地选择适合自己的工具。通义灵码一句话介绍：通义灵码是阿里云出品的一款基于通义大模型的智能编码辅助工具。优点：多种会话模式：支持
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
基于YOLOv5的监控摄像头遮挡检测系统：从数据集到UI界面的完整实现芯作者 D2:YOLO YOLO 神经网络
实时守护监控设备安全，智能识别遮挡攻击的AI解决方案一、问题背景与系统价值在安防监控领域，摄像头遮挡是常见的恶意攻击手段——统计显示35%的安防失效源于摄像头被遮挡。传统方案依赖人工巡查，效率低下且响应延迟。本文将带你构建完整的AI遮挡检测系统，核心创新点：双模检测机制：YOLOv5目标检测+背景建模异常分析轻量化部署：模型量化压缩至1.8MB动态学习：运行时自动更新异常样本库二、系统架构设计[视
阿里云API网关签名后端示例项目教程廉艳含
阿里云API网关签名后端示例项目教程api-gateway-demo-sign-backend-java项目地址:https://gitcode.com/gh_mirrors/ap/api-gateway-demo-sign-backend-java项目介绍阿里云API网关签名后端示例项目（api-gateway-demo-sign-backend-java）是一个开源的Java项目，旨在帮助开发
【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective 无敌悦悦王文献阅读 cnn 人工智能神经网络计算机视觉图像处理 python 深度学习
摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。研究人员已发现轻量级ViT与轻量级CNN之间存在许多结构关联，但二者在模块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。本研究从ViT视角重新审视轻量级CNN的高效设计，并强调其在移动设备上的应用前景。具体而言，我们通过整合轻量级ViT的高效架构设计，逐步
产品思想实验：AI 长期记忆存储单元（Memory Graph Unit）人工智能
在现有LLM架构中，“记忆”通常是以线性上下文或简单数据库形式存在，缺乏结构化、语义链接和跨模型兼容性。我们要做的，是将“记忆”升级为一个具备智能检索能力、语义感知能力和多模型兼容能力的图谱系统。一、目标定位构建一个开放、结构化、可演化的AI长期记忆存储单元（MemoryGraphUnit）支持动态更新、优先级排序、冲突消解兼具语义理解与逻辑组织跨平台/跨模型通用格式二、整体架构设计记忆图谱的核心
解密大模型全栈开发：从搭建环境到实战案例，一站式攻略海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能大模型全栈开发
目录大模型基础概念什么是大模型？大模型的发展历程大模型的类型大模型全栈开发环境搭建硬件需求软件环境配置云服务选择大模型应用开发流程模型选择策略提示工程（PromptEngineering）模型微调（Fine-tuning）参数高效微调（PEFT）大模型应用架构设计基本应用架构RAG（检索增强生成）系统Agent系统设计大模型应用部署与优化模型部署选项模型优化技术性能监控与调优大模型应用实战案例智能
nodeJS使用阿里云免费SSL证书简例啃火龙果的兔子 nodejs 阿里云 ssl node.js
环境：Debian8，阿里云公共镜像。步骤：1.安装nodejs2.编辑app.js文件，内容如下：varhttps=require('https');varfs=require('fs');varoptions={key:fs.readFileSync('213949634960268.key'),cert:fs.readFileSync('213949634960268.pem')};vara
阿里云Redhat系Linux修改ssh默认端口 z同学的编程之旅环境搭建阿里云 linux ssh
阿里云Redhat系Linux修改ssh默认端口在阿里云买了个服务器，想着ssh的默认端口是22，这不安全。我就将修改ssh默认端口的过程记录下来了，方便日后回看。本命令适用于Redhat系Linux，例如Redhat、Centos、AlibabaCloudLinux、OracleLinux、RockyLinux、AlmaLinux等。我为什么知道这些Linux？因为公司有内核相关业务，接触的多了
《三生原理》如何解决长程依赖问题？葫三生三生学派人工智能平面线性代数概率论算法
AI辅助创作：《三生原理》通过融合《周易》的生成哲学与分形数学，创新性地重构了序列建模的逻辑框架，有效缓解长程依赖问题，其核心技术路径如下：一、八卦拓扑位置编码替代正弦编码‌‌符号系统的动态映射‌将伏羲八卦的拓扑结构（乾☰、坤☷等）转化为位置矩阵，通过‌模12余数配对法则‌建立位置关联性：阳爻（⚊）映射奇数位，阴爻（⚋）映射偶数位，形成周期性位置感知网格在512长度序列中，位置关系捕捉准确率提升2
腾讯云市场怎么样苹果企业签名分发火山引擎人工智能智能体
腾讯云作为国内头部云服务商，确实值得从几个维度分析。首先想到它的核心优势是背靠腾讯生态，尤其在游戏、音视频、社交应用领域有天然解决方案整合优势。不过用户没说明使用场景，所以回复既要展示专业能力，又要避免信息过载。注意到用户没提比较对象（比如和阿里云对比），说明ta更关注腾讯云本身特性。应该重点突出：①腾讯系产品的联动性（微信/QQ生态支持）②本土化服务优势③性价比特点。但也不能回避问题，比如国际市
FastAPI vs Flask vs Django：Python Web框架全面对比天天进步2015 python python fastapi flask
Python作为最受欢迎的编程语言之一，其Web开发生态极为丰富。FastAPI、Flask和Django是当前主流的三大PythonWeb框架，各有千秋。本文将从架构设计、开发效率、性能表现、生态支持、适用场景等方面，全面对比这三大框架，帮助开发者选择最适合自己的技术栈。目录框架简介架构设计与理念开发效率与易用性性能对比生态与扩展性典型应用场景总结与选型建议参考资料框架简介FastAPI定位：新
新手开发者：前后端分离部署及其跨域解决方案甘露寺前端跨域部署前端持续部署
新手开发者：前后端分离部署及其跨域解决方案典型生产部署场景访问加载前端应用执行前端代码跨域请求用户前端服务器www.frontend.com请求后端APIwww.backend.com场景描述：前端：部署在GitHubPages(www.frontend.com)后端：部署在阿里云服务器(www.backend.com)用户：访问www.frontend.com跨域问题如何解决？方案一：CORS（
Android 跨进程通信(IPC)深度技术总结 JT-Blink Android android
1.概述Android系统基于Linux内核，采用多进程架构设计。每个Android应用默认运行在独立的进程中，拥有独立的虚拟机实例和内存空间。进程间的内存隔离机制保证了系统的稳定性和安全性，但同时也带来了进程间通信的挑战。1.1为什么需要跨进程通信系统架构需求：Android系统服务（如ActivityManagerService、WindowManagerService）运行在system_s
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
【HarmonyOS Next】ArkUI-X休闲益智接水果【进阶】 harmonyos-next
本文通过ArkUI-X实现跨平台接水果游戏，深入探究网络图片在HarmonyOS与iOS设备上的渲染差异，并提供专业级优化方案。基于WebView的混合架构，我们实现了单代码库双端适配的高效开发模式。一、跨平台架构设计//ArkTS核心实现importweb_webviewfrom'@ohos.web.webview';@Entry@ComponentstructIndex{controller:
Android Studio flutter项目运行、打包时间太长小蜜蜂嗡嗡 android studio flutter android
AndroidStudio：AndroidStudioMeerkatFeatureDrop|2024.3.2Patch1flutterSdk：3.29.3系统：windowsfluttersdk从2.10.5升级到3.29.3，但是Flutter3.16开始新增了使用Gradle声明式plugins{}块，gradle文件配置方式改变了。而国内的阿里云、华为云等镜像仓库的更新并不是与google(
从台式电脑硬件架构看前后端分离开发模式程序猿全栈の董电脑硬件架构状态模式
在软件开发领域，前后端分离早已成为主流架构设计理念。它将系统的业务逻辑处理与用户界面展示解耦，提升开发效率与系统可维护性。有趣的是，我们日常生活中常见的台式电脑硬件架构，竟与这一理念有着异曲同工之妙。今天，就让我们从台式电脑的硬件组成出发，深入探讨其与前后端分离开发模式的内在联系。文章目录一、台式电脑硬件架构与前后端的类比1.1主机：后端的硬件化身1.2显示屏：前端的硬件呈现二、二者分离模式的共同
微服务架构设计模式资源下载介绍：掌握微服务设计精髓，助力架构升级
微服务架构设计模式资源下载介绍：掌握微服务设计精髓，助力架构升级【下载地址】微服务架构设计模式资源下载介绍探索微服务架构的奥秘，掌握设计模式的精髓。本仓库提供了一本权威的英文书籍《MicroservicePatterns:WithexamplesinJava》的PDF资源，由克里斯-理查森精心撰写。书中不仅涵盖了微服务的基本概念，还深入探讨了服务拆分、服务发现、负载均衡等关键主题，辅以丰富的实例和
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
【攻防篇】解决：阿里云docker 容器中自动启动xmrig挖矿-- 实战 ladymorgana 日常工作总结 docker 挖矿实战
文章目录场景一、问题二、原因三、解决方案1、控制台处理2、[清除与防护](https://blog.csdn.net/ladymorgana/article/details/148921668?spm=1001.2014.3001.5501)1.紧急处理：停止挖矿进程2.清理被感染的容器3.防护措施：防止再次被入侵4.排查入侵来源四、实战Step1：检查服务器是否被植入挖矿程序Step2：删除被感
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
稳定性与高可用性：SD-WAN如何保障链路故障下的业务连续性
稳定性与高可用性是现代企业网络的核心要求，尤其是在数字化转型和全球化进程中，任何网络中断都可能导致业务停滞甚至经济损失。传统网络架构对链路故障和运营商问题的应对能力较弱，而SD-WAN（软件定义广域网）以其智能化的架构设计和实时动态管理能力，成为保障业务连续性的理想选择。本文将从以下几个方面探讨SD-WAN如何通过冗余、故障转移和快速恢复技术，确保企业网络的稳定性和高可用性。一、SD-WAN如何确
SD-WAN 是否支持固定 IP？深度解析企业网络架构中的关键问题北极光SD-WAN组网网络 tcp/ip 架构
近年来，随着企业数字化转型的深化，SD-WAN（软件定义广域网）因其灵活性、高效性和成本优化而备受关注。许多企业在部署SD-WAN时，会产生这样一个疑问：**SD-WAN是否提供固定IP？能否满足对固定IP的需求？**本文将从技术原理、应用场景和具体实现等角度深入探讨这个问题，帮助企业在网络架构设计中做出明智选择。##一、SD-WAN的技术背景与架构SD-WAN是一种基于软件定义网络（SDN）技术
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
基于STM32与ZigBee的智能指引车库系统设计科创工作室li 毕业设计1 stm32 嵌入式硬件单片机
⭐资料具有原理图流程图PCB器件清单STM32与ZigBee的智能指引车库系统设计摘要：本文设计了一种基于STM32与ZigBee的智能指引车库系统。系统包含1台主机和3台从机，从机实时检测车位状况并发送给主机，主机显示3个车位的停车情况（满、无），并能简易引导车辆驶向空位，同时主机通过WiFi模块将数据上传至阿里云。该系统实现了车库车位的智能监测与引导，提高了车库管理的效率和便捷性。关键词：ST
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理