付江

滴滴机器学习平台架构演进之路

现在很多互联网公司都有自己的机器学习平台，冠以之名虽然形形色色，但就平台所要解决的问题和技术选型基本还是大同小异。

所谓大同是指大家所要处理的问题都相似，技术价格和选型也差不太多，比如都会使用 GPU 集群、采用 Spark/K8S 平台等。所谓小异是指各家规模不同，各家都在结合自己的情况、所处的阶段并根据自己的特点解决平台化的问题。

以下就滴滴的机器学习平台做一些介绍，侧重于介绍机器学习平台不同阶段所要解决的问题，以及解决问题的思路和技术方案。

滴滴机器学习平台的治理思路主要是：减少重复，提高效率。

机器学习平台 1.0：从“作坊”向“集中化”过渡

滴滴的机器学习平台建设开始于 2016 年，当时滴滴内部各算法团队逐步开展机器学习、深度学习等 AI 相关的研究和实践应用，这类算法大都属于计算密集型应用，一般都会使用单价较昂贵的 GPU 服务器。但随着业务的开展，各算法团队仅针对各自的问题做规划，导致了一种小作坊式的生产局面。

作坊式生产方式在早期有其积极的一面，能够保证创新的灵活性，但是越往后，这种小作坊式算法生产模式的局限就越明显：资源缺乏统筹调度，无法形成规模化效应，大量重复性工作，自拥算力有限。逐渐增多的这种小作坊式生产方式致使整体投入产出的效益大打折扣。

滴滴机器学习平台在这种背景下应运而生，这个阶段也主要致力于解决这些问题。

这期间机器学习平台所采用的架构和技术选型主要针对作坊式生产方式的问题来展开，也就是提高复用性和规模化能力。

首先要解决的问题就是统一资源管理，这个“统一”要解决包括线下和线上两类问题。

线下“统一”的问题着重解决 GPU 的服务器选型、测试、引入、上线等的集中化。这类集中化一方面提高了服务器引入的上线质量；另一方面相比于作坊式模式，由于有 GPU 相关专业人员参与进来，GPU 的选型避免了一味追新的盲目性和发散性。再者，集中化能够和公司整体大局结合起来，从而可以做最优化的选型和引入方案。

线上“统一”需要解决的问题细分为资源管理问题和任务调度问题，使资源使用方能够用即申请，完即释放，从而盘活整个资源大池，对平台要求则需要做到资源的隔离和管理。

这个阶段需要解决资源统一管理后如何避免重复性工作的问题。此时所谓的避免重复性，意在让各个算法业务不需重复诸如 Caffe、TensorFlow、PyTorch 等运行环境的构建，而是要一次构建所有用户都可用。这对平台来讲，需要做到应用环境管理、用户自定义环境、快速环境部署。

厘清这些需求之后，结合当时的技术环境和成熟度来看及以上的基本要求，平台选择当下盛行的 Docker 来兼做环境的管理、资源的弱隔离和任务的调度。但由于此时支持 GPU 资源调度的资源管理器乏善可陈，所以我们选择对 Yarn 做了扩展以支持 GPU 资源维度上的资源管理和任务调度，环境上平台同时提供 Notebook、Jupyter 的交互接口给用户。

统一资源管理、环境管理后，不得不面对的问题是多个资源节点间数据共享的问题，用户在当前资源释放后申请新资源时往往对之前的数据有依赖。

多节点数据共享在作坊式时期受限于单个的规模，问题不会十分突出，但是集中化之后随用户增多就会逐渐尖锐起来乃至是个大的技术挑战。因为：

机器学习的任务计算特点依赖于 GPU 的高速计算，它们对数据访问延迟有一定要求，这要求必须有足够高的 IO 带宽做支持；
用户数量增加，对存储带宽的需求会变的非常大；
对存储系统来说，支持 POSIX 接口的要求使得现有技术方案大大减小，另外也需在高可靠性、高性能以及成本之间做折中。

滴滴机器学习平台在存储系统上的尝试还是借用传统超算使用的 PFS 作为整个数据存储的一级，底层网络基础设施使用高带宽的以太网络，使用 RoCE 协议做 RDMA 的支持，并往这个方向演进。

机器学习平台架构-Yarn

总的来看，这个阶段所面对的问题以内部问题为主，从作坊式到集中化生产的发展阶段，要解决的相关重复性的问题也比较简单。其中有些问题本质属于集中化后产生的问题，但是解决思路还是作坊式的，技术选型上的局限性也没有完全暴露出来。

机器学习平台 2.0：平台发展

随着作坊逐渐消失，机器学习平台作为一种集中化的生产方式呈现给公司所有算法团队。平台功能开始完整和完善，监控体系，运维体系，更加精细化的资源隔离、管理及优化；根据用户不同的任务性质也提供了不同性质的任务支持。

经历了前一个阶段后，虽然有效降低了作坊生产的重复性工作，但也几乎必然的产生了一些新形态的重复工作。用户接入的增多，用户任务的性质也多样化，有些是实验性质的、有些是在线生产任务、有些是单卡任务、有些是多卡多机的训练任务等等。

每种性质的任务都有各自重复的具体形式，比如用户在模型生产后要部署模型服务就需要解决服务的 HA、负载均衡等生产服务问题，每一个在线模型都要解决这类问题。

再比如，用户训练时往往需要调参，而这些参数都是同形的，只是数值上的变化，这种值上的变化后就是一个个独立的任务，需要用户提交任务的流程，这提交流程也是重复性的工作。

再比如，用户在运行多机多卡时需要参数服务器，低效的参数服务器把大量的时间浪费在通信上，这种浪费会加重用户资源使用上的重复；与这种重复形式相似的，还有比如模型服务要上线，为了满足服务的延迟、QPS、资源的约束，需要做从服务、到深度学习框架、再到计算库的全栈优化，基本上，大部分模型上线也需要经历这个优化过程。

针对上述新出现的问题，平台需要更加强大的资源管理和任务调度能力。

在上一时期选用作为资源管理和任务调度器的 Yarn 开始呈现出疲态，具体表现在 K8S 日臻成熟，与 Docker 的结合更加合理和完整，并能够整合多种维度的资源，使用 K8S 为解决模型服务的自动化部署提供了环境和条件，也降低了服务的运维成本，综合 K8S 和 Yarn 各自的利弊，滴滴机器学习平台开始由 Yarn 架构向 K8S 建构迁移。

机器学习平台架构-K8S

针对用户同形调参的效率问题，平台对用户的 Python 代码做语义分析以自动识别出哪些参数可能会是需要调整的参数，用户只需要设置值域和步距就可以自动获取整套参数的模型训练任务以及最终的结果。

针对多机多卡训练效率问题，平台结合自己的硬件特点和通信模式特点，开发了滴滴参数服务器。滴滴参数服务器采取环状结构，实现了高效的 RDMA 通信的 Allreduce 算法。

环状结构而非中心集中的 server-client 模式，消除了网络传输可能的带宽竞争和网络拥塞。底层自研的高效 RDMA 通信库，规避了设备厂家提供用户态 Verbs 内部分性能损失，重写的底层通信库实现了 sig/read 及 post/recv 两种模式，尽量规避了 RDMA 固有的通信开销，充分挖掘了硬件的属性来提高性能。

另外，自研的 Allreduce 算法巧妙重叠了计算和传输，尽量减少了不必要的内存拷贝来减少额外代价，并充分考虑了 GPU 拓扑、CPU 亲和性等硬件属性来提高性能。

在机房 40G 带宽的 RoCE v2 RDMA 网络实际测试中，对比业界的 OpenMPI 和 Nvidia 的 NCCL2 方案，滴滴参数服务器有明显优势。

针对模型服务部署和优化，平台结合自己的场景特点开发了 DDL（DiDi Deep Learning） Serving 服务框架、IFX 框架和 Autotuning 优化库，极大的加速了模型上线部署和优化过程。

DDL Serving 独创自适应的 batch 机制，优化 RPC 协议，解决 Tensorflow Serving 的缺陷，相比于 Tensorflow Serving 性能对比加速如下：

DDL Serving 框架服务本身不再成为整个服务链路中的瓶颈点，对于一些轻量模型可以有 3 倍的性能提升，包括 RT 和 QPS 的提升, 而对于一般模型，性能热点落在深度学习框架层。

因此，针对框架层，我们自主研发了深度学习框架 IFX，并同时适配于 GPU 服务器和移动端平台。在 GPU 服务器上，由于 CUDA 存在 context 管理的问题，所以我们设计实现了一种 GPU 上的并发机制，有效地绕开了这些问题所带来的额外开销，另外对大量的 OP 做了优化，使得 IFX 的性能远高于 Tensoflow 乃至 TensorRT。

IFX 针对移动端的不同硬件配置，比如：流水线长度、顺序乱序、超标量等特点进行指令重排、访存优化，结合业务的计算特点，使得 IFX 的性能取得不俗的表现：

在 IFX 的优化过程中，大量的重复工作基本在 Tuning Blas 计算，由于硬件架构不同，不同模型的计算量、计算访存比、计算访存模式都不同，在极高性能要求下都需要综合这些具体的情况做针对性的优化。这些优化都很底层，并且调优都相对繁琐，对于上层服务用户来讲，不必关心这些底层细节。

为解决这类问题，平台开发了 Autotuning 工具链，包括 Kepler、Pascal、Volta 架构的原生汇编器。对于用户来讲，只需要把 GPU 上的二进制代码发给平台，平台就可产生在该 GPU 平台上几乎是最优，也就是当前最高性能优化后的二进制代码。

滴滴机器学习平台团队也是目前除了 NV 以外，自己掌握 NV GPU 原生汇编器支持版本最多，对 NV GPU 微架构最了解的。

这些“重复问题”随着集中化和平台化产生，也在平台化的环境下使得解决这些“重复”变得有意义。

集中化、平台化带来的第二个好处便是在此基础上，通用性的需求逐渐会沉淀为平台的服务。比如相似检索的需求在滴滴地图的 POI 优化、人脸检索、视频图像内容检索等业务场景中都是共性需求，因此平台会获得足够的业务信息来开发这种平台级的服务，而在作坊式时代很难获得这类跨业务场景的需求而自发的沉淀出平台服务，大多还是自扫门前雪。

机器学习平台 2.1：内外云平台成形

集中化生产后的第二个影响，随着平台能力的增加以及孵化落地算法逐步丰富，加上滴滴内部数据、AI 工程和算法逐步积累成熟，机器学习平台的功能、定位也变得多样化。

除了服务好滴滴内部机器学习平台用户，进一步夯实资源调度、任务管理、监控运维等能力外，平台开始承接内部能力对外输出的职能，期间机器学习平台和滴滴云着手在公有云上打造从底层资源到上层平台、从公有云到私有云的解决方案。

机器学习内部的集中化生产也给滴滴机器学习平台能力的输出做了储备，但外部客户的技术产品要求相对更复杂。这个复杂首先体现在产品要求的多层次性：有对资源乃至对硬件的直接要求、有对具体服务的需求、也有例如在私有云中对平台能力的需求；其次, 产品考量因素的多维性：资源的性价比往往只是一方面，安全性、稳定性、与其他基础设施的整合能力等也都是影响用户决策的因素；最后，横向各友商竞品的对比。

所有这些问题都是滴滴机器学习平台对外服务碰到的问题，但是这些问题不可能做到“毕其功于一役”，都是分阶段分步骤，有侧重的解决此间的问题。

第一步要解决的是基础问题，如何透出能力，如何保证客户的安全性，如何在前两个能力的基础上，尽最大力减少外部用户的重复性工作（用户使用的成本）和滴滴机器学习平台的重复性工作（产品性价比）。

GPU 资源：减少资源的重复性工作

相比于内部的用户，外部用户使用资源需要有一个安全的隔离环境，仅用 Docker 的弱隔离方式无法给用户提供安全且隔离的环境。所以滴滴云上 GPU 云资源使用 KVM 和 GPU 透传的方式把 GPU 资源透传给用户。

滴滴机器学习平台技术团队对 GPU 的使用颇有心得，团队成员也是早期一批在工业界尝试 GPU 的团队，积累了丰富的 GPU 使用一线的知识和经验，而且这些在滴滴内部被佐证十分有效，从 GPU 资源、拓扑和相关配套上都特别花心思，所以相同 GPU 型号，用户往往可以获得更好的性能，对比如下图。这部分的沉淀也减少了外部用户在探索使用 GPU 过程中的重复性工作，降低了使用的隐性成本。

弹性推理服务（EIS）：减少服务部署优化的重复

所有的算法模型最终都需要用于生产服务，国外有很多 PAML 平台能够部署机器学习模型服务，机器学习平台在滴滴云上也提供了一种模型部署服务——EIS（弹性预测服务）。

EIS 服务根植于内部使用的 DDL Serving 服务，但因在云上服务我们对一些理念的坚持，所以大家可能会产生我们有“起大早赶晚集”的疑问，诚然，EIS 在滴滴内部以 DDL 的形式出现的相对不算晚，但这一块的服务市场现在只能说是刚刚起步，产品的差异化和多样化会是必然的趋势，对用户来讲也有更好更大的选择空间。

目前，市面上大大小小提供 PA 服务的厂商大都有各自的特点，但总的来说他们对这个产品的定位依然仅仅是作为资源产品的辅助角色，着重为用户解决资源和部署问题。这种辅助角色，有他的好处，主要包括：

模式简单，把服务转化为最小粒度资源开销，按最小单位资源消耗来计费；
对基础设施的能力要求降低，简化为资源开销，本质上只是多了一种资源的售卖形式；
服务厂商的工作最小化，虽然用户可以选择多种资源，并且每种资源的都有各自理论上的计算能力，用户怎么利用好这些资源是用户自己的事情。

这个模式的问题在于服务商虽然为客户解决了一部分问题，但是对用户实际的服务部署考虑仍然不周。为什么？

原因在 DDL 描述中也提到过，模型服务部署服务都需要用户自己优化服务以满足 RT、QPS 的要求，更进一步说，成本如何最优化，用户使用云服务，成本几乎是必然会面对和慎重考虑的。

所以从这个点来看，PA 服务提供商以资源为主，服务为辅的模式的缺点也显而易见：

最小粒度资源的粒度对模型服务来说，粒度依旧比较粗，如若使用到 GPU，问题更加突出；
资源的理论计算能力对用户来讲往往仅是个理论数字，受限于硬件的限制和客户自己的技术能力，客户往往并不能充分利用 PA 厂商提供的资源的计算能力，而一般利用率都有限，这实际使用和标称的理论数字之间的资源费用实际是由用户买单的，而更甚者，对用户来讲这里有两部分工作是重复的：资源的使用优化的重复，服务部署的运维相关工作的重复。

根据我们内部用户和一些外部用户的经验，服务最核心的技术指标是 QPS 和 RT，进而才是满足这两个指标情况下的部署成本和使用成本。而这些成本的降低则必须在尽可能减少用户的重复工作和“实用实销”的基础上，除了一般服务部署需要的 HA 和运维支持外，EIS 从技术架构设计上侧重于解决这两方面问题。

从 RT 来讲：用户服务 RT 的开销受限于网络链路和实际前向计算的开销，为了减少网络链路的开销，滴滴云花了不少时间，在公有云上实现了纯公有云化的 Gateway，一方面用于支持用户自定义的鉴权等操作，另一方面也最小化网路跳数以降低网络的开销，保证用户服务的 RT。

从 QPS 来讲，EIS 使用滴滴机器学习平台的 DDL Serving 作为服务引擎框架，使用 DDL Serving 的用户可以忽略底层硬件的细节，从而可以避免用户重复地去做服务框架层面的已知的优化工作，这样也为实现用户“实用实销”提供了条件。可以通过以下的架构图了解：

要做到“实用实销”，还有一个非常关键的环节就是需要知道用户的模型实际的计算需求量，以及某一种硬件下的计算利用率。

我们开发了一个自动压测模块，用户提供模型和部署输入就可以获得使用 DDL Serving 在某种硬件下的计算性能，进一步回归出某种 RT 性能要求下的 QPS 能力。对用户来讲，用户折算出业务需总的 QPS 后按 QPS 横向扩容即可，相当于用户只负担了实际消耗的计算性能的那部分资源，这比之前的模式是更加细粒度的资源控制。

用户优化上的重复性工作的减少，如之前讲过的除了服务框架的优化外，还有一部分优化是花在计算性能的优化上，但计算性能的优化往往取决于程序的计算特性和相关的硬件特性，并且每种模型都有各自的特点，这部分工作 EIS 也提供了 Autotuning 的优化服务，用户需要提供他的二进制代码，通过 Autotuning 服务后会产生某种模型和框架下在指定硬件下几乎是最优的性能代码。

Autotuning 服务除了能降低重复基础的和琐碎的优化工作外，也能够提升用户模型服务 RT 和每 QPS 实际资源消耗资源。

目前 EIS 已经接入滴滴内部大量的业务，其整个功能模块图如下。因为一些限制，对外部客户，当前滴滴云 EIS 服务还是通过提交工单接入的方法，用户自助的方式马上会上线。

简枢：降低用户重复平台建设

同 EIS 一样，机器学习平台级产品在内部积累了丰富的一线的平台经验，基于此，机器学习平台在滴滴云上开发了平台级产品简枢。

简枢包装了多种平台能力，弱隔离方案的资源管理、多种任务管理、监控报警、在线服务快速部署等，能够帮助其他公司在平台化过程中少踩坑，快速具备平台能力，提高生产效益。

未来展望

对于机器学习来讲，计算力仍然是最具革命性的力量，正如 2011 年开始的这波深度学习浪潮的助力正是 GPU 一样，未来计算力还是工程层面的制约力。

如 Jeff Dean 所言“事实证明，我们真正需要的是超过现在 100 万倍的计算能力，而不仅仅是几十倍的增长。”因此，对平台来讲，如何更好的管理不断爆发式增加的计算力、如何有效的释放出这些计算力，如何驾驭好这些计算力仍然需要平台不断的探索、实践、技术升级等等。

所有平台的生命力源自于生产效率的综合提高，降低整体成本。对于滴滴机器学习平台而言，内部第一目标是要降低滴滴在使用最新的机器学习、深度学习、强化学习等技术上能够保证整体效率和成本控制，同时兼顾创新的活力；对于外部来讲，秉承持续为客户创造价值的理念，深化云平台产品的各项产品功能、质量和成本，为客户打造物美价廉的技术产品。

机器学习平台3.0

具体来说，滴滴机器学习平台要实现 3.0 阶段，也即从硬件选型到基础设施到上层整个软件栈，能够做到内外统一架构，降低内外两部分的重复性工作。同时会从 AI 解决问题的效率和规模两方面着手，在平台上提供更丰富的功能，比如开发算法市场、模型市场、数据市场、GUI 界面以提高用户使用各种学习技术的效率，也会继续沉淀更多的具体服务，比如：人脸比对、语音识别、翻译等等。

本文首发于AI前线微信号（id:ai-front），作者：孔建钢，查看「原文链接」

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
【2023年】云计算金砖牛刀小试6 geekgold 云计算服务器网络 kubernetes 容器
第一套【任务1】私有云服务搭建[10分]【题目1】基础环境配置[0.5分]使用提供的用户名密码，登录提供的OpenStack私有云平台，在当前租户下，使用CentOS7.9镜像，创建两台云主机，云主机类型使用4vCPU/12G/100G_50G类型。当前租户下默认存在一张网卡，自行创建第二张网卡并连接至controller和compute节点（第二张网卡的网段为10.10.X.0/24，X为工位号
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
raksmart洛杉矶云服务器全面解析 rak部落服务器 raksmart洛杉矶云服务器
RAKsmart洛杉矶云服务器是一种高性能的云计算解决方案，专为满足不同业务需求而设计。以下是对RAKsmart洛杉矶云服务器的具体介绍，rak小编为您整理发布raksmart洛杉矶云服务器全面解析。1.线路选择：RAKsmart洛杉矶云服务器提供多种网络线路选项，包括大陆优化线路和CN2ONLY线路。这些线路能够提供更稳定和快速的连接速度，特别适合需要高效数据传输和低延迟的业务环境。2.性能表现
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
Docker学习十一：Kubernetes概述爱打羽球的程序猿 Docker学习系列 docker kubernetes 学习
一、Kubernetes简介2006年，Google提出了云计算的概念，当时的云计算领域还是以虚拟机为代表的云平台。2013年，Docker横空出世，Docker提出了镜像、仓库等核心概念，规范了服务的交付标准，使得复杂服务的落地变得更加简单，之后Docker又定义了OCI标准，Docker在容器领域称为事实的标准。但是，Docker诞生只是帮助定义了开发和交付标准，如果想要在生产环境中大批量的使
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
为用户都喜欢购买阿里云服务器？阿里云服务器有何优势？阿里云最新优惠和活动汇总
随着企业数字化转型的加速和云计算技术的日益成熟，云服务器已成为企业搭建应用、存储和处理数据的重要基础设施。在众多云服务提供商中，阿里云以其卓越的性能、丰富的产品线、出色的技术支持和强大的生态系统，赢得了众多用户的青睐。那么，阿里云服务器到底有哪些优势？为何如此多的用户选择使用阿里云服务器呢？阿里云服务器优势图.jpg阿里云服务器的优势一、技术领先，性能卓越阿里云作为国内最早涉足云计算领域的企业之一
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那