Juicedata

小米云原生文件存储平台化实践：支撑 AI 训练、大模型、容器平台多项业务

小米作为全球知名的科技巨头公司，已经在数百款产品中广泛应用了 AI 技术，这些产品包括手机、电视、智能音箱、儿童手表和翻译机等。这些 AI 应用主要都是通过小米的深度学习训练平台完成的。

在训练平台的存储方案中，小米曾尝试了多种不同的存储方式，包括 Ceph+NFS、HDFS 和对象存储挂载等。然而，这些不同的存储方式导致了数据冗余和维护管理成本的增加，同时也带来了扩展性和性能方面的问题。另外，随着公司云原生化进程的推进，越来越多的应用从物理机迁移到容器平台，这进一步增加了对文件存储和多节点共享访问数据的需求。

因此，小米存储团队自 2021 年开始启动了文件存储项目，基于 JuiceFS 构建了一个文件存储平台化产品，并通过 CSI Driver 组件提供了云原生存储的能力，以满足上述各种业务场景对文件存储的需求。

目前，这个平台已经承载了超过 50 亿个文件，总容量 2.5PB 以上，集群吞吐达到每秒 300~400Gbps。业务场景也在不断扩展，涵盖了大模型数据存储、大数据以及数据湖上云等领域。在接下来的内容中，我们将深入介绍小米在这一过程中的设计思路和实践经验。

01 为什么要建设统一的存储平台

一方面，我们面临着以下三方面的需求增长：日益增长的应用场景：随着人工智能业务的发展，我们对大规模文件存储的需求也在快速增长，此外在容器内共享访问数据、存算分离、大数据上云、大模型等场景同样对文件存储有着众多的应用需求，这些场景均需要高效、可靠的文件存储服务。

统一的文件存储方案：在我们立项并进行 JuiceFS 项目之前，在机器学习平台我们采用了 Ceph RBD+NFS、S3 FUSE、HDFS 等多种数据存储方式，我们期望能够统一存储方案，将大部分数据放到同一存储平台，降低维护及数据冗余成本。

混合云场景：小米作为全球化企业，业务遍布全球多个国家，在海外多个区域都会有文件存储相关的业务需求，我们需要满足私有云+公有云一体的文件存储架构。我们预期中的存储平台需要具备如下特性：

功能丰富，拥有完善的存储功能，支持 POSIX 等多种访问协议，同时具备易用性，面向云原生平台设计。
规模扩展性，能够支撑百亿文件、百 PB 容量规模的文件存储能力，能够弹性扩展。
性能与成本，满足 AI 高并发训练等场景的性能需求，服务稳定可靠同时兼顾存储成本。
混合云场景，支持多种存储后端，支持云上云下不同应用环境。
开发迭代，我们有一个明确的目标，即借助开源项目，不重复造轮子。易于开发扩展与维护，能够持续迭代。

存储选型：CephFS vs JuiceFS

我们对比了 JuiceFS、CephFS 以及其他一些业界文件系统的性能和功能。JuiceFS 社区文档也提供了一些的对比信息，如果您感兴趣，可以查阅 JuiceFS 社区文档。

首先，CephFS 在我们的需求中有一些无法满足的部分，例如，我们希望在公有云上部署，而 CephFS 可能更适合在 IDC 环境中使用。其次，CephFS 在集群规模达到一定程度时（例如 PB 级别），在平衡和元数据服务器性能方面可能会遇到一些瓶颈。

在 2021 年初，JuiceFS 项目刚刚开源，我们就开始关注了。与 CephFS 等其他开源文件存储系统相比，JuiceFS 采用了插件化的设计思想，为我们提供了更大的灵活性，使我们能够根据自身需求进行定制化开发。JuiceFS 还提供了丰富的产品功能，能够满足我们的特定场景需求。

同时，考虑到 Ceph 作为底层存储服务在小米内部已经大规模应用了多年，我们可以将 Ceph RADOS 作为 JuiceFS 的数据存储池，在 IDC 机房内提供高性能和低延迟的文件存储服务。这是我们在选型时的基本思考，以下这些优势是我们选择了 JuiceFS 作为整体存储服务的基础。

JuiceFS 优势

JuiceFS 采用了数据和元数据分离存储的架构，同时具备完全可插拔的设计，我个人认为这个构想非常出色。在进行基于 JuiceFS 的二次开发时，我们能够轻松地适应内部企业需求，充分利用已有的成熟组件，以满足不同应用场景下的数据管理需求。

JuiceFS 功能十分丰富，它兼容了 POSIX、HDFS、S3 等多种访问协议，支持数据的加密、压缩、文件锁等多项功能，并提供了 CSI 组件的支持，同时还具备相对复杂的扩展功能，这些满足了我们对存储服务的基本需求。

性能方面 JuiceFS 表现卓越，借助其独特的数据切分管理和客户端缓存加速能力，为客户端提供了出色的吞吐性能。

JuiceFS 社区生态非常活跃，根据我所接触到的一些项目，我认为 JuiceFS 社区的运作是最出色的。值得一提的是，在开源之前，JuiceFS 首先在商业领域积累了经验并应用于实际场景中，这为我们提供了许多有价值的借鉴。

通过以上考虑，我们当时决定基于 JuiceFS 构建一个面向云原生设计的、高性能且具有弹性可扩展性的共享文件系统。

02 小米存储平台架构及能力

作为一个文件存储平台，我们的服务是处于底层位置的，旨在满足小米企业内多样的需求场景。这些场景不仅包括自驾等基础应用，还涵盖了容器共享存储、大数据等多种场景。我们的目标是将产品化功能提供给业务部门，增强服务的易用性，使业务方能够更轻松地使用我们的服务。

在上述架构图中，作为存储平台，我们不仅提供了 JuiceFS 文件存储服务，还提供了基于 Ceph RBD 的块存储服务。同时，Ceph 为 JuiceFS 提供了底层对象存储支持。我们还拥有内部的 FDS 对象存储服务，可以适应 IDC 以及各种公有云对象存储，为业务提供无缝的跨多云的服务。我们向上层提供了不同的协议支持，包括块协议、文件协议和对象协议。在更高层次，我们为 PaaS 平台和计算层提供支持，最顶层则是应用层。

小米的 JuiceFS 架构与社区版 JuiceFS 基本相同。在 JuiceFS 客户端方面，我们提供上层协议支持，并与我们的 meta 服务和 data 服务进行底层对接。

我们的项目启动较早，当初在 JuiceFS 开源时，meta 服务的选择仅限于使用 Redis。然而，我们的首个业务需求可能涉及到数亿级别的文件规模，而 Redis 实际上难以有效支持这一规模。

与此同时，我们的产品是一个平台化项目，因此我们决定自行开发一个分布式的 meta 服务，用于统一管理集群，包括之前提到的复杂功能，具备这样的中心化能力实际上会更容易实现我们的目标。为存储元数据信息，我们选择了分布式 meta，基于另外一款开源存储项目 CubeFS 的 meta 模块实现。

优化1：统一集群管理

根据我们的场景需求，我们对 JuiceFS 做了一些优化。“集群统一管理” 这是我们与 JuiceFS 社区版的架构最大的区别，也是我们很多平台功能实现的基础。

在 JuiceFS 社区版中，文件系统之间缺乏统一的管理，用户需要自行设置他们自己的 meta 服务、bucket 等。例如，当业务部门创建一个新的卷时，他们需要自己申请 Redis、bucket、网关等，并设置后台任务，这使得整个过程繁琐且依赖于客户端。如果业务部门需要创建另一个卷，他们必须重复之前的工作，因为所有工作都是在客户端完成的。

小米的主要不同之处在于我们将卷的管理进行了集中，将通用功能下沉，使得业务使用更加便捷。

首先，我们可以看到在这个层次上，最顶层是 meta 服务，分为 master 和 metanode。我们通过 meta master 进行了统一管理，将跨客户端的工作功能集成到了统一的管理层次。这包括基本的管理功能，如卷的创建和删除，以及存储池与 bucket 的管理，还包括一些会话管理机制。一些异步任务由中心统一维护，包括 compaction、数据清理等流程。

由于我们有一个 master 层，因此我们能够提供一些产品功能，包括权限接入，建立了统一的网关，并提供账单服务，以及对应内部控制台的功能接入。

优化2：S3 网关

社区版的 S3 网关可以与一个卷相对应，通常需要进行 Minio 的 AK/SK 配置。我们首先在卷内进行了统一的管理，这使得它能够支持集群内所有卷的访问，并提供了一个统一的 S3 接入域名。

因此，我们在这一层上实现了文件系统的动态加载，使得多个卷可以通过同一个网关服务访问数据。同时，在这一层次上，我们也实现了小米内部 IAM 权限系统的适配，支持多租户的 AK/SK。

在公共参数方面，例如缓冲缓存（--buffer-cache）、缓存大小（--cache-size），这些参数可以在多个卷之间全局共享，还有与 meta 相关的连接池实现了共享，支持多个卷的网关管理。

此外，我们在网关服务上提供了一个完备的监控系统，用于监控请求吞吐量、延迟、SLA 等性能指标。

优化3：存储类型及多池管理

在进行了统一管理之后，我们进行了存储类型的封装。对于业务方来说，他们不需要关心数据存储在后端的存储介质或服务提供商。用户只需要选择适合其需求的服务类型。这个系统提供了三种基本类型，包括性能型、容量型和成本型。性能型对应后端的 Ceph SSD 存储，容量型对应机械硬盘，而成本型则对接对象存储。每种类型适用于不同的使用场景，因此提供了不同的吞吐量和延迟水平。

在存储类型方面，我们引入了一层多池管理机制，对底层存储服务进行了统一管理和封装。相对于社区版中卷（bucket）与存储池的一对一关系，我们支持了多池管理功能，主要实现了以下能力：

首先，与业务相关的配置。存储池的配置以及 Ceph 的配置都由元数据系统进行统一管理，无需用户额外配置 Ceph 的环境变量或配置文件。

第二点，我们允许卷设置存储类型，存储类型与存储池关联，并且在数据的切片级别进行记录。存储类型与其绑定的存储池是可以切换的，这样可以满足超大容量卷（百 PB 级别）的存储需求。

我们的多池管理设计主要来源于对 Ceph 的思考。当 Ceph 集群规模达到一定程度时，性能问题可能会显现出来，我们不希望维护特别大规模的 Ceph 集群，而是会建立新的集群，相当于将大容量划分为多个小集群来进行管理。这有利于减少性能开销，减少 OSD 存储故障的概率。同时也降低了管理节点的数量。我们的操作就相当于将存储类型绑定的存储池切换到新的存储池上，旧数据仍然存储在旧存储池中，而新的数据将被存储在新的存储池上，不会产生数据均衡挪动。

此外，我们还有更多操作的空间，可以按切片级别将数据迁移到不同的存储池。基于这一能力，我们可以实现更复杂的功能，如根据文件访问情况的冷热分层、基于 ec 纠删码+ 3 副本的大小 IO 分流优化等。

产品能力

我们为集团内部提供了丰富的产品功能，这些功能在企业内部是非常必要的功能：

权限系统：我们接入了 IAM（身份与访问管理）资源权限管理系统，适配通用的鉴权功能，以确保只有经过授权的用户可以访问资源。同时能够根据卷的归属找到相关项目部门及负责人，从而将存储资源精准地定位到实际负责的实体，有助于企业更好地进行管理。
控制台：接入小米融合云控制台，我们提供了管理卷和文件的功能，方便业务使用
监控：我们为 JuiceFS 集群和客户端提供了监控看板，帮助企业实时了解系统的性能和状态。
审计：对文件操作和数据读写进行审计，记录审计日志。这对一些敏感数据的业务非常重要，因为它可以告诉您哪些客户端正在访问文件，以及文件是否曾被篡改或删除。
回收站：我们支持回收站功能，可以帮助企业规避因误删数据而带来的风险，让数据更加安全可控。
账单：我们提供按不同存储类型和存储容量计费的功能，帮助企业了解和管理存储资源的费用。

大部分业务人员对于存储产品并不十分了解，因此在选择合适的存储类型时常常感到困难。为了帮助内部用户更好地做出选择，我们提供了一些通用场景建议。在控制台的卷文件管理方面，我们采用了类似于 Minio 平台的 S3 网关，用于多卷的文件内容管理，用户能够方便的进行文件管理和分享下载。

基于这些产品能力及云原生 CSI Driver 的功能，我们已经对接了小米容器平台及机器学习 PaaS 平台，业务根据需要选择不同的集群与存储类型使用我们的 JuiceFS 文件存储服务。在容器内使用 JuiceFS 时，我们更倾向于优先采用静态卷的方式来进行接入。首先，静态卷接入的优势在于它们是明确定义和创建的，对其名称和用途都有明确的规定。相比之下，动态卷的使用往往涉及到更复杂的权限管理。另外，对于更底层的 Kubernetes 平台，我们也为该服务提供了静态卷和动态卷两种接入方式。目前，我们的大部分服务都是以原生方式提供的。

分布式 meta

我们的元数据部分则是基于 CubeFS 进行开发的。最早，CubeFS 是由京东开源，是中国第一个开源分布式文件系统，涵盖了元数据（meta）、数据（data）以及最近的纠删码（EC）模块。

然而，当初我们并没有直接采用 CubeFS 的全部，主要有两个原因。首先，我们更希望能够充分利用公有云的资源，而当时的 CubeFS 仅支持自建存储。其次，我们对 Ceph 有更深入的了解，希望能够在底层的数据部分进行灵活替换。因此，当初我们只采用了 CubeFS 的元数据部分。

元数据是基于 Multi Raft 进行全内存实现的，架构分为两个模块：Master 和 Meta。

Master 是一个集群管理节点，负责管理存储卷和集群的基本配置信息，以及管理和调度 meta region，并向外部提供 HTTP 接口。
meta 作为元信息节点。它通过 Multi Raft 管理 region，并向外部提供 TCP 和 HTTP 接口，支持横向扩展。

数据被划分为不同的 region。每个文件系统都有多个数据分片，按照 inode 区间进行划分。随着数据量的增长，分片的数量也会增加。每个分片都会被均匀地分布在不同的元数据节点上。在一定条件下，会进行分裂操作，以便更好地实现水平扩展。目前，我们的生产环境中最大的一个集群已经拥有了 30 多亿个文件，预计可以扩展到百亿级别。

上图是 meta region 分裂的示意图，如果前两个 region 被写满，它就会变成只读状态。当最后一个 region 的文件数量达一定规模或节点内存用量超过了阈值，那么最后一个分片就会分裂成两个，实现了 region 的横向扩展。

03 应用场景

JuiceFS 的应用场景主要包括 4 个场景：机器学习、文件持久化存储、共享数据访问和大数据分析。目前，机器学习是我们最大的业务领域，大数据及大模型方面我们正在积极探索中。

上图展示了我们整体业务发展的情况。我们的单一集群已经达到了数十亿文件和 PB 级别的数据量，吞吐量达到数百 Gbps 的级别。

在过去的两年中，我们正式地将 JuiceFS 接入到了我们的学习平台。目前，它主要用于提供自动驾驶训练、部分手机训练和新一代语音训练的支持。

去年，我们还支持了容器平台，发布了公共集群，并提供了容器平台的接口，以满足不同应用的需求。接着，我们接入了小爱语音的训练业务。他们以前的部署方式是使用物理机上的 SSD 来运行 NFS 服务。然而，随着数据量的不断增长以及团队规模的扩大，他们很难进行扩容。此外，他们在数据管理方面也面临挑战。因此，去年他们决定采用我们的服务。

今年，我们进行了一些新业务领域的尝试，其中包括将大数据 Iceberg 迁移到云端进行性能验证和比较。此外，在大型模型的存储方面，我们已经支持了完整的存储，包括原始语料的接入、算法训练和基本模型文件的存储。

大数据上云场景探索

在将大数据 Iceberg 迁移到云端的性能验证与同类产品相比，JuiceFS 在多种规格的 IO 读写场景下均表现出色，某些场景性能略优。

如上图所示，时间越短越好，可以看到 JuiceFS 在某些场景的速度更快，某些场景略慢，整体性能可以和公有云产品媲美。同时值得一提的是，我也了解到一些其他的存储产品，在数据组织管理和加速设计方面或多或少受到了 JuiceFS 的启发。

语音场景业务收益

我们目前已经有许多业务迁移并使用了 JuiceFS 文件存储服务，下面是以语音训练业务为例，介绍一下迁移到 JuiceFS 后，给业务方带来的收益：

容量收益：语音组数据之前主要存放在 NFS 上，经常遇到某台存储机器被写满，导致该机器上同学无法继续写入的问题。随着训练规模的增加，容量扩展和容量管理都不方便。云平台-云存储组提供的 JuiceFS 理论上可以更好的满足我们的需求。
成本收益：JuiceFS 单位容量的成本低于 NFS，目前语音组数据已由（NFS+FDS）迁移至 JuiceFS，根据机器成本计算，每 T 容量每月的成本更低。
安全性：语音 NFS 采用 RAID10 与 RAIDO 混部的方式，而目前采用3副本模式存储，JuiceFS 上的数据安全性更有保障。
并发性：NFS 在使用时，用户的 IO 经常会集中在某一个存储节点上，某一台存储节点上的某个用户运行重 IO 任务后，同存储节点下的其他用户会受影响。而 JuiceFS 将数据分散到多个节点上，多用户多机并发访问时，用户相互影响小，IO 上限更高。

04 未来规划

更低成本

冷热分层：我们鼓励更多地使用公有云对象存储，以降低数据存储成本。
IDC 优化：我们引入了高密度机型以减少成本，并对存储方式进行了优化，采用了 EC 纠删码存储方式，并实现了大小 IO 的分离。
元数据管理：我们的元数据目前采用了全内存模式，对于大量小文件的应用场景，元数据在内存中的占用可能会相当大，成本很高。为了降低处理成本，我们需要支持 DB 模式，即不再使用全内存存储，而是采用本地的 rocksdb + ssd 方式存储。

提升性能

提高全闪存储性能，支持 RDMA、SPDK，降低延时
GDS (GPU Direct Storage) 面向 AI 大模型场景，提供高速存储能力
优化 Meta 传输 proto 协议，减少 marshal 开销及数据传输量

丰富功能

适配社区版本最新功能，如目录配额功能。
希望能实现 JuiceFS 商业版的部分能力，如支持分布式缓存功能，快照功能
lifecycle 生命周期管理
QoS 限速能力

05 JuiceFS 使用经验分享

客户端升级优化：在早期，我们面临了客户端升级的一些挑战。具体来说，Mount Pod 客户端升级要求迁移 Mount Pod 上的所有业务，重新构建 Mount Pod，然后 Mount Pod 才能更新。这一过程非常繁琐，给业务方带来了很多困扰。

为了解决这个问题，我们实现了热重启功能，无需卸载即可升级客户端。通过 Unix Domain Socket 传递 /dev/fuse 文件描述符，并重新构建文件句柄，从而实现了新进程对挂载点的重建。这一改进使得 CSI Driver 升级时则无需重新调度 Mount Pod，大大降低了升级的难度。
本地磁盘缓存优化：在容器场景中，客户端磁盘通常是机械硬盘。当需要读取的数据集较大时，如果本地缓存空间有限，会导致缓存命中率非常低。尤其是当将 Ceph 作为存储池时，一般不建议在业务中启用缓存。
预读优化：针对偏向于随机读取的场景，预读可能导致带宽大幅增加（高达数十倍）。为了解决这个问题，我们引入了预读放大带宽的监控机制。当预读放大过多时，我们建议业务关闭预读配置。需要指出的是，这种情况相对较为极端，在大多数数据场景中，启用预读仍然可以显著提升性能。
客户端开销优化：由于我们是通过 Fuse 用户态进程挂载文件系统，会引入额外的开销。如果宿主机挂载了大量卷，可能会导致内存资源的大量占用。因此，我们建议在使用卷的时候提前规划好，可以考虑使用子目录方式代替多卷挂载，以减少内存资源开销。

腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &