汀、人工智能

Annoy vs Milvus：哪个向量数据库更适合您的AI应用？知其然知其所以然

1. Annoy vs Milvus简介

Annoy 和 Milvus 都是用于向量索引和相似度搜索的开源库，它们可以高效地处理大规模的向量数据。

Annoy（Approximate Nearest Neighbors Oh Yeah）：

Annoy 是一种近似最近邻搜索算法，它通过构建一个树状结构来加速最近邻搜索。
Annoy 支持支持欧氏距离，曼哈顿距离，余弦距离，汉明距离或点 (内) 乘积距离等多种度量方式。
Annoy 是一个轻量级的库，易于使用和集成，如果向量维度不是太多（例如 < 100 维），效果会比较好。
目前 Annoy 主要支持 Python 和 C++ 接口。

Milvus：

Milvus 是一个基于向量相似度搜索的开源引擎，它可以将大规模向量数据快速存储和检索。
Milvus 使用了各种索引和算法优化技术，提供了高效的向量搜索能力。
Milvus 支持欧式距离、内积相似度等多种度量方式，且具有扩展性和可定制性。
Milvus 提供了 Python、Java 和 Go 等多种编程语言的接口。
Milvus 还提供了图形用户界面 (GUI) 和可视化工具来辅助管理和查询向量数据库。

选择 Annoy 还是 Milvus 取决于您的具体需求和应用场景：

如果对于近似最近邻搜索的速度和轻量级集成更为关注，可以选择 Annoy。（demo 入门）
如果需要管理和查询大规模的向量数据库，并希望具备更多的功能和可扩展性，可以选择 Milvus。（工业级应用）

2.Annoy

Annoy (Approximate Nearest Neighbors Oh Yeah) 是一个带有 Python bindings 的 C ++ 库，用于搜索空间中给定查询点的近邻点。它还会创建大型的基于文件的只读数据结构，并将其映射到内存中，以便许多进程可以共享相同的数据。annoy 的学习成本非常低，能较快的掌握，非常适合项目的快速开发，于此对比的是，faiss 和 Milvus 的学习成本较高，用起来较为复杂。

用于空间检索近邻的数据。检索过程分成三步：

建立索引过程；
近邻查询过程；
返回最终近邻节点；

首先先来一张 2D 数据分布图：

接下来按照步骤 1，2 和 3 进行分析。

2.1 建立索引过程

Annoy 的目标是建立一个数据结构，使得查询一个点的最近邻点的时间复杂度是次线性。Annoy 通过建立一个二叉树来使得每个点查找时间复杂度是 O(log n)。以下图为例，随机选择两个点，以这两个节点为初始中心节点，执行聚类数为 2 的 kmeans 过程，最终产生收敛后两个聚类中心点。这两个聚类中心点之间连一条线段（灰色短线），建立一条垂直于这条灰线，并且通过灰线中心点的线（黑色粗线）。这条黑色粗线把数据空间分成两部分。在多维空间的话，这条黑色粗线可以看成等距垂直超平面。

在划分的子空间内进行不停的递归迭代继续划分，直到每个子空间最多只剩下 K 个数据节点。

通过多次递归迭代划分的话，最终原始数据会形成类似下图的二叉树结构。二叉树底层是叶子节点记录原始数据节点，其他中间节点记录的是分割超平面的信息。Annoy 建立这样的二叉树结构是希望满足这样的一个假设: 相似的数据节点应该在二叉树上位置更接近，一个分割超平面不应该把相似的数据节点分割二叉树的不同分支上。

根据上述步骤，建立多棵二叉树树，构成一个森林。

2.2 近邻查询过程

上面已完成节点索引建立过程。如何进行对一个数据点进行查找相似节点集合呢？比如下图的红色节点，查找的过程就是不断看他在分割超平面的哪一边。从二叉树索引结构来看，就是从根节点不停的往叶子节点遍历的过程。通过对二叉树每个中间节点（分割超平面相关信息）和查询数据节点进行相关计算来确定二叉树遍历过程是往这个中间节点左孩子节点走还是右孩子节点走。通过以上方式完成查询过程。

查询过程采用优先队列机制：采用一个优先队列来遍历二叉树，从根节点往下的路径，根据查询节点与当前分割超平面距离进行排序。

2.3 返回最终近邻节点

步骤 1 会构建多棵二叉树树，每棵树都返回一堆近邻点后，如何得到最终的Top N相似集合呢？首先所有树返回近邻点都插入到优先队列中，求并集去重, 然后计算和查询点距离，最终根据距离值从近距离到远距离排序，返回 Top-N 近邻节点集合。

2.4 完整的 Python API

AnnoyIndex(f, metric)返回可读写的新索引，用于存储 f 维度向量。metric 可以"angular" ， "euclidean"， "manhattan"， "hamming"， "dot"。
a.add_item(i, v)用于给索引添加向量 v，i（任何非负整数）是给向量 v 的表示。
a.build(n_trees)用于构建 n_trees 的森林。查询时，树越多，精度越高。在调用build后，无法再添加任何向量。
a.save(fn, prefault=False)将索引保存到磁盘。保存后，不能再添加任何向量。
a.load(fn, prefault=False)从磁盘加载索引。如果 prefault 设置为 True，它将把整个文件预读到内存中。默认值为 False。
a.unload() 释放索引。
a.get_nns_by_item(i, n, search_k=-1, include_distances=False)返回第 i 个 item 的 n 个最近邻的 item。在查询期间，它将检索多达 search_k（默认 n_trees * n）个点。search_k 为您提供了更好的准确性和速度之间权衡。如果设置 include_distances 为 True，它将返回一个包含两个列表的 2 元素元组：第二个包含所有对应的距离。
a.get_nns_by_vector(v, n, search_k=-1, include_distances=False)与上面的相同，但按向量 v 查询。
a.get_item_vector(i)返回第 i 个向量前添加的向量。
a.get_distance(i, j)返回向量 i 和向量 j 之间的距离。注意：此函数用于返回平方距离。
a.get_n_items() 返回索引中的向量数。
a.get_n_trees() 返回索引中的树的数量。
a.on_disk_build(fn) 用以在指定文件而不是 RAM 中建立索引（在添加向量之前执行，在建立之后无需保存）。

Notes：
Annoy 使用归一化向量的欧式距离作为其角距离，对于两个向量 u，v，其等于 sqrt(2(1-cos(u,v)))
C ++ API 非常相似：调用 annoy 只需使用#include "annoylib.h"。

权衡
调整 Annoy 仅需要两个主要参数：树的数量 n_trees 和搜索期间要检查的节点的数量search_k。

n_trees在构建索引期间提供该值，并且会影响构建时间和索引大小。较大的值将给出更准确的结果，但索引较大。
search_k是在运行时提供的，并且会影响搜索性能。较大的值将给出更准确的结果，但返回时间将更长。

如果search_k未提供，它将默认为n * n_trees * D，n是近似最近邻居的数目，并且D是一个常数，取决于向量维度。否则，search_k和n_trees是大致独立的，即如果 search_k 保持不变，n_trees不会影响搜索时间，反之亦然。基本上，在您可以负担的内存使用量的情况下建议在n_trees可能大的值，并且在给定查询时间的限制的情况下建议设置search_k尽可能大。

3.Milvus从1.0到2.0的迭代优化

2018 年 10 月，写下了向量数据库 Milvus 的第一行代码；在历经了 29 个月、19 个版本的迭代与全球 1000 家用户的实践验证后，终于在 2021 年 3 月迎来了 Milvus 1.0 版本。Milvus 解决了对向量数据进行增删改查（CRUD）操作和数据持久化的问题，但随着新需求的出现，更多问题也逐渐浮现出来。本文旨在总结过去三年的经验，聊聊 Milvus 2.0 期待解决的问题，以及为什么 Milvus 2.0 是解决这些问题的良药。

3.1 Milvus 1.0 不足之处

1. 数据孤岛： Milvus 1.0 仅支持处理非结构化数据产生的向量数据，缺乏标量查询能力。数据存储的割裂造成应用设计的复杂度增加和数据冗余，且标量和向量混合查询也因缺少统一的优化器导致性能不佳。

2. 实时性与效率的冲突： 与 Elasticsearch 类似，Milvus 1.0 是一套近实时系统，需要定期或者主动落盘来确保数据可见。这种模型给流式处理带来很大的复杂性和不确定性。另一方面，离线批量导入场景核心关注处理效率，批量写入在处理全量离线数据的场景下依然消耗了大量资源。

3. 可扩展性和弹性不足： Milvus 1.0 依赖 Mishards 中间件实现分布式扩展，下层依赖共享存储实现典型的 Shared Storage 架构，但整体扩展性不足，主要体现在以下三个方面：

写节点是一个单点，无法横向扩展。
读节点的扩展基于一致性 hash 进行路由。一致性哈希尽管实现简单，但数据调度不够灵活，仅仅解决了数据分布均匀性的问题，不能很好地解决数据和算力不匹配的问题。
依赖 MySQL 管理元数据 —— 单机 MySQL 能支持的查询量和数据量都有限。

4. 可用性不足： 在传统的 CAP 定理中，Milvus 用户往往更加偏向于可用性（Availability）而不是一致性（Consistency）。Milvus 1.0 版本缺少多副本热备、跨机房容灾等能力，在可用性上并不理想。放弃一部分数据的准确性也有助于获得更好的性能。

5. 成本高昂： Milvus 1.0 依赖共享存储保证数据的持久性，而共享存储的成本通常是本地存储或者对象存储成本的 10 倍以上。由于向量搜索算法非常依赖计算资源和内存，过高的成本也成为了用户探索更大数据量和更多业务规则的阻碍。

6. 使用繁琐：

1）分布式版本部署复杂，运维成本高。

2）缺少好的图形化集群管理工具。

3）API 复杂，开发效率较低。

缝缝补补还是推倒重来，这是一个值得思考的问题。Milvus 项目发起人星爵认为，就像传统汽车巨头宝马奔驰永远造不出特斯拉，Milvus 需要成为非结构化数据领域的颠覆者，用户最终会像拥抱新能源汽车一样拥抱云原生的解决方案。Milvus 2.0 应云而生，作为贡献给非结构化数据处理的礼物。

3.2 架构设计理念升级， Milvus 2.0到来

围绕以下三个理念，重新定义下一代云原生向量数据库：

云原生优先**：**认为，只有存储计算分离的架构才能发挥云的弹性，实现按需扩容的模式。另一个值得注意是 Milvus 2.0 采取了读写分离、实时离线分离、计算瓶颈 / 内存瓶颈 / IO 瓶颈分离的微服务化设计模式，这有助于面对复杂的工作负载选择最佳的资源配比。
**日志即数据：**Milvus 引入消息存储作为系统的骨架，数据的插入修改只通过消息存储交互，执行节点通过订阅消息流来执行数据库的增删改查操作。这一设计的优势在于降低了系统的复杂度，将数据库关键的持久化和闪回等能力都下钻到存储层；另一方面，日志订阅机制提供了极大的灵活性，为系统未来的拓展奠定了基础。
**批流一体：**Milvus 2.0 实现了 unified Lambda 流式处理架构，增量数据和离线数据一体化处理。相比 Kappa 架构，Milvus 引入对日志流的批量计算将日志快照和构建索引存入对象存储，这大大提高了故障恢复速度和查询效率。为了将无界的流式数据拆分成有界的窗口，Milvus 采用 watermark 机制，通过写入时间（也可以是事件发生时间）将数据切分为多个小的处理单元，并维护了一条时间轴便于用户基于某个时间点进行查询。

Milvus 系统严格遵从存储与计算分离、控制平面与数据平面分离的设计原则，整个系统分为四个部分： 接入层（Access Layer）、协调服务（Coordinator Service）、执行节**点**（Worker Node）和存储层（Storage）。

系统框架图

**接入层：**系统的门面，包含了一组对等的 proxy 节点。接入层是暴露给用户的统一 endpoint，负责转发请求并收集执行结果。
**协调服务：**系统的大脑。总共有四类协调者角色，分别为 root coord、data coord、query coord 和 index coord。
**执行节点：**系统的四肢。执行节点只负责被动执行协调服务发起的命令，响应接入层发起的读写请求。目前有三类执行节点，即 data node、query node 和 index node。
**存储服务：**系统的骨骼。Milvus 依赖三类存储：元数据存储、消息存储和对象存储。元数据存储便于协调服务存储 collection schema、数据消费位点等元信息，基于 etcd 实现。消息存储主要用于存储系统增量日志数据，实现可靠的异步通知机制，目前基于 Pulsar 实现。对象存储主要用于存储日志快照和索引数据，目前基于 MinIO 或 S3 实现。

3.3 功能亮点

Milvus 2.0 作为一款开源分布式向量数据库产品，始终将产品的易用性放在系统设计的第一优先级。一款数据库的使用成本不仅包含了运行态的资源消耗成本，也包含了运维成本和接入学习成本。Milvus 新版本支持了大量降低用户使用成本的功能。

1. 持续可用

实现数据的可靠存储和可持续的服务是对数据库产品的基本要求。理念是 Fail cheap, fail small, fail often。Fail cheap 指的是 Milvus 采取的存储计算分离架构，节点失败恢复的处理十分简单，且代价很低。Fail small 指的是 Milvus 采取分而治之的思想，每个协调服务仅处理读 / 写 / 增量 / 历史数据中的一个部分，设计被大大简化。Fail often 指的是混沌测试的引入，通过故障注入模拟硬件异常、依赖失效等场景，加速问题在测试环境被发现的概率。

2. 向量 / 标量混合查询

为了解决结构化数据和非结构化数据的割裂问题，Milvus 2.0 支持标量存储和向量标量混合查询。混合查询帮助用户找出符合过滤表达式的近似邻，目前 Milvus 支持等于、大于、小于等关系运算以及 NOT、AND、OR 、IN 等逻辑运算。

3. 多一致性

Milvus 2.0 是基于消息存储构建的分布式数据库，遵循 PACELC 定理所定义的，必须在一致性和可用性 / 延迟之间进行取舍。绝大多数 Milvus 场景在生产中不应过分关注数据一致性的问题，原因是接受少量数据不可见对整体召回率的影响极小，但对于性能的提升帮助很大。尽管如此，认为强一致性、有界一致性、会话一致性等一致性保障语义依然有其独特的应用场景。比如，在功能测试场景下，用户可能期待使用强一致语义保证测试结果的正确性，因此 Milvus 支持请求级别的可调一致性级别。

4. 时间旅行：

数据工程师经常会因为脏数据、代码逻辑等问题需要回滚数据。传统的数据库通常通过快照方式来实现数据回滚，有时甚至需要重新训练，带来高昂的额外开销和维护成本。Milvus 对所有数据增删操作维护了一条时间轴，用户查询时可以指定时间戳以获取某个时间点之前的数据视图。基于 Time Travel，Milvus 还可以很轻量地实现备份和数据克隆功能。

5. ORM Python SDK：

对象关系映射（Object Relational Mapping）技术使用户更加关注于业务模型而非底层的数据模型，便于开发者维护表、字段与程序之间的关联关系。为了弥补 AI 算法概念验证（Proof of concept）到实际生产部署之间的缺口，设计了 Milvus ORM API，而其背后的实现可以是通过嵌入式的 Library、单机部署、分布式集群，也可能是云服务。通过统一的 API 提供一致的使用体验，避免云端两侧重复开发、测试与上线效果不一致等问题。

6. 丰富的周边支持：

**1. 图形化管理界面：**Milvus Insight 是 Milvus 图形化管理界面，包含了集群状态可视化、元数据管理、数据查询等实用功能。Milvus Insight 源码也会作为独立项目开源，期待有更多感兴趣的人加入共同建设。

2. 支持基于 helm 和 docker-compose 的一键部署。

**3. 性能监控：**Milvus 2.0 使用开源时序数据库 Prometheus 存储性能和监控数据，同时依赖 Grafana 进行指标展示。

以上是 Milvus 2.0 版本的简单介绍，如有兴趣了解更多 Milvus 2.0 的相关内容，请参阅完整的 **Milvus 2.0 发版说明：**https://github.com/milvus-io/milvus/releases。

3.4 关于未来发展

回顾 Milvus 的发展历程，认为基于大数据 + AI 的应用架构依然过于复杂，简化非结构化数据处理一直是 Milvus 社区努力的方向。接下来的 Milvus 项目会重点关注以下几个方向：

**DB for AI：**作为一款数据库，除了基本的 CRUD 功能之外，Milvus 必然还需要更强大的数据查询能力、更智能的查询优化器、更全的数据管理功能等。下一阶段将重点补齐 Milvus 2.0 目前还不支持的 DML 功能和数据类型，比如删除、更新操作和支持 string 数据类型。

**AI for DB：**向量索引类型、索引参数、用户工作负载、硬件类型、成本性能等的约束构成了一个非常庞大的 tradeoff，尽可能避免手动调优有助于降低使用复杂度。已经着手分析系统负载，收集访问热度的数据，后续将引入自动参数调优工作以降低用户的理解成本。

**成本优化：**向量召回的最大挑战是需要在限定时间内处理海量数据，这项工作既是计算密集型，也是访存密集型。在物理执行层引入 GPU、FPGA 等异构硬件加速可以大幅降低 CPU 开销。正在开发磁盘内存混合的 ANN 索引算法，可以在有限的内存下实现海量向量的高性能查询。于此同时，也在评估开源的 ScaNN、NGT 等向量索引算法的性能。

**易用性：**Milvus 易用性的提升体现在集群管理工具、多语言 SDK、部署工具、运维工具等许多方面，能够让大家快速上手使用是最有成就感的工作。

Zilliz 以重新定义数据科学为愿景，致力于打造一家全球领先的开源技术创新公司，并通过开源和云原生解决方案为企业解锁非结构化数据的隐藏价值。

Zilliz 构建了 Milvus 向量数据库，以加快下一代数据平台的发展。Milvus 目前是 LF AI & Data 基金会的毕业项目，能够管理大量非结构化数据集。技术在新药发现、计算机视觉、推荐引擎、聊天机器人等方面具有广泛的应用。

使用MarkdownHeaderTextSplitter拆分Markdown文档 scaFHIO python 前端开发语言
在AI驱动的应用中，如聊天机器人或问答系统，处理大型文档时，通过分片技术将文档拆分为更小的单元是必要的步骤。尤其是对于Markdown格式的文件，它们通常由各种层级的标题结构化组织。通过按标题拆分，有利于保留文档的上下文语义一致性。本篇文章将讲解如何使用MarkdownHeaderTextSplitter来实现这一目标。技术背景介绍在将完整的段落或文档进行嵌入时，嵌入过程会考虑文本的整体上下文以及
linux find 命令超全完整指南疑犯 linux 服务器 find命令
linuxfind命令超全完整指南一、基础语法与工作逻辑find[起始路径][表达式][操作]起始路径：指定搜索根目录，默认为当前目录.。支持多路径（如find/etc/var）表达式：定义搜索条件（如文件名、类型、时间等）。操作：对匹配文件执行命令（如删除、压缩等）。二、核心查找条件详解1.按名称查找精确匹配：-name"文件名"find/home-name"example.txt"#精确查找文
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据库管理-第303期数据库相关硬件文章汇总（20250319）胖头鱼的鱼缸（尹海文）数据库数据库
数据库管理303期2025-03-19数据库管理-第303期数据库相关硬件文章汇总（20250319）1CPU&内存2SSD3RDMA4存储5CXL6硬件采购7数据库一体机总结数据库管理-第303期数据库相关硬件文章汇总（20250319）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19
数据库管理-第304期业绩？有绩无业！（20250320）胖头鱼的鱼缸（尹海文）数据库数据库 oracle
数据库管理304期2025-03-20数据库管理-第304期业绩？有绩无业！（20250320）1词解2跑偏3活动预告总结数据库管理-第304期业绩？有绩无业！（20250320）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19c、MySQL8.0OCP、Exadata、CDP等认证墨天
Springboot启动失败：解决「org.yaml.snakeyaml.error.YAMLException」报错全记录 -天凉好秋- spring boot java idea visual studio code
##关键字Java、Springboot、vscode、idea、nacos启动失败、YAMLException、字符集配置---##背景环境###项目架构-**框架**：SSM（Spring+SpringMVC+MyBatis）-**中间件**：Nacos（配置管理+服务发现）-**配置存储**：Nacos中存储了Springboot的配置，包括：数据库连接信息、Redis连接信息、服务配置等。
Java课程设计“单项选择题标准化考试系统设计” GG爆不会写代码 java sql mysql intellij-idea
大二时做的java课设，代码能力不是很行，给需要做课设的同学一个参考题目如下“单项选择题标准化考试系统设计”1、问题描述设计一个单项选择题标准化考试系统，该系统要求能自动组卷和评分。2、功能要求（1）用数据库保存试题。（每个试题包括题干、4个备选答案、标准答案）。（2）试题录入：可随时增加试题到试题库中。（3）试题抽取：每次从试题库中可以随机抽出N道题（N由键盘输入）。（4）答题：用户可实现输入自
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
98-二叉树-验证二叉搜索树 Hello_Git javascript
树|深度优先搜索|二叉搜索树|二叉树一、二叉搜索树（BST）的性质首先，了解二叉搜索树（BinarySearchTree,BST）的定义和性质是解决这类问题的基础。BST的定义左子树：节点的左子树只包含小于当前节点的数。右子树：节点的右子树只包含大于当前节点的数。递归性质：左子树和右子树本身也必须是二叉搜索树。简单来说，BST具有以下特点：中序遍历BST可以得到一个递增的有序序列。每个节点的值都大
《Linux运维总结：基于银河麒麟V10+ARM64架构部署多机elasticsearch7.17.21分布式集群+单机kibana7.17.21二进制版ssl集群》东城绝神《Linux运维实战总结》运维 linux elasticsearch ssl
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：Linux运维实战总结一、背景elasticsearch是一个分布式、实时、高性能的搜索和分析引擎，它广泛应用于企业级搜索、日志分析、实时数据处理等领域。随着elasticsearch的广泛应用，安全性变得越来越重要。这里将从安全策略和访问控制两方面来部署elasticsearch集群安全策略涉及到数据安全、访问安全和操作安全等
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
施磊老师c++笔记(三) Zhuai-行淮施磊老师cpp c++笔记
c++模板编程-学习cpp类库的编程基础文章目录c++模板编程-学习cpp类库的编程基础1.函数模板2.理解模板函数3.实现cpp的vector向量容器4.理解容器空间配置器allocator的重要性1.函数模板内容:模板的实例化,模板函数,模板类型参数,模板非类型参数,模板的实参推演,模板的特例化,模板函数模板的特例化非模板函数的重载关系区分函数模板和模板函数的概念!!!模板的意义?对类型也可以
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
施磊老师高级c++(一) Zhuai-行淮施磊老师cpp c++开发语言
对象被优化后,才是高效的c++编程文章目录对象被优化后,才是高效的c++编程1.对象使用背后调用了哪些方法2.函数调用过程中对象背后调用方法3.总结三条对象优化的规则4.CMyString的代码问题5.添加带右值引用参数的拷贝构造和赋值函数6.String类在vector上的应用--面试题7.move移动语义和forword类型完美转发move移动语义的作用代码:**问题:**解决办法:最终代码:
95% 向量资源节省，火山引擎云搜索 RAG 技术体系演进字节跳动云原生计算火山引擎搜索引擎算法
采访嘉宾|火山引擎云搜索团队鲁蕴铖、李杰辉、余炜强编辑|TinaInfoQ2023年，大模型惊艳了世界。2024年，RAG技术如日中天。RAG使得大模型能够在不更新模型参数的情况下，获得必要的上下文信息，从而减少大模型的幻觉。随着大型语言模型技术的不断成熟和行业应用的深入，人们对RAG系统的期望已经超越了对其“酷炫”效果的追求。企业和组织开始寻找更可靠、可扩展的RAG解决方案，以满足实际业务需求。
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
热点研究 | OpenAI 重磅发布 Agents SDK，人人都能手搓 Manus? Ai野生菌技术面 php 开发语言 manus openai agent
3月12日，OpenAI正式发布了OpenAIAgentsSDK，这一重要发布不仅为开发者提供了强大的工具，更预示着AIAgent技术即将进入快速发展期。这些工具为开发者提供更强大功能，使代理能够独立执行复杂任务，如搜索网络、处理文件和自动化计算机操作。ResponsesAPI同步发布，为开发者提供了构建自定义AIAgent的能力，能够执行网络搜索、文件检索等任务。这套新工具和API旨在赋能开发者
2025年毕设ssm校园二手交易平台论文+源码锦程学长--毕设程序课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的研究，现有成果多集中于社会综合型平台（如闲鱼、转转）的商业模式分析，或理论层面的共享经济模型探讨，而针对高校场景特殊性（如用户密度高、交易标的额小、社交属性强）的垂直型平台研究存在明显缺口。当前高校内二手交易多依赖社群、论坛等分散渠道，存在信息不对称、交易
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
单片机—中断系统落幕单片机嵌入式硬件
什么是中断系统？为使得CPU具有对外界紧急事件的实时处理能力而设置的，当CPU正在处理某些事的时候，当外界紧急事件请求，CPU会停止当前的事情，先去处理紧急的事件，处理结束后，在返回处理当前事件，这个过程叫做中断，实现这中功能的部件叫做中断系统。什么是中断源？向CPU发出中断请求的请求源就是中断源什么是中断向量表？中断向量是中断服务（处理）程序的入口地址存储中断服务（处理）程序地址的表格中断流程：
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
vscode通过remote-ssh连接远程开发机 Cachel wood 软件安装教程计算机基础 vscode ssh ide 前端前端框架运维编辑器
文章目录安装扩展注意事项：tips其他参数安装扩展安装VSCode和SSH-Remote扩展：首先，需要确保你已经在本地计算机上安装了VSCode，并且在扩展市场中搜索并安装了"Remote-SSH"扩展。配置SSH：在本地计算机上，打开VSCode的命令面板（使用快捷键"Ctrl+Shift+P"或"Cmd+Shift+P"）并输入"Remote-SSH:OpenConfigurationFil
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓