程序员王同学

NN-Descent构建K近邻图——论文超详细注解

个人博客：www.mzwang.top

论文题目

Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures

作者拟解决的主要问题

K近邻图的构建在很多基于Web的应用上是一个重要的操作，比如协同过滤（基于用户的邻居作推荐）、相似性搜索等。一个有效地构建方法将使K近邻图的应用更加广泛。

暴力构建K近邻图的时间复杂度为 $O(n^2)$ ，为了能更高效的构建K近邻图，现存的工作扩展性都不太好，而且一般都特定于具体的相似性度量。

有效的K近邻图构建仍然是一个开放的问题，解决该问题的已知方案中没有一个是通用、有效和可扩展的。因此，本文提出了NN-Descent方法，该方法具有以下优点：

通用。适用于任意的相似性度量准则。
可扩展。随着数据集尺寸的增加，Recall仅有很小的下降。由于对每一个数据点的局部信息进行操作，因此适用于分布式计算环境（MapReduce）.
节省空间。整个构建过程仅涉及到一种数据结构——近邻图。
快速、精确。百分之几的相似性比较便可实现90%以上的召回率。
容易实施。主要代码不超过200行（C++）。

论文主要研究内容

如何有效地构建一个K近邻图，具体如下：

适用任意相似性度量的K近邻图构建方法。
在较短的时间内快速构建K近邻图的方法。
构建一个在其上能快速、精确执行搜索的K近邻图。
适用于MapReduce框架的K近邻图构建方案。

论文使用的方法

抽象描述注解

$V$ 表示数据集，数据集尺寸为 $N = ∣ V ∣$ ，相似性度量 $\sigma$ ： $\times V \rightarrow R$ 。 $\forall v \in V$ ， $B_K(v)$ 表示 $v$ 的 $K$ 个最近邻， $R_K(v)= \lbrace u \in V | v \in B_K(u) \rbrace$ 表示 $v$ 的反向K个最近邻。 $B [v]$ 和 $R [v]$ 分别表示 $B_K(v)$ 和 $R_K(v)$ 的近似。 $\overline{B}[v]=B[v] \cup R[v]$ 表示 $v$ 的一般邻居。

当在 $V$ 上的度量方式为距离度量时，即 $d$ ： $\times V \rightarrow [0,\ +\infty]$ 。 $\forall r \in [0,\ +\infty]$ ，以 $v$ 为球心的r-球定义为： $B_r(v)=\lbrace u \in V | d(u, \ v) \leq r\rbrace$ 。

如果 $\exists c$ 满足：
$|B_{2r}(v)| \leq c|B_{r}(v)|, \ \forall v \in V \tag{1}$
则称度量空间V增长受限， $c$ 是增长常量。

基础算法注解

基本思想：邻居的邻居更可能是邻居。

理论推导

我们可以从 $V$ 中每一个点的现有的近似K近邻出发，通过探索该点邻居的邻居（在当前近似K近邻中）而不断完善该点的K近邻。换句话说，可从粗略的K近邻图出发通过改进而不断完善它。对这一观点的量化表达如下：

让 $K=c^3$ （后面公式推导要用到， $K$ 取此值是方便推导），假定已有的近似K近邻图（可以随机给每个点选邻居构建，也可通过其它数据结构辅助构建，如哈希，树等）为 $B$ 。 $\forall v \in V$ ， $B^\prime[v]=\bigcup _{v^\prime \in B[v]} B[v^\prime]$ 表示 $v$ 所有邻居的邻居集合，它也是在完善 $v$ 的K近邻时的候选点集。当B的精度比较高时（迭代完善了一定次数或通过某种更好的方式初始化B），高到什么程度呢？就是给定一个固定的半径 $r$ ，对 $\forall v \in V$ ， $B [v]$ 包含的K个邻居均匀地分布在 $B_r(v)$ 中。这样的话，当各事件相互独立且 $K<< |B_{r/2}(v)|$ 时， $B^\prime [v]$ 很可能包含在 $B_{r/2}(v)$ 中的K个邻居。换句话说，对 $\forall v \in V$ ，通过探索 $B^\prime [v]$ 来使 $v$ 到它的近似K近邻的距离减半。

对 $B_{r/2}(v)$ 中的一点 $u$ ，要从 $B^\prime[v]$ 里面找到，则至少存在一点 $v^\prime$ ，使得 $v^\prime \in B[v]$ ，且 $\in B[v^\prime]$ 。接下来，我们只需要找满足上述条件的 $v^\prime$ 即可。而若 $v^\prime \in B_{r/2}(v)$ ，则有以下几个不等式成立：

$v^\prime \in B_r(v)$ ，因此， $P\lbrace v^\prime \in B[v]\rbrace \geq K/|B_r(v)|$ ， $P\lbrace v^\prime \in B[v]\rbrace$ 表示概率。注解： $v^\prime \in B_{r/2}(v)$ ，则 $v^\prime \in B_r(v)$ 必然成立。若 $v$ 的 $K$ 个邻居都在 $B_r(v)$ 中取的话，则一共有 $C_{|B_r(v)|}^K$ 种情况，而 $B_r(v)$ 中的一点不是 $v$ 的邻居的情况有 $C_{|B_r(v)|-1}^K$ 种， $B_r(v)$ 中的一点不是 $v$ 的邻居的概率为 $C_{|B_r(v)|-1}^K/C_{|B_r(v)|}^K$ ，即为 $B_r(v)|-K)/|B_r(v)|$ ，因此 $B_r(v)$ 中的一点是 $v$ 的邻居的概率为 $1-C_{|B_r(v)|-1}^K/C_{|B_r(v)|}^K$ ，即为 $K/|B_r(v)|$ 。 $B_{r/2}(v)$ 中的一点更可能是 $v$ 的邻居，故 $v^\prime$ 是 $v$ 的邻居的概率大于等于 $K/|B_r(v)|$ 。
$d(u,\ v^\prime) \leq d(u, \ v) + d(v, \ v^\prime) \leq r$ ，因此， $P\lbrace u \in B[v^\prime]\rbrace \geq K/|B_r(v^\prime)|$ 。注解： 由第一条推论可知，因此 $B_r(v^\prime)$ 中的一点是 $v^\prime$ 的邻居的概率为 $K/|B_r(v^\prime)|$ ，而 $u$ 与 $v^\prime$ 的距离小于等于 $r$ ，故 $u$ 是 $v^\prime$ 的邻居的概率大于等于 $K/|B_r(v^\prime)|$ 。
$|B_r(v)| \leq c|B_{r/2}(v)|$ ，且 $|B_r(v^\prime)| \leq c|B_{r/2}(v^\prime)| \leq c|B_r(v)| \leq c^2|B_{r/2}(v)|$ 。注解： 重点是 $|B_{r/2}(v^\prime)| \leq |B_r(v)|$ 部分的推导，而此处可由图1明显推出。由于 $v^\prime$ 在 $v$ 的 $r / 2$ -球中， $v^\prime$ 的 $r / 2$ -球一定包含于 $v$ 的 $r$ -球中。

图1 不等式推导二维辅助理解图

由以上3个不等式和假定的各事件的独立性可得：
$P\lbrace v^\prime \in B[v] \land u \in B[v^\prime]\rbrace \geq K/|B_{r/2}(v)|^2 \tag{2}$
注解： 上式其实就是1.与2.两个事件同时发生的概率再由3.式化简的结果。它的意义是，对于 $B_{r/2}[v]$ 中的确定的点 $v^\prime$ ，它既是 $v$ 的邻居又是 $u$ 的反向邻居的概率大于等于 $K/|B_{r/2}(v)|^2$ 。

因此，当 $v$ 的邻居从 $B_{r/2}(v)$ 中取时，在 $B_{r/2}(v)$ 中的一点 $u$ 属于 $v$ 的邻居的邻居的概率为：
$P\lbrace u \in B^\prime[v]\rbrace \geq 1-(1-K/|B_{r/2}(v)|^2)^{|B_{r/2(v)}|} \approx K/|B_{r/2(v)}| \tag{3}$
注解： 先考虑 $u$ 不是 $v$ 的邻居的邻居的概率。此时，从 $B_{r/2}(v)$ 中取出的一点设为 $x$ ， $x$ 不是 $v$ 的邻居或者 $u$ 不是 $x$ 的邻居，发生这种情况的概率由式（2）可得应为 $1-K/|B_{r/2}(v)|^2$ ， $B_{r/2}(v)$ 中一共有 $B_{r/2}(v)|$ 个点，它们都不满足上述情况（ $x$ 不是 $v$ 的邻居或者 $u$ 不是 $x$ 的邻居）的概率为： $1-K/|B_{r/2}(v)|^2)^{|B_{r/2(v)}|}$ ，这便是 $u$ 不是 $v$ 的邻居的邻居的概率，从而 $u$ 是 $v$ 的邻居的邻居的概率为： $1-(1-K/|B_{r/2}(v)|^2)^{|B_{r/2(v)}|}$ 。下面对该式进行化简，由于 $K<< |B_{r/2}(v)|$ ，因此 $K/|B_{r/2}(v)|^2$ 是无穷小，化简过程用到一个重要极限：
$\lim_{x \rightarrow \infty}(1+\frac{1}{x})^x=e \tag{4}$
一个等价无穷小公式：
$e^x -1 \sim x$
整个数据集的直径设为 $\Delta$ ，式（3）表明，只要我们取一个足够大的 $K$ （取决于增长因子 $c$ ），即使我们从一个随机的K近邻图开始，通过探索每一个对象邻居的邻居，便可找到该对象的处于半径为 $\Delta/2$ 的范围内的K个近邻。不断的迭代这一过程，每个对象的邻居距离该对象的距离会不断收缩，最终，构建一个高质量近似K近邻图。

伪代码

算法1 NN-Descent基础算法

注解：(1)处为更新统计，如果某一个对象的K近邻列表更新了， $c$ 就会加1。算法1的终止条件为自然终止，即没有更新时（ $c = 0$ ）终止。

改进算法注解

局部连接

让每一个对象探索它邻居的邻居的操作也可通过局部连接等价实现。局部连接可这样理解：给定一点 $v$ ，它的邻居集为 $\overline{B}[v]$ ，在 $\overline{B}[v]$ 上的局部连接是计算每一对不同的 $p$ 和 $q$ 之间的相似性（ $\in \overline{B}[v]$ ），并且根据此相似性更新 $B [p]$ 与 $B [q]$ 。通俗的将，局部连接就是每一个点介绍它的邻居去了解彼此。

局部连接能代替一个对象探索它邻居的邻居的操作吗？看下面的示例：

图2 局部连接实现示例

如图2所示， $\in B_K(a)$ ， $\in B_K(b)$ 。在算法1中，当探索到 $a$ 时，我们需要比较 $a$ 与 $c$ ，当探索到 $c$ 时，我们也需要比较 $a$ 与 $c$ ，这是冗余计算的一种情况，可通过索引编号的顺序来解决。同样地， $a$ 与 $c$ 之间的比较可通过对 $\overline{B}[b]$ 进行局部连接来实现。

局部连接实现起来很简单，那么它有什么好处呢？

增强了数据的局部性，使执行更有效。如果每一个对象的邻居的个数平均为 $\overline{K}$ ，算法1每次迭代探索每一个对象的邻居的邻居时将接触到 $\overline{K}^2$ 个点，而局部连接只需要接触 $\overline{K}$ 个点。
单机实施时，提升了cache的命中率，从而加速了K近邻图的构建。分布式实施时，能减少机器之间数据的复制。

增量搜索

随着算法的执行，每一个对象的K近邻更新的幅度逐渐减小。而且，在某次迭代中参与比较的两个点，就更可能在之前的迭代中已经比较过了。这就造成冗余计算，而增量搜索就是要解决这个问题的。

给每一个点的K近邻列表中的每一个对象附加一个布尔标记，当一个新对象插入到该列表中的某个条目时，它的标记初始化为true。
只有当两个对象至少一个的标记为true，它们才进行局部连接。一个对象参与局部连接之后，它被标记为false（true变false，false还是false）。

采样

采样是为了解决以下两个问题：

局部连接的高成本。一次迭代，就算只考虑K近邻，时间复杂度为 $K^2N$ ，如果再考虑反向近邻，时间复杂度更高。
冗余计算。两个点同时连接到多个不同对象，这两个点将比较多次。

使用采样来缓解这两个问题的具体方案如下：

邻居取样。局部连接之前，对用于局部连接的每一个对象，从标记为true的K近邻中取样 $\rho K$ 个对象（ $\rho \in (0, 1]$ ）。每一次迭代，仅仅这些被取出的数据被标记为false。
反向邻居。只根据取样对象和标记为false的对象来构建反向邻居列表。对构建得的反向邻居列表再次取样。
在标记为true对象之间进行局部连接，以及在标记为true对象与标记为false对象之间进行局部连接。

因此，我们就可以通过取样率 $\rho$ 来进行精度和速度的trade-off。

提前终止

一个很自然的终止标准是：某次迭代中，K近邻图不再被改善。实际上，开始迭代时，K近邻图能充分的更新，而随着迭代的进行，K近邻图更新的次数快速收缩，此时的迭代就显得意义不大了，考虑到迭代的计算成本，这些迭代其实没必要执行。为了解决这个问题，本文采取的方案是：在每次迭代中，统计所有对象K近邻列表更新的次数 $c o u n t$ ，当 $\delta KN$ 时终止发生，其中 $\delta$ 是精度参数，它粗略反应了由于提前终止允许错过的真正的K近邻的比例。

伪代码

算法2 NN-Descent改进算法

注解： 算法2是在算法1的基础上结合了四个改进（局部连接；增量搜索；采样；提前终止），注意算法2其实也不能完全避免冗余计算，先理解一下这个算法，然后我会给出示例。

(1)、(2)属于增量搜索和采样部分，对于当前对象 $v$ ，在它的邻居列表中取 $\rho K$ 个标记为true的邻居到 $n e w [v]$ ，并将这些邻居标记为false（对于伪代码中的(3)），在它的邻居列表中取出所有标记为false的邻居到 $o l d [v]$ 。

(4)是取 $v$ 的反向邻居，正如取 $v$ 的 $o l d [v]$ 一样，其它所有点也会取各自的 $o l d$ ，以所有点的 $o l d$ 集合中包含的点作为探索范围，检查它们的邻居列表中含 $v$ 的点，含 $v$ 则加入到 $old^\prime [v]$ ， $old^\prime [v]$ 的意义是：点 $v$ 的反向邻居，且在该反向邻居的邻居表中， $v$ 被标记为false。 $new^\prime$ 同理。

(5)是说最后参与局部连接的 $o l d [v]$ 是由两部分组成：一部分是从 $v$ 的邻居列表中取出的标记为false的邻居集，另一部分是从 $old^\prime [v]$ 中取样的 $\rho K$ 个点。最后参与局部连接的 $n e w [v]$ 同理（(6)）。

(7)表示局部连接。 $n e w [v]$ 里面的点相互之间进行局部连接，为防止重复比较，设定比较顺序。 $n e w [v]$ 中的点与 $o l d [v]$ 中的点进行局部连接。

(8)统计更新，某一对象的邻居列表更新时，新插入的对象标记为true（满足：增量搜索）。

(9)为终止条件。当更新量小于某一阈值时终止。

冗余计算示例

图3 冗余计算示例

如图3所示，第一次迭代时 $v_3$ 和 $v_4$ 都取样了 $v_1$ ，都没有取样 $v_2$ ，因此，它们的邻居列表中 $v_1$ 都标记为false， $v_2$ 都标记为true。此时， $new^\prime[v_1]$ 含 $v_3$ 、 $v_4$ ，若 $v_3$ 、 $v_4$ 都被取样加入到参与局部连接的 $new[v_1]$ ，则 $v_3$ 和 $v_4$ 会进行一次相似性计算。第二次迭代时， $v_3$ 和 $v_4$ 都取样了 $v_2$ ，然后 $v_2$ 在它们的列表中被标记为false。此时， $new^\prime[v_2]$ 含 $v_3$ 、 $v_4$ ，若 $v_3$ 、 $v_4$ 都被取样加入到参与局部连接的 $new[v_2]$ ，则 $v_3$ 和 $v_4$ 又会进行一次相似性计算。

当然，上述分两次迭代的说明也可在一次迭代中发生。不过，上述冗余计算的情况在取样过程的参与下发生的概率是很小的。

论文的创新点

一种新的构建K近邻图的方法，具体创新包括：

对于一个随机K近邻图，通过几次迭代而不断的完善K近邻图，最终得到一个更好的K近邻图。（构图思路）
处理某个点时，在该点的各邻居之间进行选边。这种方式相较于处理某个点时，该点与该点的邻居的邻居之间进行选边而言，局部性更好。两种方式实现的结果都是一样的。（选边策略）

论文的结论

具体实验分析可以看作者的原文。本文提出的NN-Descent方法可使用任意度量方式构建的K近邻图。经验复杂度为 $O(n^{1.14})$ ，很容易实现并行化。

我的观点或思考

本文一开始是随机构建一个K近邻图，这样做的优点是简单快速。但是，迭代的过程过多地依赖随机初始化的K近邻图，这样可能不够稳定，某些情况下只需几次迭代，而另一些情况则可能需要很多。因此，一个简单地改进可从初始化K近邻图这个角度入手。

最近提出的基于近邻图的近似最近邻搜索算法——NSG和NSSG，他们在构建索引时，第一步构建K近邻图与第二部MRNG或SSG选边策略是分开进行的，有没有可能在K近邻图构建的同时执行某一选边策略。

选边的时候将三角不等式考虑进去，从而避免一些不必要的计算。

el-select多选选择器（在懒加载的基础上）重磅：实现模糊搜索+多选+未加载数据的正确回显！！ SerendipityM javascript 前端开发语言 vue.js html5
项目需求：由于表单中的一个el-select中的数据过多，下拉框用户体验不好，因此需要做成有懒加载且分页的下拉框。后又因为该功能需要多选，并且打开表单要能够正确回显。这些需求加起来，导致问题变得复杂起来。我在网上也看了许多文章，没有找到好的解决方案。因此我将自己的记录下来，还望各位指点！！！（本项目请求后端需要传id，page，size，name）(name的格式为JSON形式的[id:1,nam
Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答 FuWen_Hao python 人工智能
文章目录前言一、Deekseek本地部署二、SerpAPI1.什么是SerpAPI？2.如何使用SerpAPI进行Web搜索三、实现Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答1.Code前言我需要对本地的Deepseek-r1:14b进行提问，我发现它对于实时的问题，或者不知道的问题，会不回答或者乱回答。基于这点我想通过WebAPI传输更多的信息给到Deekseek
蒙特卡罗树搜索算法依赖游戏树，也就是游戏的状态空间和可选动作的构成。游戏树是游戏设计者为了实现对战或博弈的目的 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介20世纪末到21世纪初，计算机科学和互联网科技迅速发展。在这些新兴领域中，蒙特卡罗方法是一个显著的研究热点。蒙特卡罗方法源自物理学和数学领域，其目的是模拟物理系统的随机运动，从而解决很多数学、物理等领域的问题。蒙特卡loor方法被广泛应用于各类模拟、预测、优化、控制等领域。在计算机领域，蒙特卡罗方法也扮演了重要角色。现如今，计算性能已经足够强大，人们可以轻松地进
向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案快撑死的鱼算法工程师宝典（面试学习最新技术必备）语言模型系统架构面试
1.什么是向量检索？它与传统基于关键字的检索相比有什么不同？答案要点：向量检索是将文本、图像、音频等数据映射为向量，在高维向量空间中基于相似度或距离进行搜索。与传统基于关键字的检索（如倒排索引）相比，向量检索更关注“语义”或“特征”，能找出语义上相似但未必包含相同关键词的内容。向量检索非常适合多模态场景（例如“以图搜图”）或自然语言问答（同义词、上下文关联等）。2.什么是检索增强生成（RAG）？核
VS Code 在Linux下IDE开发C++的HelloWorld leon_zeng0 c++VScode linux ide c/c++helloworld
用VisualStudioCode在Linux(Ubuntu)下构造c++的集成开发环境，编辑，编译和调试运行一个简单程序HelloWorld。想达到上面目标，搜索到以下文章，学习验证而成本文日记。链接是：https://code.visualstudio.com/docs/cpp/config-linux前期准备运行环境是ubuntu16.0，先安装好VisualStudioCode(VSCod
GEO：在AI时代抢占DeepSeekC位？白雪讲堂人工智能
前言：当SEO遇见AGI——一场静默的流量革命在生成式AI日均处理53亿次查询的今天，传统SEO的「关键词-排名-点击」逻辑正在崩塌。DeepSeek、ChatGPT、豆包等大模型用动态生成的答案，悄然截流了68%的搜索需求。更残酷的是：当用户问"某个产品推荐"时，AI可能同时调用37个信源，却不会留下任何可追踪的搜索痕迹。这场革命迫使企业必须从「关键词优化」转向「场景占领」，从「流量争夺」进化到
商品详情中除了价格和库存，还有哪些重要信息？数据小爬虫@ 大数据
在获取商品详情时，除了价格和库存，还有许多其他重要信息可以帮助我们更全面地了解商品。这些信息对于市场调研、数据分析、商品比较以及用户体验优化等都非常有价值。以下是一些常见的商品详情字段及其重要性：1.商品名称（Name）重要性：商品名称是用户识别商品的关键信息，也是搜索引擎优化（SEO）的重要部分。应用场景：用于展示商品、搜索优化、分类整理等。2.商品描述（Description）重要性：详细的商
产品设计相关理论知识计应UI4班王运梅笔记
1、伯斯塔尔法则（Postel’sLaw）系统/产品应保有一定程度的容错能力，在设计中表现为允许用户进行任何操作，即便是错的或无效的Blilibili安卓端头部区域除了[搜索栏]和其他几个按钮之外，任何地方点击都能够进入侧边栏，即使没有点击到[三条杠]，因为这三条杠实在是太小了，用户极有可能没有点击到，所以干脆扩大了可触发的热区。2、美好即用效应当界面被设计得足够美观时，用户往往会容忍一些较为轻微
头歌||使用Redis构建任务队列 myy的源代码 redis 数据库缓存
第1关：先进先出任务队列编程要求在Begin-End区域编写add_task(task_name)函数，实现将任务加入队列的功能，具体参数与要求如下：方法参数task_name是要加入的任务名称；推入任务的实现：将新的任务从列表task:list的尾部插入。编写pop_task()函数，实现获取一个任务的功能，具体参数与要求如下：获取任务的实现：从列表task:list的头部阻塞式的弹出一个值，最
使用SQL-PGVector进行PostgreSQL与语义搜索/RAG的结合 fgayif sql postgresql 数据库 python
在现代数据密集型应用中，语义搜索和检索增强生成（RAG）技术越来越受欢迎。通过结合PostgreSQL和pgvector扩展，我们可以实现高效的语义搜索。本文将深入探讨如何配置和使用SQL-PGVector，实现强大的数据查询能力。技术背景介绍PostgreSQL是一个功能强大的开源关系数据库，在处理结构化数据方面具备优势。为了增强其在非结构化数据处理中的能力，我们可以使用pgvector扩展，该
SpringBoot JVM性能调优 AI天才研究院 Python实战 Java实战自然语言处理人工智能语言模型编程实践开发语言架构设计 spring boot
作者：禅与计算机程序设计艺术1.简介SpringBoot是当前最流行的基于Java的Web框架，它为开发人员提供了很多便利，包括快速配置，强大的自动化特性等。但是，它的默认设置往往会给应用程序带来不小的性能开销。本文将讨论SpringBoot的默认设置，并着重探讨如何优化SpringBoot在JVM上的性能。2.JVM默认设置介绍在SpringBoot中，可以用application.proper
深度优先搜索和广度优先搜索详细解析和区别潇杨爱吃粉深度优先宽度优先算法数据结构
一、深度优先搜索（DFS）1.核心思想像探险家走迷宫，遇到岔路就选一条路走到头，无路可走时返回上一个岔路口换另一条路。2.实现方式数据结构：栈（Stack，先进后出）或递归（隐式栈）遍历顺序：纵向深入，优先访问最深层的节点3.图解示例假设有以下树结构：A/\BC/\/DEFDFS遍历顺序（从根节点A出发）：A→B→D→E→C→F4.代码实现（Python）defdfs(graph,start):s
深度优先搜索（DFS）完全解析：从原理到 Java 实战 my_realmy Java基础知识深度优先 java 算法
深度优先搜索（DFS）完全解析：从原理到Java实战@TOC作为一名程序员，你是否遇到过需要在复杂的图结构中寻找路径、检测环，或者进行树遍历的问题？深度优先搜索（Depth-FirstSearch,DFS）作为一种经典的图遍历算法，能够轻松应对这些场景。在CSDN社区中，技术文章的受欢迎程度往往取决于内容的实用性、代码的可读性以及图文结合的讲解方式。因此，本文将为你带来一篇深入浅出、图文并茂、代码
SvelteKit 最新中文文档教程（6）—— 状态管理冴羽yayujs Svelte 中文文档前端 javascript 前端框架 vue.js react svelte sveltekit
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
Swift高效解法！一文搞懂 LeetCode 236「二叉树的最近公共祖先」，助你快速拿下面试！网罗开发 Swift swift leetcode 面试
摘要最近公共祖先（LCA，LowestCommonAncestor）在二叉树、二叉搜索树（BST）等数据结构中有广泛应用，比如权限管理、网络路由、基因分析等。今天我们用Swift来解LeetCode236：「二叉树的最近公共祖先」，不仅会给出代码，还会分析它的时间复杂度、空间复杂度，并结合实际场景聊聊它的应用。问题描述给定一个二叉树，找到两个节点的最近公共祖先（LCA）。LCA的定义：“对于两个节
(LeetCode 热题 100) 74. 搜索二维矩阵(二分查找) 岁忧 java版刷题 LeetCode 热题 100 LeetCode leetcode 矩阵算法 c++java
题目：74.搜索二维矩阵方法一：数组按行拼接为一个不下降的一维数组。采用二分查找，时间复杂度0(lognm)。C++版本：classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intn=matrix.size(),m=matrix[0].size();intl=0,r=n*m-1;while(ltarget){r=mid-1
mysql数据库应用与开发姜桂洪课后答案_清华大学出版社-图书详情-《MySQL数据库应用与开发》... 韦盛江课后答案
前言Oracle公司的MySQL是目前最流行的关系数据库管理系统之一。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL数据库以其精巧灵活、运行速度快、经济适用性强、开放源码等优势，作为网站数据库获得许多中小型网站的开发公司的青睐。MySQL性能卓越，搭配PHP和Apache可组成良好的软件开发环境，并且已经大量部署到中小型企业和高校的教学平台。本书从教学实际需求出发，结合
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~ 四口鲸鱼爱吃盐文献阅读安全 transformer 深度学习对抗样本神经网络视觉语言模型后门攻击
汇总结果来源：CVPR2025AcceptedPapers若文中出现的论文链接和GitHub链接点不开，则说明还未公布，在公布后笔者会及时添加.若笔者未及时添加，欢迎读者告知.文章根据题目关键词搜索，可能会有遗漏.若笔者出现遗漏，欢迎告知.部分文章还未公布正文，只有名称.MindtheGap：通过查询更新分析检测正在进行中的黑盒对抗攻击MindtheGap:DetectingBlack-boxAd
全网最详细！vue中使用flv.js 播放直播监控视频流抄一下你代码在vue中使用flv.js 播放监控摄像头/直播 vue.js
老规矩，先安装flv.js插件npminstallflv.js在组件中的使用**注意事项放后面我怕你们不看呐！！！！1.必须在dom加载完成后再执行直播视频流的填充方法！2.在一个网页中最多同时容纳6个监控视频播放！第七个绝对加载不出来！3.在离开这个页面的时候必须销毁播放容器，不然会占用TCP个数，导致其他页面的监控也播放不了**importflvjsfrom"flv.js";//页面代码//1
Selenium自动化测试框架设计互联网杂货铺 selenium 测试工具软件测试自动化测试 python 面试职场和发展
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快不熟悉自动化测试，也没接触过主流大厂技术，之前在小公司做点工，现在想进大厂拿高薪，该怎么做？类似上述的问题是最经典的，每年都会被无数人问及。测试人想要升职加薪，对一线主流技术的精通是必不可少的。对于从业两三年的新人来说，我建议先从Selenium自动化测试框架设计入手！这是搞定大厂面试的一条捷径。说一下原因：1、大厂都要求熟悉Seleni
关于离子滤波小记文弱_书生乱七八糟人工智能计算机视觉算法
粒子滤波（ParticleFilter,PF）粒子滤波是一种基于蒙特卡洛方法的贝叶斯滤波算法，主要用于解决非线性、非高斯的状态估计问题。它广泛应用于机器人定位、目标跟踪、金融建模等领域。1.粒子滤波的基本概念粒子滤波的核心思想是用一组加权的**随机样本（粒子）**来近似后验概率分布，而非采用卡尔曼滤波那样的参数化分布假设（如高斯分布）。设系统的状态模型如下：xk=f(xk−1,uk,wk)x_k=
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
一键掌控海量文件！Shell的find命令终极指南 + 高阶组合技芯有所享 java 前端 android 经验分享
你是否经历过这些崩溃瞬间？想清理3个月前的日志却无从下手要在10万张图片里找出某个版本突然发现服务器被临时文件塞爆…今天介绍的Linux三剑客之find命令，就是你的超级救星！不仅能精准定位文件，结合其他命令更能玩出自动化运维的花样！一、Find基础三连击（新手必看）按图索骥-名称搜索查找当前目录所有.txt文件（精准匹配）find.-name“*.txt”忽略大小写找配置文件（模糊匹配）find
Qt 自定义标题栏——QtWidgets 十年之少 Qt Widgets Qt 自定义标题栏
1.去掉标题栏，实现窗体拖动（常用）以上转载方法实现窗体拖动是通过Windows事件的；但是有时候为了跨平台这种的话就得重写，比较麻烦，所以还是采用最原始的方法：通过QWidgets的鼠标事件来实现。.h文件classQRCodeDialog:publicQDialog{Q_OBJECT...protected:voidmouseMoveEvent(QMouseEvent*event)overri
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
IDEA本地启动flink 任务 Direction_Wind intellij-idea flink java
1pom中添加org.apache.flinkflink-clients_${scala.binary.version}${flink.version}org.apache.flinkflink-runtime-web_${scala.binary.version}${flink.version}2下载flink-dist包并3打印日志中搜索localhost可以找到flink的管理页面
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl