whaty6

三种邻近搜索

一、Annoy

1. 介绍
Approximate Nearest Neighbor Oh Yeah，是一个带有Python bindings的C ++库。

用于在海量文本中快速搜索相似的用户/物品（适合向量维度小于1000，向量数在百万级别）
Annoy是Spotify开源的高维空间求近似最近邻的库，在Spotify使用它进行音乐推荐
Annoy通过将海量数据建立成一个二叉树，使得每个数据查找时间复杂度是O(logn)

2. 原理
随机选择两点进行超平面划分，在划分的子空间内不停递归划分，直至每个子空间最多只剩下k个数据结束。（必须通过精度和性能之间的权衡来调整k）

3. 查找
二叉树遍历，不断查看此点在分割超平面的哪一边

4. 问题和解决
问题：

查询过程中最终落到叶子节点的数据节点数 < TopN相似节点数怎么办？
两个相近的数据节点划分到二叉树不同分支怎么办？

解决：

方法一：两边都遍历
找到最近的切面，判断是否分割超平面的两边相似，对于相似的都进行遍历。
方法二：多棵树
建立多棵二叉树，构建一个森林，将多棵树的返回的近邻点插入到优先队列中，求并集（融合成一张图），对该图中的所有节点进行相似计算返回TopN近邻点集合。

5. annoy算法的效果对比图

6. 源码重点解释

https://blog.csdn.net/hero_fantao/article/details/70245387

Python代码示例：

from annoy import AnnoyIndex
import random

f = 20
t = AnnoyIndex(f, 'angular')  # Length of item vector that will be indexed
for i in range(1000):
	# 返回具有高斯分布的随机浮点数 random. gauss (mu, sigma) 参数：. mu：平均. sigma：标准偏差.
    v = [random.gauss(0, 1) for z in range(f)]  
    t.add_item(i, v)

t.build(10) # 10 trees
t.save('test.ann')
print(t.get_nns_by_item(0, 10))
# [0,45,16,17,61,24,48,20,29,84]
# ...

u = AnnoyIndex(f, 'angular')
u.load('test.ann') # super fast, will just mmap the file
print(u.get_nns_by_item(0, 10)) # will find the 1000 nearest neighbors
# [0,45,16,17,61,24,48,20,29,84]

7. 完整的Python API

AnnoyIndex(f, metric) 返回可读写的新索引，用于存储f维度向量。
metric可以是"angular"，“euclidean”，“manhattan”，“hamming”，或"dot"。
a.add_item(i,v) 用于给索引添加向量v，i（任何非负整数）是给向量v的表示。
a.build(n_trees) 用于构建 n_trees的森林。查询时，树越多，精度越高。在调用build后，无法再添加任何向量。
a.save(fn, prefault=False) 将索引保存到磁盘。保存后，不能再添加任何向量。
a.load(fn, prefault=False) 从磁盘加载索引。如果prefault设置为True，它将把整个文件预读到内存中。默认值为False。
a.unload() 释放索引。
a.get_nns_by_item(i, n, search_k=-1, include_distances=False)返回第i 个item的n个最近邻的item。在查询期间，它将检索多达search_k（默认n_trees * n）个点。search_k为您提供了更好的准确性和速度之间权衡。如果设置include_distances为 True，它将返回一个包含两个列表的2元素元组：第二个包含所有对应的距离。
a.get_nns_by_vector(v, n, search_k=-1, include_distances=False) 与上面的相同，但按向量v查询。
a.get_item_vector(i) 返回第i个向量前添加的向量。
a.get_distance(i, j) 返回向量i和向量j之间的距离。注意：此函数用于返回平方距离。
a.get_n_items() 返回索引中的向量数。
a.get_n_trees() 返回索引中的树的数量。
a.on_disk_build(fn) 用以在指定文件而不是RAM中建立索引（在添加向量之前执行，在建立之后无需保存）。

Notes：
Annoy使用归一化向量的欧式距离作为其角距离，对于两个向量u，v，其等于 sqrt(2(1-cos(u,v)))
C ++ API非常相似：调用annoy只需使用#include “annoylib.h”。

二、HNSW

参考：

https://www.cnblogs.com/dangui/p/14675121.html#2-nsw%E7%AE%97%E6%B3%95%E5%8E%9F%E7%90%86

1. 近邻图

近邻图(Proximity Graph)： 最朴素的图算法![在这里插入图片描述](https://img-blog.csdnimg.cn/33d30d02f81c4001b5af2a03491eb046.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAd2hhdHk2,size_20,color_FFFFFF,t_70,g_se,x_16)
思路（Target（红点）是待查询的向量）：

	构建图：每一个顶点连接着最近N个顶点。
	搜索： 选择任一个顶点出发，首先遍历它的友节点，找到距离与Target最近的某一节点；
		   将此节点设为起始节点，再从它的友节点进行遍历；
		   反复迭代，不断逼近；
		   最后找到与Target距离最近的节点时搜索结束。

存在的问题：

	1）孤立节点无法跟踪友节点（图中的K点）
	2）若找TopN个，但点之间无连线，将影响查找效率（图中J\E\L点，由于L和J无连线，通过J找L需要多走一步）
	3）友节点过多，增加了构造复杂度（D点）
	4）若初始点选择较远，将进行多步查找

2. NSW

NSW (Navigable Small World graphs)：没有分层的可导航小世界的结构图

针对近邻图问题的解决：

	1）孤立节点 -> 规定构图时所有节点必须有友节点
	2）相似点不相邻 -> 距离相近到一定程度的节点必须互为友节点
	3）友节点过多 -> 限制每个节点的友节点数量
	4）初始点过远 -> 增加高速公路机制 （HNSW的最大优化点）

构建图（规定最多m个节点）：

	1）加入一个新节点，随机出发查找距离新节点最近的m个点，成为友节点；
	2）更新 新节点 友节点的友节点，保证友节点个数最多是m。

构图实例：

在图构建的早期，很有可能构建出“高速公路”：

	第n次构造：在这个图的基础上再插入6个点，这6个点有3个和E很近，有3个和A很近，那么距离E最近的3个点中没有A，
距离A最近的3个点中也没有E，但因为A和E是构图早期添加的点，A和E有了连线，我们管这种连线叫“高速公路”，在查找
时可以提高查找效率（当进入点为E，待查找距离A很近时，我们可以通过AE连线从E直接到达A，而不是一小步一小步分
多次跳转到A）。

结论：
	
	一个点，越早插入就越容易形成与之相关的“高速公路”连接，越晚插入就越难形成与之相关的“高速公路”连接。

HSW设计的妙处就在于扔掉德劳内(Delaunay）三角构图法，改用“无脑添加”（NSW朴素插入算法），降低了构图算法时间复杂度的同时还带来了数量有限的“高速公路”，加速了查找。

Delaunay 三角构图解释：
> https://zhuanlan.zhihu.com/p/264832755

算法：
设立三个点集合：Candidates(候选节点列表）、visitedSet（废弃节点列表）、result（保留topk个节点列表）![在这里插入图片描述](https://img-blog.csdnimg.cn/5a290b3c224a4ef48f5af336b9354f8a.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAd2hhdHk2,size_20,color_FFFFFF,t_70,g_se,x_16)
伪代码：

	K-NNSearch(object q, integer: m, k)
	TreeSet [object] candidates, visitedSet, result 
	/*
	输入：
	q: 新查询点
	m: number of multi-searches, 多次搜索的数量
	k: number of nearest neighbors, 最近邻的数量
	*/
	// 进行m次循环，避免随机性
	for (i←0; i < m; i++) do:
		put random entry point in candidates
	 	repeat:
   			// 从candidates中找到距离q最近的点c
  	  		get element c closest from candidates to q
    		remove c from candidates
   			// 判断结束条件
   			if c is further than k-th element from result then
        		break repeat
    		// 更新后选择列表
   			for every element e from friends of c do:
        		if e is not in visitedSet then
            		add e to visitedSet
            	if distance e to q is smaller f to q:
            		add e to candidates、result
		end repeat
	end for 
	return best k elements from result

3. Skip-List 跳表结构

详解：

https://blog.csdn.net/weixin_41462047/article/details/81253106

跳表结构：有序链表+分层连接指针构成的跳表，用空间换时间。
Skip list是一个分层结构多级链表，最下层是原始的链表，每个层级都是下一层级的“高速跑道”。
采用抛硬币的方式决定原链表的节点进入上一次链表，每个节点有50%的概率进入上一层有序链表。对于sorted_link链表中的每个节点进行抛硬币，如抛正，则该节点进入上一层有序链表，每个sorted_link中的节点有50%的概率进入上一层有序链表。将上一层有序链表中和sorted_link链表中相同的元素做一一对应的指针链接。再从sorted_link上一层链表中再抛硬币，sorted_link上一层链表中的节点有50%的可能进入最表层，相当于sorted_link中的每个节点有25%的概率进入最表层。以此类推。
跳表时间复杂度：
查询：若原始链表有n个节点，每一层都需要遍历 k 个结点，那么跳表的时间复杂度就为 O(k*log(n))
插入：抛硬币的随机决定新节点是否提升为上一级索引，结果为“正”则提升并继续抛硬币，“负”则停止。O(log(n))
这种数据结构所占空间是2n，既空间复杂度是 O(n)。
删除：自上而下，查找第一次出现节点的索引，并逐层找到每一层对应的节点。O(log(n))
删除每一层查找到的节点，如果该层只剩下1个节点，删除整个一层（原链表除外）。O(log(n))
【链表查找的时间复杂度O(n)，插入与删除的时间复杂度O(1)】

4. HNSW

HNSW(Hierachral Navigable Small World graphs)：NSW的改进，具有分层的可导航小世界的结构图；根据连接的长度（距离）将连接划分为不同的层，然后在**多层图中进行搜索**。
![在这里插入图片描述](https://img-blog.csdnimg.cn/eec91c7a7ff54e628ac4cf0f8364a6aa.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAd2hhdHk2,size_20,color_FFFFFF,t_70,g_se,x_16)
建图：

插入新点时，先计算这个点可以深入到第几层，在每层的NSW图中查找t个最近邻点，分别连接它们，对每层图都进行如此操作。

对于每个插入的元素，将以指数衰减概率分布（通过mL参数归一化）随机选择一个最大层 L= ⌊−ln(uniform(0,1)) ⋅ mL⌋

查找：
1）从顶层任意点开始查找，选择一个进入点enter point，将进入点最邻近的一些友节点储在定长的动态列表result中，并把它们也同样在废弃列表visitedSet中存一份，以防后面走冤枉路。
2）一般地，在第x次查找时，先计算动态列表result中所有点的友节点距离待查找点q的距离，在废弃列表visitedSet中记录过的友节点不要计算，计算完后更新废弃列表visitedSet，不走冤枉路，再把这些计算完的友节点存入动态列表result，去重排序，保留前k个点，看看这k个点和更新前的k个点是不是一样的，如果不是一样的，继续查找，如果是一样的，返回前m个结果。

算法：

1）插入算法

INSERT(hnsw,q,M,Mmax,efConstruction,mL) ：新元素q插入算法。

 INSERT(hnsw, q, M, Mmax, efConstruction, mL)
 /**
  * 输入
  * hnsw：q插入的目标图
  * q：插入的新元素
  * M：每个点需要与图中其他的点建立的连接数
  * Mmax：最大的连接数，超过则需要进行缩减（shrink）
  * efConstruction：动态候选元素集合大小
  * mL：选择q的层数时用到的标准化因子
  */
 Input: 
 	multilayer graph hnsw, 
 	new element q, 
 	number of established connections M, 
 	maximum number of connections for each element per layer Mmax, 
 	size of the dynamic candidate list efConstruction, 
 	normalization factor for level generation mL
 /**
  * 输出：新的hnsw图
  */
 Output: update hnsw inserting element q
 
 W ← ∅  // W：现在发现的最近邻元素集合
 ep ← get enter point for hnsw
 L ← level of ep
 /**
  * unif(0..1)是取0到1之中的随机数
  * 根据mL获取新元素q的层数l
  */
 l ← ⌊-ln(unif(0..1))∙mL⌋
 /**
  * 自顶层向q的层数l逼近搜索，一直到l+1,每层寻找当前层q最近邻的1个点
  * 找到所有层中最近的一个点作为q插入到l层的入口点
  */
 for lc ← L … l+1
 	W ← SEARCH_LAYER(q, ep, ef=1, lc)
 	ep ← get the nearest element from W to q
 	// 自l层向底层逼近搜索,每层寻找当前层q最近邻的efConstruction个点赋值到集合W
 for lc ← min(L, l) … 0
 	W ← SEARCH_LAYER(q, ep, efConstruction, lc)
 	// 在W中选择q最近邻的M个点作为neighbors双向连接起来
 	neighbors ← SELECT_NEIGHBORS(q, W, M, lc)
 	add bidirectional connectionts from neighbors to q at layer lc
 	// 检查每个neighbors的连接数，如果大于Mmax，则需要缩减连接到最近邻的Mmax个
 	for each e ∈ neighbors
 		eConn ← neighbourhood(e) at layer lc
			if │eConn│ > Mmax
     		eNewConn ← SELECT_NEIGHBORS(e, eConn, Mmax, lc)
     		set neighbourhood(e) at layer lc to eNewConn
 	ep ← W
 if l > L
 	set enter point for hnsw to q

2）搜索当前层的最近邻

**SEARCH_LAYER(q,ep,ef,lc)** ：在第lc层查找距离q最近邻的ef个元素。

		SEARCH_LAYER(q, ep, ef, lc)
		/**
		 * 输入
		 * q：插入的新元素
		 * ep：进入点 enter point
	 	 * ef：需要返回的近邻数量
		 * lc：层数
		 */
		Input: 
			query element q, 
			enter point ep, 
			number of nearest to q elements to return ef, 
			layer number lc
		/**
		 * 输出：q的ef个最近邻
		 */
		Output: ef closest neighbors to q

		v ← ep  // v：设置访问过的元素 visited elements
		C ← ep  // C：设置候选元素 candidates
		W ← ep  // W：现在发现的最近邻元素集合
		// 遍历每一个候选元素，包括遍历过程中不断加入的元素
		while │C│ > 0
	  		// 取出C中q的最近邻c
		    c ← extract nearest element from C to q
		    // 取出W中q的最远点f
		    f ← get furthest element from W to q
		    if distance(c, q) > distance(f, q) 
		        break
	   	/**
 		 	 * 当c比f距离q更近时，则将c的每一个邻居e都进行遍历
		  	 * 如果e比w中距离q最远的f要更接近q，那就把e加入到W和候选元素C中
		  	 * 由此会不断地遍历图，直至达到局部最佳状态，c的所有邻居没有距离更近的了或者所有邻居都已经被遍历了
 		     */
    		for each e ∈ neighbourhood(c) at layer lc
		        if e ∉ v
        			v ← v ⋃ e
		            f ← get furthest element from W to q
		            if distance(e, q) < distance(f, q) or │W│ < ef
        			    C ← C ⋃ e
		                W ← W ⋃ e
        			    // 保证返回的数目不大于ef
		                if │W│ > ef
        			        remove furthest element from W to q
		return W
		
在 HNSW 中，SEARCH-LAYER(q, ep, ef, lc) 返回 efConstruction 个最近邻点，我们知道 efConstruction 的值是大于 M 的，那么怎么在这些点中选择 M 个来进行双向连接呢？这时候就有一个选择算法了。论文中提出了两种选择算法：


- 简单选择算法 SELECT-NEIGHBORS-SIMPLE(q, C, M)，到最接近的elements的简单连接。
 - 启发式选择算法 SELECT-NEIGHBORS-HEURISTIC(q, C, M, lc, extendCandidates, keepPrunedConnections)，会考虑上candidate elements间距离，用来创建不同方向（diverse directions）的连接。

3）截取集合中最近邻的M个结果

	选择算法（简单选择或是启发式选择）的作用就是：**在集合 W 中选择 M(M

 
  4）启发式搜索最近邻 
  	**SELECT_NEIGHBORS_HEURISTIC(q,C,M,lc,extendCandidates,keepPrunedConnections)** ：启发式寻找最近邻。
	启发式搜索：
	启发式选择：**当目标点到插入点的距离 比 目标点到插入点的友节点 近，就把目标点和插入点连接起来**。
 
  两个额外参数：
 extendCandidates：（缺省为false），它会扩展candidate set，只对极度聚集的数据有用
 keepPrunedConnections：允许每个element具有固定数目的connection，当被插入的elements的connections在zero layer被确立时，插入过程终止。 
  	SELECT_NEIGHBORS_HEURISTIC(q, C, M, lc, extendCandidates, keepPrunedConnections)
	/**
	 * 输入
	 * q：查询的点
	 * C：候选元素集合
	 * M：需要返回的数目
	 * lc：层数
	 * extendCandidates：指示是否扩展候选列表的标志
	 * keepPrunedConnections：指示是否添加丢弃元素的标志
	 */
	Input: 
		base element q, 
		candidate elements C, 
		number of neighbors to return M, 
		layer number lc, 
		flag indicating whether or not to extend candidate list extendCandidates, 
		flag indicating whether or not to add discarded elements keepPrunedConnections
	/**
	 * 输出：探索得到M个元素
	 */
	Output: M elements selected by the heuristic

	R ← ∅ // 记录结果
	W ← C  // W：候选元素的队列
	if extendCandidates  // 通过邻居来扩充候选元素
    	for each e ∈ C
	    	for each e_adj ∈ neighbourhood(e) at layer lc
    	    	if e_adj ∉ W
    	    		W ← W ⋃ e_adj
					Wd ← ∅  // 丢弃的候选元素的队列
	/**
	 * 这里是关键，他的意思就是：
	 * 候选元素队列不为空且结果数量少于M时，在W中选择q最近邻e
	 * 如果e和q的距离比e和R中的其中一个元素的距离更小，就把e加入到R中，否则就把e加入Wd（丢弃）
	 * 可以理解成：如果R中存在点r，使distance(q,e) < distance(q,r)，则加入点e到R
	 */
	while │W│ > 0 and │R│ < M
		e ← extract nearest element from W to q
    	if e is closer to q compared to any element from R
    		R ← R ⋃ e
		else
    		Wd ← Wd ⋃ e
	/**
	 * 如果设置keepPrunedConnections为true，且R不满足M个，那就在丢弃队列中挑选最近邻填满R为M个
	 */
	if keepPrunedConnections
		while │Wd│ > 0 and │R│ < M
    		R ← R ⋃ extract nearest element from Wd to q
	return R

5）KNN查询
K−NN−SEARCH(hnsw,q,K,ef) ：在 hnsw 索引中查询距离 q 最近邻的 K 个元素。

	K-NN-SEARCH(hnsw, q, K, ef)
	/**
	 * 输入
	 * hnsw：q插入的目标图
	 * q：查询元素
	 * K：返回的近邻数量
	 * ef：动态候选元素集合大小
	 */
	Input: 
		multilayer graph hnsw, query element q, 
		number of nearest neighbors to return K, 
		size of the dynamic candidate list ef
	/**
	 * 输出：q的K个最近邻元素
	 */
	Output: K nearest elements to q

	W ← ∅  // W：现在发现的最近邻元素集合
	ep ← get enter point for hnsw
	L ← level of ep
	/**
	 * 自顶层向倒数第2层逼近搜索,每层寻找当前层q最近邻的1个点赋值到集合W
	 * 取W中最接近q的点作为底层的入口点，以便使搜索的时间成本最低
	 */
	for lc ← L … 1
	    W ← SEARCH_LAYER(q, ep, ef=1, lc)
	    ep ← get nearest element from W to q
	// 从上一层得到的ep点开始搜索底层获得ef个q的最近邻
	W ← SEARCH_LAYER(q, ep, ef, lc=0)
	return K nearest elements from W to q
 
  算法复杂度分析： 
   
   查找时间复杂度：O(log(n)) 
   构图时间复杂度（插入所有元素）：O(n⋅log(n)) 
   内存占用：每个元素的平均内存消耗为(Mmax0+mL⋅Mmax)⋅bytes_per_link
 （Mmax0是原始链表（第0层）每个元素的最大连接数，Mmax是其他层每个元素的最大连接数。） 
   
  5.HNSW应用工具 
  实现HNSW主要有两个package可选用： 
  Faiss (Facebook AI Similarity Search): 
   
   源码：
 https://github.com/facebookresearch/faiss 
   
   
   介绍：
 https://engineering.fb.com/2017/03/29/data-infrastructure/faiss-a-library-for-efficient-similarity-search/ 
   
   
   HNSE demos:
 https://github.com/facebookresearch/faiss/blob/13a2d4ef8fcb4aa8b92718ef4b9cc211033e7318/benchs/bench_hnsw.py 
   
  demo： 
  "Build Index"
	# Dim: Embedding demension
	# M, ef_construction: defined in the paper "Efficient and robust approximate
	# nearest neighbor search using Hierarchical Navigable Small World graphs"
	index = faiss.IndexHNSWFlat(dim, M)
	index.hnsw.efConstruction = ef_construction
	index.verbose = True # to see progress
	index.add(vecs) # vecs: a n2-by-d matrix with query vectors

"Save index to file and load index from file"
	# save index
	faiss.write_index(index, file)
	# load index
	index = faiss.read_index(file)

"Search in the index"
	# vecs: a n2-by-d matrix with query vectors
	# D: distance
	# I: Indexes of returned candidates
	# k: number of nearest candidates
	D, I = index.search(vecs, k)

"Evaluate the index"
	nq, d = vecs.shape
	t0 = time.time()
	D, I = index.search(vecs, k)
	t1 = time.time()
	missing_rate = (I == -1).sum() / float(nq*k)
	recall_at_1 = (I == np.arange(nq)).sum() / float(nq*k)
	print("\t %7.3f ms per query, R@1 %.4f, missing rate %.4f" % (
	(t1 - t0) * 1000.0 / nq, recall_at_1, missing_rate))
 
  hnswlib 
   
   https://github.com/nmslib/hnswlib 
   
  demo: 
  import hnswlib
import numpy as np

dim = 16
num_elements = 10000

# Generating sample data
data = np.float32(np.random.random((num_elements, dim)))

# We split the data in two batches:
data1 = data[:num_elements // 2]
data2 = data[num_elements // 2:]

# Declaring index
p = hnswlib.Index(space='l2', dim=dim)  # possible options are l2, cosine or ip

# Initializing index
# max_elements - the maximum number of elements (capacity). Will throw an exception if exceeded
# during insertion of an element.
# The capacity can be increased by saving/loading the index, see below.
#
# ef_construction - controls index search speed/build speed tradeoff
#
# M - is tightly connected with internal dimensionality of the data. Strongly affects memory consumption (~M)
# Higher M leads to higher accuracy/run_time at fixed ef/efConstruction

p.init_index(max_elements=num_elements//2, ef_construction=100, M=16)

# Controlling the recall by setting ef:
# higher ef leads to better accuracy, but slower search
p.set_ef(10)

# Set number of threads used during batch search/construction
# By default using all available cores
p.set_num_threads(4)


print("Adding first batch of %d elements" % (len(data1)))
p.add_items(data1)

# Query the elements for themselves and measure recall:
labels, distances = p.knn_query(data1, k=1)
print("Recall for the first batch:", np.mean(labels.reshape(-1) == np.arange(len(data1))), "\n")

# Serializing and deleting the index:
index_path='first_half.bin'
print("Saving index to '%s'" % index_path)
p.save_index("first_half.bin")
del p

# Re-initializing, loading the index
p = hnswlib.Index(space='l2', dim=dim)  # the space can be changed - keeps the data, alters the distance function.

print("\nLoading index from 'first_half.bin'\n")

# Increase the total capacity (max_elements), so that it will handle the new data
p.load_index("first_half.bin", max_elements = num_elements)

print("Adding the second batch of %d elements" % (len(data2)))
p.add_items(data2)

# Query the elements for themselves and measure recall:
labels, distances = p.knn_query(data, k=1)
print("Recall for two batches:", np.mean(labels.reshape(-1) == np.arange(len(data))), "\n")
 
  三、KD Tree
 Kd-tress（K dimensional Tree）：平衡二叉树（AVL树） 
   
   k（k邻近查询中的k）维空间中的实例点进行存储以便对其进行快速检索（近邻搜索）的 树形数据结构 
   左子树的所有节点都比根节点的值小；右子树的所有节点都比根节点的值大；且左子树和右子树的高度差最大为1 
   查找一个值，可根据当前遍历到的节点的值 确定搜索方向 
   
  算法：
 K-D Tree建立：
 不断分裂空间；
 分裂点：计算每个点的坐标的每一个维度上的方差，取方差最大的那一维对应的中间值。
 直到每个空间中最多有一个点。 
  Input:  无序化的点云，维度k
Output：点云对应的kd-tree
Algorithm：
1、初始化分割轴：对每个维度的数据进行方差的计算， **取最大方差的维度作为分割轴**，标记为r；
2、确定节点：对当前数据按分割轴维度进行检索，找到**中位数数据，并将其放入到当前节点上**；
3、划分双支：
	划分左支：在当前分割轴维度，所有**小于中位数的值划分到左支**中；
    划分右支：在当前分割轴维度，所有**大于等于中位数的值划分到右支**中。
4、更新分割轴：r = (r + 1) % k;
5、确定子节点：
	确定左节点：在左支的数据中进行步骤2；
    确定右节点：在右支的数据中进行步骤2；
 
  例子： 
  二维样例：{（2,3），（5,4），（9,6），（4,7），（8,1），（7,2）}
构建步骤：
1、确定 方差大 的为开始分割轴：
发现x轴的方差较大，所以，最开始的分割轴为x轴。

2、该轴的 中位数 确定为当前节点：
对{2，5，9，4，8，7}找中位数，发现{5,7}都可以，这里我们选择7，也就是(7,2);

3、确定左右子树节点：
在x轴维度上，比较和7的大小，进行划分：
左支：{(2,3)，(5,4)，(4,7)}
右支：{(9,6)，(8,1)}

4、更新 另一个分割轴 继续划分：
一共就两个维度，所以，下一个维度是y轴。

5、换新轴 确定左右子树 子节点：
左节点：在左支中找到y轴的中位数(5,4)，左支数据更新为{(2,3)}，右支数据更新为{(4,7)}
右节点：在右支中找到y轴的中位数(9,6)，左支数据更新为{(8,1)}，右支数据为null。

6、更新分割轴：
下一个维度为x轴。

7、确定(5,4)的子节点：
左节点：由于只有一个数据，所以，左节点为(2,3)
右节点：由于只有一个数据，所以，右节点为(4,7)

8、确定(9,6)的子节点：
左节点：由于只有一个数据，所以，左节点为(8,1)
右节点：右节点为空。

最终，就可以构建整个的kd-tree了。
 
  
 最近邻搜索： 
  搜索一个最近邻：定位到对应的分支上，找到最接近的点。

举个例子：查找(2.1,3.1)的最近邻。
计算当前节点(7,2)的距离，为6.23，并且暂定为(7,2)，根据当前分割轴的维度（2.1 < 7），选取左支。
计算当前节点(5,4)的距离，为3.03，由于3.03 < 6.23，暂定为(5,4)，根据当前分割轴维度（3.1 < 4），选取左支。
计算当前节点(2,3)的距离，为0.14，由于0.14 < 3.03，暂定为(2,3)，根据当前分割轴维度（2.1 > 2），选取右支，而右支为空，回溯上一个节点。
计算(2.1,3.1)与(5,4)的分割轴{y = 4}的距离，如果0.14小于距离值，说明就是最近值。如果大于距离值，说明，还有可能存在值与(2.1,3.1)最近，需要往右支检索。
由于0.14 < 0.9，我们找到了最近邻的值为(2,3)，最近距离为0.14。

多个最近邻：多个近邻其实和一个最近邻类似，不过是存储区间变为了多个，判定方法还是完全一样。
 
  详细介绍： 
   
   https://www.joinquant.com/view/community/detail/c2c41c79657cebf8cd871b44ce4f5d97

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

三种邻近搜索

一、Annoy

二、HNSW

1. 近邻图

2. NSW

3. Skip-List 跳表结构

4. HNSW

1）插入算法

2）搜索当前层的最近邻

3）截取集合中最近邻的M个结果

4）启发式搜索最近邻

5.HNSW应用工具

Faiss (Facebook AI Similarity Search):

hnswlib

你可能感兴趣的:(机器学习,算法,python)