城阙

机器学习-近邻算法总结

机器学习近邻算法总结

介绍下K近邻
介绍下KD-Tree
介绍下Ball Tree
Brute Force、KD Tree和Ball Tree比较
介绍下Faiss
介绍下LSH（局部敏感哈希）

介绍下K近邻

K 近邻算法（KNN）是一种基本分类与回归方法，其思想非常简单 —— KNN 对新样本进行预测的方法是：根据其k个最近邻的训练实例类别，通过多数表决等方式进行预测。从 KNN 算法的基本思想可以看出，KNN 算法本身不具有显示的学习过程，仅仅是将训练数据中与待预测样本最邻近 k 个点的占多数的类作为待预测样本的类。

由此可得出 KNN 三要素：

k 值的选择
距离度量
决策规则

1. 距离度量方法

为了找到最近邻的k个训练实例，我们需要对这一条件进行度量。特征空间中两个实例点的距离是两个实例点相似程度的反应。

K近邻模型的特征空间一般是 $n$ 维实数向量空间 $R^n$ ，使用的距离是欧氏距离，但也可以是其他距离。

机器学习中常见的距离度量方式有：

1.1 欧氏距离定义

欧几里得距离是我们最为熟悉也最容易理解的一种距离度量方式。在欧几里得空间中，点 [公式] 和 [公式] 之间的欧氏距离为：

它是一个纯数值，体现数值上的绝对差异。

1.2 余弦距离定义

首先引入余弦相似性的定义：

两个向量间的余弦值可以通过使用欧几里得点积公式求出：
$\cdot b = ||a|| ||b|| cos \theta$

给定两个属性向量 A 和 B，其余弦相似性由点积和向量长度给出：

可以看出余弦相似性的取值范围是： $[- 1, 1]$ 。即余弦相似性可能取到负值，但距离通常不可能取负数，所以余弦距离定义为：

余弦距离的取值范围是： $[0, 2]$ ，非负。

注意，余弦距离并不是一个严格定义的距离，虽然满足正定性和对称性但不满足三角不等式，相关示例解释参考Hulu机器学习问题与解答系列 | 第五弹：余弦距离。

1.3 余弦距离与欧氏距离

从上图可以看出，欧氏距离衡量的是空间各点的绝对距离，跟各个点所在的位置坐标直接相关；而余弦距离衡量的是空间向量的夹角，更加体现在方向上的差异。

1.4 曼哈顿距离

我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

例如在平面上，坐标 $x_1,x_2)$ 的点 $P_1$ 与坐标 $x_2,y_2)$ 的点 $P_2$ 的曼哈顿距离为：

1.5 曼哈顿与欧几里得距离

下图中红、蓝与黄线分别表示所有曼哈顿距离都拥有一样长度（12），而绿线表示欧几里得距离有 $\times \sqrt{2} \approx 8.48$ 的长度：

2. K 值的选择

k 值的选择会对 KNN 算法的结果产生重大影响：

选择太小的 k 值，近似误差会减小，只有与输入实例较近的训练实例才会预测结果起作用，缺点是估计误差会增大。意味着整体模型变得复杂，容易发生过拟合现象。
选择较大的 k 值，可以减少估计误差，但是近似误差会增大，这是与输入实例较远的训练实例也会对预测起作用，使预测发生错误。意味着模型变得简单，容易发生欠拟合现象。
在实际应用中，通常采用交叉验证法来选取最优 k 值(较小)。

3. 分类决策规则

k 近邻算法中的分类决策规则一般是多数表决：由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

多数表决规则等价于经验风险最小化，具体解释可参考机器学习算法 | K近邻算法 (KNN) 与近邻搜索算法 K-D 树 (K-D Tree)。

优缺点总结

优点

算法简单，理论成熟，易于实现；
既可以用来做分类（可用于线性和非线性分类）也可以用来做回归；
对数据没有假设，准确度高，对 outlier 不敏感；
KNN 是一种在线技术，新数据可以直接加入数据集而不必进行重新训练，没有明显的训练过程，所以训练时间复杂度为 $O (n)$ ；（在程序开始运行时，把数据集加载到内存后，不需要进行训练，直接进行预测）
由于 KNN 方法主要靠周围有限的邻近的样本，对于类域的交叉或重叠较多的待分类样本集来说，KNN 方法较其他方法更为适合；

缺点

当训练集较大时，计算量相当大，时间复杂度高（需要算每个测试点与训练集的距离，特别是特征数量比较大的时候）；
需要大量的内存，空间复杂度高；
样本不平衡（即有些类别的样本数量很多，而其它样本的数量很少）时，预测偏差较大，对稀有类别的预测准确度低；
是lazy learning方法，基本上不学习，导致预测速度较慢。

KNN 算法应用领域比较广泛，在文本分类、模式识别、聚类分析，多分类领域中处处有 KNN 算法的身影。

参考文章

机器学习算法 | K近邻算法 (KNN) 与近邻搜索算法 K-D 树 (K-D Tree)
Hulu机器学习问题与解答系列 | 第五弹：余弦距离

介绍下KD-Tree

1. KD-Tree简介

kd树（k-dimensional树的简称），是一种分割k维数据空间的数据结构，主要应用于多维空间关键数据的近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Nearest Neighbor)。

其实KDTree就是二叉查找树（Binary Search Tree，BST）的变种。二叉查找树的性质如下：
1）若它的左子树不为空，则左子树上所有结点的值均小于它的根结点的值；
2）若它的右子树不为空，则右子树上所有结点的值均大于它的根结点的值；
3）它的左、右子树也分别为二叉排序树；

如果我们要处理的对象集合是一个K维空间中的数据集，我们首先需要确定是： 怎样将一个K维数据划分到左子树或右子树？

和构造1维BST树类似，只不过对于Kd树，在当前节点的比较并不是通过对K维数据进行整体的比较，而是选择某一个维度d，然后比较两个K维数据在该维度 d上的大小关系，即每次选择一个维度d来对K维数据进行划分，相当于用一个垂直于该维度d的超平面将K维数据空间一分为二，平面一边的所有K维数据在d维度上的值小于平面另一边的所有K维数据对应维度上的值。也就是说，我们每选择一个维度进行如上的划分，就会将K维数据空间划分为两个部分，如果我们继续分别对这两个子K维空间进行如上的划分，又会得到新的子空间，对新的子空间又继续划分，重复以上过程直到每个子空间都不能再划分为止。

以上就是构造 Kd-Tree的过程，上述过程中涉及到两个重要的问题：1）每次对子空间的划分时，怎样确定在哪个维度上进行划分；2）在某个维度上进行划分时，怎样确保建立的树尽量地平衡。树越平衡代表着分割得越平均，搜索的时间也就越少。

1.1 在哪个维度上进行划分？

一种选取轴点的策略是median of the most spread dimension pivoting strategy，统计样本在每个维度上的数据方差，挑选出对应方差最大值的那个维度。数据方差大说明沿该坐标轴方向上数据点分散的比较开（后面会发现，选择方差大的维度主要是为了减少回溯时的代价，减少子树的访问）。这个方向上，进行数据分割可以获得最好的平衡。

1.2 怎样确保建立的树尽量地平衡？

给定一个数组，怎样才能得到两个子数组，这两个数组包含的元素个数差不多且其中一个子数组中的元素值都小于另一个子数组呢？方法很简单，找到数组中的中值（即中位数，median），然后将数组中所有元素与中值进行比较，就可以得到上述两个子数组。同样，在维度d上进行划分时，划分点（pivot）就选择该维度d上所有数据的中值，这样得到的两个子集合数据个数就基本相同了。

2. KD-Tree构建

1）在K维数据集合中选择具有最大方差的维度k，然后在该维度上选择中值m为pivot对该数据集合进行划分，得到两个子集合；同时创建一个树结点node，用于存储；
2）对两个子集合重复步骤1的过程，直至所有子集合都不能再划分为止；
可以看出，KD-Tree的构建是一个递归的过程。

KD-Tree构建示例图：

具体解释可参考机器学习算法 | K近邻算法 (KNN) 与近邻搜索算法 K-D 树 (K-D Tree)，通俗易懂。

3. KD-Tree的最近邻查找

1）将查询数据Q从根结点开始，按照Q与各个结点的比较结果向下访问Kd-Tree，直至达到叶子结点。

其中Q与结点的比较指的是将Q对应于结点中的k维度上的值与中值m进行比较，若Q(k) < m，则访问左子树，否则访问右子树。达到叶子结点时，计算Q与叶子结点上保存的数据之间的距离，记录下最小距离对应的数据点，记为当前最近邻点nearest和最小距离dis。

2）进行回溯操作，该操作是为了找到离Q更近的“最近邻点”。即判断未被访问过的分支里是否还有离Q更近的点，它们之间的距离小于dis。

如果Q与其父结点下的未被访问过的分支之间的距离小于dis，则认为该分支中存在离P更近的数据，进入该结点，进行（1）步骤一样的查找过程，如果找到更近的数据点，则更新为当前的最近邻点nearest，并更新dis。
如果Q与其父结点下的未被访问过的分支之间的距离大于dis，则说明该分支内不存在与Q更近的点。
回溯的判断过程是从下往上进行的，直到回溯到根结点时已经不存在与P更近的分支为止。

注：判断未被访问过的树分支中是否还有离Q更近的点，就是判断"Q与未被访问的树分支的距离|Q(k) - m|“是否小于"Q到当前的最近邻点nearest的距离dis”。从几何空间上来看，就是判断以Q为中心，以dis为半径超球面是否与未被访问的树分支代表的超矩形相交。

总结

因为 k-d 树是二叉搜索树的变种，所以在 k-d 树上进行搜索与在二叉搜索树上搜索的过程是一致的，故 k-d 树上搜索的平均时间也是： $O (l o g n)$ 。

Kd树在维度较小时（比如20、30），算法的查找效率很高，然而当数据维度增大（例如：K≥100），查找效率会随着维度的增加而迅速下降。假设数据集的维数为D，一般来说要求数据的规模N满足N>>2的D次方，才能达到高效的搜索。

另外，推荐阅读knn基础与优化1–kd-tree这篇文章的相关介绍，表达更加简洁。

参考文章

KD-Tree算法
详解KDTree
k-d tree算法
KNN的核心算法kd-tree和ball-tree
knn基础与优化1–kd-tree
k-d tree算法原理及实现
kNN里面的两种优化的数据结构：kd-tree和ball-tree，在算法实现原理上有什么区别？
相似度性能比较-kd-tree、kd-ball、faiss、annoy、线性搜索
机器学习算法 | K近邻算法 (KNN) 与近邻搜索算法 K-D 树 (K-D Tree)

介绍下Ball Tree

Ball Tree Algorithm (球树算法），用超平面Circle(2D)或Sphere(3D)将所有的数据点分解到两个簇（cluster)，这个平面经常被称为超平面（hypersphere)，而每个簇表示树的两个节点。.

Ball tree algorithm* 的实现过程：

1）找到整个数据的中心centroid1。
2）找到离centroid1 最远的点centroid2
3）找到离centroid2最远的点centroid3
4）对每个点，按离centroid2, centroid3距离远近，分为两组（簇）
重复以上1234步骤，直至到达树的预定层级（最多个簇）

空间点的分簇过程和树的长成过程，如图所示。

另外，推荐阅读文章Ball Tree对Ball Tree的介绍，以及文章knn基础与优化2–ball tree、LSH对Ball Tree的总结。

参考文章

kNN里面的两种优化的数据结构：kd-tree和ball-tree，在算法实现原理上有什么区别？
Ball Tree
knn基础与优化2–ball tree、LSH

Brute Force、KD Tree和Ball Tree比较

Brute Force（暴力算法），两两比较，得到所有点最均衡的结果。小数据集可行，大数据集不可行。
低维数据，KD Tree是最好的算法，但按轴分解，不适用复杂曲线，可能导致性能不好（poor performance).
高维数据，Ball Tree合适高维和大数据集情况，不过如果噪声数据过多，也会导致性能不好。

参考文章

kNN里面的两种优化的数据结构：kd-tree和ball-tree，在算法实现原理上有什么区别？

介绍下Faiss

1. 背景介绍

推荐系统中，在使用Embedding进行召回的时候，由于直接进行for循环计算的时间复杂度巨高，因此需要采用一些技术进行快速计算，其中主要有两种解决方案。解决方案如下:

Faiss向量检索库
局部敏感哈希技术(可以参考书籍深度学习与推荐系统王喆)
其中Faiss是一个搜索工具库，Faiss中也有包含LSH(局部敏感哈希)技术进行搜索。

2. Faiss技术介绍

Faiss是FaceBook的AI团队开源的一套用于做稠密向量聚类和相似性搜索的软件库，它包含在任意大小向量上的搜索算法，也支持评估和参数调节。一些非常有用的算法也可以在GPU上使用,支持c++和python调用。

Faiss工具包可以使用在推荐系统的向量召回部分，在做向量召回的时候要么是u2u,u2i或者i2i，这里的u和i分别指user和item。我们知道在实际场景中user和item数量是海量的，我们最容易想到的基于向量相似度的召回就是使用两层循环遍历user列表或者item列表计算两个向量的相似度，但是这样做在面对海量数据是不切实际的，faiss就是用来加速计算某个查询向量最相似的Topk个索引向量。

Faiss所有软件库中对应的搜索技术都有与之对应的索引建立方法，其中PQ(乘积量化)就是其中的一个方法，该方法可以加快搜索并且减少空间。

3. Faiss原理介绍

Faiss包含多种相似度检索方法，它认为向量可以表达距离，可以通过整数来确定距离。向量距离可以通过L2(欧氏距离)和点积确定，同时也支持余弦相似度。它主要是通过向量压缩进行计算，而不是通过使用原型向量进行比较，这种方法虽然降低精度，但是可以极大缩小存储空间以及检索速度，可以达到近似检索。

Faiss本质是：使用PCA、K-means、PQ等算法对数据进行操作，对数据进行分群，每一个群都有一个Index，根据要查找数据的与每个Index距离大小，定位要查找的那个群，也就是缩小了数据查找范围，进而加速。

参考文章

Faiss在推荐系统中的应用
搜索召回 | Facebook: 亿级向量相似度检索库Faiss原理+应用
faiss-on-mr：推荐系统大规模离线向量检索工具
一文入门Facebook开源向量检索框架Faiss
Faiss入门及应用经验记录
一文搞懂faiss计算

介绍下LSH（局部敏感哈希）

原理：哈希对大家再熟悉不过，向量也可以采用哈希来加速查找，我们这里说的哈希指的是局部敏感哈希（Locality Sensitive Hashing，LSH），不同于传统哈希尽量不产生碰撞，局部敏感哈希依赖碰撞来查找近邻。高维空间的两点若距离很近，那么设计一种哈希函数对这两点进行哈希值计算，使得他们哈希值有很大的概率是一样的；若两点之间的距离较远，他们哈希值相同的概率会很小。不同距离度量的哈希函数不同，不是所有距离度量（如内积）都能找到对应局部敏感哈希。摘自文章一文纵览KNN（ANN）向量检索。
优点：训练非常快，支持分批导入，index占内存很小，检索也比较快
缺点：召回率非常拉垮。在候选语料比较多的时候（百万级别），检索也不是特别快，大概是秒级别的。
使用情况：候选向量库非常大，离线检索，内存资源比较稀缺的情况
构建方法：

dim, measure = 64, faiss.METRIC_L2  
param =  'LSH'
index = faiss.index_factory(dim, param, measure) 
print(index.is_trained)  # 此时输出为True
index.add(xb)

参考文章

Faiss在推荐系统中的应用
一文纵览KNN（ANN）向量检索

macOS 使用 enca 识别文件编码类型（比 file 命令准确）知识搬运bot 软件工具/使用技巧 macos enca file iconv 文件编码
文章目录macOS上安装enca基本使用起因-iconv关于enca安装Encaenca&enconv其它用法macOS上安装encabrewinstallenca基本使用encafilepath.txt示例$enca动态规划算法.txt[0]SimplifiedChineseNationalStandard;GB2312CRLFlineterminators起因-iconv在macOS上打开一些
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
OpenCV图像拼接（4）图像拼接模块的一个匹配器类cv::detail::BestOf2NearestRangeMatcher 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::BestOf2NearestRangeMatcher是OpenCV库中用于图像拼接模块的一个匹配器类，专门用于寻找两幅图像之间的最佳特征点匹配。它是基于“最近邻与次近邻距离比”原则来过滤匹配点对的，以提高匹配结果的准确性。这个类特别适用于需
股票市场的量化交易策略如何应对市场情绪变化？云策量化程序化炒股量化软件量化交易量化炒股 QMT 股票交易 PTrade 量化交易股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》股票市场的量化交易策略如何应对市场情绪变化？在股票市场中，量化交易策略是一种基于数学模型和算法的交易方式，它通过分析历史数据来预测未来价格走势，并据此制定交易决策。然而，市场情绪的变化对股票价格有着不可忽视的影响。本文将探讨量化交易策略如何应对市场情绪的变化，并提供一些具体的代码示例。一、市场情绪的重要性市场情绪是指投资者对市
算法笔记——前缀树、贪心算法（更新ing....... 不吃香菜的码农左神算法笔记算法数据结构贪心算法 leetcode 堆栈
前缀树、贪心算法一、前缀树1.什么是前缀树2.如何生成前缀树二、贪心算法1.拼接字符串2.金条问题3.项目会议时间问题4.项目收益最大化4.随时获得数据流的中位数一、前缀树1.什么是前缀树前缀树一般指字典树这是指一种结构而不是一类题（注意信息是在树的路上）典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
python 列表倒序输出小琳爱分享 python python
python列表倒序输出#使用reverseli1=[1,6,4,3,7,9]li2=['a','m','s','g']li1.reverse()li2.reverse()print(li1,li2)#利用list切片li1=[1,6,4,3,7,9]li2=['a','m','s','g']print(li1[::-1])print(li2[::-1])#利用算法进行转换，这里需要用到深层cop
基于WebAssembly的浏览器密码套件闲人编程 wasm 服务器易于集成跨平台性密码套件浏览器 WebAssembly
目录一、前言二、WebAssembly与浏览器密码套件2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU加速设计5.1异步任务调度5.2GPU加速六、GUI设计与功能模块七、完整代码实现九、代码自查与总结十、总结与展望一、前
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
力扣算法ing(35 / 100) 菥菥爱嘻嘻小白学习算法算法 leetcode typescript javascript
3.22104.二叉树的最大深度我的思路：dfs,深度优先搜索或者说能不能先根搜索，根层数3192nullmax=2202153nullmax=373nullmax=3我的代码：if(head.next===null)maxreturnfunctionmaxDepth(root:TreeNode|null):number{functionfindMax(root:TreeNode|null,dep
力扣算法ing(30 / 100) 菥菥爱嘻嘻小白学习算法算法 leetcode typescript javascript
3.1719.删除链表的倒数第n个结点给你一个链表，删除链表的倒数第n个结点，并且返回链表的头结点。示例1：输入：head=[1,2,3,4,5],n=2输出：[1,2,3,5]示例2：输入：head=[1],n=1输出：[]示例3：输入：head=[1,2],n=1输出：[1]删除指定的节点，给出头节点逆转链表，寻找第n个，删除不行不行，逆转录又要反转回去后面我想到了一个解决办法：利用数组计算总
力扣算法ing(9/100) 菥菥爱嘻嘻小白学习算法算法 leetcode 数据库 typescript
2.26438.找到字符串中所有字母的异位词438.找到字符串中所有字母异位词给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1:输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2:输入:s="abab
【C/C++】在排序数组中查找元素的第一个和最后一个位置（leetcode T34）勇士小蓝0727 c语言 c++leetcode 开发语言算法数据结构蓝桥杯
核心考点：法一双指针法;法二二分查找法题目描述：给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。（示例见文末）答案详解：方法一：双指针法vectorsearchRange(vector&nums,inttarge
每日算法题-Nim 游戏 - 台阶晚夜微雨问海棠呀算法游戏
给定一个台阶数n，玩家每次可以选择跳跃1到m个台阶，最后一个台阶到达者获胜。假设两位玩家都采取最优策略，判断先手玩家是否会获胜。输入格式一行包含两个整数n和m（1≤n,m≤10^9）。输出格式如果先手玩家能获胜，输出"Yes"；否则输出"No"。n,m=map(int,input().split())ifnm时，若n%(m+1)≠0，先手可以通过策略使剩余台阶数变为(m+1)的倍数，将必败态转移给
算法每日一练 (17) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(17)打家劫舍题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(17)打家劫舍题目地址：打家劫舍题目描述你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约因素就是相邻的
算法每日一练 (16) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(16)使用最小花费爬楼梯题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(16)使用最小花费爬楼梯题目地址：使用最小花费爬楼梯题目描述给你一个整数数组cost，其中cost[i]是从楼梯第i个台阶向上爬需
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
燃爆！程序员如何借助 AI 大模型冲破编程效率枷锁？（以DeepSeek，ChatGPT为例）羑悻的小杀马特. AI学习 chatgpt deepseek AI大模型开发语言
AI大模型已成为程序员提升效率的有力助手。本文聚焦DeepSeek和ChatGPT，探讨程序员如何借其冲破编程效率枷锁。在代码编写阶段，它们能快速生成基础框架、实现特定功能及复杂算法代码；调试时，精准分析错误并给出优化建议；文档生成方面，为函数、类及项目文档助力。程序员需掌握高效交互技巧，结合自身经验，合理利用AI大模型，全面提升编程效率，开启高效编程新境界。目录一·本篇背景：二、AI大模型简介2
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
数据结构——链表专项 seven——seven linux mailbox之线程邮箱数据结构链表算法
数据结构的总结1.定义一组用来保存一种或者多种特定关系的数据的集合（组织和存储数据）程序的设计：将现实中大量而复杂的问题以特定的数据类型和特定的存储结构存储在内存中，并在此基础上实现某个特定的功能的操作；程序=数据结构+算法高内聚，低耦合2.数据与数据之间的关系数据的逻辑结构：数据元素与元素之间的关系集合：关系平等线性结构：元素之间一对一的关系（表，队列。栈。。。）树型结构：元素之间一对多的关系（
Linux内核中的数据结构与算法（三）哈希链表木木0o0欧尼 Linux 链表数据结构 linux
四，哈希链表谈到链表就不得不谈Linux内核中另外一个重要的结构，哈希链表。讨论这个结构前，你需要对哈希的最基本的概念要清楚哦，由于我们已经讲过Linux内核中的普通链表的结构，这里我们对比他们的区别来了解哈希链表会直观一些。Linux链表认为双指针表头双循环链表对于HASH表来说过于浪费，因而设计了一套用于HASH表的hlist的数据结构，单指针表头双循环链表。hlish表头仅有一个指向首节点的
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
多种方法判断一个数是否为素数的实现与优化徐浪老师徐浪老师大讲堂数据结构算法
素数，又称质数，是一个在数学和计算机科学中非常重要的概念。它是大于1的自然数中，除了1和它本身，不能被其他数整除的数。本文将从最基础的方法讲解到优化算法，并提供完整的实现代码，帮助您高效地判断一个数是否为素数。一、素数的基础知识1.1素数的定义素数：一个大于1的正整数，只有两个正因子：1和它本身。例如：2、3、5、7、11等。非素数：大于1的数中，可以被除1和本身以外的数整除的数。例如：4、6、8
代码随想录算法训练营DAY59｜110.字符串接龙、105.有向图的完全可达性、106. 岛屿的周长阿緑代码随想录打卡算法
110.字符串接龙fromcollectionsimportdequedeffindshortestpath(strlist,beginstr,endstr):que=deque()visited={}que.append(beginstr)visited[beginstr]=1result=0whileque:cur=que.popleft()result=visited[cur]foriinr
基于NanoDet的无人机交通违规监控系统设计与实现深度学习&目标检测实战项目 NanoDet 无人机目标检测人工智能计算机视觉深度学习
1.引言随着无人机技术的发展，无人机在交通监控领域的应用逐渐增多。无人机能够提供空中视角，具有更高的视野覆盖范围，能够帮助交通管理部门实时监控交通违规行为。本博客将介绍如何使用NanoDet模型实现无人机交通违规监控系统，并结合PyQt5设计一个UI界面来实时展示检测结果。通过该系统，能够检测交通违规行为并做出实时预警，确保交通安全。本博客详细介绍了数据集的构建、模型的训练与推理、碰撞检测算法的实
P3375 【模板】KMP 好好学习^按时吃饭算法
题目来自洛谷网站：思路：从题目名字知道这是KMP模板题目，对于KMP算法，就两步，1、构造next数组。2、在s1中找到s2出现的位置。KMP代码：#includeusingnamespacestd;constintN=1e6+10;chars1[N],s2[N];//全局变量名字不能定义为next//C++标准库中有一个函数名字是nextintnext1[N];//ne数组intmain(){/
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

机器学习-近邻算法总结

机器学习近邻算法总结

介绍下K近邻

介绍下KD-Tree

介绍下Ball Tree

Brute Force、KD Tree和Ball Tree比较

介绍下Faiss

介绍下LSH（局部敏感哈希）

你可能感兴趣的:(机器学习,近邻算法)