亦世凡华、

机器学习 | 掌握 K-近邻算法的理论实现和调优技巧

初识K-近邻算法

距离度量

K值选择

kd树

数据集划分

特征预处理

莺尾花种类预测(实操)

交叉验证与网格搜索

初识K-近邻算法

K-近邻算法（K-Nearest Neighbor，KNN）是一种基本的分类和回归算法。它的基本思想是通过找出与新对象最近邻的 K 个训练数据，在分类时将新对象归类为出现频率最高的类别。这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法。

定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

距离公式：两个样本的距离可以通过如下公式计算，又叫欧式距离。

KNN算法流程总结：

1）计算已知类别数据集中的点与当前点之间的距离。

2）按距离递增次序排序。

3）选取与当前点距离最小的k个点。

4）统计前k个点所在的类别出现的频率。

5）返回前k个点出现频率最高的类别作为当前点的预测分类。

关于K-近邻算法API的使用，要知道我们机器学习的流程是：

1）获取数据集 2）数据基本处理 3）特征工程 4）机器学习 5）模型评估

接下来我们开始使用机器学习的算法库：Scikit-learn。其包括许多知名的机器学习算法的实现，文档完善、容易上手、具有丰富的API。其包含的内容：分类、聚类、回归、特征工程、模型选择、调优等功能，非常适合新手小白上手操作。接下来我们终端执行如下命令，开始对其进行安装：

pip install scikit-learn -i https://pypi.mirrors.ustc.edu.cn/simple

接下来通过代码演示如何使用KNeighborsClassifier类构建一个基本的K-近邻分类器并进行数据预测：

from sklearn.neighbors import KNeighborsClassifier

# 构造数据
x = [[1], [2], [10], [20]]
y = [0, 0, 1, 1]

# 模型训练
estimator = KNeighborsClassifier(n_neighbors=1) # 实例化一个估计器对象
estimator.fit(x, y) # 调用fit方法进行训练

# 数据预测
ret1 = estimator.predict([[-1000]]) # 它与训练点[1]的距离最近，标记为[0]
print(ret1)

ret2 = estimator.predict([[1000]]) # 它与训练点[20]的距离最近，标记为[1]
print(ret2)

最终呈现的结果如下所示：

距离度量

距离度量是用来衡量数据对象之间相似性或差异性的方法。它通常用于K-近邻算法、聚类分析、降维算法等各种机器学习任务中。

在机器学习过程中，对于函数dist(.,.,)，若它是一“距离度量”，则需要满足一些基本性质：

常见的距离度量包括欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧式距离、余弦距离、杰卡德距离等。这些距离度量方法可以根据数据的特点和应用场景进行选择，以便更准确地描述数据对象之间的相似性或差异性。

1）欧氏距离是最常见的距离度量方式，用于衡量数据空间中两点之间的直线距离。

2）曼哈顿距离衡量的是两点在各个坐标轴上的距离总和，也称为城市街区距离。

3）切比雪夫距离也称为棋盘距离，是一种用于衡量向量和点之间的距离的度量方式。

4）闵可夫斯基距离是这两者的泛化，可以根据具体需要调整参数p来实现不同的距离度量方式。

5）标准化欧式距离是一种对欧式距离进行标准化处理的方法，通常用于数据的相似性度量。

6）余弦距离是一种衡量向量之间相似性的度量方式，常用于文本挖掘、信息检索等领域。

7）杰卡德距离是一种用于衡量集合之间差异性的度量方式，常用于计算两个集合的相似性或差异程度。

合适的距离度量方式可以帮助机器学习算法更好地理解和处理数据，从而提高模型的性能和准确度。在实际应用中，选择合适的距离度量方式是非常重要的，因为它直接影响着模型的表现和结果的准确性。

K值选择

在机器学习中，K 值通常用于 K 近邻算法（K-Nearest Neighbors, KNN）中，代表着最近邻的数量。KNN 是一种基本的分类和回归算法，其基本思想是根据样本间的距离来判断新样本的类别或数值。

KNN 算法的工作原理是：对于一个待分类的样本，它的类别取决于其 K 个最近邻样本中最常见的类别。K 值的选择会直接影响到 KNN 的性能和结果。

K 值的选择对 KNN 算法的影响主要体现在以下两个方面：

1）容易受噪声数据影响：当 K 值较小时，模型更容易受到噪声数据的干扰。如果 K=1，那么分类结果完全取决于最近邻的类别，这可能导致对噪声数据过度敏感。而当 K 值较大时，模型对噪声数据的影响会减小。

2）模型的复杂度和偏差-方差权衡：较小的 K 值会使得模型更加复杂，因为它需要考虑更多的最近邻数据点。这可能导致模型过拟合，出现高方差的情况。而较大的 K 值会使得模型更简单，可能会导致欠拟合，出现高偏差的情况。

因此，在选择 K 值时需要进行适当的调整和折衷。一般来说，K 值的选择可以通过交叉验证或网格搜索等方法进行模型选择和调优。具体选择哪个 K 值取决于数据集的大小、类别的平衡性、噪声数据的程度以及模型的复杂度等因素。在实际应用中，可以通过尝试不同的 K 值，并评估模型的性能来选择最优的 K 值。

K 值的选择问题：

1）选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习"近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习"的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；

2）选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。

3）K=N（N为训练样本个数），则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单，忽略了训练实例中大量有用信息。

名词解释：

近似误差：

1）对现有训练集的训练误差，关注训练集。

2）如果近似误差过小可能会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较大偏差的预测。

3）模型本身不是最接近最佳模型。

估计误差：

1）可以理解为对测试集的测试误差，关注测试集。

2）估计误差小说明对未知数据的预测能力好。

3）模型本身最接近最佳模型。

在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是把训练数据在分成两组：训练集和验证集）来选择最优的K值。

kd树

KD 树(KD-Tree)是一种用于快速查找多维空间中最近邻点的数据结构。它是一种二叉树，每个节点代表一个超矩形区域，并且树的每一级都以不同的轴对数据进行分割。

为了避免每次都重新计算一遍距离，算法会把距离信息保存在一棵树里，这样在计算之前从树里查询距离信息，尽量避免重新计算。其基本原理是，如果A和B距离很远，B和C距离很近，那么A和C的距离也很远。有了这个信息，就可以在合适的时候跳过距离远的点。

根据KNN每次需要预测一个点时，我们都需要计算训练数据集里每个点到这个点的距离，然后选出距离最近的k个点进行投票。当数据集很大时，这个计算成本非常高。

最近邻域搜索： kd树（K-dimensiontree）是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是一种二叉树，表示对k维空间的一个划分，构造kd树相当于不断地用垂直于坐标轴的超平面将K维空间切分，构成一系列的K维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

kd树的构造：

1）构造根结点，使根结点对应于K维空间中包含所有实例点的超矩形区域；

2）通过递归的方法，不断地对k维空间进行切分，生成子结点。在超矩形区域上选择一个坐标轴和在此坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右两个子区域（子结点）；这时，实例被分到两个子区域。

3）上述过程直到子区域内没有实例时终止（终止时的结点为叶结点）。在此过程中，将实例保存在相应的结点上。

4）通常，循环的选择坐标轴对空间切分，选择训练实例点在坐标轴上的中位数为切分点，这样得到的kd树是平衡的（平衡二叉树：它是一棵空树，或其左子树和右子树的深度之差的绝对值不超过1，且它的左子树和右子树都是平衡二叉树。

KD树中每个节点是一个向量，和二叉树按照数的大小划分不同的是，KD树每层需要选定向量中的某一维，然后根据这一维按左小右大的方式划分数据。在构建KD树时，关键需要解决2个问题：

1）选择向量的哪一维进行划分；

是随机选择某一维或按顺序选择，但是更好的方法应该是在数据比较分散的那一维进行划分（分散的程度可以根据方差来衡量）

2）如何划分数据；

可以使构建的树比较平衡，可以每次选择中位数来进行划分。

数据集划分

机器学习一般的数据集会划分为两个部分：

1）训练数据：用于训练，构建模型

2）测试数据：在模型校验时使用，用于评估模型是否有效

划分比例：

训练集：70%、80%、75%

测试集：30%、20%、25%

API划分：

参数：

1）数据集的特征值

2）数据集的标签值

3）test_size测试集的大小，一般为float

4）random_state随机数种子，不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。

return：

x_train、x_test、y_train、y_test

下面这段代码是用于将数据集（iris.data 和 iris.target）划分为训练集和测试集的工具。如下：

train_test_split：

函数是来自 scikit-learn 库中的一个方法，用于将数据集划分为训练集和测试集。
iris.data：

是输入的特征数据，其中包含了花朵的四个特征值（萼片长度、萼片宽度、花瓣长度、花瓣宽度）。
iris.target：

是目标数据，其中包含了对应每个样本的分类标签（0、1、2 分别代表三个不同的鸢尾花品种）。
test_size=0.2：

指定了测试集的大小，这里是将数据集的 20% 分配给测试集，剩余 80% 作为训练集。
random_state=22：

是为了保证每次运行代码时都得到相同的划分结果，它指定了随机数种子。

函数的返回值是四个数组：x_train、x_test、y_train 和 y_test。其中，x_train 和 y_train 是训练集的特征和标签数据，x_test 和 y_test 是测试集的特征和标签数据。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 小数据集获取
iris = load_iris()

# 数据集划分
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("训练集的特征值是：\n", x_train)
print("训练集的目标值是：\n", y_train)
print("测试集的特征值是：\n", x_test)
print("测试集的目标值是：\n", y_test)

print("训练集的目标值的形状是：\n", y_train.shape)
print("测试集的目标值的形状是：\n", y_test.shape)

通过将数据集划分为训练集和测试集，我们可以使用训练集来训练机器学习模型，然后使用测试集来评估模型的性能和准确度。这样可以帮助我们了解模型的泛化能力和预测能力。

特征预处理

特征预处理(Feature Preprocessing)是指对原始数据进行清洗、转换和归一化等操作，以使其适合机器学习算法的输入要求和提高算法的性能。

在进行机器学习任务之前，通常需要对原始数据进行预处理，因为原始数据可能存在以下问题：

1）缺失值：数据中可能存在缺失值，即某些属性的取值为空。缺失值可能会影响模型的训练和预测，因此需要进行缺失值处理，可以通过填充均值、中位数、众数，或者使用插值方法来处理缺失值。

2）异常值：数据中可能存在异常值，即与其他样本明显不同的极端取值。异常值可能是由于测量误差或数据录入错误引起的，需要进行异常值检测和处理，可以通过删除异常值或用合理的取值替代异常值。

3）数据类型转换：数据可能包含不同的数据类型，如文本、类别型数据、数值型数据等。不同的算法对于不同的数据类型有不同的处理方式，因此需要将数据转换为适合算法处理的数据类型。

4）特征缩放：不同的特征可能具有不同的取值范围和单位，这会对某些机器学习算法产生影响。为了避免某些特征对模型的影响过大，需要对特征进行缩放，常见的缩放方法包括标准化和归一化。

5）特征选择：在原始数据中可能存在冗余或无关的特征，这些特征可能会增加模型的复杂度，降低模型的泛化能力。因此，需要对特征进行选择，选取对目标变量有较强相关性的特征。

通过特征预处理，可以使数据更加干净、可靠，并为机器学习算法提供更有用和可解释的特征，从而提高模型的准确性和性能。这里博主不可能全部讲解到上面的内容，这里就拿特征缩放进行举例：

标准化：通过对原始数据进行变换把数据变换到均值为0，标准差为1范围内：

对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。

下面这段代码的核心是利用 StandardScaler 对象对数据进行标准化处理，并打印出标准化后的数据、每一列的方差和每一列的平均值。

import pandas as pd
from sklearn.preprocessing import StandardScaler

def stand():
    # 标准化演示
    data = pd.read_csv("dating.txt", sep='\t')
    print(data)
    # 实例化
    transfer = StandardScaler()
    # 进行转换，调用fit_transform
    ret_data = transfer.fit_transform(data[["milage", "Liters", "Consumtime"]])
    print("标准化之后的数据为：\n", ret_data)
    print("每一列的方差为：\n", transfer.var_)
    print("每一列的平均值为：\n", transfer.mean_)

stand()

最终呈现的结果为：

归一化：通过对原始数据进行变换把数据映射到（默认为[0,1]）之间。其公式如下：

对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变。这里通过下面的这个例子来理解上面的过程：

下面这段代码的核心是利用 MinMaxScaler 对象对数据进行归一化处理，从而将数据缩放到指定的特征范围内，这在机器学习和数据分析中是非常常见的预处理步骤。

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def minmax():
    # 归一化演示
    data = pd.read_csv("dating.txt", sep='\t')
    print(data)
    # 实例化
    transfer = MinMaxScaler(feature_range=(3, 5)) # 指定归一化后的特征范围
    # # 进行转换，调用fit_transform
    ret_data = transfer.fit_transform(data[["milage", "Liters", "Consumtime"]])
    print("归一化之后的数据为：\n", ret_data)

minmax()

最终呈现的效果如下：

莺尾花种类预测(实操)

导入模块：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

获取数据：

iris = load_iris()

数据基本处理：这段代码的主要作用是将数据集划分为训练集和测试集，以便在机器学习模型的训练和评估过程中使用。通过将数据集划分为独立的训练集和测试集，可以更好地评估模型对新数据的泛化能力。其中设置的随机种子 random_state=22 保证了每次划分的结果都是固定的，有助于结果的复现性。

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)

特征工程－特征预处理：在这段代码中，首先在训练集上调用 fit_transform() 方法计算并应用标准化转换，得到标准化后的训练集特征数据 x_train。然后，在测试集上调用 transform() 方法使用训练集上计算得到的均值和标准差来进行标准化转换，得到标准化后的测试集特征数据 x_test。

transfer = StandardScaler()
x_train = transfer.fit_transform(x_train) # 计算均值和标准差
x_test = transfer.transform(x_test)

机器学习-KNN：在这段代码中，首先通过创建 KNeighborsClassifier 对象来实例化一个 K 近邻分类器，然后使用 fit() 方法对该分类器进行训练。训练过程就是让分类器从训练集中学习特征与标签之间的关系，从而构建一个能够进行分类预测的模型。

estimator = KNeighborsClassifier(n_neighbors=5) # 实例化一个估计器
estimator.fit(x_train, y_train) # 模型训练

模型评估：这段代码的主要作用是评估训练好的 K 近邻分类器在测试集上的表现。首先通过 predict() 方法进行预测，然后通过比较预测值与真实值来评估分类器的准确率。最终输出预测值、预测值与真实值的对比结果以及分类器在测试集上的准确率。

y_pre = estimator.predict(x_test) # 预测值结果输出
print("预测值是: \n", y_pre)
print("预测值与真实值的对比是: \n", y_pre == y_test)

score = estimator.score(x_test, y_test) # 准确率计算
print("准确率为: \n", score)

当然我们可以关闭随机数种子，让准确率发生变化，最终呈现的效果如下：

总结：

交叉验证与网格搜索

交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。

我们之前知道数据分为训练集和测试集，但是为了让从训练得到模型结果更加准确。做以下处理：

训练集：训练集+验证集；测试集：测试集

交叉验证的目的：为了让被评估的模型更加准确可信。这个只是让被评估的模型更加准确可信，那么怎么选择或者调优参数呢？这里需要用到下面的网格搜索：

网格搜索：通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

以下是代码示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# 1.获取数据
iris = load_iris()

# 2.数据基本处理
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)

# 3.特征工程－特征预处理
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train) # 计算均值和标准差
x_test = transfer.transform(x_test)

# 4.机器学习-KNN
estimator = KNeighborsClassifier() # 实例化一个估计器
estimator.fit(x_train, y_train)  # 调用 fit 方法进行训练

# 4.1 模型调优-交叉验证，网格搜索
param_grid = {"n_neighbors": [1, 3, 5, 7]}
grid_search = GridSearchCV(estimator, param_grid=param_grid, cv=5)
grid_search.fit(x_train, y_train)  # 对已经训练过的分类器应用 GridSearchCV

# 5.模型评估
y_pre = grid_search.predict(x_test) # 预测值结果输出
print("预测值是: \n", y_pre)
print("预测值与真实值的对比是: \n", y_pre == y_test)

score = grid_search.score(x_test, y_test) # 准确率计算
print("准确率为: \n", score)

# 查看交叉验证网格搜索的一些属性
print("在交叉验证中，得到的最好结果是: \n", grid_search.best_score_)
print("在交叉验证中，得到的最好模型是: \n", grid_search.best_estimator_)
print("在交叉验证中，得到的模型结果是: \n", grid_search.cv_results_)

最终呈现的结果为：

你可能感兴趣的:(#,机器学习,机器学习,近邻算法,人工智能,k-近邻算法)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

机器学习 | 掌握 K-近邻算法 的理论实现和调优技巧

初识K-近邻算法

距离度量

K值选择

kd树

数据集划分

特征预处理

莺尾花种类预测(实操)

交叉验证与网格搜索

你可能感兴趣的:(#,机器学习,机器学习,近邻算法,人工智能,k-近邻算法)

机器学习 | 掌握 K-近邻算法的理论实现和调优技巧