写进メ诗的结尾。

K 最近邻算法

简单 KNN
海伦约会
手写数字识别
KNN 算法的优缺点

K 最近邻（K-NearestNeighbor，KNN）算法，是 1967 年由 Cover T 和 Hart P 提出的一种用于分类与回归的方法。

基本原理：存在一个带标签的数据集（也称为训练集），数据集中的每一个样本与所属标签一一对应。当输入新的不带标签的样本数据（预测数据）时，新的样本数据的每个特征会与训练集中每个样本的对应特征进行相似度计算，最后提取与预测样本最相似的训练样本的标签。一般而言，我们会选择训练集中前 K 个最相似的样本数据，这就是 K 最近邻算法。

简单 KNN

假设有一个带标签的数据集，包含“打斗镜头”和“接吻镜头”两个特征，标签为“电影类型”，数据集如下表所示：

电影名称	打斗镜头	接吻镜头	电影类型
电影1	1	101	爱情片
电影2	5	89	爱情片
电影3	108	5	动作片
电影4	115	8	动作片

现在有一个新的样本数据（101 个打斗镜头，20 个接吻镜头），该如何预测它的所属类型呢？

我们可以把打斗镜头作为 x 维度，把接吻镜头作为 y 维度，以此建立坐标系，它们的坐标关系如下图所示：

那我们又该如何比较新样本数据与训练集中样本数据的相似性呢？

我们可以利用它们之间的距离来表示相似度，具体可以根据以下公式：
$\sqrt{{(x_1 - x_2)}^{2} + {(y_1 - y_2)}^{2}}$
通过计算，我们可以得到以下结果：

(101, 20) -> 动作片 (108, 5) 的距离约为 16.55
(101, 20) -> 动作片 (115, 8) 的距离约为 18.44
(101, 20) -> 爱情片 (5, 89) 的距离约为 118.22
(101, 20) -> 爱情片 (1, 101) 的距离约为 128.69

通过计算可知，新样本数据 (101, 20) 与训练集中的样本 (108, 5) 距离最近，也就是最相似，因此我们提取样本 (108, 5) 的标签“动作片”，并将其赋给新样本数据 (101, 20)，从而预测出新样本数据的电影类型为“动作片”，这就是 KNN 模型完整的预测过程。

如果模型根据最相似的一个结果，对新样本数据进行预测，这只能说是最近邻算法，而非 K 最近邻算法。K 最近邻算法需要返回最相似的前 K 个结果，并对这 K 个结果进行概率统计，最终选取概率最高的作为最后的预测结果。

K 最近邻算法步骤如下：

计算新样本数据与训练集中每个样本数据之间的距离
按照距离递增次序对样本数据进行排列
选取前 K 个最相似的样本数据，并获取它们的标签
计算这 K 个标签的出现频率
将出现频率最高的标签作为预测结果

比如，在上述例子中，选取 K=3，按照距离递增次序排列的前三个样本分别为动作片 (108, 5)、动作片 (115, 8)、爱情片 (5, 89)，其中动作片出现的频率为 2/3，因此我们可以预测新样本数据 (101, 20) 的电影类型为“动作片”。

上述案例的代码实现：

import numpy as np
import pandas as pd


# 读取数据集，并划分特征数据和标签数据
def read_dataset():
    df = pd.read_csv(r'D:\MachineLearning\movie_type.csv')  # 读取数据集

    data = df.iloc[:, 1:]  # 获取数据集的第 2、3、4 列数据
    data = data.to_numpy()  # 将 pandas.core.frame.DataFrame 转为 numpy.ndarray

    train_data = data[:, :2]  # data 的第 1、2 列为特征数据
    labels = data[:, -1]  # data 的第 3 列为标签数据

    return train_data, labels


# 计算距离
def calculate_distance(predict_data, train_data):
    dist = np.sqrt(np.sum((predict_data - train_data) ** 2, axis=1))  # 计算新样本数据与训练集中每一个样本数据间的距离

    return dist


# 预测结果
def select_best_result(dist, labels, k):
    labels_lst = [labels[index] for index in dist.argsort()[:k]]  # 获取前 k 个最相似数据对应的标签

    # 选取前 k 个标签中出现频率最高的作为最终结果
    num_labels = {}
    num = labels_lst.count(labels_lst[0])
    num_labels[labels_lst[0]] = num
    if len(labels_lst) > 1:
        for i in range(1, len(labels_lst)):
            for j in range(i):
                if labels_lst[i] == labels_lst[j]:
                    break
            else:  # 第二个循环没有执行 break 时，会执行 else
                num = labels_lst.count(labels_lst[i])
                num_labels[labels_lst[i]] = num

    result = max(num_labels, key=num_labels.get)  # 获取字典中每个键对应的值，并将最大值对应的键返回

    return result


if __name__ == '__main__':
    predict_data = np.array([101, 20])  # 预测数据

    train_data, labels = read_dataset()  # 获取特征数据和标签数据
    train_data = train_data.astype(float)  # 将整数数组转换为浮点数组，方便后续计算

    predict_data = np.full((4, 2), predict_data)  # 将预测数据填充为跟 train_data 有相同的维度
    predict_data = predict_data.astype(float)  # 将整数数组转换为浮点数组，方便后续计算

    dist = calculate_distance(predict_data, train_data)  # 计算距离

    result = select_best_result(dist, labels, k=1)  # 选取最好的结果

    print(result)
---------
action

海伦约会

海伦女士一直使用在线约会网站寻找适合自己的约会对象，她会将接触过的人按以下方式进行分类：

没有魅力的人
魅力一般的人
魅力十足的人

海伦已经收集了一段时间的约会数据，她把这些数据存放在一个文本文件中，一共有 1000 个样本数据，每个样本数据包含以下三种特征：

每年获得的飞行常客里程数
玩视频游戏所消耗的时间百分比
每周消费的冰淇淋公升数

数据集中存放的数据格式如下图所示：

我们将使用 KNN 模型对其进行分析并预测，完整代码如下所示：

import numpy as np
import pandas as pd


# 读取数据集，将数据集划分成训练集和测试集，并划分特征数据和标签数据，同时将标签进行相应转换以方便后续处理
def read_dataset():
    df = pd.read_table(r'D:\MachineLearning\dating_set.txt', header=None)  # 读取数据集，共 1000 个样本

    data = df.iloc[:, :]  # 获取数据集的第 1、2、3、4 列数据

    train_for_data = data.sample(frac=0.9)  # 从原始数据 data 中随机选择 90% 的数据作为训练集
    test_for_data = data.drop(train_for_data.index)  # 从原始数据 data 中提取剩下的 10% 数据作为测试集
    train_for_data = train_for_data.to_numpy()  # 将 pandas.core.frame.DataFrame 转为 numpy.ndarray
    test_for_data = test_for_data.to_numpy()  # 将 pandas.core.frame.DataFrame 转为 numpy.ndarray

    train_data = train_for_data[:, :3]  # train_for_data 的第 1、2、3 列为训练集的特征数据
    train_labels = train_for_data[:, -1]  # train_for_data 的第 4 列为训练集的标签数据
    test_data = test_for_data[:, :3]  # test_for_data 的第 1、2、3 列为训练集的特征数据
    test_labels = test_for_data[:, -1]  # test_for_data 的第 4 列为训练集的标签数据

    label_mapping = {'didntLike': 1, 'smallDoses': 2, 'largeDoses': 3}  # 建立能将字符串标签映射成数字标签的字典

    train_labels = np.array([label_mapping[label] for label in train_labels])  # 将字符串标签转换成数字标签
    test_labels = np.array([label_mapping[label] for label in test_labels])  # 将字符串标签转换成数字标签

    return train_data, test_data, train_labels, test_labels


# 归一化
def normalize(train_data, test_data):
    for i in range(train_data.shape[1]):
        arr = train_data[:, i]  # 一列特征数据

        max_value = arr.max()  # 最大值
        min_value = arr.min()  # 最小值
        arr = (arr - min_value) / (max_value - min_value)  # 归一化计算

        train_data[:, i] = arr

    for i in range(test_data.shape[1]):
        arr = test_data[:, i]  # 一列特征数据

        max_value = arr.max()  # 最大值
        min_value = arr.min()  # 最小值
        arr = (arr - min_value) / (max_value - min_value)  # 归一化计算

        test_data[:, i] = arr

    return train_data, test_data


# 计算距离
def calculate_distance(predict_data, train_data):
    dist = np.sqrt(np.sum((predict_data - train_data) ** 2, axis=1))  # 计算新样本数据与训练集中每一个样本数据间的距离

    return dist


# 预测结果
def select_best_result(dist, labels, k):
    labels_lst = [labels[index] for index in dist.argsort()[:k]]  # 获取前 k 个最相似数据对应的标签

    # 选取前 k 个标签中出现频率最高的作为最终结果
    num_labels = {}
    num = labels_lst.count(labels_lst[0])
    num_labels[labels_lst[0]] = num
    if len(labels_lst) > 1:
        for i in range(1, len(labels_lst)):
            for j in range(i):
                if labels_lst[i] == labels_lst[j]:
                    break
            else:  # 第二个循环没有执行 break 时，会执行 else
                num = labels_lst.count(labels_lst[i])
                num_labels[labels_lst[i]] = num

    result = max(num_labels, key=num_labels.get)  # 获取字典中每个键对应的值，并将最大值对应的键返回

    return result


# 计算错误率
def calculate_error_rate(test_result, test_labels):
    num_error = 0
    for i in range(len(test_result)):
        if test_result[i] != test_labels[i]:
            num_error += 1

    error_rate = num_error / len(test_result) * 100

    print(f'错误率为：{error_rate}%')


if __name__ == '__main__':
    train_data, test_data, train_labels, test_labels = read_dataset()  # 获取用于训练与测试的特征数据和标签数据

    train_data, test_data = normalize(train_data, test_data)  # 将用于训练与测试的特征数据归一化
    train_data = train_data.astype(float)
    test_data = test_data.astype(float)

    num_samples = train_data.shape[0]  # 训练集中的样本个数（行数）
    num_features = train_data.shape[1]  # 训练集中的特征个数（列数）

    test_result = []
    for i in range(len(test_data)):
        predict_data = np.full((num_samples, num_features), test_data[i])  # 将测试数据集中的一个样本填充为跟 train_data 有相同的维度
        predict_data = predict_data.astype(float)

        dist = calculate_distance(predict_data, train_data)  # 计算距离

        result = select_best_result(dist, train_labels, k=1)  # 选取最好的结果

        test_result.append(result)

    test_result = np.array(test_result)

    calculate_error_rate(test_result, test_labels)  # 计算测试集的错误率
---------
错误率为：6.0%

手写数字识别

scikit learn 简称 sklearn，是 Python 的一个第三方库，里面包含了很多机器学习的方法，借助 sklearn，我们可以很快地实现一个机器学习算法。

sklearn.neighbors 模块实现了 KNN 算法，其函数实现如下所示：

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)
	- n_neighbors：参数 k 的值，默认为 5
    - weights：参数值可以是 uniform、distance 或用户自定义的函数，默认为 uniform；uniform 表示均等的权重，即所有邻近点的权重都是相等的；distance 表示不均等的权重，距离近的点要比距离远的点的影响大；用户自定义的函数接收距离数组，并返回维数相同的权重
    - algorithm：用于计算最近邻的算法，默认使用 auto 方式，即根据传递给拟合方法的值决定最合适的算法；除此外，还可以指定 ball_tree、kd_tree、brute 等方式进行最近邻的计算；brute 是暴力搜索，当训练集很大时，计算非常耗时；kd_tree 是数据结构中的二叉树，构造的 kd 树可以方便地对存储数据进行快速检索，在数据维度小于 20 时效率高；ball_tree 是为了克服 kd 树高维失效而构建的，其以质心和半径分割样本空间，每个节点都是一个超球体
    - leaf_size：传递给 ball_tree 或 kd_tree 的大小，默认为 30；该参数的设置会影响树的构建速度、查询速度以及存储树所需的内存，最佳取值取决于问题的性质
    - p：闵可夫斯基距离度量的幂参数，当 p=1 时，相当于使用曼哈顿距离 l1；当 p=2 时，相当于使用欧几里得距离 l2；对于任意 p 值，则使用闵可夫斯基距离（minkowski distance）
    - metric：距离度量，默认为 minkowski；闵可夫斯基距离也被称为闵式距离，它将多个距离公式（曼哈顿距离、欧式距离、切比雪夫距离）总结成了一个公式
    - metric_params：距离公式的其他关键参数，这个可以不管，使用默认的 None 即可
    - n_jobs：搜索邻近点时的并行工作数，默认为 1；如果为 -1，则表示 CPU 的所有 Cores 都用于并行工作

由 KNeighborsClassifier 创建的实例对象 neigh 具有以下方法：

fit(X, y)  # 根据训练集拟合 k 近邻分类器
	- X：训练数据，形状为 (n_samples, n_features)
    - y：目标值（训练样本对应的标签），形状为 (n_samples,)
    返回拟合的 k 近邻分类器
    
get_params(deep=True)  # 以字典形式返回 KNeighborsClassifier 类的参数
	- deep：布尔值，默认为 True
    返回 {'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 3, 'p': 2, 'weights': 'uniform'}
    
kneighbors(X=None, n_neighbors=None, return_distance=True)  # 给定一个样本和一个查询集，查找该样本在查询集中的 k 个近邻
	- X：训练数据或者说是查询数据，形状为 (n_samples, n_features)
    - n_neighbors：查找的近邻数量 k，默认值为传给构造函数的值
    - return_distance：布尔值，表示是否返回距离，默认为 True
    返回形状为 (n_samples, n_features) 的距离（当 return_distance=True 时才会返回）以及对应的形状为 (n_samples, n_features) 的索引
    
predict(X)  # 预测所提供数据的类别标签
	- X：预测数据，形状为 (n_samples, n_features)
    以 np.ndarray 形式返回形状为 (n_samples,) 的每个数据样本的类别标签
    
predict_proba(X)  # 返回预测数据 X 在各类别标签中所占的概率
	- X：预测数据，形状为 (n_samples, n_features)
    返回该样本在各类别标签中的预测概率，类别标签按词典顺序排列；比如对于 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 这个结果，样本识别为数字 0 的概率为 1，类别标签从 0 到 9 依次排列
    
score(X, y, sample_weight=None)  # 返回预测结果和标签之间的平均准确率
	- X：预测数据，形状为 (n_samples, n_features)
    - y：预测数据的目标值（真实标签）
    - sample_weight：默认为 None
    返回预测数据的平均准确率，相当于先执行了 self.predict(X)，而后再计算预测值和真实值之间的平均准确率

我们知道手写数字图像是大小为 32×32 的二进制图像，为了方便计算，我们可以将其转换为 1×1024 的向量。在 KNeighborsClassifier 函数中，输入可以是矩阵，不过为了跟自己写的 KNN 算法对应上，这里也做了向量化处理。完整的手写数字识别 KNN 模型代码实现如下：

import os
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier


# 将 (32, 32) 的矩阵转换成 (1, 1024) 的向量
def mat_to_vector(file: str) -> np.ndarray:
    df = pd.read_table(file, header=None)
    df = df.to_numpy()
    vec = np.zeros((1, df.shape[0] * df.shape[0]))  # (1, 1024)

    with open(file, 'r') as f:
        rows = f.readlines()  # 读取文件中的所有行，并以列表形式返回
        for i in range(len(rows)):
            row = rows[i].strip()  # 读取列表中的一个字符串元素
            columns = [int(row[i:i+1]) for i in range(len(row))]  # 将字符串分割成单个数字，并以列表形式返回
            for j in range(len(columns)):
                vec[0, 32 * i + j] = int(columns[j])  # 将每一个数字赋值给向量 vec 对应的位置

    return vec


# 读取训练集
def read_train_dataset(path: str) -> (np.ndarray, np.ndarray):
    train_labels = []  # 用于存储手写数字图像对应的数字标签

    train_files = os.listdir(path)  # 读取所有二进制图像文件，并以列表形式返回
    df = pd.read_table(os.path.join(path, train_files[0]), header=None)
    df = df.to_numpy()
    m = len(train_files)  # 1934
    train_mat = np.zeros((m, df.shape[0] * df.shape[0]))  # (1934, 1024)

    for i in range(m):
        train_file_name = train_files[i]
        digit = int(train_file_name.split('_')[0])
        train_labels.append(digit)  # 将每一个图像文件对应的数字标签存储到列表
        train_mat[i, :] = mat_to_vector(os.path.join(path, train_files[i]))  # 将每一个 (1, 1024) 的二进制图像数据赋值到矩阵

    train_labels = np.array(train_labels)

    return train_mat, train_labels


# 读取测试集
def read_test_dataset(path: str) -> (np.ndarray, np.ndarray):
    test_labels = []  # 用于存储手写数字图像对应的数字标签

    test_files = os.listdir(path)  # 读取所有二进制图像文件，并以列表形式返回
    df = pd.read_table(os.path.join(path, test_files[0]), header=None)
    df = df.to_numpy()
    m = len(test_files)  # 946
    test_mat = np.zeros((m, df.shape[0] * df.shape[0]))  # (946, 1024)

    for i in range(m):
        test_file_name = test_files[i]
        digit = int(test_file_name.split('_')[0])
        test_labels.append(digit)  # 将每一个图像文件对应的数字标签存储到列表
        test_mat[i, :] = mat_to_vector(os.path.join(path, test_files[i]))  # 将每一个 (1, 1024) 的二进制图像数据赋值到矩阵

    test_labels = np.array(test_labels)

    return test_mat, test_labels


# 构建 KNN 模型
def knn_model(train_data: np.ndarray, train_labels: list) -> object:
    neigh = KNeighborsClassifier(n_neighbors=3)
    neigh.fit(train_data, train_labels)

    return neigh


if __name__ == '__main__':
    train_path = r'D:\MachineLearning\trainingDigits'
    test_path = r'D:\MachineLearning\testDigits'

    train_data, train_labels = read_train_dataset(train_path)  # 读取训练数据，并返回训练集和对应标签

    neigh = knn_model(train_data, train_labels)  # 构建 KNN 模型，并返回 KNN 对象

    test_data, test_labels = read_test_dataset(test_path)  # 读取测试数据，并返回测试集和对应标签

    result = neigh.predict(test_data)  # 预测结果，并以 np.ndarray 形式返回

    result_lst = (result - test_labels).tolist()  # 将数组转成列表

    error_rate = (len(result_lst) - result_lst.count(0)) / len(result_lst) * 100  # 计算错误率

    print(f'错误率为：{error_rate}%')

训练集和测试集的文件格式如下图所示，第一个数字为该二进制图像文件对应的数字标签：

文件中存储的数据格式如下图所示：

KNN 算法的优缺点

优点

简单直观：KNN 是一种非参数化算法，不需要假设数据的分布情况。它通过比较实例之间的距离来进行分类或回归，易于理解和实现。
适用于多类别问题：KNN 可以处理多类别问题，不受类别数量的限制。
对异常值不敏感：由于 KNN 根据最近的邻居进行分类或回归，异常值对结果的影响较小。
模型可以随时更新：当新的训练样本加入时，可以很容易地对模型进行更新，而无需重新进行训练。

缺点

高计算复杂度：在预测时，需要计算测试样本与所有训练样本之间的距离，因此随着训练集规模的增大，计算复杂度也会增加。这可能导致 KNN 在大型数据集上的效率低下。
对特征尺度敏感：如果特征之间的尺度差异很大，那么在计算距离时，尺度较大的特征会主导结果，从而忽略了其他特征的影响。因此，在使用 KNN 之前，需要对数据进行特征缩放。
需要确定 K 值：KNN 算法中的 K 值表示选择多少个最近邻居来进行决策。选择不同的 K 值可能会对结果产生不同的影响，而且没有明确的准则可以确定最佳的 K 值，需要通过交叉验证或其他方法进行调优。
类别不平衡问题：当训练集中某个类别的样本数远远多于其他类别时，KNN 可能会偏向于占主导地位的类别。

综上所述，KNN 算法简单直观，对异常值不敏感，适用于多类别问题，并且可以随时更新模型。然而，它的计算复杂度高，对特征尺度敏感，需要确定 K 值，并且对类别不平衡问题比较敏感。在实际应用中，需要权衡这些因素并根据具体问题的特点选择合适的机器学习算法。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

K 最近邻算法

K 最近邻算法

简单 KNN

海伦约会

手写数字识别

KNN 算法的优缺点

你可能感兴趣的:(机器学习,近邻算法,算法,机器学习)