雨落俊泉

机器学习——02 k-近邻算法

参考资料

AIlearning
Machine-Learning-in-Action
庞善民.西安交通大学机器学习导论2022春PPT

一、KNN概述

k-近邻（kNN, k-NearestNeighbor）算法是一种基本分类与回归方法，这里只讨论分类问题中的 k-近邻算法。

k 近邻算法的输入为实例的特征向量，对应于特征空间的点；输出为实例的类别，可以取多类。k 近邻算法假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其 k 个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，k近邻算法不具有显式的学习过程。

k 近邻算法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。 k值的选择、距离度量以及分类决策规则是k近邻算法的三个基本要素。

KNN算法本身简单有效，它是一种lazy- learning算法

二、应用场景

电影可以按照题材分类，那么如何区分 动作片 和 爱情片 呢？

动作片: 打斗次数更多
爱情片: 亲吻次数更多

基于电影中的亲吻、打斗出现的次数，使用 k-近邻算法构造程序，就可以自动划分电影的题材类型。

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He’s Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped Ⅱ	98	2	动作片
？	18	90	未知

table 1 : 每部电影的打斗镜头数、接吻镜头数以及电影评估类型电影名称

电影名称	与未知电影的距离
California Man	20.5
He’s Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped Ⅱ	118.9

table 2 : 已知电影与未知电影的距离

现在根据上面我们得到的样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到 k 个距离最近的电影。假定 k=3，则三个最靠近的电影依次是， He’s Not Really into Dudes 、 Beautiful Woman 和 California Man。 knn 算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。

三、KNN原理

分类原理

对一个未知样本进行分类：

1️⃣ 计算未知样本与标记样本的距离(最废时)

2️⃣ 确定k个近邻（超参，不鲁棒）

3️⃣ 使用近邻样本的标签确定目标的标签：例如，将其划分到k个样本中出现最频繁的类

通俗解释

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k 个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。

开发流程

收集数据: 任何方法
准备数据: 距离计算所需要的数值，最好是结构化的数据格式
分析数据: 任何方法
训练算法: 此步骤不适用于 k-近邻算法
测试算法: 计算错误率
使用算法: 输入样本数据和结构化的输出结果，然后运行 k-近邻算法判断输入数据分类属于哪个分类，最后对计算出的分类执行后续处理

算法特点

优点: 精度高、对异常值不敏感、无数据输入假定

缺点: 计算复杂度高、空间复杂度高

适用数据范围: 数值型和标称型

四、实际项目案例——优化约会网站的配对效果

项目概述

海伦使用约会网站寻找约会对象。经过一段时间之后，她发现曾交往过三种类型的人:

不喜欢的人
魅力一般的人
极具魅力的人

她希望:

工作日与魅力一般的人约会
周末与极具魅力的人约会
不喜欢的人则直接排除掉

现在她收集到了一些约会网站未曾记录的数据信息，这更有助于匹配对象的归类。

开发流程

收集数据: 提供文本文件

准备数据: 使用 Python 解析文本文件

分析数据: 使用 Matplotlib 画二维散点图

训练算法: 此步骤不适用于 k-近邻算法

测试算法: 使用海伦提供的部分数据作为测试样本。

测试样本和非测试样本的区别在于: 测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。

使用算法: 产生简单的命令行程序，然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。

收集数据

海伦把这些约会对象的数据存放在文本文件 datingTestSet2.txt 中，总共有 1000 行。海伦约会的对象主要包含以下 3 种特征:

每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇淋公升数

文本文件数据格式如下:

40920    8.326976    0.953952    3
14488    7.153469    1.673904    2
26052    1.441871    0.805124    1
75136    13.147394   0.428964    1
38344    1.669788    0.134296    1

准备数据

将文本记录转换为 NumPy 的解析程序

def fileToMatrix(filename):
    """ 
    Desc:
       导入训练数据
    parameters:
       filename: 数据文件路径
    return: 
       数据矩阵 dataMat 和对应的类别 dataLabel
    """
    with open(filename) as f:
        # 获取文本数据行数 
        lines = f.readlines()
        # 生成空矩阵
        dataMat = np.zeros((len(lines), 3))
        # 数据对应的类别
        dataLabel = []
        index = 0
        for line in lines:
            # 去除空格
            line = line.strip()
            listData = line.split('\t')
            # 将每一行的数据复制到矩阵中
            dataMat[index, : ] = listData[:3]
            dataLabel.append(int(listData[-1]))
            index += 1
    return dataMat, dataLabel

分析数据

使用 Matplotlib 画二维散点图

scatter-散点图常用参数

def visualizeData(dataMat, dataLabel):
    """ 
    Desc:
       可视化数据
    parameters:
       dataMat:   数据矩阵
       dataLabel: 数据标签
    return: 
    """
    fig = plt.figure()
    ax = fig.add_subplot(111)
    LabelsColors = []
    for i in dataLabel:
        if i == 1:
            LabelsColors.append('black')
        if i == 2:
            LabelsColors.append('orange')
        if i == 3:
            LabelsColors.append('red')
    #画出散点图,以dataMat矩阵的第一(飞行常客例程)、第二列(玩游戏)数据画散点数据,散点大小为15
    ax.scatter(x=dataMat[:,0], y=dataMat[:,1], color=LabelsColors,s=15)
    #设置标题,x轴label,y轴label
    ax_title_text = ax.set_title(u'Frequent flier miles earned per year versus time spent playing video games')
    ax_xlabel_text = ax.set_xlabel(u'Frequent flyer miles earned per year')
    ax_ylabel_text = ax.set_ylabel(u'Percentage of time spent playing video games')
    plt.setp(ax_title_text, size=9, color='red')
    plt.setp(ax_xlabel_text, size=8, color='black')
    plt.setp(ax_ylabel_text, size=8, color='black')

    
    #设置图例
    didntLike = mlines.Line2D([], [], color='black', marker='.',
                      markersize=6, label='Did Not Like')
    smallDoses = mlines.Line2D([], [], color='orange', marker='.',
                      markersize=6, label='Like in Small Doses')
    largeDoses = mlines.Line2D([], [], color='red', marker='.',
                      markersize=6, label='Like in Large Doses')
    #添加图例
    ax.legend(handles=[didntLike,smallDoses,largeDoses])
    #显示图片
    plt.show()

下图中采用矩阵的第一和第二列属性得到很好的展示效果，清晰地标识了三个不同的样本分类区域，具有不同爱好的人其类别区域也不同。

归一化数据：归一化是一个让权重变为统一的过程

序号	玩视频游戏所耗时间百分比	每年获得的飞行常客里程数	每周消费的冰淇淋公升数	样本分类
1	0.8	400	0.5	1
2	12	134 000	0.9	3
3	0	20 000	1.1	2
4	67	32 000	0.1	2

样本3和样本4的距离:
$\sqrt{(0-67)^2 + (20000-32000)^2 + (1.1-0.1)^2 }$

归一化就是要把需要处理的数据经过处理后（通过某种算法）限制在需要的一定范围内。首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。方法有如下:

在统计学中，归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布，归一化在-1–+1之间是统计的坐标分布。

def normalizeData(dataSet):
    """
    归一化特征值，消除属性之间量级不同导致的影响
    :param dataSet: 数据集
    :return: 归一化后的数据集normDataSet
    归一化公式: 
        Y = (X-Xmin)/(Xmax-Xmin)
        其中的 min 和 max 分别是数据集中的最小特征值和最大特征值。该函数可以自动将数字特征值转化为0到1的区间。
    """
    # 计算每种属性的最大值、最小值、范围
    # (3,)
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    # 极差
    ranges = maxVals - minVals
    normDataSet = np.zeros(np.shape(dataSet))
    # 行数
    m = dataSet.shape[0]
    # 生成与最小值之差组成的矩阵
    # 沿Y轴复制m倍，X轴复制1倍
    normDataSet = dataSet - np.tile(minVals, (m, 1))
    # 将最小值之差除以范围组成矩阵
    normDataSet = normDataSet / np.tile(ranges, (m, 1)) 
    return normDataSet, ranges, minVals

训练算法

因为测试数据每一次都要与全量的训练数据进行比较，所以这个过程是没有必要的。

算法步骤：

对于每一个在数据集中的数据点:

计算目标的数据点（需要分类的数据点）与该数据点的距离
将距离排序: 从小到大
选取前K个最短距离
选取这K个中最多的分类类别
返回该类别来作为目标数据点的预测值

欧氏距离其实就是L2范数，数学定义如下：
$d_{12}=\sqrt{\sum_{k=1}^n(x_{1k}-x_{2k})^2}$

def knn_classify(input, dataSet, labels, k):
    """
    Desc:
        knn算法
    parameters:
        input: 输入的待分类数据
        dataSet: 数据集
        labels: 标签
        k: 取前k个结果
    return:
        数据分类结果
    """
    dataSetSize = dataSet.shape[0]
    # 距离度量 度量公式为欧氏距离
    diffMat = np.tile(input, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5

    #将距离排序: 从小到大
    # argsort 返回从小到大的排列在数组中的索引位置，使用函数并不会改变原来数组的值。
    sortedDistIndicies = distances.argsort()
    # 选取前K个最短距离， 选取这K个中最多的分类类别
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        # 返回字典中键 `key` 对应的值，如果没有这个键，返回0
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    # python3中用items()替换python2中的iteritems()
    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    # 从大到小
    sortedClassCount = sorted(classCount.items(),
                              key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

测试算法

测试算法: 使用海伦提供的部分数据作为测试样本。如果预测分类与实际类别不同，则标记为一个错误。

def dataTest():
    """
    Desc:
        对约会网站的测试方法
    parameters:
        none
    return:
        错误数
    """
    # 设置测试数据的的一个比例（训练数据集比例=1-hoRatio）
    hoRatio = 0.1  # 测试范围,一部分测试一部分作为样本
    # 从文件中加载数据
    datingDataMat, datingLabels = ax(
        'data/datingTestSet2.txt')  # load data setfrom file
    # 归一化数据
    normMat,_,_ = normalizeData(datingDataMat)
    # m 表示数据的行数，即矩阵的第一维
    m = normMat.shape[0]
    # 设置测试的样本数量， numTestVecs:m表示训练样本的数量
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        # 对数据测试
        classifierResult = knn_classify(
            normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
        if (classifierResult != datingLabels[i]):
            errorCount += 1.0
    print("the total error rate is: %f" % (errorCount / float(numTestVecs)))

the total error rate is: 0.050000

使用算法

产生简单的命令行程序，然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。

def classifyPerson():
    """
    输入人的特征，返回喜爱程度
    """    
    # 输出结果
    resultList = ['不喜欢', '有些喜欢', '非常喜欢']
    # 三维特征用户输入
    ffMiles = float(input("每年获得的飞行常客里程数:"))
    precentTats = float(input("玩视频游戏所耗时间百分比:"))
    iceCream = float(input("每周消费的冰激淋公升数:"))

    # 打开并处理数据
    datingDataMat, datingLabels = ax(
        'data/datingTestSet2.txt')  # load data setfrom file
    # 训练集归一化
    normMat, ranges, minVals = normalizeData(datingDataMat)
    # 生成NumPy数组,测试集
    inArr = np.array([ffMiles, precentTats,  iceCream])
    # 测试集归一化
    norminArr = (inArr - minVals) / ranges
    # 返回分类结果
    result = knn_classify(norminArr, normMat, datingLabels, 3)
    # 打印结果
    print("你可能%s这个人" % (resultList[result-1]))

运行结果

每年获得的飞行常客里程数:50000
玩视频游戏所耗时间百分比:8
每周消费的冰激淋公升数:1
你可能非常喜欢这个人

五、KNN小结

KNN 是一个简单的无显示学习过程，非泛化学习的监督学习模型。在分类和回归中均有应用。

基本原理

简单来说: 通过距离度量来计算查询点（query point）与每个训练数据点的距离，然后选出与查询点（query point）相近的K个最邻点（K nearest neighbors），使用分类决策来选出对应的标签来作为该查询点的标签。

KNN三要素

k的取值

对查询点标签影响显著（效果拔群）。k值小的时候近似误差小，估计误差大。 k值大近似误差大，估计误差小。

近似误差其实可以理解为模型估计值与实际值之间的差距。

估计误差其实可以理解为模型的估计系数与实际系数之间的差距。

如果选择较小的 k 值，就相当于用较小的邻域中的训练实例进行预测，“学习”的近似误差（approximation error）会减小，只有与输入实例较近的（相似的）训练实例才会对预测结果起作用。但缺点是“学习”的估计误差（estimation error）会增大，预测结果会对近邻的实例点非常敏感。如果邻近的实例点恰巧是噪声，预测就会出错。换句话说，k 值的减小就意味着整体模型变得复杂，容易发生过拟合。

如果选择较大的 k 值，就相当于用较大的邻域中的训练实例进行预测。其优点是可以减少学习的估计误差。但缺点是学习的近似误差会增大。这时与输入实例较远的（不相似的）训练实例也会对预测起作用，使预测发生错误。 k 值的增大就意味着整体的模型变得简单。

太大太小都不太好，可以用**交叉验证（cross validation）**来选取适合的k值。

距离度量 Metric/Distance Measure

距离度量通常为欧式距离（Euclidean distance），还可以是 Minkowski 距离或者曼哈顿距离。也可以是地理空间中的一些距离公式。

分类决策（decision rule）

分类决策在分类问题中通常为通过少数服从多数来选取票数最多的标签，在回归问题中通常为 K个最邻点的标签的平均值

华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
蓝南极一翁
一只画有蓝色机器猫动画的汽球从一个幼小的男孩手中滑脱、升空，越飞越高、越飞越远，直至远离了众人的视线。几个放学的孩子欢呼着:“汽球！飞喽！”“汽球！飞喽！”而那个弄丢汽球的孩子，昂着头，傻傻地盯着那个刚才还在手上的“机器猫”，没有一丝点的办法。旁边的一个老妇人，想必是他的奶奶，微笑着安慰他:“飞，就让它飞吧！明天奶奶再给你买一个！”看到汽球飞上了蓝天，我就想，天为什么是蓝色的呢？天上可是什么也没有
用 K-means 算法实现水果分堆 wh_xia_jun AI+医疗算法 kmeans 机器学习
先看运行效果：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeans#生成模拟数据（两个高斯分布的混合点集）np.random.seed(42)X1=np.random.randn(100,2)+np.array([2,2])#第一簇数据，中心在(2,2)X2=np.random.randn(100,2)
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
蓝桥杯算法心得——巧克力（贪心）晴天学长算法算法蓝桥杯 java
大家好，我是晴天学长，这是一道国赛题，其中贪心的思想值得学习（逆向思维），写比较器也非常的实用，需要的小伙伴请自取哦！1）巧克力2).算法思路每一天都选保质期内最便宜的注意：这里一定要从最后一天开始选择，这样才可以将保质期这一条件充分利用起来我也是受了其它题解的启发：如果有保质期很长，价格很低，但你很早就吃完了，后面不得不选择昂贵的巧克力，也就是说它原本可以在很多天之后吃就行，现在却在前几天就吃了
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
数据结构与算法-09贪心算法&动态规划阿诚学java 数据结构与算法学习记录贪心算法动态规划 ios
贪心算法&动态规划1贪心算法介绍贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取在当前状态下最好或最优（即最有利）的选择，从而希望导致结果是全局最好或最优的算法。贪心算法通常用于解决优化问题，如最小化成本、最大化收益等。然而，贪心算法并不总是能够得到全局最优解，但它具有直观、高效、易于实现等优点，因此在许多实际问题中得到了广泛应用。基本思想贪心算法总是从问题的某一个初始解出发。
代码随想录算法Day35(2)||贪心算法-LeetCode406根据身高重建队列
学习内容参考卡哥代码随想录，有文字学习资料（代码随想录网站）和视频讲解（b站）2.根据身高重建队列题目力扣题目链接(opensnewwindow)假设有打乱顺序的一群人站成一个队列，数组people表示队列中一些人的属性（不一定按顺序）。每个people[i]=[hi,ki]表示第i个人的身高为hi，前面正好有ki个身高大于或等于hi的人。请你重新构造并返回输入数组people所表示的队列。返回的
算法第26天|贪心算法：用最少数量的箭引爆气球、无重叠区间、划分字母区间孟大本事要学习算法学习算法贪心算法
今日总结用最少数量的箭引爆气球题目链接：452.用最少数量的箭引爆气球-力扣（LeetCode）代码随想录整体思路：1、统一度量：将所有区间按照左端点进行排序：用到了二维的sort，在类中需要定义静态成员函数cmp，从小到大排列2、进行区间合并（1）如果没有气球，就是0箭（2）如果有气球，至少1箭（3）按照排序从小到大遍历，比较当前位置的左端点是否在前边位置的范围内（&a,vector&b){if
贪心算法（基础算法） breeze_phantom 算法 c++贪心算法
1.引言ok啊，拖更这么长时间也是没有压力（doge）不说啥，直接进入正题。2.概念这个贪心算法呢，看名字就知道，不就是每个步骤都挑最好的嘛，有啥难的。这么说的话......其实确实，你如果真的能很快找出贪心策略那就可以这么说，但还是那句话，策略怎么找是个问题。讲这么多，还没讲一下定义（虽然不讲感觉也能猜出来）：贪心算法就是在特定问题中每一次计算都做出最好的选择，举个例子：本蒟蒻去商店买东西，这商
数据结构与算法----贪心王嘉俊925 算法算法数据结构 C++贪心算法
##贪心算法1.核心思想贪心算法通过每一步的局部最优选择，逐步推导出全局最优解。它的特点是不回溯，即一旦做出选择，就不再修改。2.适用条件贪心算法适用于满足以下两个条件的问题：贪心选择性质：每一步的局部最优选择能够导致全局最优解。最优子结构：问题的最优解包含子问题的最优解。3.贪心算法的证明方法贪心算法的正确性通常需要通过以下方法证明：归纳法：证明每一步的贪心选择都能导致全局最优。交换论证：假设存
零基础数据结构与算法——第五章：高级算法-贪心算法-基础&示例
5.2贪心算法（GreedyAlgorithm）5.2.1贪心算法的基本概念什么是贪心算法？贪心算法是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。生活例子：想象你在超市购物，手里有100元钱，想买尽可能多的零食。如果你采用贪心策略，你会怎么做？你可能会先选择最便宜的零食，然后是第二便宜的，以此类推，直到钱用完。这就是一种贪心策略——每次都选择当前看起来最
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
JSON 对象
JSON对象概述JSON（JavaScriptObjectNotation）对象是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。JSON对象是JSON数据的一种基本结构，类似于JavaScript中的对象（Object）。在本文中，我们将详细介绍JSON对象的概念、语法、创建方法以及在实际应用中的使用。JSON对象的语法JSON对象使用大括号{}表示，其中包含一系列键值对。
【LeetCode 1695. 删除子数组的最大得分】解析李昊_ LeetCode leetcode 算法数据结构
目录LeetCode中国站原文原始题目题目描述示例1：示例2：提示：讲解滑动窗口的艺术：寻找无与伦比的“纯净”子数组第一部分：算法思想——可伸缩的“探索边界”1.问题的核心：找到最“值钱”的“纯净”片段2.滑动窗口：一个能屈能伸的“探索框”第二部分：代码实现——滑动窗口的“装备”完整代码展示代码精讲LeetCode中国站原文https://leetcode.cn/problems/maximum-
力扣热题100 - 矩阵：矩阵置零菲英的学习笔记力扣热题100 leetcode 矩阵算法 c++go
本题主要考察代码能力。题目描述：题号：73给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。解题思路：思路一：利用第一行第一列记录0算法思路：1、用2个变量记录矩阵第1行、第1列有没有02、遍历矩阵，如果遇到0则将其对应的第1行和第1列元素置03、遍历矩阵，若元素对应的第1行或第1列元素为0则将其置0时间复杂度：O(N)空间复杂度：O(1)C++//C++
2025 睿抗机器人开发者大赛CAIP-编程技能赛-本科组（省赛）题解弥彦_ 睿抗算法 c++
目录前言RC-u1早鸟价考察算法：思路：注意点：accode：RC-u2谁进线下了？III考察算法：思路：注意点：accode：RC-u3点格棋评价：考察算法：思路：注意点：accode：RC-u4TreeTree的考察算法：思路：注意点：accode：RC-u5游戏设计师考察算法：思路：注意点：accode：前言被t3折磨坏了，几乎全部时间都在调t3，最后只拿了36分，呜呜呜。RC-u1早鸟价考
力扣Leetcode热题100-二分查找解题思路分享花卷321 Leetcode 热门100 leetcode 职场和发展 java 开发语言
1.搜索插入位置题目如下：给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。思路分析与最基本的二分查找算法类似，但是基础的二分查找在找不到值的时候一般情况下返回-1，找到的值返回索引，下面先展示最基本的二分查找的Java代码：publicstaticintbinarySearch(in
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
初识opencv
文章目录1.什么opencv，它的优势点2.opencv安装和环境配置3.了解数字图像的基本概念：像素、彩色图像、灰度图像、二值图像、图像算数操作4.练习numpy中array的基本操作5.练习图像的加载、保存、以及算术操作参考文献1.什么opencv，它的优势点OpenCV是Intel®开源计算机视觉库。它由一系列C函数和少量C++类构成，实现了图像处理和计算机视觉方面的很多通用算法。OpenC
swift5分钟语法速记开发之家 iOS iOS
如果你依然在编程的世界里迷茫，不知道自己的未来规划，小编给大家推荐一个IOS高级交流群：458839238里面可以与大神一起交流并走出迷茫。小白可进群免费领取学习资料，看看前辈们是如何在编程的世界里傲然前行！群内提供数据结构与算法、底层进阶、swift、逆向、整合面试题等免费资料附上一份收集的各大厂面试题（附答案）!群文件直接获取各大厂面试题又把swift相关语法部分看了一遍，并整理了swift语
0018-基于单片机颜色识别系统设计小新单片机单片机设计库单片机嵌入式硬件 51单片机颜色识别
传送门其他作品题目速选一览表其他作品题目功能速览概述在现代工业生产、智能机器人、自动化分拣等领域，颜色识别技术有着广泛的应用需求。传统的颜色识别多依赖人工判断，不仅效率低下，而且容易受到人为因素的干扰，导致识别准确性不高。随着自动化技术的不断发展，对颜色识别的自动化、智能化要求日益提高。单片机以其体积小、成本低、控制能力强等特点，成为构建小型化、低成本颜色识别系统的理想核心控制器。然而，目前市面上
qsort函数以及模拟不见腊月雪. c语言算法
文章目录概要qsort介绍qsort函数模拟实现小结概要本次我们将要学习一个库函数，该函数可以将你需要排序的数据进行排序，任何类型的数据都可以，比如整形数组，字符数组，或者结构体。并且本章我也会自己写一个函数模拟qsort的实现。qsort函数介绍qsort是一个C语言里面的库函数，它用于将用户指定给它的数据进行排序，它的底层逻辑是使用快速排序算法。函数引用的头文件函数需要包含头文件stdio.h
基于SVm和随机森林算法模型的中国黄金价格预测分析与研究 python编程狮支持向量机算法随机森林 python 机器学习人工智能
摘要本研究基于回归模型，运用支持向量机（SVM）、决策树和随机森林算法，对中国黄金价格进行预测分析。通过历史黄金价格数据的分析和特征工程，建立了相应的预测模型，并利用SVM、决策树和随机森林算法进行训练和预测。首先，通过对黄金价格时间序列数据的探索性分析，发现黄金价格存在一定的趋势和季节性变化。随后，进行了数据预处理和特征选择，为建立准确的预测模型奠定了基础。分别使用SVM、决策树和随机森林算法建
DNS考点
在网络工程师、系统工程师、运维工程师、安全工程师等岗位的面试中，DNS（DomainNameSystem，域名系统）是高频必考知识点。DNS作为互联网的“电话簿”，负责将人类可读的域名（如www.example.com）解析为机器可识别的IP地址（如192.0.2.1），是网络通信的基础组件。以下是系统化的核心考点梳理，涵盖DNS基础概念、工作原理、协议细节及应聘高频问题。一、DNS基础考点1.D
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
MySQL新建用户与授权守优
方法一：mysql>insertintomysql.user(Host,User,Password)values("localhost","zhangs",password("123456"));mysql>flushprivileges;解释：这样就创建了一个用户名为zhangs，密码为123456的数据库用户；此处的"localhost"，是指该用户只能在本地登录，不能在另外一台机器上远程登录
常见Hash算法 LUCIAZZZ 算法哈希算法 java spring boot 操作系统 spring 密码学
部分内容来源：JavaGuide什么是Hash算法哈希算法也叫散列函数或摘要算法，它的作用是对任意长度的数据生成一个固定长度的唯一标识也叫哈希值、散列值或消息摘要哈希算法的是不可逆的，你无法通过哈希之后的值再得到原值哈希值的作用是可以用来验证数据的完整性和一致性哈希算法可以简单分为两类：加密哈希算法：安全性较高的哈希算法，它可以提供一定的数据完整性保护和数据防篡改能力，能够抵御一定的攻击手段，安全
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

机器学习——02 k-近邻算法

机器学习——02 k-近邻算法

参考资料

一、KNN概述

二、应用场景

三、KNN原理

分类原理

通俗解释

开发流程

算法特点

四、实际项目案例——优化约会网站的配对效果

项目概述

开发流程

收集数据

准备数据

分析数据

训练算法

测试算法

使用算法

五、KNN小结

基本原理

KNN三要素

k的取值

距离度量 Metric/Distance Measure

分类决策 （decision rule）

你可能感兴趣的:(机器学习进阶,近邻算法,算法)

分类决策（decision rule）