胖虎艾春辉

机器学习：k邻近算法(KNN)

title: 机器学习：k邻近算法(KNN)
date: 2019-11-16 20:20:41
mathjax: true
categories:

机器学习
tags:
机器学习

什么是K邻近算法？

工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类
举例子

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cV3JqQgh-1573908679233)( https://photos-1258741719.cos.ap-beijing.myqcloud.com/machine-learning/ 1573907111850.png)]

特征分析：动作片：打斗次数更多，爱情片：亲吻次数更多

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D0lKE6ss-1573908679257)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1573907179891.png)]

即使不知道未知电影属于哪种类型，我们也可以通过某种方法计算出来。首先计算未知电影

与样本集中其他电影的距离

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aE8ZARu7-1573908679258)( https://photos-1258741719.cos.ap-beijing.myqcloud.com/machine-learning/ 1573907207887.png)]

现在我们得到了样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到k个距

离最近的电影。假定k=3，则三个最靠近的电影依次是He’s Not Really into Dudes、Beautiful Woman

和California Man。k-近邻算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部

电影全是爱情片，因此我们判定未知电影是爱情片。

构建KNN算法:

算法原理：

(1) 收集数据：可以使用任何方法。
(2) 准备数据：距离计算所需要的数值，最好是结构化的数据格式。
(3) 分析数据：可以使用任何方法。
(4) 训练算法：此步骤不适用于k-近邻算法。
(5) 测试算法：计算错误率。
(6) 使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输
入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理

导入数据
```
from numpy import *
import operator
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels
```
查看数据：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r8w04SwZ-1573908679260)( https://photos-1258741719.cos.ap-beijing.myqcloud.com/machine-learning/ 1573907418563.png)]

KNN算法伪代码：

对未知类别属性的数据集中的每个点依次执行以下操作：

(1) 计算已知类别数据集中的点与当前点之间的距离；

(2) 按照距离递增次序排序；

(3) 选取与当前点距离最小的k个点；

(4) 确定前k个点所在类别的出现频率；

(5) 返回前k个点出现频率最高的类别作为当前点的预测分类

def classify0(inX,dataSet,labels,K):
    dataSetSize = dataSet.shape[0]#行的个数
    diffMat  = tile(inX,(dataSetSize,1)) - dataSet#将输入向量复制减去dataset就可以得到差值
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis = 1)#对于矩阵的每行求和，结果就是每行求和的矩阵
    distances = sqDistances**0.5
    sortedDisIndicies = distances.argsort()#返回的是矩阵从小到达的索引值
    classCount = {}
    for i in range(K):
        voteIlabel = labels[sortedDisIndicies[i]]#获得指定表亲
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(),key=lambda x:x[1],reverse=True)
    return sortedClassCount[0][0]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GBeDKzSn-1573908679263)( https://photos-1258741719.cos.ap-beijing.myqcloud.com/machine-learning/1573907549202.png)]

运行示例：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ydK31oKp-1573908679264)(C https://photos-1258741719.cos.ap-beijing.myqcloud.com/machine-learning/1573907600578.png)]

使用 k-近邻算法改进约会网站的配对效果

数据地址
题目描述

海伦使用约会网站寻找约会对象。经过一段时间之后，她发现曾交往过三种类型的人:
- 不喜欢的人
- 魅力一般的人
- 极具魅力的人
她希望：
1. 工作日与魅力一般的人约会
2. 周末与极具魅力的人约会
3. 不喜欢的人则直接排除掉
现在她收集到了一些约会网站未曾记录的数据信息，这更有助于匹配对象的归类。

开发流程

收集数据：提供文本文件
准备数据：使用 Python 解析文本文件
分析数据：使用 Matplotlib 画二维散点图
训练算法：此步骤不适用于 k-近邻算法
测试算法：使用海伦提供的部分数据作为测试样本。
        测试样本和非测试样本的区别在于：
            测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。
使用算法：产生简单的命令行程序，然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。

打开文件：

def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)#得到文件行数
    returnMat = zeros((numberOfLines,3))#创建一个n行3列数据
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip()#去除两边空格
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))#结果集
        index +=1
    return returnMat,classLabelVector

注意：由于NumPy库提供的数组操作并不支持Python自带的数组类型，因此在编写代码时要注意不要使用错误的数组类型

画出散点图：

import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111) #1*1网格
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*array(datinglabels),15.0*array(datinglabels))#画出第二列第三列图像
plt.show()

结果：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LJvYdTcO-1573908679267)( https://photos-1258741719.cos.ap-beijing.myqcloud.com/machine-learning/11162037.png)]

数据归一化处理：

def autoNorm(dataSet):
    minVals = dataSet.min(0)#最大值，每列的
    maxVals = dataSet.max(0)
    ranges = maxVals-minVals#差值
    normDataSet = zeros(shape(dataSet))#构建一个和dataset类似的0矩阵
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals,(m,1))
    normDataSet = normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals

进行数据分析：

def datingClassTest():
    hoRation = 0.10
    datingDataMat,datingLabels = file2matrix('./2.KNN/datingTestSet2.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numtestVecs = int(m*hoRation)
    errorCount = 0.0
    for i in range(numtestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numtestVecs:m,:],datingLabels[numtestVecs:m],5)
        print("the classifier came back with: %d ,the real answer is: %d"%(classifierResult,datingLabels[i]))
        if(classifierResult!= datingLabels[i]):
            errorCount+=1;
    print("the total error rate is:%f"%(errorCount/float(numtestVecs)))

结果：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JVeoNOdf-1573908679268)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1573907990818.png)]

判定函数：

def classifyPerson():
    resultList = ['not at all','in small doses','in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))
    ffMiles  = float(input("frequent flier miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    datingDataaMat,datingLabels = file2matrix('./2.KNN/datingTestSet2.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)#数据归一化
    inArr = array([ffMiles,percentTats,iceCream])
    classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
    print('you will probably like this person:',resultList[classifierResult-1])

运行：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-grvpc061-1573908679270)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1573908051140.png)]

手写数字识别

算法流程：

(1) 收集数据：提供文本文件。

(2) 准备数据：编写函数classify0()，将图像格式转换为分类器使用的list格式。

(3) 分析数据：在Python命令提示符中检查数据，确保它符合要求。

(4) 训练算法：此步骤不适用于k-近邻算法。

(5) 测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本

的区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记

为一个错误。

(6) 使用算法：本例没有完成此步骤，若你感兴趣可以构建完整的应用程序，从图像中提

取数字，并完成数字识别，美国的邮件分拣系统就是一个实际运行的类似系统。

文本向量处理：

将图像格式化处理为一个向量。我们将把一个32×
32的二进制图像矩阵转换为1×1024的向量
#把一个32×32的二进制图像矩阵转换为1×1024的向量，这样前两节使用的分类器就可以处理数字图像信息了
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])# 将变量赋值进入矩阵
    return returnVect

算法：

from os import listdir
#
def handwritingClassTest():
    # 1. 导入训练数据
    hwLabels = []
    trainingFileList = listdir('./2.KNN/trainingDigits')  # load the training set
    m = len(trainingFileList)#m就是看有多少文件
    for i in trainingFileList:
        print(i)
    trainingMat = zeros((m, 1024))
    # hwLabels存储0～9对应的index位置， trainingMat存放的每个位置对应的图片向量
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]  # take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)#获得label值
        # 将 32*32的矩阵->1*1024的矩阵
        trainingMat[i, :] = img2vector('./2.KNN/trainingDigits/%s' % fileNameStr)

    # 2. 导入测试数据
    testFileList = listdir('./2.KNN/testDigits')  # iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]  # take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('./2.KNN/testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 10)
        #print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount / float(mTest)))

小结

近似误差，更关注于“训练”。最小化近似误差，即为使估计值尽量接近真实值，但是这个接近只是对训练样本（当前问题）而言，模型本身并不是最接近真实分布。换一组样本，可能就不近似了。这种只管眼前不顾未来预测的行为，即为过拟合。估计误差，更关注于“测试”、“泛化”。最小化估计误差，即为使估计系数尽量接近真实系数，但是此时对训练样本（当前问题）得到的估计值不一定是最接近真实值的估计值；但是对模型本身来说，它能适应更多的问题（测试样本）也就是泛化能力更强
K, K的取值

对查询点标签影响显著（效果拔群）。k值小的时候近似误差小，估计误差大。 k值大近似误差大，估计误差小。

如果选择较小的 k 值，就相当于用较小的邻域中的训练实例进行预测，“学习”的近似误差（approximation error）会减小，只有与输入实例较近的（相似的）训练实例才会对预测结果起作用。但缺点是“学习”的估计误差（estimation error）会增大，预测结果会对近邻的实例点非常敏感。如果邻近的实例点恰巧是噪声，预测就会出错。换句话说，k 值的减小就意味着整体模型变得复杂，容易发生过拟合。

如果选择较大的 k 值，就相当于用较大的邻域中的训练实例进行预测。其优点是可以减少学习的估计误差。但缺点是学习的近似误差会增大。这时与输入实例较远的（不相似的）训练实例也会对预测起作用，使预测发生错误。 k 值的增大就意味着整体的模型变得简单。

太大太小都不太好，可以用交叉验证（cross validation）来选取适合的k值。

近似误差和估计误差，请看这里：https://www.zhihu.com/question/60793482

距离度量 Metric/Distance Measure

距离度量通常为欧式距离（Euclidean distance），还可以是 Minkowski 距离或者曼哈顿距离。也可以是地理空间中的一些距离公式。（更多细节可以参看 sklearn 中 valid_metric 部分）

分类决策（decision rule）

分类决策在分类问题中通常为通过少数服从多数来选取票数最多的标签，在回归问题中通常为 K个最邻点的标签的平均值。
KNN算法是很基本的机器学习算法了，它非常容易学习，在维度很高的时候也有很好的分类效率，因此运用也很广泛，这里总结下KNN的优缺点。

KNN的主要优点有：

1）理论成熟，思想简单，既可以用来做分类也可以用来做回归

2）可用于非线性分类

3）训练时间复杂度比支持向量机之类的算法低，仅为O(n)

4）和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感

5）由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合

6）该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分

KNN的主要缺点有：

1）计算量大，尤其是特征数非常多的时候

2）样本不平衡的时候，对稀有类别的预测准确率低

3）KD树，球树之类的模型建立需要大量的内存

4）使用懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢

5）相比决策树模型，KNN模型可解释性不强
最重要一点，请看链接-》链接

从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
【项目实战】在 Python 中，可以通过 `subprocess` 模块调用系统的压缩程序（如 7-Zip 或系统自带的zip命令）来实现文件或文件夹的压缩。本本本添哥 011 -Python python 7-zip 开发语言
在Python中，可以通过subprocess模块调用系统的压缩程序（如7-Zip或系统自带的zip命令）来实现文件或文件夹的压缩。通过subprocess调用系统压缩工具（如7-Zip）是最灵活的方式，支持多线程、密码保护和多种压缩格式。需注意路径配置和参数的正确性，并通过异常处理提升代码健壮性。对于轻量需求，可优先考虑zipfile或py7zr等库。以下是详细的实现方法和注意事项：1.使用7-
《Python 微服务架构实践指南：框架与工具的深度解析》清水白石008 python Python题库架构 python 微服务
《Python微服务架构实践指南：框架与工具的深度解析》开篇引入背景介绍：在现代应用开发中，微服务架构因其高扩展性、灵活性和模块化优势而备受关注。从电商平台到数据处理，微服务架构逐渐取代传统单体架构，成为开发者首选。而Python凭借其简洁优雅的语法和丰富的生态系统，为实现微服务架构提供了坚实的基础。为什么写这篇文章：作为一名资深开发者和教育者，我深切感受到许多开发者在微服务设计中的困惑。因此，本
2023-08-25 大法师的输出
indigoFurryMix_v25AnimeNiji(SFW:2),HDR,UHD,8K,bestquality,masterpiece,Highlydetailed,Studiolighting,ultra-finepainting,sharpfocus,physically-basedrendering,extremedetaildescription,Professional,VividC
使用uv工具高效管理Python版本安装指南庞翰烽
使用uv工具高效管理Python版本安装指南前言在现代Python开发中，多版本Python环境管理是每个开发者都会遇到的挑战。传统方式需要手动下载安装不同版本的Python，配置环境变量，过程繁琐且容易出错。uv工具提供了一套优雅的解决方案，让Python版本管理变得简单高效。uv工具简介uv是一个现代化的Python工具链管理器，它不仅能够管理Python包依赖，还能智能地管理Python解释
用python实现无限弹窗-五一劳动节快乐数据知道 python3案例和总结 python 开发语言
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.使用`tkinter`实现无限弹窗1.1实现代码1.2代码说明2.使用`pyautogui`实现无限弹窗2.1安装`pyautogui`2.2实现代码2.3代码说明3.使用`ctypes`实现无限弹窗3.1实现代码3.2代码说明4.注意事项5.总结使用tkinter库使用pyautogui库在Python中实现无限弹窗可以通过tki
鸿蒙应用App Linking优化：深度链接性能操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
鸿蒙应用AppLinking优化：深度链接性能关键词：鸿蒙系统、AppLinking、深度链接、性能优化、路由匹配、参数解析、冷启动优化摘要：本文深入探讨鸿蒙系统下AppLinking深度链接的性能优化策略。从核心概念解析出发，详细阐述深度链接在鸿蒙架构中的实现原理，包括Ability路由机制、链接解析算法和参数传递模型。通过数学模型分析路由匹配复杂度，结合Python算法示例演示链接解析过程。基
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
LeetCode 1471.数组中的k个最强值吃着火锅x唱着歌 LeetCode leetcode 算法数据结构
给你一个整数数组arr和一个整数k。设m为数组的中位数，只要满足下述两个前提之一，就可以判定arr[i]的值比arr[j]的值更强：|arr[i]-m|>|arr[j]-m||arr[i]-m|==|arr[j]-m|，且arr[i]>arr[j]请返回由数组中最强的k个值组成的列表。答案可以以任意顺序返回。中位数是一个有序整数列表中处于中间位置的值。形式上，如果列表的长度为n，那么中位数就是该有
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
LeetCode 633.平方数之和（python题解） wendong97 LeetCode从零起步 #双指针 leetcode python 算法
LeetCode633.平方数之和（python题解）题目示例分析题解用到的基础知识计算平方和平方根取整参考题目给定一个非负整数c，你要判断是否存在两个整数a和b，使得a2+b2=c示例输入:5输出:True解释:1*1+2*2=5分析本题与上一题LeetCode167.两数之和II非常相似，把两数之和变成了平方数之和，利用上一题答案的思路，同样设置两个一左一右的指针，很容易就可以解答出来。这里要
经典与量子结合：微算法科技（MLGO）混合经典量子算法优化多查询问题 MicroTech2025 科技量子计算
在当今快速发展的技术领域，量子计算被视为解决复杂问题的下一个前沿。尽管量子计算机的潜力巨大，但它们在实际应用中仍面临诸多挑战，尤其是在错误率和量子比特数量方面。为了克服这些限制，微算法科技（NASDAQ:MLGO）开发了一种创新的混合算法，结合了经典计算和量子计算的优势，以优化多查询问题（MQO）。量子计算是一种利用量子力学原理进行信息处理的技术。与传统的经典计算机相比，量子计算机在处理某些特定类
微算法科技(MLGO)基于 Grover 的量子算法在图形游戏中寻找纯纳什均衡的创新突破 MicroTech2025 科技量子计算
随着量子计算的迅猛发展，各行各业正积极探索其潜力，特别是在博弈论领域。在博弈论中，纳什均衡是描述多个参与者在游戏中选择策略时相互影响的一种状态。在很多情况下，找到纯纳什均衡并不容易，尤其是在复杂的图形游戏中。传统算法的计算复杂性常常导致求解时间过长，因此引入量子算法有助于提高效率。Grover搜索算法是一种有效的量子搜索算法，能够在未标记的数据库中以平方根的时间复杂度找到目标元素。它通过振幅放大技
量子计算时代的突破：微算法科技开发出多目标进化算法推动量子电路创新
量子计算正处于技术发展的前沿，但其实际应用与潜力的实现仍然面临巨大挑战。量子计算机的基本单位是量子比特（qubit），与经典计算机的比特不同，量子比特可以同时处于多个状态（叠加），并通过纠缠现象相互作用。理论上，量子计算机能够以比经典计算机快得多的速度解决某些问题，特别是在处理涉及大量变量和复杂数据集的问题时。尽管量子硬件的进步令人瞩目，尤其是近期一些公司推出了量子处理器，但量子算法（即量子计算机
OpenAI模型可解释性工具：理解AI的黑箱 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能百度 ai
OpenAI模型可解释性工具：理解AI的黑箱关键词：OpenAI模型、可解释性工具、AI黑箱、模型理解、人工智能摘要：本文旨在深入探讨OpenAI模型可解释性工具，帮助大家理解AI这个“黑箱”。首先介绍了研究的背景、目的和预期读者，接着解释了核心概念，包括OpenAI模型、可解释性工具等，阐述了它们之间的关系。通过核心算法原理、数学模型和公式的讲解，让大家明白其内在机制。还给出了项目实战案例，包括
[特殊字符] 简易分贝仪制作（基于麦克风 + Python） qq_27684373 python 开发语言
一、基本原理1.什么是dBSPL？**声压级（SoundPressureLevel,SPL）**定义为：SPL(dB)=20⋅log⁡10(pp0)\text{SPL(dB)}=20\cdot\log_{10}\left(\frac{p}{p_0}\right)SPL(dB)=20⋅log10(p0p)ppp：声压值（单位Pa，帕斯卡）p0=20μPa=2×10−5Pap_0=20\mu\text
突破量子仿真瓶颈：微算法科技MLGO量子算法的算术化与核操作迭代模型
近年来，量子计算机的迅速发展和潜在的强大计算能力吸引了全球科研机构和企业的广泛关注。量子计算机利用量子力学的特性来处理复杂的计算任务，具有在某些方面远超经典计算机的潜力。然而，真正实用的量子计算机尚未大规模普及，因此在经典平台上模拟量子算法成为当前的研究热点之一。微算法科技（NASDAQ:MLGO）近日开发的一种创新型高精度、高吞吐量的可重构仿真技术，旨在为量子算法的研究和应用提供有效的解决方案。
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
使用python对音频做去噪处理莫夭阏之 python 信号处理语音识别
要使用Python对音频进行去噪处理，您可以使用许多库和算法。以下是使用librosa和scipy库实现的基本去噪算法：首先，您需要安装所需的库。您可以使用以下命令安装它们：pipinstalllibrosascipynumpy接下来，您需要导入所需的库：importlibrosaimportscipy.signalassignalimportnumpyasnp加载音频文件并提取音频数据：y,sr
Python实现音频均衡和降噪 0Kilobyte 音视频
使用librosa库来读取音频文件，音频处理是一个复杂过程，这里只是简单的进行降噪和均衡。importlibrosaimportsoundfileassfdefimprove_audio_quality(input_file,output_file):#读取音频文件audio,sample_rate=librosa.load(input_file)sf.write(output_file,audi
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
Python的简单降噪应用 adaierya python 开发语言
音频降噪是使用Python进行信号处理的一个常见应用，通常会使用一些信号处理库，如NumPy和SciPy，以及一个用于音频处理的库，如Librosa。如下是一个简单的音频降噪实现步骤和代码示例：步骤1:安装必要的库若还没有安装这些库，请先使用pip进行安装：pipinstallnumpyscipylibrosasoundfile步骤2:导入必要的库在Python代码中，我们需要导入这些库：impo
算法：二分法萧格
定义二分查找也称折半查找（BinarySearch），它是一种效率较高的查找方法。在一个有序二维数组中，查找指定的值对应的键（下标）。适用场景有序数组实现代码$arr[$middle])$left=$middle+1;else$right=$middle-1;}return-1;}?>二分法变种有时候数组虽然是有序的，但是可能有多个重复的值，这时我们的需求就要变动了，算法也要做相应的调整。有重复值
python 源码安装_源码安装python weixin_39959794 python 源码安装
编译安装新版本python一般来说python是linux系统的标配，但是版本一般却很老，而系统上面的很多服务可能与老的python存在依赖关系，我们又不能直接卸载。所以一般，我们可以在一个单独的目录来安装python。python安装有两种方法：1.源码编译2.使用pyenv此处我们使用源码编译安装：1.下载源码：https://www.python.org/ftp/python/此处有各个版本
python 源码安装 thjinhao python
linux环境下python3.9安装yum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devellibffi-develyum-yinstallgcc4.python环境的安装（安装pyenv
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

机器学习：k邻近算法(KNN)

什么是K邻近算法？

构建KNN算法:

使用 k-近邻算法改进约会网站的配对效果

手写数字识别

小结

你可能感兴趣的:(机器学习,python,机器学习：k邻近算法(KNN))