zc0510zc

机器学习实战（第2章 k-近邻算法）

（代码下载地址：http://download.csdn.net/download/jichun4686/9910040）

简介：

K最近邻(k-Nearest Neighbor，KNN)分类算法，是最简单的机器学习算法之一。即是给定一个训练数据集，对于输入的未知标签的实例，在训练数据集中找到与该实例最邻近的K个实例，则将其分类到K个有大多数的相同标签的标签中。如在下边实线圈中绿色实例属于标签为红色的一类，而在虚线中其属于标签为蓝色的一类，这就要看K的取值大小。一般K<=20,且K为正整数。

k-近邻算法的一般流程：

2.1 基本k-近邻算法

代码1：

# -*- coding: utf-8 -*-   #中文注释记得加这句话
from numpy import *       #导入numpy包  用import numpy 也可以，但是之后的使用其中的函数时前边必须加上numpy.方法名
from operator import *

# 创建数据集
def createdataset():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])   #创建固定数据集
    labels = ['A', 'A', 'B', 'B']                               #创建固定数据集中数据对应标签
    return group, labels                                        #返回数据集(数组)和标签（列表）


# k-近邻算法

""""
inX:    用于分类的输入向量
dataSet:训练样本集
labels: 标签向量
k:      选择的最近邻居数目
"""
def classify0(inX, dataSet, labels, k):
    #计算距离
    dataSetSize = dataSet.shape[0]  #dataSetSize为dataSet的行数
    diff = tile(inX,(dataSetSize,1)) - dataSet  #扩展输入向量，方便计算每一个数据到该向量的距离
    sqDiff = diff ** 2              #数组每个元素进行平方
    sqDistances = sqDiff.sum(axis=1)#求该数组的行和
    distances = sqDistances ** 0.5  #为每行元素进行开方 即求出了每个数据和输入数据的距离
    sortedDistIndicies = distances.argsort() #为该距离数组进行升序排序  返回排序结果的下标值

    #确定k个点并计算其频率
    classCount = {}  #声明一个统计K个数据中类别与相应个数的字典
    for i in range(k): #i从0到k-1进行循环
        votelabel = labels[sortedDistIndicies[i]] #找到i对应下标的类别
        classCount[votelabel] = classCount.get(votelabel,0)+1 #该类别如果在字典中存在，则取出其值后加1 如果不存在取默认值再+1
    sortedClassCount = sorted(classCount.items(),key=itemgetter(1),reverse=True)#将字典返回为元祖列表 并依据其第二个元素进行降序排序
    return sortedClassCount[0][0]  #返回频率最高元祖的第一个量即标签

输入

group,labels = createdataset() #得到数据集和标签向量
classify0([0.5,0.5],group,labels,3) #测试[0,0]向量的分类

测试结果1：

此处我做了一些改动，将测试数据变为[0.5,0.5]，因为书中提及，要测试的数据不能为分类器所知，但是[0,0]作为训练集中的样本数据已经提供给分类器，所以此处选取[0.5,0.5]。关于测试数据时，可以选取提前知道结果的数据进行输入，可以得到该分类器的错误率，进而可以对该分类器进行评估。

2.2示例：使用k-近邻算法改进约会网站的配对效果

2.2.1将文本记录转换为Numpy的解析程序

代码2：

创建文件DatingNet.py,程序如下。

from numpy import *

#程序1：将文本记录转换为Numpy的解析程序
#输入：文件名字符串
#输出：训练样本矩阵和类标签向量

def file2matrix(filename):
    fr = open(filename)
    arrayOfLines = fr.readlines()#得到一个元素为文件每一行的列表
    numberOfLines = len(arrayOfLines)#得到文件的行数
    numberOfCols = len(arrayOfLines[0].strip().split('\t')) #得到每一行的列数

    returnMat = zeros((numberOfLines,numberOfCols-1)) #返回的数据集
    classLabelVector = []                           #返回的标签向量
    index = 0                                       #为了给返回的数据集方便赋值的自增变量

    for line in arrayOfLines:
        listFromLine = line.strip().split('\t')     #将每一行去掉换行符并且以\t为分隔符分隔为列表

        returnMat[index,:] = listFromLine[0:3]      #将列表中的0、1、2号元素赋给returnMat的第一行
        classLabelVector.append(int(listFromLine[-1]))   #-1提取列表中的最后一个元素并将其标为int变量 必须明确的通知解释器 否则python语言会将这些元素做字符串处理
        index += 1

    return returnMat,classLabelVector

【ps】
1、书中我认为arrayOLines应该是arrayOfLines，故做修改，与书中不一样。
2、注意classLabelVector.append(int(listFromLine[-1])) 这一行代码不要少了int，必须明确告诉解释器，否则会作为字符串处理的。
3、另外列表取值时用[]，而不是小括号，否则会产生TypeError: ‘list’ object is not callable的错误，但是百度还百度不到。

建立测试文件test2.py

import DatingNet

datingDataMat,datingLabels = DatingNet.file2matrix('datingTestSet2.txt')
print(datingDataMat)
print(datingLabels[0:20])

【ps】
1、书中输入的文件名为datingTestSet.txt，但是此处应输入datingTestSet2.txt.
2、书中得到的datingDataMat与文本文件中的也是不同。

运行结果2

2.2.2分析数据：使用Matplotlib创建散点图

建立figure_Matplotlib.py。
共绘制五幅图
图一：同书中，是第二三列数据所作图。但是没有色彩或者记号。
图二：同书中，是第二三列数据所作图。有色彩和记号。但是观测不出来数据间的关系。
图三：同书中，是一二列数据所作图。有色彩和记号，可以看出明显分类。
图四：增加，是一三列数据所作图。对比可知其分类也不是很明显。
图五：增加，是三维图，可以进行拖动、旋转，方便得到分类关系，更加便于观察。

【ps】该代码画三维图时，有一个警告，但是限于自身能力，没有查出来，自己对于画图这块是刚刚接触，接来搞懂了会进行补充的。

代码3：

from numpy import *                     #导入numpy包，这里要用到numpy中的array
from DatingNet import *                 #导入产生数据的包
import matplotlib                       #导入绘图的库
import matplotlib.pyplot as plt         #将绘图的函数重命名
from mpl_toolkits.mplot3d import Axes3D  #导入3维图像的包

datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
fig1 = plt.figure() #创建图形

#————————————————二维------------------------------------------

#第一个子图 是第2个特征和第3个特征的散点图  但是没有颜色标识  
ax = fig1.add_subplot(2,2,1)#代表创建1行1列从上到下的第一块的子图
ax.scatter(datingDataMat[:,1],datingDataMat[:,2])
plt.xlabel(u'x  玩视频游戏所耗时间半分比')  
plt.ylabel(u'y  每周消费的冰淇淋公升数')
plt.title(u'图一(2&&3)')

#定义三个类别的空列表
type1_x = []
type1_y = []
type2_x = []
type2_y = []
type3_x = []
type3_y = []


#第二个子图 是第2个特征和第3个特征的散点图
ax = fig1.add_subplot(2,2,2)#代表创建1行1列从上到下的第二块的子图

#循环获得每个列表中的值
for i in range(len(datingLabels)):
    if datingLabels[i] == 1:  # 不喜欢
        type1_x.append(datingDataMat[i][1])
        type1_y.append(datingDataMat[i][2])

    if datingLabels[i] == 2:  # 魅力一般
        type2_x.append(datingDataMat[i][1])
        type2_y.append(datingDataMat[i][2])

    if datingLabels[i] == 3:  # 极具魅力
        type3_x.append(datingDataMat[i][1])
        type3_y.append(datingDataMat[i][2])

type1 = ax.scatter(type1_x, type1_y, s=20, c='red')
type2 = ax.scatter(type2_x, type2_y, s=40, c='green')
type3 = ax.scatter(type3_x, type3_y, s=50, c='blue')
ax.legend((type1, type2, type3), (u'不喜欢', u'魅力一般', u'极具魅力'), loc=2)#显示图例  1 右上  2左上 3左下 4 右下 逆时针
#ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*array(datingLabels),15.0*array(datingLabels))
plt.xlabel(u'x  玩视频游戏所耗时间半分比')  
plt.ylabel(u'y  每周消费的冰淇淋公升数')
plt.title(u'图二(2&&3)')



#第三个子图 是第1个特征和第2个特征的散点图
ax = fig1.add_subplot(2,2,3)#代表创建1行1列从上到下的第三块的子图
#循环获得每个列表中的值
for i in range(len(datingLabels)):
    if datingLabels[i] == 1:  # 不喜欢
        type1_x.append(datingDataMat[i][0])
        type1_y.append(datingDataMat[i][1])

    if datingLabels[i] == 2:  # 魅力一般
        type2_x.append(datingDataMat[i][0])
        type2_y.append(datingDataMat[i][1])

    if datingLabels[i] == 3:  # 极具魅力
        type3_x.append(datingDataMat[i][0])
        type3_y.append(datingDataMat[i][1])

type1 = ax.scatter(type1_x, type1_y, s=20, c='red')
type2 = ax.scatter(type2_x, type2_y, s=40, c='green')
type3 = ax.scatter(type3_x, type3_y, s=50, c='blue')
ax.legend((type1, type2, type3), (u'不喜欢', u'魅力一般', u'极具魅力'), loc=2)#显示图例  1 右上  2左上 3左下 4 右下 逆时针
#ax.scatter(datingDataMat[:,0],datingDataMat[:,1],15.0*array(datingLabels),15.0*array(datingLabels))
plt.xlabel(u'x  每年获取的飞行常客里程数')  
plt.ylabel(u'y  玩视频游戏所耗时间半分比')
plt.title(u'图三(1&&2)')

#第四个子图 是第1个特征和第3个特征的散点图
ax = fig1.add_subplot(2,2,4)#代表创建1行1列从上到下的第四块的子图
#循环获得每个列表中的值
for i in range(len(datingLabels)):
    if datingLabels[i] == 1:  # 不喜欢
        type1_x.append(datingDataMat[i][0])
        type1_y.append(datingDataMat[i][2])

    if datingLabels[i] == 2:  # 魅力一般
        type2_x.append(datingDataMat[i][0])
        type2_y.append(datingDataMat[i][2])

    if datingLabels[i] == 3:  # 极具魅力
        type3_x.append(datingDataMat[i][0])
        type3_y.append(datingDataMat[i][2])

type1 = ax.scatter(type1_x, type1_y, s=20, c='red')
type2 = ax.scatter(type2_x, type2_y, s=40, c='green')
type3 = ax.scatter(type3_x, type3_y, s=50, c='blue')
ax.legend((type1, type2, type3), (u'不喜欢', u'魅力一般', u'极具魅力'), loc=2)#显示图例  1 右上  2左上 3左下 4 右下 逆时针
#ax.scatter(datingDataMat[:,0],datingDataMat[:,2],15.0*array(datingLabels),15.0*array(datingLabels))
plt.xlabel(u'x  每年获取的飞行常客里程数')  
plt.ylabel(u'y  每周消费的冰淇淋公升数')
plt.title(u'图四(1&&3)')

#————————————————三维
#第二个图 是第1个特征和第2个特征和第3个特征的散点图
fig2 = plt.figure() #创建图形
ax = fig2.add_subplot(111)
ax = Axes3D(fig2)
ax.scatter(datingDataMat[:,0],datingDataMat[:,1],datingDataMat[:,2],15.0*array(datingLabels),15.0*array(datingLabels),15.0*array(datingLabels))
ax.set_xlabel(u'x  每年获取的飞行常客里程数')
ax.set_ylabel(u'y  玩视频游戏所耗时间半分比')
ax.set_zlabel(u'z  每周消费的冰淇淋公升数')

plt.title(u'图四(1&&2&&3)')
plt.show()

运行结果3：

图一 – 图四

图五（初始）

图五（旋转后）

由上可见，图像化工具给我们展示数据内容，更加方便去辨识一些数据模型。

2.2.3 准备数据：归一化数值

归一化数值是为了不让某个特殊的属性对计算结果影响比较大，而应该每一个特征都是等权重的。

转换公式： newValue = (oldValue - min)/(max - min)

代码4：

import DatingNet

datingDataMat,datingLabels = DatingNet.file2matrix('datingTestSet2.txt')
normMat,ranges,minVals = DatingNet.autoNorm(datingDataMat)
print(normMat)
print(ranges)
print(minVals)

运行结果4：

2.2.4 测试算法：作为完整程序验证分类器

机器学习算法一个重要的工作就是评估算法的正确性，通常我们只提供90%的数据作为训练样本来训练分类器，而使用其余的10%进行测试分类器，以检测分类器的正确性。在DatingNet.py中创建函数datingClassTest()函数，计算该分类器的错误率。用到了DatingNet.py中的准备数据file2matrix()、归一化数值autoNorm()函数以及myKNN.py中的classify0()函数。

代码5:

def datingClassTest():
    hoRatio = 0.10  #比率
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)  #要进行测试的数据
    errorCount = 0

    for i in range(numTestVecs):
        classifierResult = myKNN.classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3) 
        print('the classifier came with back with:%d,the real answer is:%d'% (classifierResult,datingLabels[i]))
        if(classifierResult != datingLabels[i]):
            errorCount += 1  #统计错误量
    print('错误率是：%f'%(errorCount/float(numTestVecs)))  #输出错误率

运行结果5：

运行datingNet.py，输入datingClassTest()得到结果如下（与书中不同，与网上多数网友结果相同）：

分类器结果是5%，算是一个还不错的结果。所以基本上可以满足约会人对于某一对象的可交往程度的判定。

2.2.5 使用算法：构建完整可用系统

测试通过后，可以进行应用。在datingNet.py中建立函数classifyPerson()函数，通过在约会网站找到某个人并输入他的信息，程序给对对方喜欢程度的预测值。因python之后就没有raw_input，而是用input代替，所以代码中与书中不同，如果环境为python3还用raw_input就会产生NameError: name ‘raw_input’ is not defined的错误。

代码6：

#约会网站预测函数

def classifyPerson():
    resultList = ['nont at all','in small doses','in large doses']

    #用户输入的三个特征值
    percentTats=float(input('percentage of time spent playing video games?'))    
    ffMiles=float(input('frequent flier miles earned per year?'))
    iceCream=float(input('liters of ice cream consumed per year?'))
    inArr = array([ffMiles,percentTats,iceCream])

    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)
    classifierResult = myKNN.classify0((inArr-minVals)/ranges,normMat,datingLabels,3)

    print('you will probably like this person:',resultList[classifierResult-1])

运行结果6：

2.3 实例2：手写识别系统

该系统只能识别数字0-9，图像转换成为了文本的若干文本数据。

2.3.1 准备数据：将图像转换为测试向量

建立文件hardWritingSystem.py，在其中写入img2vector()函数。

代码7：

#将一个图像文件转换为一维向量
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)

    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

运行结果7：

运行该文件，输入testVector = img2vector(‘digits/trainingDigits/0_0.txt’) 然后输出前32个testVector[0,0:31]。

2.3.2 使用k-近邻算法识别手写数字

代码8：

def handWrithingClassTest():
    hwLabels = [] #定义一个空列表   记录标签向量
    trainingFileList = listdir('digits/trainingDigits') #得到存放数据的文件列表
    m = len(trainingFileList)  #得到文件的个数 也就是数据集一组数据的个数
    trainingMat = zeros((m,1024)) #创建空的训练集

    #创建训练集和标签
    for i in range(m):
        fileNameStr = trainingFileList[i]  #得到文件名和扩展名
        fileStr = fileNameStr.split('.')[0] #得到文件名
        classNumStr = int(fileStr.split('_')[0])#得到该文件的存储的数字

        hwLabels.append(classNumStr) #创建标签
        trainingMat[i,:] = img2vector('digits/trainingDigits/%s' % fileNameStr) #创建训练集

    #创建测试集和标签

    errorCount = 0.0 #统计错误个数
    testFileList = listdir('digits/testDigits') #得到存放测试数据的文件列表
    mTest = len(testFileList)

    for i in range(mTest):
        fileNameStr = testFileList[i]  #得到文件名和扩展名
        fileStr = fileNameStr.split('.')[0] #得到文件名
        classNumStr = int(fileStr.split('_')[0])#得到该文件的存储的数字

        vectorUnderTest = img2vector('digits/testDigits/%s' % fileNameStr)  #得到测试集

        classifierResult = myKNN.classify0(vectorUnderTest,trainingMat,hwLabels,3)  #计算结果

        #print ("the classifier came back with: %d, the read answer is:%d" %(classifierResult,classNumStr) )

        if (classifierResult !=classNumStr):#计算错误率
            errorCount += 1.0
    print ("the total number of errors is %d" % errorCount)  #输出错误个数
    print ("the total error rate is: %f" % (errorCount/float(mTest)))#输出错误率

运行结果8：

错误率为1.06%，改变k值、训练、测试样本错误率会有所变化。

实际使用这个算法时，执行效率并不是很高，因为数据量太大会产生额外的时间、空间开销。而决策树就是k-近邻的优化版，可以节省大量的计算开销。

总述

k-近邻算法花了好一段时间终于搞定了，其中的一些python知识也详细的去查过，虽然假期的效率并没有太高，但是觉得每一步都走精也是一种收获，下面对k-近邻进行一下总结。

本章通过基础的k-近邻算法和两个例子进行了讲解和说明，主要就是将测试数据或者训练数据转换为要输入矩阵的格式，可能用到了归一化，然后使用k-近邻进行解析数据从而返回预测结果。其中还设计数据的绘图、错误率的计算以及大量的python矩阵知识。关于本章中python的知识，由于内容量太大，我放到了单独的博客中，供以没学过python的人参考。

k-近邻有简单有效的优点、但是时空开销比较大，所以引进下一章可以节省大量的计算开销的决策树。

（代码下载地址：http://download.csdn.net/download/jichun4686/9910040）
【2017.7.25决策树！！！！】

机器学习专栏博文汇总 python游乐园机器学习机器学习人工智能合集
本篇汇集了Python游乐园中机器学习专栏博文，会持续更新，需要的小伙伴可以收藏一下Python机器学习实战：基于不同机器学习算法的鸢尾花数据集分析机器学习常见问题：过拟合及其处理方式结构化数据和非结构化数据的区别是什么如何选择合适的机器学习算法来处理非结构化数据可用于文本分析的机器学习算法都有哪些Python机器学习实战：遗传算法机器学习基础：什么是启发式算法机器学习中常用的调节参数的方法（附P
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
《机器学习实战：从数据清洗到云端部署的可视化进阶指南（三）》庸俗今天不摸鱼机器学习人工智能 python
▍前言：阶段核心突破当前已完成模型开发与优化升级核心任务，成功将理论模型转化为工业级解决方案。本阶段基于前期标准化数据，实现从基础模型构建到高性能算法迭代的跨越式发展。▍章节回顾：攻坚与优化成果3.模型开发阶段算法实现：逻辑回归：搭建分类基线（LogisticRegression，准确率基准）支持向量机：对比线性核与RBF核性能差异（F1-score提升12%）K近邻：动态优化邻居数（k=5时验证
机器学习实战：从理论到实践静默.\\ 机器学习人工智能
随着人工智能技术的迅猛发展，机器学习作为其核心部分，已经广泛应用于各个领域。它不仅在科技公司中扮演着关键角色，在医疗、金融、零售等行业也展现了巨大的潜力。然而，对于许多初学者来说，如何将理论知识转化为实际操作是一个挑战。本文旨在通过一个具体的案例——预测房价，来介绍机器学习的基本流程和具体操作步骤。我们将使用Python编程语言及其相关的科学计算库，如NumPy、Pandas、Scikit-Lea
《机器学习实战》专栏 No12：项目实战—端到端的机器学习项目Kaggle糖尿病预测带娃的IT创业者机器学习实战机器学习人工智能分类算法 python
《机器学习实战》专栏第12集：项目实战——端到端的机器学习项目Kaggle糖尿病预测本集为专栏最后一集，本专栏的特点是短平快，聚焦重点，不长篇大论纠缠于理论，而是在介绍基础理论框架基础上，快速切入实战项目和代码，所有代码都经过实践检验，是读者入门和熟悉上手的上佳知识材料在本集中，我们将通过Kaggle平台的经典糖尿病预测（PimaIndiansDiabetesDataset）数据集，系统回顾完整的
机器学些|实战? dami_king 随笔机器学习
机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！准备工作：安装和导入必要的库在开始我们的房价预测项目之前，我们需要准备好开发环境并导入所有必要的库。这些库将帮助我们处理数据、构建模型、评估性能以及可视化结果。安装Python和JupyterNotebook首先，确保你已经安装
Python机器学习实战：独热编码 python游乐园机器学习 python 机器学习人工智能
独热编码（One-HotEncoding）是一种用于将分类数据转换为适合机器学习算法处理的数值型数据的编码技术。基本概念在机器学习中，很多算法要求输入的数据是数值型的，但实际数据中常常包含分类变量，比如颜色（红、绿、蓝）、性别（男、女）等。独热编码就是为了解决这个问题而设计的，它将每个类别变量转换为一个二进制向量。原理对于一个具有n个不同类别的分类变量，独热编码会创建一个长度为n的二进制向量。在这
Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
《机器学习实战》——在python中使用Matplotlib注解绘制树形图哆啦AA梦 python 机器学习 python 机器学习
#encoding=utf-8#使用文本注解绘制树形图importmatplotlib.pyplotaspltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")#上面三行代码定义文本框和箭头格式#定义决策树决策
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格精通代码大仙数据挖掘深度学习 python 机器学习分类自动化人工智能数据挖掘深度学习
音乐流派分类–自动化分类不同音乐风格在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。音乐流派分类器模型音乐流派分类关于数据集：GTZAN流派收
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
机器学习实战2--蒙特卡洛方法与Q-Q图(2022/10/12) 点灯的棉羊机器学习Jupyter笔记机器学习人工智能 numpy python
蒙特卡洛方法与Q-Q图文章目录蒙特卡洛方法与Q-Q图蒙特卡洛方法蒙特卡洛的定义和基本步骤一些常用的概率论相关函数使用蒙特卡洛验证大数定理Q-Q图Q-Q图的定义及用途importnumpyasnpfromnumpy.linalgimportinv,eigimportmatplotlib.pyplotaspltimportpandasaspdfromscipy.statsimportnorm蒙特卡洛方
机器学习实战1-基础运用（2022/10/11）点灯的棉羊机器学习Jupyter笔记机器学习 python numpy
机器学习实战1-基础运用文章目录机器学习实战1-基础运用numpy的简单运用生成矩阵和矩阵的简单操作用pandas库读取、保存csv数据文件read_csv()函数及读入的数据处理to_csv()保存数据matplotlib.pyplot库绘图的使用条形图的绘制箱型图的绘制分位数（Quantile）分位点/四分位数分位数与箱型图`boxplot()`函数绘制交叉报表热力图plt绘图基础import
机器学习实战Jupyter笔记专栏汇总点灯的棉羊机器学习Jupyter笔记机器学习 jupyter 人工智能
机器学习实战Jupter笔记开始博客学校开始的一门机器学习的课程，于是使用jupyter写这门课的作业，顺便将其完善为笔记发表为这个专栏的博客，并将专栏博客链接汇总到这里。由于是刚开始学习机器学习方面的内容，如有错误的地方，希望能有大佬能帮忙指正。笔记1机器学习实战1-基础运用种一棵树最好的时间–是十年前，其次是现在
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
【机器学习实战】大数据与MapReduce 吵吵人
当运算需求超出了当前资源的运算能力，一、可以考虑购买更好的机器；二、可以将计算转换成并行作业，MapReduce就提供了这种方案的一个具体实施框架。MapReduce：分布式计算的框架MapReduce是一个软件框架，可以将单个计算工作分配给多台计算机执行。工作流程包括map和reduce阶段。第一阶段，输入数据被切片分发到节点上，各个节点对本地数据进行处理对应的运算代码叫做mapper。第二阶段
[培训-Python机器学习]04-Git的使用和规范乱码奇糟软件开发 git
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：上网查阅Linus开发Git的背景；分析所在的开发团队所用的协作开发流程是什么？总结出Git使用和Git流程中遇到过的3个问题，发给大家讨论。非常有意思：2005年，由Linux的创始人LinusTorvalds开发；临危赴命，用时2周。分布式、本地管理、分支管理、提交机制Github、
[培训-Python机器学习]02-使用conda管理环境和包乱码奇糟软件开发 python conda
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：培训后实践本章的各种操作；结果：以Python3.10创建开发虚拟环境；再创建一个Python3.7版本以下的虚拟环境用来调试兼容性以前培训过venv，本次培训来说一说conda。conda其实可理解为：venv+pip，它的主要功能包括：环境管理：创建多个隔离的Python运行环境，每
机器学习（machine learning）大合集 AI信仰者
1、线性分类器怎么理解呢？我们可以把此分类器理解为线性空间的划分，最简单的，在二维空间上，通过直线的划分。第二个理解可以理解为模板匹配，W的每一行可以看做是其中一个类别的模板。每类得分，实际上是像素点和模板匹配度。模板匹配的方式是内积计算。2、机器学习实战之AdaBoost算法boosting算法系列的基本思想，如下图：adaBoost分类器就是一种元算法分类器，adaBoost分类器利用同一种基
机器学习实战朴素贝叶斯分类器 shenny_
基于概率论的分类方法：朴素贝叶斯我的微信公众号：s406205391;欢迎大家一起学习，一起进步！！！k-近邻算法和决策树会给出“该数据属于哪一类”的明确回答。不过，分类器有时会产生错误结果，这是可以要求分类器给出一个最优的类别的猜测结果，同事给出这个猜测的概率估计值。朴素贝叶斯就是一个概率分类器。我们称之为“朴素”，是因为整个形式化的过程只做最原始、最简单的假设。朴素贝叶斯的优点：在数据较少的情
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

机器学习实战（第2章 k-近邻算法）