waiting-gy

Python《机器学习实战》读书笔记（二）——k-近邻算法

转载请注明转载作者和来处：http://blog.csdn.net/waiting_gy/article/details/78586204

[目录]

第二章 K-近邻算法
- 2-1 k-近邻算法概述
  - 2-1-1准备使用Python导入数据
  - 2-1-2 从文本文件中解析数据
  - 2-1-3 如何测试分类器
- 2-2 示例使用k-近邻算法改进约会网站的配对效果
  - 2-2-1 准备数据从文本文件中解析数据
  - 2-2-2 分析数据使用Matplotlib创建散点图
  - 2-2-3 准备数据归一化数值
  - 2-2-4 测试算法作为完成程序验证分类器
  - 2-2-5 使用算法构建完成可用系统
- 2-3示例手写识别系统
  - 2-3-1 准备数据将图像转换为测试向量
  - 2-3-2 测试算法使用k-近邻算法识别手写数字
- 2-4 本章小结
- 参考文献

第二章 K-近邻算法

2-1 k-近邻算法概述

k-近邻算法采用测量不同特征值之间的距离方法进行分类。

优点——精度高，对异常值不敏感，无数据输入假定。

缺点——计算复杂度高、空间复杂度高。

使用数据范围——数值型和标称型。

k-近邻算法原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-禁令算法中k的出处，通常k是大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

现在使用k-近邻算法分类爱情片和动作片。有人统计过很多电影的打斗镜头和接吻镜头，如图是6部电影的打斗和接吻镜头数。

假如有一部未看过的电影，可以使用k-近邻算法来解决它是爱情片还是动作片。

首先，需要知道这个位置电影存在多少个打斗镜头和接吻镜头，如图所示：

图中，问号位置是未知电影的打斗镜头和接吻镜头数已经给出。即使不知道未知电影属于哪种类型，也可以通过某种方法计算出来。

首先计算未知电影与样本集中其他电影的距离，如图所示：

此处暂时不用关心如何计算得到的这些距离值，使用Python实现电影分类应用时，会提供具体的计算方法。

根据得到的样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到k哥距离最近的电影。

假定k=3，则三个最靠近电影依次是He’s Not Really into Dudes 、Beautiful Woman 、California Man。k-近邻算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全部是爱情片，因此我们判定未知电影是爱情片。

接着本章讲解如何在实际环境中应用k-近邻算法，同时涉及如何使用Python工具和相关的机器学习术语。

k-近邻算法的一般流程

1. 收集数据：可以使用任何方法
2. 准备数据：距离计算所需要的数字
3. 分析数据：可以使用任何方法
4. 训练算法：此步骤不适用于k-近邻算法
5. 测试算法：计算错误率
6. 使用算法：首先需要输入样本数据和结构化输出结果，然后运行k-近邻算法判定输入数据分别属于那个分类，最后应用对计算出的分类执行后续的处理。

2-1-1准备：使用Python导入数据

首先，创建名为kNN.py的Python模块，将使用的所有代码都写在这个文件里。在window10系统下，我用的第三方Python的IDE(集成开发环境)是Ulipad，利用Ulipad建立了kNN.py的Python模块，并在新建的.py文件里添加如下程序：

from numpy import *
import operator

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A' ,'A' ,'B' ,'B']
    return group, labels

在上面的代码中，导入了两个模块，第一个是科学计算包Numpy；第二个是运算符模块。k-近邻算法执行排序操作时将使用这两个模块提供的函数。如图所示，是建立的.py文件和对应代码。

为了方便使用createDataSet()函数，他创建数据集和标签。然后我们保存kNN.py文件。

注意事项
kNN文件可以保存在两个路径下面，在后面Python交互式开发环境导入kNN模块才不会出错。否则，一般出现的错误如图所示。

这儿提供三种解决这个错误的方法：
1. 存放在Python安装目录下与python.exe在一个目录下，如图所示。

2.存放在Python安装目录里Lib文件里的site-packages文件里。如图所示。

3.还有一种是存放在自己选择的路径里，没有存放在上诉Python安装的目录中，例如我就存放在自己定义的路径里，如图所示：

第三个方法存放kNN.py模块后，在导入模块前，加入一段程序后再导入模块kNN.py才能导入成功，不然导入失败，其程序如下：

import sys
sys.path.append('E:\Python_Files\CodeofMe\Chapter2')
import kNN

程序实现在自己指定的路径进行搜索。便可找到自己存放的kNN.py模块块。

这样，进入Python交互式开发环境之后，输入下列命令导入kNN模块验证是否能成功导入，

>>> import kNN

如图所示，没有报错信息，则表明导入成功。

因为我选择进入的环境是带图形界面的Python Shell – IDLE (Python GUI)，用它代替了Python的交互式开发环境进行学习，后面的程序都是在该环境下编辑的。

进入Python开发环境之后，输入谢列命令导入编辑好的kNN程序模块：

>>> import kNN

上诉命令导入kNN模块。为了确保输入相同的数据集，kNN中定义了函数createDataSet,在Python命令提示符下输入下列命令：

>>> group,labels = kNN.createDataSet()

上诉命令创建了变量group和labels,在Python命令提示符下，输入变量的名字以检验是否正确地定义变量：

>>> group
array([[ 1. ,  1.1],
       [ 1. ,  1. ],
       [ 0. ,  0. ],
       [ 0. ,  0.1]])
>>> labels
['A', 'A', 'B', 'B']
>>>

这里有四组数据，每组数据有两个我们已知的属性或者特征值。上面的group矩阵每行包含一个不同的数据，我们可以把它想象成某个日志文件中不同的测量点或者入口。由于人类大脑的限制，我们通常只能可视化处理三维一下的事物。因此为了简单地实现数据可视化，对于每个数据点，我们通常只是用两个特征。

向量labels包含了每个数据点的标签信息，label包含的元素个数等于group矩阵行数。这里我们将数据点(1,1.1)定义为类A，数据(0,0.1)定义为类B。为了说明方便，例子中的数值是任意选择的，并没有给出标签，如图所示是带有类标签信息的四个数据点。

到现在为止，便知道Python如何解析数据，如何加载数据，以及kNN算法的工作原理。接下来是使用这些方法完成分类任务。

2-1-2 从文本文件中解析数据

使用classfify0函数运行kNN算法，为每组数据分类。该函数的功能是使用k-近邻算法将每组的数据划分到某个类中，其伪代码如下：

对未知类别属性的数据集中的每个点依次执行一下操作：
1. 计算已知类别数据集中的点与当前点之间的距离；
2. 按照距离递增次序排序；
3. 选取与当前点距离最小的k个点；
4. 确定前k个点所在类别的出现频率；
5. 返回前k个点出现频率最高的类别作为当前点的预测分类。

其函数程序清单（k-近邻算法）

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0] 
    #numpy函数shape[0]返回dataSet的行数,shape[1]返回dataSet的列数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet 
    #在列向量方向上重复inX共1次(横向)，行向量方向上重复inX共dataSetSize次(纵向)
    sqDiffMat = diffMat**2 
    #每个元素进行平方    
    sqDistances = sqDiffMat.sum(axis=1)
    #sum()所有元素相加，sum(0)列相加，sum(1)行相加    
    distances = sqDistances**0.5  
    #每个元素开方,计算出距离    
    sortedDistIndicies = distances.argsort() 
    #返回distances中元素从小到大排序后的索引值 
    classCount={} 
    #定一个记录类别次数的字典    
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]  
        #取出前k个元素的类别       
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 
        #返回字典中，voteIlabel的值，如果没有，则创建，并将值设为0（即第二个参数）。                
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) 
    #将字典按照item的第一维逆向排序。    
    return sortedClassCount[0][0]

classify0()函数有四个输入参数：用于分类的输入向量inX,输入的训练样本集为dataSet,标签向量位labels,最后的参数k表示用于选择最近邻居的数目，其中标签向量的元素数目和矩阵dataSet的行数形同，函数程序使用了欧氏距离公式，计算两个向量点xA和xB之间的距离：

该处的程序为：

    dataSetSize = dataSet.shape[0] 
    #numpy函数shape[0]返回dataSet的行数,shape[1]返回dataSet的列数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet 
    #在列向量方向上重复inX共1次(横向)，行向量方向上重复inX共dataSetSize次(纵向)
    sqDiffMat = diffMat**2 
    #每个元素进行平方    
    sqDistances = sqDiffMat.sum(axis=1)
    #sum()所有元素相加，sum(0)列相加，sum(1)行相加    
    distances = sqDistances**0.5  
    #每个元素开方,计算出距离

例如，离点（0，0）与（1，2）之间的距离计算为：

如果数据集存在4个特征值，则点（1，0，0，1）与（7，6，9，4）之间的距离计算为：

计算完所有点之间的距离后，可以对数据按照从小到大的次序排序。然后，确定前k个距离最小元素所在的主要分类，该处的程序为：

    sortedDistIndicies = distances.argsort()
    ##返回distances中元素从小到大排序后的索引值   
    classCount={}
    #定一个记录类别次数的字典
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        #取出前k个元素的类别
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
        #返回字典中，voteIlabel的值，如果没有，则创建，并将值设为0（即第二个参数）。

输出k总是正整数；最后，将classCount字典分解为远足列表，然后使用程序第二行导入运算符模块的itemgetter方法，按照第二个元素的次序对元组进行排序。此处的排序为逆序，即按照从最大到最小次序排序，该处的程代码片：

sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
#将字典按照item的第一维逆向排序。

此处的排序为逆序，即按照从最大到最小次序排序，最后返回法僧频率最高的元素标签。

为了预测数据所在分类，在Python提示符中输入输如下命令：

>>> kNN.classify0([0,0], group, labels, 3)

输出结果如下：

>>> labels
['A', 'A', 'B', 'B']
>>> kNN.classify0([0,0], group, labels, 3)
'B'
>>>

显然结果是B
到现在为止，我们已经够早了第一个分类器。

2-1-3 如何测试分类器

为了测试分类器的效果，可以使用已知答案的数据，当然答案不能告诉分类器，检验分类器给出的结果是否符合预期结果。通过大量的测试数据，我们可以得到分类器的错误率——分类器给出错误结果的次数除以测试执行的总数。错误率是常用的评估方法，主要用于评估分类器在某个数据集上的执行效果。完美分类器的错误率为0，最差分类器的错误率是1，在这种情况下，分类器根本就无法找到一个正确答案。

2-2 示例：使用k-近邻算法改进约会网站的配对效果

示例：在约会网站上使用k-近邻算法，实现能根据给定的三个人物特征（每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公斤数）预测该人约会的效果，约会效果分为：不喜欢，一般喜欢，特别喜欢。

1. 收集数据：提供文本文件。
2. 准备数据：使用Python解析文本文件。
3. 分析数据：使用Matplotlib画二位扩散图。
4. 训练算法：次不走不适用k-近邻算法。
5. 测试算法：使用提供的部分数据作为测试样本。（测试样本和非测试样本的区别在于：测试样本是已经完成分类的数据，如果预测分类与实际类别不同，被标记为一个错误。）
6.使用算法：产生简答的命令行程序，然后可以输入一些特征数据以判断对方为自己喜欢的类型。

2-2-1 准备数据：从文本文件中解析数据

收集的数据存放在文本文件datingTestSet.txt中，每个样本数据占据一行，共计1000行。样本主要包含以下3个特征：

每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇凌公升数

如图所示，是datingTestSet.txt中的数据：

在将上诉特征数据输入到分类器之前，必须将待处理数据的格式改变为分类器可以接受的格式。在kNN.py中创建名位file2matrix的函数，以此来处理输入格式问题。该函数的输入为文件名字符串，输出为训练样本矩阵和类标签向量。

添加到kNN.py中的代码如下：

def file2matrix(filename):
    fr = open(filename) 
    #打开文件
    numberOfLines = len(fr.readlines())          
    #get the number of lines in the file 得到文件行数
    returnMat = zeros((numberOfLines,3))         
    #prepare matrix to return  返回的NumPy矩阵，解析完成的数据：numberOfLines行，3列
    classLabelVector = []                        
    #prepare labels return    返回的分类标签向量
    fr = open(filename)
    index = 0  
    #行的索引值
    for line in fr.readlines():
        line = line.strip()  
        #s.strip(rm),当rm空时，默认删除空白符（包括'\n','\r','\t',' '）
        listFromLine = line.split('\t')   
        #使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
        returnMat[index,:] = listFromLine[0:3]  
        #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)         
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        #根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表一般喜欢,3非常喜欢

        index += 1
    return returnMat,classLabelVector

从上面的代码可以看到，Python处理文本文件非常容易。

首先，需要知道文本包含多少行，打开文件得到文件的行数。

 fr = open(filename)  
 #打开文件
    numberOfLines = len(fr.readlines())          
    #get the number of lines in the file 得到文件行数

然后，建立以零填充的矩阵NumPy（实际上，NumPy是一个二位数组，这里暂时不用考虑其用途）。

    returnMat = zeros((numberOfLines,3))         
    #prepare matrix to return  返回的NumPy矩阵，解析完成的数据：numberOfLines行，3列

为了简化处理，将该矩阵的另一维度设置为固定值3，可以按照自己的实际需求增加相应的代码以适应变化的输入值。循环处理文件中的每行数据。

  for line in fr.readlines():
        line = line.strip()  
        #s.strip(rm),当rm空时，默认删除空白符（包括'\n','\r','\t',' '）
        listFromLine = line.split('\t')   
        #使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
        returnMat[index,:] = listFromLine[0:3]  
        #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)         
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        #根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力

在Python命令提示符下输入下面命令：

>>> import sys
>>> sys.path.append('E:\Python_Files\CodeofMe\Chapter2')
>>> import kNN
>>> reload(kNN)
'kNN' from 'E:\Python_Files\CodeofMe\Chapter2\kNN.pyc'>
>>> datingDataMat,datingLabels = kNN.file2matrix('E:\Python_Files\CodeofMe\Chapter2\datingTestSet.txt')

执行file2matrix函数之前，重新加载kNN.py模块，以确保更新的内容可以生效，否则Python将继续使用上次加载的kNN模块。

成功导入datingTestSet.txt文件中的数据之后，可以简单检查一下数据内容。

>>> datingDataMat
array([[  4.09200000e+04,   8.32697600e+00,   9.53952000e-01],
       [  1.44880000e+04,   7.15346900e+00,   1.67390400e+00],
       [  2.60520000e+04,   1.44187100e+00,   8.05124000e-01],
       ..., 
       [  2.65750000e+04,   1.06501020e+01,   8.66627000e-01],
       [  4.81110000e+04,   9.13452800e+00,   7.28045000e-01],
       [  4.37570000e+04,   7.88260100e+00,   1.33244600e+00]])
>>> datingLabels[0:20]
[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3]

现在已经从文本文件中导入了数据，并将其格式化为想要的格式，接着们需要了解数据的真实含义。我们可以直接浏览文本文件，但是这种方法非常不友好，一般来说我们采用图像化的方式直观地展示数据。下面就用Python工具来图形化展示数据内容，以便辨识出一些数据模式。

2-2-2 分析数据：使用Matplotlib创建散点图

首先，使用Matplotlib制作原始数据的散点图，在Python命令环境中，输入下列命令：

>>> from matplotlib.font_manager import FontProperties
>>> import matplotlib.lines as mlines
>>> import matplotlib
>>> import matplotlib.pyplot as plt
>>> import sys
>>> sys.path.append('E:\Python_Files\CodeofMe\Chapter2')
>>> import kNN
>>> reload(kNN)
'kNN' from 'E:\Python_Files\CodeofMe\Chapter2\kNN.pyc'>
>>> font = FontProperties(fname=r"C:\\WINDOWS\\Fonts\\simsun.ttc",size=14)
>>> datingDataMat,datingLabels = kNN.file2matrix('E:\Python_Files\CodeofMe\Chapter2\datingTestSet.txt')
>>> fig = plt.figure()
>>> ax = fig.add_subplot(111)
>>> ax.scatter(datingDataMat[:,1],datingDataMat[:,2])
>>> ax_title_text = ax.set_title(u'玩视频游戏所消耗时间占比和每周消费的冰淇凌公斤数',FontProperties=font)
>>> ax_xlabel_text = ax.set_xlabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
>>> ax_ylabel_text = ax.set_ylabel(u'每周消费的冰淇凌公斤数',FontProperties=font)
>>> plt.setp(ax_title_text, size=9, weight='bold', color='blue')
>>> plt.setp(ax_xlabel_text, size=9, weight='bold', color='blue')
>>> plt.setp(ax_ylabel_text, size=9, weight='bold', color='blue')
>>> plt.show()

输出效果如图所示：

由于没有使用样本分类的特征值，很难从图中看到任何有用的数据模式形式。于是，采用彩色或者其他的记号标记不同的样本，以便更好地理解数据信息。Matplotlib库提供的scatter函数支持个性化标记散点图上的点。为了方便，此处的程序并没有在Python GUI环境下编辑，而是在Python的一个IDE(集成开发环境)Ulipad下编写的，并生成了.py模块。其代码如下：

#! /usr/bin/env python
#coding=utf-8

from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib
import matplotlib.pyplot as plt
import sys
sys.path.append('E:\Python_Files\CodeofMe\Chapter2')
import kNN
reload(kNN)
font = FontProperties(fname=r"C:\\WINDOWS\\Fonts\\simsun.ttc",size=14)
datingDataMat,datingLabels = kNN.file2matrix('E:\Python_Files\CodeofMe\Chapter2\datingTestSet.txt')
fig = plt.figure()
ax = fig.add_subplot(111)
numberOfLabels = len(datingLabels)
LabelsColors = []
for i in datingLabels:
    if i == 1:
        LabelsColors.append('black')
    if i == 2:
        LabelsColors.append('blue')
    if i == 3:
        LabelsColors.append('red')
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],color=LabelsColors)
ax_title_text = ax.set_title(u'玩视频游戏所消耗时间占比和每周消费的冰淇凌公斤数',FontProperties=font)
ax_xlabel_text = ax.set_xlabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
ax_ylabel_text = ax.set_ylabel(u'每周消费的冰淇凌公斤数',FontProperties=font)
plt.setp(ax_title_text, size=9, weight='bold', color='blue')
plt.setp(ax_xlabel_text, size=9, weight='bold', color='blue')
plt.setp(ax_ylabel_text, size=9, weight='bold', color='blue')
didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6,label ='Dislike')
smallDoses = mlines.Line2D([], [], color='blue', marker='.',markersize=6, label ='SmallDoses')
largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label ='LargeDoses')
ax.legend(handles=[didntLike,smallDoses,largeDoses])
plt.show()

生成的图如图所示：

图采用不同的属性值可以得到更好的效果，能够清晰地标识了三个不同的样本分类区域，具有不同爱好的人其区域也不同。

2-2-3 准备数据：归一化数值

下表提出了四组数据：

–	玩视频游戏所耗时间百分比	没面获得的飞行常客里程数	每周消费的冰淇凌公斤数	样本分类
1	0.8	400	0.5	1
2	12	134000	0.9	3
3	0	20000	1.1	2
4	67	32000	0.1	2

如果想要计算样本3和样本4之间的举例，可以用下面的方法：

容易发现，上面方程中数字差值最大的属性对计算结果的影响最大，也就是说，每年获取的飞行常客里程数对于计算结果的影响将远远大于表中其他两个特征——玩视频游戏的和每周消费冰淇淋公井数——的影响。而产生这种现象的唯一原因，仅仅是因为飞行常客里程数远大于其他特征值。但一般认为这三种特征是同等重要的，因此作为三个等权重的特征之一，飞行常客里程数并不应该如此严重地影响到计算结果。

在处理这种不同取值范围的特征只是，我们通常采用的方法将数值归一化，如将取值范围处理为0到1或者-1到1之间。下面的公式可以将任意取值范围的特征值转化为0到1区间内的值：

newValue = (oldValue-min)/(max-min)

其中，min和max分别是数据集中的最小特征值和最大特征值。虽然改变数值取值范围增加了分类器的复杂度，但为了得到准确结果，这样做是有必要的。

接着，在kNN.py中增加一个新函数autoNorm()，该函数可以自动将数字特征转化为0到1的区间。

def autoNorm(dataSet):
    #最大值和最小值的范围    
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    #最大值和最小值的范围    
    ranges = maxVals - minVals
    #shape(dataSet)返回dataSet的矩阵行列数
    normDataSet = zeros(shape(dataSet))
    #返回dataSet的行数    
    m = dataSet.shape[0]
    #原始值减去最小值
    normDataSet = dataSet - tile(minVals, (m,1))
    #除以最大和最小值的差,得到归一化数据
    normDataSet = normDataSet/tile(ranges, (m,1))       
    #返回归一化数据结果,数据范围,最小值
    return normDataSet, ranges, minVals

函数autoNorm()中，将每列的最小值放在变量minVals中，将最大值放在变量maxVals中，其中dataSet.min(0)中的参数0使得函数可以从劣种选取最小值，而不是选取当前行的最小值。然后，函数计算可能的取值范围，并创建新的返回矩阵。正如前面给出的公式，为了归一化特征值，我们必须使用当前值减去最小值，然后除以取值范围。需要注意的是，特征值矩阵有1000X3个值，而minVals和range的值都是1X3。为了解决这个问题，我们使用NumPy库中tile()函数将变量内容复制成输入矩阵同样大小的矩阵，注意这是具体特征值相除，而对于某些数值处理软件包，可能意味着矩阵除法，但在NumPy库中，矩阵除法需要使用函数linalg.solve(matA,matB)。

重新加载模块，执行kNN.py模块，执行autoNorm函数，检测函数的执行结果：

>>> reload(kNN)
>>> normMat,ranges,minVals = kNN.autoNorm(datingDataMat)
>>> normMat
array([[ 0.44832535,  0.39805139,  0.56233353],
       [ 0.15873259,  0.34195467,  0.98724416],
       [ 0.28542943,  0.06892523,  0.47449629],
       ..., 
       [ 0.29115949,  0.50910294,  0.51079493],
       [ 0.52711097,  0.43665451,  0.4290048 ],
       [ 0.47940793,  0.3768091 ,  0.78571804]])
>>> ranges
array([  9.12730000e+04,   2.09193490e+01,   1.69436100e+00])
>>> minVals
array([ 0.      ,  0.      ,  0.001156])

2-2-4 测试算法：作为完成程序验证分类器

机器学习算法一个很重要的工作就是评估算法的正确率，通常我们只提供已有数据的90%作为训练样本来训练分类器，而是用其余的10%数据去测试分类器，检测分类器的正确率。

对于分类器来说，错误流程就是分类器给出错误结果的次数除以测试数据的总数，完美分类器的错误流程为0，而错误率为1.0的分类器不会给出任何正确的分类结果。代码里定义了计数器变量，每次分类器错误地分类数据，计数器就加1，程序执行完成后计数器的结果除以数据点总数即是错误率。

为了测试分类器效果，在kNN.py文件中创建函数datingClassTest，其程序代码如下：

def datingClassTest():
    #取所有数据的百分之十
    hoRatio = 0.10      
    #将返回的特征矩阵和分类向量分别存储到datingDataMat和datingLabels中 
    datingDataMat,datingLabels = file2matrix('E:\Python_Files\CodeofMe\Chapter2\datingTestSet.txt')       
    #load data setfrom file
    #数据归一化,返回归一化后的矩阵,数据范围,数据最小值  
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #获得normMat的行数
    m = normMat.shape[0]
    #百分之十的测试数据的个数
    numTestVecs = int(m*hoRatio)
    #分类错误计数
    errorCount = 0.0
    for i in range(numTestVecs):
        #前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],4)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount/float(numTestVecs))
    print errorCount

上诉函数首先使用file2matrix和autoNorm()函数从文件中读取数据并将其转换为归一化特征值。接着计算测试向量的数量，次不决定了normMat向量中那些数据用于测试，哪些数据用于分类器的训练样本；然后将这两部分数据输入到原始kNN分类器函数classify0。最后，函数计算错误率并输出结果。

在Python命令提示符下重新加载kNN模块，并输入kNN.datingClassTest()，执行分类器测试程序，得到下面的输出结果：

>>> reload(kNN)
>>> kNN.datingClassTest()
the classifier came back with: 3, the real answer is: 3
the classifier came back with: 2, the real answer is: 2
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 2, the real answer is: 2

......

the classifier came back with: 3, the real answer is: 3
the classifier came back with: 2, the real answer is: 2
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 1, the real answer is: 1
the total error rate is: 0.030000
3.0

分类器处理约会数据集的错误率是3.0%，这是不错的结果。可以改变呐喊声uatingClassTest内变量hoRatio和变量的值，检测错误率是否随着变算法值的变化而增加。依赖于分类算法、数据集和程序设置，分类器的输出结果可能有很大的不同。

这个例子表明我们可以正确地预测分类，错误率仅仅是3.0%，用户完全可以输入位置对象的属性信息，由分类软件来帮助她判定某一对象的可交往成都：不喜欢，一般喜欢，非常喜欢。

2-2-5 使用算法：构建完成可用系统

如今，完成在数据商队分类器进行测试，现在可以是用这个分类器位用户来对人们分类。给出下列程序，给用户提供他对对方喜欢成都进行预测：

def classifyPerson():
    resultList = ['not at all','in small dose','in large doses']
    percentTats = float(raw_input("persontage of time spend playing video games?"))
    ffMiles = float(raw_input("frequent flier miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat,datingLabels = file2matrix('E:\Python_Files\CodeofMe\Chapter2\datingTestSet.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles,percentTats,iceCream])
    classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
    print "You will probaly like this person: ",resultList[classifierResult - 1]

为了了解程序的实际运行效果，输入下列程序：

>>> reload(kNN)
'kNN' from 'E:\Python_Files\CodeofMe\Chapter2\kNN.pyc'>
>>> kNN.classifyPerson()
persontage of time spend playing video games?10
frequent flier miles earned per year?10000
liters of ice cream consumed per year?0.5
You will probaly like this person:  in small dose
>>>

目前为止，已经完成在数据上建立分类器。

2-3示例：手写识别系统

此部分将一步步地构造使用k-禁令分类器的手写识别系统。为了简单器件，选则构造的系统只能是识别数字0到9。需要识别的数字已经使用图形处理然间，处理成具有相同的色彩和大小：宽高都是32像素x32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用存储卡空间，但是为了方便理解，我们还是将图像转行成文本格式。

示例：使用k-近邻算法手写识别系统

1. 收集数据：提供文本文件。
2. 准备数据：编写函数classify0()，将图像格式转换为分类器使用的list格式。
3. 分析数据：在Python命令提示符中检查数据，确保它符合要求。
4. 训练算法：此步骤不适用k-近邻算法。
5. 测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的区别在于测试样本是已经完成分类的数据，如果预测分类与实际分类不同，则表明一个错误。
6. 实用算法：本列没有完成成此步骤，从图像中提取数字，并完成数字识别，美国的邮件分拣系统就是一个实际运行的类似系统。

2-3-1 准备数据：将图像转换为测试向量

实际图像存储在trainingDisgits和testDigists，且目录trainingDigits中包含了大约2000个例子，每个例子的内容是一个数字，如图所示是一个数字为6的例子：

本例将使用目录trainningDigits中的数据训练分类器，使用目录testDigits中的数据测试分类效果。

为了使用前面两个例子的分类器，我们必须将图像格式化处理为一个向量。我们将把一个32x32的二进制图像矩阵转换为1x1024的向量，这样前两节使用的分类器就可以处理数字图像信息。

首先边写一段函数img2vector,将图像转换为向量：该函数创建1x1042的NumPy数组，然后打开给定的文件，循环读出文件的前32行，并将每行的头32个字符值存储在NumPy，最后返回数组。

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

将上诉代码输入kNN.py文件中，在Pythong命令行中输入下列命令测试imag2vector函数。

>>> testVector = kNN.img2vector('E:\Python_Files\CodeofMe\Chapter2\\testDigits\\0_45.txt')
>>> testVector[0,0:30]
array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,
        1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.])

过程插入笔记
导入文件时出错：

>>> testVector = kNN.img2vector('E:\Python_Files\CodeofMe\Chapter2\testDigits\0_1.txt')

Traceback (most recent call last):
  File "", line 1, in 
    testVector = kNN.img2vector('E:\Python_Files\CodeofMe\Chapter2\testDigits\0_1.txt')
  File "E:\Python_Files\CodeofMe\Chapter2\kNN.py", line 178, in img2vector
    returnVect = zeros((1,1024))
TypeError: file() argument 1 must be encoded string without null bytes, not str

正确的导入：
将

testVector = kNN.img2vector('E:\Python_Files\CodeofMe\Chapter2\testDigits\0_1.txt')

改为：

testVector = kNN.img2vector('E:\Python_Files\CodeofMe\Chapter2\\testDigits\\0_45.txt')

参考上诉报错的解决方法

2-3-2 测试算法：使用k-近邻算法识别手写数字

上节已经完成数据处理成分类器可以识别的格式，本节将这些数据输入到分类器，检测到分类器的执行效果。在kNN.py文件中加入函数handwritingClassTest()。写入这些代码之前，必须确保将from os import listdir写入文件的其实部分，这段代码的主要功能是从os模块中导入函数listdir，它可以列出给定目录的文件名。

def handwritingClassTest():
    hwLabels = []
    #测试集的Labels
    trainingFileList = listdir('E:\Python_Files\CodeofMe\Chapter2\\trainingDigits')           
    #load the training set
    #返回trainingDigits目录下的文件名    
    m = len(trainingFileList)
    #返回文件夹下文件的个数    
    trainingMat = zeros((m,1024))
    #初始化训练的Mat矩阵,测试集
    for i in range(m):
    #从文件名中解析出训练集的类别
        fileNameStr = trainingFileList[i]
        #获得文件的名字
        fileStr = fileNameStr.split('.')[0]     
        #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        #获得分类的数字        
        hwLabels.append(classNumStr)
        #将获得的类别添加到hwLabels中
        trainingMat[i,:] = img2vector('E:\Python_Files\CodeofMe\Chapter2\\trainingDigits\\%s' % fileNameStr)
        #将每一个文件的1x1024数据存储到trainingMat矩阵中
    testFileList = listdir('E:\Python_Files\CodeofMe\Chapter2\\testDigits')        
    #iterate through the test set
    #返回testDigits目录下的文件列表
    errorCount = 0.0
    #错误检测计数    
    mTest = len(testFileList)
    #测试数据的数量    
    for i in range(mTest):
    #从文件中解析出测试集的类别并进行分类测试        
        fileNameStr = testFileList[i]
        #获得文件的名字
        fileStr = fileNameStr.split('.')[0]     
        #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        #获得测试集的1x1024向量,用于训练        
        vectorUnderTest = img2vector('E:\Python_Files\CodeofMe\Chapter2\\testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        #获得预测结果
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

注意的是该程序中函数img2vector和listdir文件路径是自己选择的，根据自己训练数据和测试数据存放的位置编写正确的路径

将trainingDigits目录中文件内容存储在列表中，然后可以得到目录中有多少文件，并将其存储在变量m中。接着，代码创建一个m行1024列的训练矩阵，该矩阵的每行数据存储一个图像。可以从文件名中解析出分类数字。该目录下的文件按照规则命名，如文件9_45.txt的分类是9，它是数字9的第45哥实例。然后我们可以将类代码存储在hwLabels向量中，使用前面讨论的img2vector函数载入图像。在下一步中，我们对testDigits目录中的文件执行相似的操作，不同之处是我们并不将这个目录下的文件载入矩阵中，而是使用classify0()函数测试该目录下的每个文件。由于文件中的值已经在0-1之间，所以本届并不需要使用autoNorm()函数。

在Python命令提示符中输入kNN.handwritingClassTest()，测试该函数的输出结果。依赖于机器速度，加载数据集可能需要花费很长世间，然后函数开始，输出结果如下所示。

>>> reload(kNN)
>>> kNN.handwritingClassTest()
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0

......

the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9

the total number of errors is: 11
the total error rate is: 0.011628

k-近邻算法识别手写数字数据及，错误率为1.2%。改变变量k的值、修改函数handwritingClassTest随机选取训练样本、改变训练样本的数目，都会对k-近邻算法的错误率。

实际使用这个算法是，算法的执行效率并不高。因为算法需要为每个测试向量做2000次举例计算，每个距离计算包括1024哥维度浮点运算，总计要执行900次，此外，我们还需要未测试向量准备2MB的存储空间。k-决策树作为k-近邻算法的优化版，可以减少存储空间和计算时间的开销。

2-4 本章小结

k-近邻算法是分类数据最简单最有效的算法，他必须保存全部数据集，如果训练数据集很大，必须使用大量的存储空间。此外，由于必须对数据集中的每个数据计算距离值，实际使用时可能非常耗时。

k-近邻算法的另一个缺陷是他无法给出任何数据的基础结构信息，因为我们无法知晓平均实例样本和典型实例样本据有什么特征。所以通过后面使用改率测量方法处理分类问题，该算法可以解决这个问题。

参考文献

《机器大作战》

你可能感兴趣的:(学习笔记,python,读书笔记,数据,算法,测试)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
398顺境，逆境戴骁勇
2018.11.27周二雾霾最近儿子进入了一段顺境期，今天表现尤其不错。今天的数学测试成绩喜人，没有出现以往的计算错误，整个卷面书写工整，附加题也在规定时间内完成且做对。为迎接体育测试的锻炼有了质的飞跃。坐位体前屈成绩突飞猛进，估测成绩能达到12cm，这和上次测试的零分来比，简直是逆袭。儿子还在不断锻炼和提升，唯恐到时候掉链子。跑步姿势在我的调教下，逐渐正规起来，速度随之也有了提升。今晚测试的50
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">