渴鱼y

机器学习实战 - k-近邻法

仅仅作为自己的学习笔记。学习内容原址：https://blog.csdn.net/c406495762/article/details/75172850

简介

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。
k-近邻算法用距离度量的方法判断一个新数据所属的分类。

Python3代码实现

1、准备数据集

import numpy as np

'''
功能：
	创建数据集
参数：
	无
返回值：
	group - 数据集
	labels - 数据集对应的分类标签
'''
def createDataSet():
	# 四组二维特征值
	group = np.array([[1, 101], [5, 89], [108, 5], [115, 8]])
	# 四组特征对应的标签
	labels = ['爱情片', '爱情片', '动作片', '动作片']
	return group, labels

if __name__ == '__main__':
	# 创建数据集
	group, labels = createDataSet()
	# 打印数据集
	print(group)
	print(labels)

2、k-近邻算法实现

import numpy as np
import operator

'''
功能：
	实现K-临近算法——根据两点距离公式计算距离，选择距离最小的前k个点，并返回分类结果。
参数：
	inX - 用于分类的数据（测试集）
	dataSet - 用于训练的数据（训练集）
	labels - 分类标签
	k - KNN算法参数——选择距离最小的k个点
返回值：
	sortedClassCount[0][0] - 分类结果
'''
def classify0(inX, dataSet, labels, k):
	'''
	numpy.shape()函数返回一个tuple数据类型，表示数组的尺寸。
	如果为二维数组，则返回结果为：(行数， 列数)
	所以取返回结果的索引为0对应的值，即为行数，即数据集中数据的个数
	'''
	dataSetSize = dataSet.shape[0] 
	'''
	numpy.tile(A, reps)函数表示：把参数A指定的数组重复reps次。
	下面一条语句表示：
		行向量方向上重复inX共dataSetSize次(纵向), 在列向量方向上重复inX共1次(横向)
	'''
	inXMat = np.tile(inX, (dataSetSize, 1))
	# inXMat矩阵与dataSet矩阵对应位置上相减 【(x1-x2), (y1-y2)】
	diffMat = inXMat - dataSet
	# 平方 【(x1-x2)^2, (y1-y2)^2】
	sqDiffMat = diffMat ** 2
	# sum()所有元素相加; sum(axis=0)列相加; sum(axis=1)行相加 【(x1-x2)^2 + (y1-y2)^2】
	sqDistances = sqDiffMat.sum(axis=1)
	# 开方，得到距离 【((x1-x2)^2 + (y1-y2)^2)^0.5】
	distances = sqDistances ** 0.5

	'''
	numpy.argsort()函数返回从小到大排序后原来的索引位置组成的序列
	'''
	sortedDistIndices = distances.argsort()
	# 定一个记录类别次数的字典
	classCount = {}
	# 取出前k个元素的类别
	for i in range(k):
		voteIlabel = labels[sortedDistIndices[i]]
		'''
			dict.get(key, default=None)方法, 返回指定键的值, 如果值不在字典中返回默认值
			下面的语句：计算类别次数
		'''        
		classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
	'''
		sorted(key=operator.itemgetter(1)) 根据字典的值进行排序
		sorted(key=operator.itemgetter(0)) 根据字典的键进行排序
		下面的语句：根据字典的值降序排序字典中的元素
	'''
	sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
	# 返回匹配次数最多的类别, 即新数据inX的类别
	return sortedClassCount[0][0]

3、测试

import numpy as np
import cds # createDataSet()
import KNN # classify0()

if __name__ == '__main__':
    # 创建数据集
    group, labels = cds.createDataSet()
    # 测试集
    test = [101,20]
    # kNN分类
    test_class = KNN.classify0(test, group, labels, 3)
    # 打印分类结果
    print(test_class)

对上面图中红色点进行分类的结果：

用K-临近法进行分类其实是比较好时的。这里用时1.1s。

这个例子中，只有两个特征（接吻镜头、打斗镜头），所以组合成一个二维平面，对于二维平面中的两个点来说，使用两点距离公式求距离。那么对于n维特征来说呢？答案是使用 欧氏距离(也称欧几里德度量) 来求两点之间的距离：

使用K-临近法进行分类的结果是否总是正确的呢？答案是否定的，分类器并不会得到百分百正确的结果。我们可以使用多种方法检测分类器的正确率。此外分类器的性能也会受到多种因素的影响，如分类器设置和数据集等。不同的算法在不同数据集上的表现可能完全不同。通过大量的测试数据，我们可以得到分类器的错误率：分类器给出错误结果的次数除以测试执行的总数。错误率是常用的评估方法，主要用于评估分类器在某个数据集上的执行效果。完美分类器的错误率为0，最差分类器的错误率是1.0。同时，我们也不难发现，k-近邻算法没有进行数据的训练，直接使用未知的数据与已知的数据进行比较，从而得到结果。因此，可以说k-邻近算法不具有显式的学习过程。

k-近邻算法的一般流程

以上的介绍并不是完整的k-近邻算法流程。k-近邻算法的一般流程如下：

收集数据：可以使用爬虫进行数据的收集，也可以使用第三方提供的免费或收费的数据。一般来讲，数据放在txt文本文件中，按照一定的格式进行存储，便于解析及处理。
准备数据：使用Python解析、预处理数据。
分析数据：可以使用很多方法对数据进行分析，例如使用Matplotlib将数据可视化。
测试算法：计算错误率。
使用算法：错误率在可接受范围内，就可以运行k-近邻算法进行分类。

k-近邻算法实战之约会网站配对效果判定

题目背景不再赘述。

1. 收集数据

datingTestSet.txt数据下载

2. 准备数据：解析数据

在将上述特征数据输入到分类器前，必须将待处理的数据的格式改变为分类器可以接收的格式。分类器接收的数据是什么格式的？从上小结已经知道，要将数据分成两部分：特征矩阵和对应的分类标签向量。

在kNN_test02.py文件中创建名为file2matrix的函数，以此来处理输入格式问题。将datingTestSet.txt放到与kNN_test02.py相同目录下，编写代码如下：

import numpy as np

'''
功能：
	打开并解析文件后，对数据进行分类：1代表不喜欢, 2代表魅力一般, 3代表极具魅力
参数：
	filename - 文件名
返回值：
	returnMat - 特征矩阵
	classLabelVector - 分类Label向量
'''
def file2matrix(filename):
	# 打开文件
	fr = open(filename)
	# 读取文件内容
	arrayOfLines = fr.readlines()
	# 得到文件行数
	numberOfLines = len(arrayOfLines)
	# 初始化特征矩阵：numberOfLines行，3列
	returnMat = np.zeros((numberOfLines, 3))
	# 初始化分类标签向量
	classLabelVector = []
	# 遍历文件内容，补全特征矩阵和分类标签向量
	index = 0
	for line in arrayOfLines:		
		line = line.strip() # 删除空白符(包括'\n','\r','\t',' ')
		listFromLine = line.split('\t') # 将字符串根据'\t'分隔符进行切片
		# 将数据前三列提取出来，写入returnMat中
		returnMat[index,:] = listFromLine[0:3]
		# 根据文件内容对喜欢的程度进行分类：1代表不喜欢, 2代表魅力一般, 3代表极具魅力
		# 同时将这些标签写入classLabelVector中
		if listFromLine[-1] == 'didntLike':
			classLabelVector.append(1)
		elif listFromLine[-1] == 'smallDoses':
			classLabelVector.append(2)
		elif listFromLine[-1] == 'largeDoses':
			classLabelVector.append(3)
		index += 1
	return returnMat, classLabelVector

if __name__ == '__main__':
	filename = "datingTestSet.txt"
	# 打开并处理数据
	datingDataMat, datingLabels = file2matrix(filename)
	print(datingDataMat)
	print(datingLabels)

运行效果如下：

可以看到，我们已经顺利导入数据，并对数据进行解析，格式化为分类器需要的数据格式。

接着我们需要了解数据的真正含义。可以通过友好、直观的图形化的方式观察数据。

3. 分析数据：数据可视化

在kNN_test02.py文件中编写名为showdatas的函数，用来将数据可视化。编写代码如下：

from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
import numpy as np
import OperateFile # file2matrix()

'''
功能：
	可视化数据
参数：
	datingDataMat - 特征矩阵
	datingLabels - 分类标签
返回值：
	无
'''
def showdatas(datingDataMat, datingLabels):
	# 设置汉字格式
	font = FontProperties(fname=r"C:\WINDOWS\Fonts\simsun.ttc", size=18)
	
	# 将fig画布分隔成1行1列, 不共享x轴和y轴, fig画布的大小为(13,8)
	# 当nrow=2 nclos=2时, 代表fig画布被分为四个区域(两行两列; axs[0][0]表示第一行第一个区域)
	fig, axs = plt.subplots(nrows=2, ncols=2, sharex=False, sharey=False, figsize=(13, 8))
	
	# 设置不同标签时，对应的散点图中点的颜色
	numberOfLabels = len(datingLabels)
	LabelsColors = []
	for i in datingLabels:
		if i == 1:
			LabelsColors.append('pink')
		if i == 2:
			LabelsColors.append('orange')
		if i == 3:
			LabelsColors.append('yellow')

	# 画出散点图
	# 1、以datingDataMat矩阵的第一、二列作为横纵坐标轴(散点大小为15, 透明度为0.5)
	axs[0][0].scatter(x=datingDataMat[:,0], y=datingDataMat[:,1], color=LabelsColors, s=15, alpha=.5)
	axs0_title_text = axs[0][0].set_title(u'每年获得的飞行常客里程数与玩视频游戏所消耗时间占比', FontProperties=font)
	axs0_xlabel_text = axs[0][0].set_xlabel(u'每年获得的飞行常客里程数', FontProperties=font)
	axs0_ylabel_text = axs[0][0].set_ylabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
	plt.setp(axs0_title_text, size=12, weight='bold', color='black') 
	plt.setp(axs0_xlabel_text, size=9, weight='bold', color='gray') 
	plt.setp(axs0_ylabel_text, size=9, weight='bold', color='gray')
	# 2、以datingDataMat矩阵的第一、三列作为横纵坐标轴(散点大小为15, 透明度为0.5)
	axs[0][1].scatter(x=datingDataMat[:,0], y=datingDataMat[:,2], color=LabelsColors, s=15, alpha=.5)
	axs1_title_text = axs[0][1].set_title(u'每年获得的飞行常客里程数与每周消费的冰激淋公升数', FontProperties=font)
	axs1_xlabel_text = axs[0][1].set_xlabel(u'每年获得的飞行常客里程数', FontProperties=font)
	axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs1_title_text, size=12, weight='bold', color='black') 
	plt.setp(axs1_xlabel_text, size=9, weight='bold', color='gray') 
	plt.setp(axs1_ylabel_text, size=9, weight='bold', color='gray')
	# 3、以datingDataMat矩阵的第二、三列作为横纵坐标轴(散点大小为15, 透明度为0.5)
	axs[1][0].scatter(x=datingDataMat[:,1], y=datingDataMat[:,2], color=LabelsColors, s=15, alpha=.5)
	axs2_title_text = axs[1][0].set_title(u'玩视频游戏所消耗时间占比与每周消费的冰激淋公升数', FontProperties=font)
	axs2_xlabel_text = axs[1][0].set_xlabel(u'玩视频游戏所消耗时间占比', FontProperties=font)
	axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs2_title_text, size=12, weight='bold', color='black') 
	plt.setp(axs2_xlabel_text, size=9, weight='bold', color='gray') 
	plt.setp(axs2_ylabel_text, size=9, weight='bold', color='gray')
	# 4、设置图例
	didntLike = mlines.Line2D([], [], color='pink', marker='.', markersize=6, label='didntLike')
	smallDoses = mlines.Line2D([], [], color='orange', marker='.', markersize=6, label='smallDoses')
	largeDoses = mlines.Line2D([], [], color='yellow', marker='.', markersize=6, label='largeDoses')
	# 5、添加图例
	axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
	# 6、显式散点图
	plt.show()

if __name__ == '__main__':
	filename = "datingTestSet.txt"
	# 打开并处理数据
	datingDataMat, datingLabels = OperateFile .file2matrix(filename)
	showdatas(datingDataMat, datingLabels)

运行效果如下：

通过图示可以很直观的发现数据的规律，比只考虑玩游戏所消耗时间占比与每年获得的飞行常客里程数时，给人的感觉就是海伦喜欢有生活质量的男人。为什么这么说呢？每年获得的飞行常客里程数表明，海伦喜欢能享受飞行常客奖励计划的男人，但是不能经常坐飞机，疲于奔波，满世界飞。同时，这个男人也要玩视频游戏，并且占一定时间比例。能到处飞，又能经常玩游戏的男人是什么样的男人？很显然，有生活质量，并且生活悠闲的人。我（原作者）的分析，仅仅是通过可视化的数据总结的个人看法，每个人的感受应该也是不尽相同。

4. 准备数据：数据归一化

给出四组样本数据：

样本	玩游戏所耗时间百分比	每年获得的飞行常用里程数	每周消费的冰淇淋公升数	样本分类
1	0.8	400	0.5	1
2	12	134000	0.9	3
3	0	20000	1.1	2
4	67	32000	0.1	2

计算样本3和样本4之间的距离：

我们很容易发现，上面方程中数字差值最大的属性对计算结果的影响最大，也就是说，每年获取的飞行常客里程数对于计算结果的影响将远远大于其他两个特征——玩视频游戏所耗时间占比和每周消费冰淇淋公斤数的影响。

产生这种现象仅仅是因为飞行常客里程数这一特征值总是远大于其他特征值。但海伦认为这三种特征是同等重要的，因此作为三个等权重的特征之一，飞行常客里程数并不应该如此严重地影响到计算结果。

在处理这种不同取值范围的特征值时，我们通常采用的方法是 将数值归一化。如，将取值范围处理为０到１或者-１到１之间。下面的公式可以将任意取值范围的特征值转化为０到１区间内的值：

$n e w V a l u e = (o l d V a l u e - m i n) / (m a x - m i n)$

其中min和max分别是数据集某一特征中的最小特征值和最大特征值。虽然改变数值取值范围增加了分类器的复杂度，但为了得到准确结果，我们必须这样做。

编写名为autoNorm的函数，用来将数据归一化。代码如下：

import numpy as np
'''
功能：
	归一化数据
参数：
	dataSet - 特征矩阵
返回值：
	normDataSet - 归一化后的特征矩阵
	ranges - 数据范围
	minVals - 数据最小值
'''
def autoNorm(dataSet):
	# 获得每个特征里对应的最小特征值和最大特征值
	minVals = dataSet.min(0)
	maxVals = dataSet.max(0)
	# 最大值和最小值差值
	ranges = maxVals - minVals
	# 创建一个与特征矩阵dataSet行列数一样的空矩阵，用来存放归一化的特征矩阵
	normDataSet = np.zeros(np.shape(dataSet))
	# 得到矩阵的行数
	m = dataSet.shape[0]
	'''
	numpy.tile(A, reps)函数表示：把参数A指定的数组重复reps次。
	下面一条语句表示：
		行向量方向上重复minVals共m次(纵向), 在列向量方向上重复minVals共1次(横向)
		然后另原始值减去最小值
	'''
	normDataSet = dataSet - np.tile(minVals, (m, 1))
	# 再除以最大、最小值的差, 得到归一化数据
	normDataSet = normDataSet / np.tile(ranges, (m, 1))
	return normDataSet, ranges, minVals

主函数：

import OperateFile # file2matrix()
import HandleData # autoNorm()

if __name__ == '__main__':
	filename = "datingTestSet.txt"
	# 打开并处理数据
	datingDataMat, datingLabels = OperateFile.file2matrix(filename)
	# 数据归一化
	normDataSet, ranges, minVals = HandleData.autoNorm(datingDataMat)
	print(normDataSet)
	print(ranges)
	print(minVals)

运行结果：

可以看到，我们已经顺利将数据归一化了。

5. 测试算法：验证分类器

机器学习算法一个很重要的工作就是评估算法的正确率，通常我们只提供已有数据的90%作为训练样本来训练分类器，而使用其余的10%数据去测试分类器，检测分类器的正确率。需要注意的是，10%的测试数据应该是随机选择的（这种“随机选择”其实是需要遵循一定的理论基础的，只不过这里就不再讲解了，《西瓜书》里有看到相关内容）。

创建函数datingClassTest()：

import OperateFile # file2matrix()
import HandleData # autoNorm()
import KNN # classify0()

'''
功能：
	测试算法，并计算出正确率
参数：
	无
返回值：
	无
'''
def datingClassTest():
	filename = "datingTestSet.txt"
	# 打开并处理文件中的数据
	datingDataMat, datingLabels = OperateFile.file2matrix(filename)
	# 数据归一化
	normMat, ranges, minVals = HandleData .autoNorm(datingDataMat)

	# 获得normMat的行数
	m = normMat.shape[0]
	# 取所有数据的10%
	hoRatio = 0.10
	# 计算10%的测试数据的个数
	numTestVecs = int(m * hoRatio)

	# 统计使用该算法进行分类时分类错误的次数
	errorCount = 0.0
	# 前numTestVecs个数据作为测试集（其余numTestVecs ~ m之间的数据作为训练集）
	for i in range(numTestVecs):
		classifierResult = KNN.classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 4)
		print("分类结果：%d\t真实类别：%d" % (classifierResult, datingLabels[i]))
		if classifierResult != datingLabels[i]:
			errorCount += 1.0
	print("错误率：%f%%" % ((errorCount / float(numTestVecs)) * 100))

if __name__ == '__main__':
	HandleData.datingClassTest()

运行结果：

我的错误率算出来和原博主的不同啊，为什么？？？程序都一样。。。数据有所改变？不可能啊。。。额，我不要纠结这些细枝末节了！

我们可以改变函数datingClassTest()内变量hoRatio和分类器k的值，检测错误率是否随着变量值的变化而增加。依赖于分类算法、数据集和程序设置，分类器的输出结果可能有很大的不同。

6. 应用算法：构建完整可用系统

写一个小程序：输入约会网站上目标对象的信息，程序会给出她对男方喜欢程度的预测值。

创建函数classifyPerson()，代码如下：

import numpy as np
import OperateFile # file2matrix()
import HandleData # autoNorm()
import KNN # classify0()

'''
功能：
	输入约会网站上目标对象的信息，程序会给出她对男方喜欢程度的预测值。
参数：
	无
返回值：
	无
'''
def classifyPerson():
	# 保存可能的结果
	resultList = ['讨厌', '有些喜欢', '非常喜欢']
	# 输入三维特征
	precentTats = float(input("玩视频游戏所耗时间百分比: "))
	ffMiles = float(input("每年获得的飞行常客里程数: "))
	iceCream = float(input("每周消费的冰激淋公升数: "))

	filename = "datingTestSet.txt"
	# 打开并处理文件中的数据
	datingDataMat, datingLabels = OperateFile.file2matrix(filename)
	# 数据归一化
	normMat, ranges, minVals = HandleData.autoNorm(datingDataMat)

	# 生成测试集
	inArr = np.array([precentTats, ffMiles, iceCream])
	# 测试集归一化
	norminArr = (inArr - minVals) / ranges
    # 得到分类结果
	classifierResult = KNN.classify0(norminArr, normMat, datingLabels, 3)
    # 打印结果
	print("你可能%s这个人！" % (resultList[classifierResult-1]))


if __name__ == '__main__':
	ApplyPerson.classifyPerson()

运行结果：

k-近邻算法实战之 sklearn手写数字识别

对于需要识别的数字，假定已经使用图形处理软件处理成具有相同的色彩和大小、宽高为32像素x32像素。但是为了方便理解，我们将图片转换为文本（尽管采用本文格式存储图像不能有效地利用内存空间）。数字的文本格式如下图所示：

与此同时，这些文本格式存储的数字的文件命名也很有特点，格式为：数字的值_该数字的样本序号，如下所示。

实战使用的数据集：https://github.com/Jack-Cherish/Machine-Learning/tree/master/kNN/3.%E6%95%B0%E5%AD%97%E8%AF%86%E5%88%AB

这里不再讲解用Python写k-邻域分类器的方法，因为这不是本小节的重点。接下来，我们将使用强大的第三方Python科学计算库Sklearn构建手写数字系统。

Sklearn简介

Scikit learn 也简称sklearn，是机器学习领域当中最知名的python模块之一。sklearn包含了很多机器学习的方式：

Classification 分类
Regression 回归
Clustering 非监督分类
Dimensionality reduction 数据降维
Model Selection 模型选择
Preprocessing 数据与处理

使用sklearn可以很方便地让我们实现一个机器学习算法。一个复杂度算法的实现，使用sklearn可能只需要调用几行API即可。所以学习sklearn，可以有效减少我们特定任务的实现周期。

Sklearn安装

自行解决。

Sklearn实现k-近邻算法

sklearn.neighbors模块实现了k-近邻算法（官网：https://scikit-learn.org/stable/modules/classes.html#module-sklearn.neighbors）。

这个模块下的KNeighborsClassifier即为k-近邻算法（官网：https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier）：

KNneighborsClassifier的八个参数说明（对官网中的说明进行的翻译）：

n_neighbors：默认为5，就是k-NN的k的值，选取最近的k个点。
weights：默认是uniform，参数可以是uniform、distance，也可以是用户自己定义的函数。uniform是均等的权重，就说所有的邻近点的权重都是相等的。distance是不均等的权重，距离近的点比距离远的点的影响大。用户自定义的函数，接收距离的数组，返回一组维数相同的权重。
algorithm：快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索，brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，每个结点是一个超矩形，在维数小于20时效率高。ball tree是为了克服kd树高纬失效而发明的，其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体。
leaf_size：默认是30，这个是构造的kd树和ball树的大小。这个值的设置会影响树构建的速度和搜索速度，同样也影响着存储树所需的内存大小。需要根据问题的性质选择最优的大小。
metric：用于距离度量，默认度量是minkowski，也就是p=2的欧氏距离(欧几里德度量)。
p：距离度量公式。在上小结，我们使用欧氏距离公式进行距离度量。除此之外，还有其他的度量方法，例如曼哈顿距离。这个参数默认为2，也就是默认使用欧式距离公式进行距离度量。也可以设置为1，使用曼哈顿距离公式进行距离度量。
metric_params：距离公式的其他关键参数，这个可以不管，使用默认的None即可。
n_jobs：并行处理设置。默认为1，临近点搜索并行工作数。如果为-1，那么CPU的所有cores都用于并行工作。

KNeighborsClassifier提供了以一些方法供我们使用：

具体用法请查看官网手册。下面直接讲手写数字识别系统的实现。

Sklearn小试牛刀

我们知道数字图片是32x32的二进制图像，为了方便计算，我们可以将32x32的二进制图像转换为1x1024的向量。对于sklearn的KNeighborsClassifier输入可以是矩阵，不用一定转换为向量，不过为了跟自己写的k-近邻算法分类器对应上，这里也做了向量化处理。然后构建kNN分类器，利用分类器做预测。创建kNN_test04.py文件，编写代码如下：

import numpy as np
import operator
from os import listdir
from sklearn.neighbors import KNeighborsClassifier as kNN


'''
功能：
	将32x32的二进制图像转换为1x1024向量。
参数：
	filename - 文件名
返回值：
	returnVect - 返回的二进制图像的1x1024向量
'''
def img2vector(filename):
	returnVect = np.zeros((1, 1024))
	fr = open(filename)
	# 按行读取（共32行）
	for i in range(32):
		lineStr = fr.readline()
		# 把一行中的32个元素添加到returnVect中
		for j in range(32):
			returnVect[0, 32*i + j] = int(lineStr[j])
	return returnVect


'''
功能：
	手写数字分类测试
参数：
	无
返回值：
	无
'''
def handwritingClassTest():
	# 得到trainingDigits目录下的所有文件名
	trainingFileList = listdir('trainingDigits')
	# 得到trainingDigits目录下文件个数
	m = len(trainingFileList)
	# 初始化训练集的特征矩阵
	trainingMat = np.zeros((m, 1024))

	# 初始化训练集的Labels
	hwLabels = []

	# 从文件名中解析出训练集的类别
	for i in range(m):
		# 获得文件名
		fileNameStr = trainingFileList[i]
		# 获得分类的数字
		classNumber = int(fileNameStr.split('_')[0])
		# 将获得的类别添加到hwLabels中
		hwLabels.append(classNumber)
		# 将每一个文件内的1x1024数据存储到trainingMat矩阵中
		trainingMat[i,:] = img2vector('trainingDigits/%s' % (fileNameStr))

	# 构建KNN分类器
	neigh = kNN(n_neighbors = 3, algorithm = 'auto')
	# 拟合模型：trainingMat为训练集的特征矩阵, hwLabels为对应的标签
	neigh.fit(trainingMat, hwLabels)
	# 错误结果计数
	errorCount = 0.0

	# 得到测试集
	testFileList = listdir('testDigits')
	mTest = len(testFileList)
	for i in range(mTest):
		fileNameStr = testFileList[i]
		classNumber = int(fileNameStr.split('_')[0])
		vectorUnderTest = img2vector('testDigits/%s' % (fileNameStr))
		# 获得预测结果
		classifierResult = neigh.predict(vectorUnderTest)
		print("分类返回结果为%d\t真实结果为%d" % (classifierResult, classNumber))
		if (classifierResult != classNumber):
			errorCount += 1.0
	print("总共错了%d个数据\n错误率为%f%%" % (errorCount, errorCount/mTest * 100))


if __name__ == '__main__':
	handwritingClassTest()

运行结果：

上述代码使用的algorithm参数是auto，更改algorithm参数为brute，使用暴力搜索，你会发现，运行时间变长了，变为10s+。更改n_neighbors参数，你会发现，不同的值，检测精度也是不同的。自己可以尝试更改这些参数的设置，加深对其函数的理解。

实例-用Sklearn再实现约会网站

import numpy as np
import operator
from os import listdir
from sklearn.neighbors import KNeighborsClassifier as kNN
import OperateFile

if __name__ == '__main__':
	filename = "datingTestSet.txt"
	# 打开并处理文件中的数据
	datingDataMat, datingLabels = OperateFile.file2matrix(filename)
	
	# 构建KNN分类器
	neigh = kNN(n_neighbors = 4, algorithm = 'auto', p=3)
	# 拟合模型
	neigh.fit(datingDataMat, datingLabels)
	
	# 取出测试集
	m = len(datingDataMat)
	# 取所有数据的10%
	hoRatio = 0.10
	# 计算10%的测试数据的个数
	numTestVecs = int(m * hoRatio)

	errorCount = 0.0

	# 前numTestVecs个数据作为测试集（其余numTestVecs ~ m之间的数据作为训练集）
	for i in range(numTestVecs):
		classifierResult = neigh.predict([datingDataMat[i, :]])
		print("分类结果：%d\t真实类别：%d" % (classifierResult, datingLabels[i]))
		if classifierResult != datingLabels[i]:
			errorCount += 1.0
	print("错误率：%f%%" % ((errorCount / float(numTestVecs)) * 100))

运行结果：

总结

kNN算法的优缺点

优点

简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；
可用于数值型数据和离散型数据；
训练时间复杂度为O(n)；无数据输入假定；
对异常值不敏感。

缺点

计算复杂性高；空间复杂性高；
样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；
一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。
最大的缺点是无法给出数据的内在含义。

其他

关于algorithm参数kd_tree的原理，可以查看《统计学方法李航》书中的讲解；
关于距离度量的方法还有切比雪夫距离、马氏距离、巴氏距离等。

你可能感兴趣的:(#,1.,机器学习,机器学习,K-临近,分类模型,回归模型)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
人生的每一步路都算数 sheli
如果你想打工，一直靠打工赚钱，那你就会不断的希望自己变得更专业，不断的希望能够获得更好的工作机会，升职加薪。如果你的目标志不在此，而是拥有自己的企业，那你的选择就会出现差别。在认真打工的人眼里，会“不务正业”，会总是选择不同岗位，甚至放弃高薪机会。但是这背后都是有更加长远的规划。成功富人所必需的管理技能包括：1．对现金流的管理。2．对系统的管理。3．对人员的管理。所以，在没有获得这些能力之前，只要
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

机器学习实战 - k-近邻法

简介

Python3代码实现

1、准备数据集

2、k-近邻算法实现

3、测试

k-近邻算法的一般流程

k-近邻算法实战 之 约会网站配对效果判定

1. 收集数据

2. 准备数据：解析数据

3. 分析数据：数据可视化

4. 准备数据：数据归一化

5. 测试算法：验证分类器

6. 应用算法：构建完整可用系统

k-近邻算法实战 之 sklearn手写数字识别

Sklearn简介

Sklearn安装

Sklearn实现k-近邻算法

Sklearn小试牛刀

实例-用Sklearn再实现约会网站

总结

kNN算法的优缺点

优点

缺点

其他

你可能感兴趣的:(#,1.,机器学习,机器学习,K-临近,分类模型,回归模型)

k-近邻算法实战之约会网站配对效果判定

k-近邻算法实战之 sklearn手写数字识别