凌晨四点天使之城

Machine Learning in Action —机器学习实战（Python2.7）：k-近邻算法

参考博客：https://blog.csdn.net/c406495762/article/details/75172850

运行平台：Ubuntu 16.04 Linux （双系统）

Python版本：2.7（Linux自带解释器，为python2.7安装package用pip install package_name,若为python3.x安装package则用pip3 install package_name。有时可能提示在install后面加上 ++user，当权限不够时在命令行最前面加上sudo，回车，输入密码即可）

教材：Machine Learning in Action —机器学习实战

正文开始：

1. k-近邻法(k-nearest neighbor, k-NN)原理解析：

k-近邻法是一种很简单的分类与回归算法。给定一个有标签的样本数据集合（有标签的训练数据集合），即这个集合中各个数据的类别是知道的，因为我们给它们每一个大贴上了一个用于表明它们身份的明确的标签。这个给定的集合中众多数据点的分布是和其中每一个数据的属性（特征）挂钩的，而不是我们开发者设计的，明确这点很重要，因为这是k-近邻算法的关键。

当我们输入新的没有标签的数据点（身份不明）时，我们如何判断这个数据点的类别呢？我们可以将这个新的数据点（没有标签的）与已有的有标签的数据点的特征进行比较，然后找出与这个新来的数据点（无标签且身份不明）最相似（最近）的一群已知标签的点，让这些点进行民主投票（少数服从多数）来决定新来的数据点的所属类（标签）。

以上就是k-近邻法的原理。

2. 举例说明：

以上说的可能不太好理解，毕竟文字很抽象。那我就找一些课本上的一些插图来说一下

我们现在有如上所示4个电影（4个标签已知的数据点），也就是已有的数据集合（训练样本集合）。

这个数据集有两个特征：打斗镜头、接吻镜头。以及他们的标签：爱情片、动作片。

以我们正常人的阅片经验来看：接吻镜头多的，自然是爱情片；打斗镜头多的，自然是动作片。所以，现在丢给我一部电影，然后告知我打斗镜头和接吻镜头的数目，就算你不告诉我这个电影的标签（种类），我也可以结合已有信息做出判断。

我们今天学习的k-近邻法，也是可以做到这一点的。不过k-近邻法仅仅是从我们给的数据出发去做出判断，而我们人类有丰富的经验来辅助我们判断，所以，我们人类更强。

再输入新的数据，某个小电影打斗镜头数为2，接吻镜头数为102，我们想都不用想这就是爱情片，同样k-近邻算法也会告诉我们这个是爱情片。然后又来一个小电影，嗯。。。。打斗镜头数为49，接吻镜头数为51，这个时候就有点尴尬了，真心不好判断，这俩动作的镜头数目很接近，虽然经验告诉我可能是一部“爱情动作片”。。。但是人家k-近邻算法不会尴尬的，它不会想这么多。因为在它的眼里，电影类型只有爱情片和动作片，它会找到样本集（训练集合）中特征最相似数据(最邻近)的分类标签（一般情况下是大于等于一的奇数，因为就怕出现两方投票势均力敌的尴尬情况），然后判断是动作片还是爱情片，但绝不会是"爱情动作片"。现在问题来了，什么算是最近的？

3.什么是“近”，“距离”的度量：

是否相似？距离是否近？是从特征的分析比较的出来的。还好，我们这里的有关电影的数据集，特征只有俩，还是能比较直观的理解的。且看下图：

上图中，蓝色圆点代表爱情片，橙色圆点代表动作片。那红色圆点属于哪一个类别呢？

我们从上面散点图大概能猜出：这个红色圆点极有可能是动作片！因为它和两个已知的动作片的圆点（橙色的）的距离更近！

k-近邻算法用什么方法进行判断呢？没错，就是距离度量。这个电影分类的例子有2个特征，也就是在2维实数向量空间，可以使用我们高中学过的两点距离公式计算距离（具体公式详见下方）。这样，上面遗留的问题就有了答案。

其中AB的绝对值代表两点间的距离，(x1,y1)代表点A的坐标，(x2,y2)代表点B的坐标。

运用上面的公式我们进行计算：

(101,20)->动作片(108,5)的距离约为16.55
(101,20)->动作片(115,8)的距离约为18.44
(101,20)->爱情片(5,89)的距离约为118.22
(101,20)->爱情片(1,101)的距离约为128.69

所以，红色圆点标记的电影到动作片 (108,5)的距离最近，为16.55。如果算法直接根据这个结果，判断该红色圆点标记的电影为动作片，这个算法就是最近邻算法，而非k-近邻算法。那么k-邻近算法是什么呢？k-近邻算法步骤如下：

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
按照距离递增次序排序；
确定前k个点所在类别的出现频率；
返回前k个点所出现频率最高的类别作为当前点的预测分类。

4. 熟悉了原理，那就来代码实现吧！

我使用的是Ubuntu 16.04 Linux系统，所以我创建代码文件是直接右键新建空文档，然后直接更改文件名以.py结尾就行了。

我们先写一个创建数据集的脚本。（create_data.py）

# -*- coding: UTF-8 -*-
import numpy as np #先导入必要的package
"""
函数说明：创建数据集

Parameters:
    无
Returns:
    group - 数据集
    labels - 分类标签
Modify:
    2018.11.8
"""

def createDataSet():
	#四组二维特征
	group = np.array([[1,101],[5,89],[108,5],[115,8]])
	#四组特征的标签
	labels = ['Love','Love','Action','Action']
	return group, labels

if __name__ =='__main__':
	#创建数据集
	group, labels = createDataSet()
	#打印数据
	print(group)
	print(labels)

在桌面打开终端（Ctrl+Alt+t）,然后 cd 桌面 (因为我把脚本放在桌面)，然后python create_dataset.py 命令行运行。显示图下图所示：

数据集我们生产完毕，那么接下来写一个实现k-近邻算法的脚本。（k_nn.py）

# -*- coding: UTF-8 -*-
import numpy as np 
import operator    #导入必要的package

"""
函数说明：k-nn算法，分类器

Parameters:
    inX - 用于分类的数据（测试集）
    dataSet - 用于训练的数据（训练集）
    labels - 分类标签
    k - KNN算法参数，选择距离最小的k个点

Returns：
    sortedClassCount[0][0] - 分类结果

Modify：
    2018.11.8
"""

def  classify0(inX,dataSet,labels,k):
	#numpy函数shape[0]返回dataSet的行数
	dataSetSize = dataSet.shape[0]
	#在列向量方向上重复inX共1次（横向），行向量方向上重复inX共dataSetSize次（纵向）
	diffMat = np.tile(inX,(dataSetSize,1))-dataSet
	#二维特征相减后平方
	sqDiffMat = diffMat**2
	#sum()所有元素相加，sum(0)列相加，sum(1)行相加
	sqDistances = sqDiffMat.sum(axis=1)
	#开放，计算出距离
	distances =  sqDistances**0.5
	#返回distances中元素从小到达排序后的索引值
	sortedDistIndices = distances.argsort()
	#定一个记录类别次数的字典
	classCount = {}
	for i in range(k):
		#取出前k个元素的类别
		voteIlabel = labels[sortedDistIndices[i]]
		#dict.get(key,default=None),字典的get()方法，返回指定键的值，如果值不在字典中，则返回默认值
		#计算类别次数
		classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
	#python3中用items()替换python2中的iteritems()
	#key=operator.itemgetter(1)根据字典的值进行排序
	#key=operator.itemgetter(0)根据字典的键进行排序
	#reverse降序排序字典
	sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
	#返回次数最多的类别，即所需要分类的类别
	return sortedClassCount[0][0]

我估计这段代码中np.tile()这个方法的理解是至关重要的，可参考链接https://blog.csdn.net/qq_18433441/article/details/54897250。

接下来的事情就是把上面两段代码组合起来（创建数据集+k-nn算法）。

我们要写一个新的脚本，kNN_test01.py。

# -*- coding: UTF-8 -*-
import numpy as np
import operator #先导入必要的package
"""
函数说明：创建数据集

Parameters:
    无
Returns:
    group - 数据集
    labels - 分类标签
Modify:
    2018.11.8
"""

def createDataSet():
	#四组二维特征
	group = np.array([[1,101],[5,89],[108,5],[115,8]])
	#四组特征的标签
	labels = ['Love','Love','Action','Action']
	return group, labels


"""
函数说明：k-nn算法，分类器

Parameters:
    inX - 用于分类的数据（测试集）
    dataSet - 用于训练的数据（训练集）
    labels - 分类标签
    k - KNN算法参数，选择距离最小的k个点

Returns：
    sortedClassCount[0][0] - 分类结果

Modify：
    2018.11.8
"""

def  classify0(inX,dataSet,labels,k):
	#numpy函数shape[0]返回dataSet的行数
	dataSetSize = dataSet.shape[0]
	#在列向量方向上重复inX共1次（横向），行向量方向上重复inX共dataSetSize次（纵向）
	diffMat = np.tile(inX,(dataSetSize,1))-dataSet
	#二维特征相减后平方
	sqDiffMat = diffMat**2
	#sum()所有元素相加，sum(0)列相加，sum(1)行相加
	sqDistances = sqDiffMat.sum(axis=1)
	#开放，计算出距离
	distances =  sqDistances**0.5
	#返回distances中元素从小到达排序后的索引值
	sortedDistIndices = distances.argsort()
	#定一个记录类别次数的字典
	classCount = {}
	for i in range(k):
		#取出前k个元素的类别
		voteIlabel = labels[sortedDistIndices[i]]
		#dict.get(key,default=None),字典的get()方法，返回指定键的值，如果值不在字典中，则返回默认值
		#计算类别次数
		classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
	#python3中用items()替换python2中的iteritems()
	#key=operator.itemgetter(1)根据字典的值进行排序
	#key=operator.itemgetter(0)根据字典的键进行排序
	#reverse降序排序字典
	sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
	#返回次数最多的类别，即所需要分类的类别
	return sortedClassCount[0][0]
	

if __name__ =='__main__':
	#创建数据集
	group, labels = createDataSet()
	#测试集
	test = [101,20]
	#kNN分类
	test_class = classify0(test,group,labels,3)
	#打印分类结果
	print(test_class)

运行结果：

结果如上图所示即表示集成完毕。

可以看到，结果和我们的经验判断差不了多少。在这个电影数据集中的特征是2维的（也就是说每个数据点有两个特征），这样的距离度量可以用两点距离公式计算，但是如果是更高维的呢？对，没错。我们可以用欧氏距离(也称欧几里德度量)。我们高中所学的两点距离公式就是欧氏距离在二维空间上的公式，也就是欧氏距离的n的值为2的情况。

到这里，有人可能会问：“分类器何种情况下会出错？”或者“答案是否总是正确的？”答案是否定的，分类器并不会得到百分百正确的结果，我们可以使用多种方法检测分类器的正确率。此外分类器的性能也会受到多种因素的影响，如分类器设置和数据集等。不同的算法在不同数据集上的表现可能完全不同。为了测试分类器的效果，我们可以使用已知答案的数据，当然答案不能告诉分类器，检验分类器给出的结果是否符合预期结果。通过大量的测试数据，我们可以得到分类器的错误率-分类器给出错误结果的次数除以测试执行的总数。错误率是常用的评估方法，主要用于评估分类器在某个数据集上的执行效果。完美分类器的错误率为0，最差分类器的错误率是1.0。同时，我们也不难发现，k-近邻算法没有进行数据的训练，直接使用未知的数据与已知的数据进行比较，得到结果。因此，可以说k-邻近算法不具有显式的学习过程。（没有学习这个实际操作！）

5.实战才是提高对算法理解以及代码能力的关键！

之前的代码演练都是比较简单的操作。完整的k-近邻算法流程如下：

收集数据：可以使用爬虫（python？）进行数据的收集，也可以使用第三方提供的免费或收费的数据。一般来讲，数据放在txt文本文件中，按照一定的格式进行存储，便于解析及处理。
准备数据：使用Python解析、预处理数据。（不容易）
分析数据：可以使用很多方法对数据进行分析，例如使用Matplotlib将数据可视化。
测试算法：计算错误率。
使用算法：错误率在可接受范围内，就可以运行k-近邻算法进行分类。

接下来就按照课本上的例子来进行实战吧～

A.妹子相亲记：

某妹子一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选，但她并不是喜欢每一个人（说明网站不靠谱～）。经过一番总结，她发现自己交往过的人可以进行如下分类：

不喜欢的人
魅力一般的人
极具魅力的人

妹子收集约会数据已经有了一段时间，她把这些数据存放在文本文件datingTestSet.txt中，每个样本数据占据一行，总共有1000行。（佩服，怪不得我还是单身狗=.=）

海伦还是个码农，她把自己制作的数据集放到了github上了。厉害厉害。。。（链接如下）

https://github.com/Jack-Cherish/Machine-Learning/blob/master/kNN/2.%E6%B5%B7%E4%BC%A6%E7%BA%A6%E4%BC%9A/datingTestSet.txt

妹子收集的样本数据主要包含以下3种特征：

每年获得的飞行常客里程数
玩视频游戏所消耗时间百分比
每周消费的冰淇淋公升数

我实在无法理解妹子的思维。。。可能是女人心海底针吧！

我们可以打开海伦制作的数据集先看一下：

既然数据准备好了，那我们就来解析数据吧～

在将上述特征数据输入到分类器前，必须将待处理的数据的格式改变为分类器可以接收的格式。分类器接收的数据是什么格式的？从上小结已经知道，要将数据分类两部分，即特征矩阵和对应的分类标签向量。我们先创建个kNN_test02.py脚本，在kNN_test02.py文件中创建名为file2matrix的函数，以此来处理输入格式问题。将datingTestSet.txt放到与kNN_test02.py相同目录下，编写代码如下：

# -*- coding: UTF-8 -*-
import numpy as np #导入必要的package
"""
函数说明：打开并解析文件，对数据进行分类：1代表不喜欢，2代表魅力一般，3代表极具魅力


Parameters：
	filename - 文件名
Returns：
	returnMat - 特征矩阵
	classLabelVector - 分类Label向量

Modify：
	2018.11.8
"""
def file2matrix(filename):
	#打开文件
	fr = open(filename)
	#读取文件所有内容
	arrayOLines = fr.readlines()
	#得到文件行数
	numberOfLines = len(arrayOLines)
	#返回的Numpy矩阵，解析完成的数据：numberOfLines行，3列
	returnMat = np.zeros((numberOfLines,3))
	#返回分类标签向量
	classLabelVector = []
	#行的索引值
	index = 0 
	for line in arrayOLines:
		#s.strip(rm),当rm空时，默认删除空白符（包括'\n','\r','\t',' ' )
		line = line.strip()
		#使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
		listFromLine = line.split('\t')
		#将数据前三列取出来，存放到returnMat的Numpy矩阵中，也就是特征矩阵
		returnMat[index,:] = listFromLine[0:3]
		#根据文本中标记的喜欢程度进行分类，1代表不喜欢，2代表魅力一般，3代表极具魅力,类似于独热编码
		if listFromLine[-1] == 'didntLike':
				classLabelVector.append(1)
		if listFromLine[-1] == 'smallDoses':
				classLabelVector.append(2)
		if listFromLine[-1] == 'largeDoses':
				classLabelVector.append(3)
		index += 1 
	return returnMat,classLabelVector
"""
函数说明：main函数

Parameters：
   无
Returns：
   无
Modify：
   2018.11.8
"""
if __name__ == '__main__':
	#打开文件名
	filename = "datingTestSet.txt"
	#打开并处理数据
	datingDataMat,datingLabels = file2matrix(filename)
	print(datingDataMat)
	print(datingLabels)

我估计这段代码中line.strip()这个方法的理解是至关重要的，可参考链接：http://www.runoob.com/python/att-string-strip.html

终端显示如下图所示

我们已经顺利导入数据，并对数据进行解析，格式化为分类器需要的数据格式。接着我们需要了解数据的真正含义。可以通过友好、直观的图形化的方式观察数据。

分析数据之数据可视化：

我们要在kNN_test02.py文件中编写名为showdatas的函数，用来将数据可视化。编写代码如下：

# -*- coding: UTF-8 -*-
import numpy as np #导入必要的package
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
"""
函数说明：打开并解析文件，对数据进行分类：1代表不喜欢，2代表魅力一般，3代表极具魅力


Parameters：
	filename - 文件名
Returns：
	returnMat - 特征矩阵
	classLabelVector - 分类Label向量

Modify：
	2018.11.8
"""
def file2matrix(filename):
	#打开文件
	fr = open(filename)
	#读取文件所有内容
	arrayOLines = fr.readlines()
	#得到文件行数
	numberOfLines = len(arrayOLines)
	#返回的Numpy矩阵，解析完成的数据：numberOfLines行，3列
	returnMat = np.zeros((numberOfLines,3))
	#返回分类标签向量
	classLabelVector = []
	#行的索引值
	index = 0 
	for line in arrayOLines:
		#s.strip(rm),当rm空时，默认删除空白符（包括'\n','\r','\t',' ' )
		line = line.strip()
		#使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
		listFromLine = line.split('\t')
		#将数据前三列取出来，存放到returnMat的Numpy矩阵中，也就是特征矩阵
		returnMat[index,:] = listFromLine[0:3]
		#根据文本中标记的喜欢程度进行分类，1代表不喜欢，2代表魅力一般，3代表极具魅力,类似于独热编码
		if listFromLine[-1] == 'didntLike':
				classLabelVector.append(1)
		if listFromLine[-1] == 'smallDoses':
				classLabelVector.append(2)
		if listFromLine[-1] == 'largeDoses':
				classLabelVector.append(3)
		index += 1 
	return returnMat,classLabelVector
"""
函数说明：数据可视化

Parameters:
    datingDataMat - 特征矩阵
    datingLabels - 分类Label

Returns:
    无

Modify:
    2018.11.8
"""

def showdatas(datingDataMat, datingLabels):
	#设置汉字格式
	font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
	#将fig画布分隔成1行1列,不共享x轴和y轴,fig画布的大小为(13,8)
	#当nrow=2,nclos=2时,代表fig画布被分为四个区域,axs[0][0]表示第一行第一个区域
	fig, axs = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8))
	
	numberOfLabels = len(datingLabels)
	LabelsColors = []
	for i in datingLabels:
		if i == 1:
			LabelsColors.append('black')
		if i == 2:
			LabelsColors.append('orange')
		if i == 3:
			LabelsColors.append('red')
	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第二列(玩游戏)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][0].scatter(x=datingDataMat[:,0], y=datingDataMat[:,1], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs0_title_text = axs[0][0].set_title(u'每年获得的飞行常客里程数与玩视频游戏所消耗时间占比',FontProperties=font)
	axs0_xlabel_text = axs[0][0].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs0_ylabel_text = axs[0][0].set_ylabel(u'玩视频游戏所消耗时间占',FontProperties=font)
	plt.setp(axs0_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs0_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs0_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][1].scatter(x=datingDataMat[:,0], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs1_title_text = axs[0][1].set_title(u'每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
	axs1_xlabel_text = axs[0][1].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs1_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs1_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs1_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第二(玩游戏)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[1][0].scatter(x=datingDataMat[:,1], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs2_title_text = axs[1][0].set_title(u'玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
	axs2_xlabel_text = axs[1][0].set_xlabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
	axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs2_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs2_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs2_ylabel_text, size=7, weight='bold', color='black')
	#设置图例
	didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
	smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
	largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
	#添加图例
	axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
	#显示图片
	plt.show()

"""
函数说明：main函数

Parameters：
   无
Returns：
   无
Modify：
   2018.11.8
"""
if __name__ == '__main__':
	#打开文件名
	filename = "datingTestSet.txt"
	#打开并处理数据
	datingDataMat,datingLabels = file2matrix(filename)
	showdatas(datingDataMat, datingLabels)
	#print(datingDataMat)
	#print(datingLabels)

运行上述代码，可以看到可视化结果如下图

通过数据可以很直观的发现数据的规律，比如以玩游戏所消耗时间占比与每年获得的飞行常客里程数，只考虑这二维的特征信息，给我的感觉就是海伦喜欢有生活质量的男人。为什么这么说呢？每年获得的飞行常客里程数表明，海伦喜欢能享受飞行常客奖励计划的男人，但是不能经常坐飞机，疲于奔波，满世界飞。同时，这个男人也要玩视频游戏，并且占一定时间比例。能到处飞，又能经常玩游戏的男人是什么样的男人？很显然，有生活质量，并且生活悠闲的人。我的分析，仅仅是通过可视化的数据总结的个人看法。我想，每个人的感受应该也是不尽相同。

我们很容易发现，上面方程中数字差值最大的属性对计算结果的影响最大，也就是说，每年获取的飞行常客里程数对于计算结果的影响将远远大于表2.1中其他两个特征-玩视频游戏所耗时间占比和每周消费冰淇淋公斤数的影响。而产生这种现象的唯一原因，仅仅是因为飞行常客里程数远大于其他特征值。但海伦认为这三种特征是同等重要的，因此作为三个等权重的特征之一，飞行常客里程数并不应该如此严重地影响到计算结果。
在处理这种不同取值范围的特征值时，我们通常采用的方法是将数值归一化，如将取值范围处理为０到１或者-１到１之间。下面的公式可以将任意取值范围的特征值转化为０到１区间内的值：

newValue = (oldValue - min) / (max - min)

其中min和max分别是数据集中的最小特征值和最大特征值。虽然改变数值取值范围增加了分类器的复杂度，但为了得到准确结果，我们必须这样做。在kNN_test02.py文件中编写名为autoNorm的函数，用该函数自动将数据归一化。代码如下：

# -*- coding: UTF-8 -*-
import numpy as np #导入必要的package
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
"""
函数说明：打开并解析文件，对数据进行分类：1代表不喜欢，2代表魅力一般，3代表极具魅力


Parameters：
	filename - 文件名
Returns：
	returnMat - 特征矩阵
	classLabelVector - 分类Label向量

Modify：
	2018.11.8
"""
def file2matrix(filename):
	#打开文件
	fr = open(filename)
	#读取文件所有内容
	arrayOLines = fr.readlines()
	#得到文件行数
	numberOfLines = len(arrayOLines)
	#返回的Numpy矩阵，解析完成的数据：numberOfLines行，3列
	returnMat = np.zeros((numberOfLines,3))
	#返回分类标签向量
	classLabelVector = []
	#行的索引值
	index = 0 
	for line in arrayOLines:
		#s.strip(rm),当rm空时，默认删除空白符（包括'\n','\r','\t',' ' )
		line = line.strip()
		#使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
		listFromLine = line.split('\t')
		#将数据前三列取出来，存放到returnMat的Numpy矩阵中，也就是特征矩阵
		returnMat[index,:] = listFromLine[0:3]
		#根据文本中标记的喜欢程度进行分类，1代表不喜欢，2代表魅力一般，3代表极具魅力,类似于独热编码
		if listFromLine[-1] == 'didntLike':
				classLabelVector.append(1)
		if listFromLine[-1] == 'smallDoses':
				classLabelVector.append(2)
		if listFromLine[-1] == 'largeDoses':
				classLabelVector.append(3)
		index += 1 
	return returnMat,classLabelVector
"""
函数说明:对数据进行归一化

Parameters:
    dataSet - 特征矩阵
Returns:
    normDataSet - 归一化后的特征矩阵
    ranges - 数据范围
    minVals - 数据最小值

Modify:
    2017-03-24
"""
def autoNorm(dataSet):
	#获得数据的最小值
	minVals = dataSet.min(0)
	maxVals = dataSet.max(0)
	#最大值和最小值的范围
	ranges = maxVals - minVals
	#shape(dataSet)返回dataSet的矩阵行列数
	normDataSet = np.zeros(np.shape(dataSet))
	#返回dataSet的行数
	m = dataSet.shape[0]
	#原始值减去最小值
	normDataSet = dataSet - np.tile(minVals, (m, 1))
	#除以最大和最小值的差,得到归一化数据
	normDataSet = normDataSet / np.tile(ranges, (m, 1))
	#返回归一化数据结果,数据范围,最小值
	return normDataSet, ranges, minVals

"""
函数说明：数据可视化

Parameters:
    datingDataMat - 特征矩阵
    datingLabels - 分类Label

Returns:
    无

Modify:
    2018.11.8
"""

def showdatas(datingDataMat, datingLabels):
	#设置汉字格式
	font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
	#将fig画布分隔成1行1列,不共享x轴和y轴,fig画布的大小为(13,8)
	#当nrow=2,nclos=2时,代表fig画布被分为四个区域,axs[0][0]表示第一行第一个区域
	fig, axs = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8))
	
	numberOfLabels = len(datingLabels)
	LabelsColors = []
	for i in datingLabels:
		if i == 1:
			LabelsColors.append('black')
		if i == 2:
			LabelsColors.append('orange')
		if i == 3:
			LabelsColors.append('red')
	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第二列(玩游戏)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][0].scatter(x=datingDataMat[:,0], y=datingDataMat[:,1], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs0_title_text = axs[0][0].set_title(u'每年获得的飞行常客里程数与玩视频游戏所消耗时间占比',FontProperties=font)
	axs0_xlabel_text = axs[0][0].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs0_ylabel_text = axs[0][0].set_ylabel(u'玩视频游戏所消耗时间占',FontProperties=font)
	plt.setp(axs0_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs0_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs0_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][1].scatter(x=datingDataMat[:,0], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs1_title_text = axs[0][1].set_title(u'每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
	axs1_xlabel_text = axs[0][1].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs1_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs1_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs1_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第二(玩游戏)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[1][0].scatter(x=datingDataMat[:,1], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs2_title_text = axs[1][0].set_title(u'玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
	axs2_xlabel_text = axs[1][0].set_xlabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
	axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs2_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs2_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs2_ylabel_text, size=7, weight='bold', color='black')
	#设置图例
	didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
	smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
	largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
	#添加图例
	axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
	#显示图片
	plt.show()

"""
函数说明：main函数

Parameters：
   无
Returns：
   无
Modify：
   2018.11.8
"""
if __name__ == '__main__':
	#打开文件名
	filename = "datingTestSet.txt"
	#打开并处理数据
	datingDataMat,datingLabels = file2matrix(filename)
	#showdatas(datingDataMat, datingLabels)
	#print(datingDataMat)
	#print(datingLabels)
	normDataSet, ranges, minVals = autoNorm(datingDataMat)
	print(normDataSet)
	print(ranges)
	print(minVals)

终端显示如下图所示：

从上图的运行结果可以看到，我们已经顺利将数据归一化了，并且求出了数据的取值范围和数据的最小值，这两个值是在分类的时候需要用到的，直接先求解出来，也算是对数据预处理了。

接下来就是：测试算法，验证分类器

机器学习算法一个很重要的工作就是评估算法的正确率，通常我们只提供已有数据的90%作为训练样本来训练分类器，而使用其余的10%数据去测试分类器，检测分类器的正确率。需要注意的是，10%的测试数据应该是随机选择的，由于海伦提供的数据并没有按照特定目的来排序，所以我么你可以随意选择10%数据而不影响其随机性。

为了测试分类器效果，在kNN_test02.py文件中创建函数datingClassTest，编写代码如下：

# -*- coding: UTF-8 -*-
import numpy as np #导入必要的package
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
import operator
"""
函数说明:kNN算法,分类器

Parameters:
    inX - 用于分类的数据(测试集)
    dataSet - 用于训练的数据(训练集)
    labes - 分类标签
    k - kNN算法参数,选择距离最小的k个点
Returns:
    sortedClassCount[0][0] - 分类结果

Modify:
    2018.11.8
"""
def classify0(inX, dataSet, labels, k):
	#numpy函数shape[0]返回dataSet的行数
	dataSetSize = dataSet.shape[0]
	#在列向量方向上重复inX共1次(横向),行向量方向上重复inX共dataSetSize次(纵向)
	diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
	#二维特征相减后平方
	sqDiffMat = diffMat**2
	#sum()所有元素相加,sum(0)列相加,sum(1)行相加
	sqDistances = sqDiffMat.sum(axis=1)
	#开方,计算出距离
	distances = sqDistances**0.5
	#返回distances中元素从小到大排序后的索引值
	sortedDistIndices = distances.argsort()
	#定一个记录类别次数的字典
	classCount = {}
	for i in range(k):
		#取出前k个元素的类别
		voteIlabel = labels[sortedDistIndices[i]]
		#dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
		#计算类别次数
		classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
	#python3中用items()替换python2中的iteritems()
	#key=operator.itemgetter(1)根据字典的值进行排序
	#key=operator.itemgetter(0)根据字典的键进行排序
	#reverse降序排序字典
	sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
	#返回次数最多的类别,即所要分类的类别
	return sortedClassCount[0][0]

"""
函数说明：打开并解析文件，对数据进行分类：1代表不喜欢，2代表魅力一般，3代表极具魅力


Parameters：
	filename - 文件名
Returns：
	returnMat - 特征矩阵
	classLabelVector - 分类Label向量

Modify：
	2018.11.8
"""
def file2matrix(filename):
	#打开文件
	fr = open(filename)
	#读取文件所有内容
	arrayOLines = fr.readlines()
	#得到文件行数
	numberOfLines = len(arrayOLines)
	#返回的Numpy矩阵，解析完成的数据：numberOfLines行，3列
	returnMat = np.zeros((numberOfLines,3))
	#返回分类标签向量
	classLabelVector = []
	#行的索引值
	index = 0 
	for line in arrayOLines:
		#s.strip(rm),当rm空时，默认删除空白符（包括'\n','\r','\t',' ' )
		line = line.strip()
		#使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
		listFromLine = line.split('\t')
		#将数据前三列取出来，存放到returnMat的Numpy矩阵中，也就是特征矩阵
		returnMat[index,:] = listFromLine[0:3]
		#根据文本中标记的喜欢程度进行分类，1代表不喜欢，2代表魅力一般，3代表极具魅力,类似于独热编码
		if listFromLine[-1] == 'didntLike':
				classLabelVector.append(1)
		if listFromLine[-1] == 'smallDoses':
				classLabelVector.append(2)
		if listFromLine[-1] == 'largeDoses':
				classLabelVector.append(3)
		index += 1 
	return returnMat,classLabelVector
"""
函数说明:对数据进行归一化

Parameters:
    dataSet - 特征矩阵
Returns:
    normDataSet - 归一化后的特征矩阵
    ranges - 数据范围
    minVals - 数据最小值

Modify:
    2017-03-24
"""
def autoNorm(dataSet):
	#获得数据的最小值
	minVals = dataSet.min(0)
	maxVals = dataSet.max(0)
	#最大值和最小值的范围
	ranges = maxVals - minVals
	#shape(dataSet)返回dataSet的矩阵行列数
	normDataSet = np.zeros(np.shape(dataSet))
	#返回dataSet的行数
	m = dataSet.shape[0]
	#原始值减去最小值
	normDataSet = dataSet - np.tile(minVals, (m, 1))
	#除以最大和最小值的差,得到归一化数据
	normDataSet = normDataSet / np.tile(ranges, (m, 1))
	#返回归一化数据结果,数据范围,最小值
	return normDataSet, ranges, minVals

"""
函数说明：数据可视化

Parameters:
    datingDataMat - 特征矩阵
    datingLabels - 分类Label

Returns:
    无

Modify:
    2018.11.8
"""

def showdatas(datingDataMat, datingLabels):
	#设置汉字格式
	font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
	#将fig画布分隔成1行1列,不共享x轴和y轴,fig画布的大小为(13,8)
	#当nrow=2,nclos=2时,代表fig画布被分为四个区域,axs[0][0]表示第一行第一个区域
	fig, axs = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8))
	
	numberOfLabels = len(datingLabels)
	LabelsColors = []
	for i in datingLabels:
		if i == 1:
			LabelsColors.append('black')
		if i == 2:
			LabelsColors.append('orange')
		if i == 3:
			LabelsColors.append('red')
	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第二列(玩游戏)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][0].scatter(x=datingDataMat[:,0], y=datingDataMat[:,1], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs0_title_text = axs[0][0].set_title(u'每年获得的飞行常客里程数与玩视频游戏所消耗时间占比',FontProperties=font)
	axs0_xlabel_text = axs[0][0].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs0_ylabel_text = axs[0][0].set_ylabel(u'玩视频游戏所消耗时间占',FontProperties=font)
	plt.setp(axs0_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs0_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs0_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][1].scatter(x=datingDataMat[:,0], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs1_title_text = axs[0][1].set_title(u'每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
	axs1_xlabel_text = axs[0][1].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs1_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs1_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs1_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第二(玩游戏)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[1][0].scatter(x=datingDataMat[:,1], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs2_title_text = axs[1][0].set_title(u'玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
	axs2_xlabel_text = axs[1][0].set_xlabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
	axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs2_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs2_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs2_ylabel_text, size=7, weight='bold', color='black')
	#设置图例
	didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
	smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
	largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
	#添加图例
	axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
	#显示图片
	plt.show()
"""
函数说明:分类器测试函数

Parameters:
    无
Returns:
    normDataSet - 归一化后的特征矩阵
    ranges - 数据范围
    minVals - 数据最小值

Modify:
    2017-03-24
"""
def datingClassTest():
	#打开的文件名
	filename = "datingTestSet.txt"
	#将返回的特征矩阵和分类向量分别存储到datingDataMat和datingLabels中
	datingDataMat, datingLabels = file2matrix(filename)
	#取所有数据的百分之十
	hoRatio = 0.10
	#数据归一化,返回归一化后的矩阵,数据范围,数据最小值
	normMat, ranges, minVals = autoNorm(datingDataMat)
	#获得normMat的行数
	m = normMat.shape[0]
	#百分之十的测试数据的个数
	numTestVecs = int(m * hoRatio)
	#分类错误计数
	errorCount = 0.0

	for i in range(numTestVecs):
		#前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
		classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],datingLabels[numTestVecs:m], 4)
		print("分类结果:%d\t真实类别:%d" % (classifierResult, datingLabels[i]))
		if classifierResult != datingLabels[i]:
			errorCount += 1.0
	print("错误率:%f%%" %(errorCount/float(numTestVecs)*100))

"""
函数说明：main函数

Parameters：
   无
Returns：
   无
Modify：
   2018.11.8
"""
if __name__ == '__main__':
	#打开文件名
	#filename = "datingTestSet.txt"
	#打开并处理数据
	#datingDataMat,datingLabels = file2matrix(filename)
	#showdatas(datingDataMat, datingLabels)
	#print(datingDataMat)
	#print(datingLabels)
	#normDataSet, ranges, minVals = autoNorm(datingDataMat)
	#print(normDataSet)
	#print(ranges)
	#print(minVals)
	datingClassTest()

运行结果如下图所示：

从上图验证分类器结果中可以看出，错误率是3%，这是一个想当不错的结果。我们可以改变函数datingClassTest内变量hoRatio和分类器k的值，检测错误率是否随着变量值的变化而增加。依赖于分类算法、数据集和程序设置，分类器的输出结果可能有很大的不同。

接下来：使用算法，构建完整可用系统。

我们可以给海伦一个小段程序，通过该程序海伦会在约会网站上找到某个人并输入他的信息。程序会给出她对男方喜欢程度的预测值。

在kNN_test02.py文件中创建函数classifyPerson，代码如下：

# -*- coding: UTF-8 -*-
import numpy as np #导入必要的package
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
import operator
"""
函数说明:kNN算法,分类器

Parameters:
    inX - 用于分类的数据(测试集)
    dataSet - 用于训练的数据(训练集)
    labes - 分类标签
    k - kNN算法参数,选择距离最小的k个点
Returns:
    sortedClassCount[0][0] - 分类结果

Modify:
    2018.11.8
"""
def classify0(inX, dataSet, labels, k):
	#numpy函数shape[0]返回dataSet的行数
	dataSetSize = dataSet.shape[0]
	#在列向量方向上重复inX共1次(横向),行向量方向上重复inX共dataSetSize次(纵向)
	diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
	#二维特征相减后平方
	sqDiffMat = diffMat**2
	#sum()所有元素相加,sum(0)列相加,sum(1)行相加
	sqDistances = sqDiffMat.sum(axis=1)
	#开方,计算出距离
	distances = sqDistances**0.5
	#返回distances中元素从小到大排序后的索引值
	sortedDistIndices = distances.argsort()
	#定一个记录类别次数的字典
	classCount = {}
	for i in range(k):
		#取出前k个元素的类别
		voteIlabel = labels[sortedDistIndices[i]]
		#dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
		#计算类别次数
		classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
	#python3中用items()替换python2中的iteritems()
	#key=operator.itemgetter(1)根据字典的值进行排序
	#key=operator.itemgetter(0)根据字典的键进行排序
	#reverse降序排序字典
	sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
	#返回次数最多的类别,即所要分类的类别
	return sortedClassCount[0][0]

"""
函数说明：打开并解析文件，对数据进行分类：1代表不喜欢，2代表魅力一般，3代表极具魅力


Parameters：
	filename - 文件名
Returns：
	returnMat - 特征矩阵
	classLabelVector - 分类Label向量

Modify：
	2018.11.8
"""
def file2matrix(filename):
	#打开文件
	fr = open(filename)
	#读取文件所有内容
	arrayOLines = fr.readlines()
	#得到文件行数
	numberOfLines = len(arrayOLines)
	#返回的Numpy矩阵，解析完成的数据：numberOfLines行，3列
	returnMat = np.zeros((numberOfLines,3))
	#返回分类标签向量
	classLabelVector = []
	#行的索引值
	index = 0 
	for line in arrayOLines:
		#s.strip(rm),当rm空时，默认删除空白符（包括'\n','\r','\t',' ' )
		line = line.strip()
		#使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
		listFromLine = line.split('\t')
		#将数据前三列取出来，存放到returnMat的Numpy矩阵中，也就是特征矩阵
		returnMat[index,:] = listFromLine[0:3]
		#根据文本中标记的喜欢程度进行分类，1代表不喜欢，2代表魅力一般，3代表极具魅力,类似于独热编码
		if listFromLine[-1] == 'didntLike':
				classLabelVector.append(1)
		if listFromLine[-1] == 'smallDoses':
				classLabelVector.append(2)
		if listFromLine[-1] == 'largeDoses':
				classLabelVector.append(3)
		index += 1 
	return returnMat,classLabelVector
"""
函数说明:对数据进行归一化

Parameters:
    dataSet - 特征矩阵
Returns:
    normDataSet - 归一化后的特征矩阵
    ranges - 数据范围
    minVals - 数据最小值

Modify:
    2017-03-24
"""
def autoNorm(dataSet):
	#获得数据的最小值
	minVals = dataSet.min(0)
	maxVals = dataSet.max(0)
	#最大值和最小值的范围
	ranges = maxVals - minVals
	#shape(dataSet)返回dataSet的矩阵行列数
	normDataSet = np.zeros(np.shape(dataSet))
	#返回dataSet的行数
	m = dataSet.shape[0]
	#原始值减去最小值
	normDataSet = dataSet - np.tile(minVals, (m, 1))
	#除以最大和最小值的差,得到归一化数据
	normDataSet = normDataSet / np.tile(ranges, (m, 1))
	#返回归一化数据结果,数据范围,最小值
	return normDataSet, ranges, minVals

"""
函数说明：数据可视化

Parameters:
    datingDataMat - 特征矩阵
    datingLabels - 分类Label

Returns:
    无

Modify:
    2018.11.8
"""

def showdatas(datingDataMat, datingLabels):
	#设置汉字格式
	font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
	#将fig画布分隔成1行1列,不共享x轴和y轴,fig画布的大小为(13,8)
	#当nrow=2,nclos=2时,代表fig画布被分为四个区域,axs[0][0]表示第一行第一个区域
	fig, axs = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8))
	
	numberOfLabels = len(datingLabels)
	LabelsColors = []
	for i in datingLabels:
		if i == 1:
			LabelsColors.append('black')
		if i == 2:
			LabelsColors.append('orange')
		if i == 3:
			LabelsColors.append('red')
	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第二列(玩游戏)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][0].scatter(x=datingDataMat[:,0], y=datingDataMat[:,1], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs0_title_text = axs[0][0].set_title(u'每年获得的飞行常客里程数与玩视频游戏所消耗时间占比',FontProperties=font)
	axs0_xlabel_text = axs[0][0].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs0_ylabel_text = axs[0][0].set_ylabel(u'玩视频游戏所消耗时间占',FontProperties=font)
	plt.setp(axs0_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs0_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs0_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[0][1].scatter(x=datingDataMat[:,0], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs1_title_text = axs[0][1].set_title(u'每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
	axs1_xlabel_text = axs[0][1].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
	axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs1_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs1_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs1_ylabel_text, size=7, weight='bold', color='black')

	#画出散点图,以datingDataMat矩阵的第二(玩游戏)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
	axs[1][0].scatter(x=datingDataMat[:,1], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
	#设置标题,x轴label,y轴label
	axs2_title_text = axs[1][0].set_title(u'玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
	axs2_xlabel_text = axs[1][0].set_xlabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
	axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
	plt.setp(axs2_title_text, size=9, weight='bold', color='red') 
	plt.setp(axs2_xlabel_text, size=7, weight='bold', color='black') 
	plt.setp(axs2_ylabel_text, size=7, weight='bold', color='black')
	#设置图例
	didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
	smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
	largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
	#添加图例
	axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
	axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
	#显示图片
	plt.show()
"""
函数说明:分类器测试函数

Parameters:
    无
Returns:
    normDataSet - 归一化后的特征矩阵
    ranges - 数据范围
    minVals - 数据最小值

Modify:
    2017-03-24
"""
def datingClassTest():
	#打开的文件名
	filename = "datingTestSet.txt"
	#将返回的特征矩阵和分类向量分别存储到datingDataMat和datingLabels中
	datingDataMat, datingLabels = file2matrix(filename)
	#取所有数据的百分之十
	hoRatio = 0.10
	#数据归一化,返回归一化后的矩阵,数据范围,数据最小值
	normMat, ranges, minVals = autoNorm(datingDataMat)
	#获得normMat的行数
	m = normMat.shape[0]
	#百分之十的测试数据的个数
	numTestVecs = int(m * hoRatio)
	#分类错误计数
	errorCount = 0.0

	for i in range(numTestVecs):
		#前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
		classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],datingLabels[numTestVecs:m], 4)
		print("分类结果:%d\t真实类别:%d" % (classifierResult, datingLabels[i]))
		if classifierResult != datingLabels[i]:
			errorCount += 1.0
	print("错误率:%f%%" %(errorCount/float(numTestVecs)*100))
"""
函数说明:通过输入一个人的三维特征,进行分类输出

Parameters:
    无
Returns:
    无

Modify:
    2018.11.8
"""
def classifyPerson():
	#输出结果
	resultList = ['讨厌','有些喜欢','非常喜欢']
	#三维特征用户输入
	precentTats = float(input("玩视频游戏所耗时间百分比:"))
	ffMiles = float(input("每年获得的飞行常客里程数:"))
	iceCream = float(input("每周消费的冰激淋公升数:"))
	#打开的文件名
	filename = "datingTestSet.txt"
	#打开并处理数据
	datingDataMat, datingLabels = file2matrix(filename)
	#训练集归一化
	normMat, ranges, minVals = autoNorm(datingDataMat)
	#生成NumPy数组,测试集
	inArr = np.array([precentTats, ffMiles, iceCream])
	#测试集归一化
	norminArr = (inArr - minVals) / ranges
	#返回分类结果
	classifierResult = classify0(norminArr, normMat, datingLabels, 3)
	#打印结果
	print("你可能%s这个人" % (resultList[classifierResult-1]))


"""
函数说明：main函数

Parameters：
   无
Returns：
   无
Modify：
   2018.11.8
"""
if __name__ == '__main__':
	#打开文件名
	#filename = "datingTestSet.txt"
	#打开并处理数据
	#datingDataMat,datingLabels = file2matrix(filename)
	#showdatas(datingDataMat, datingLabels)
	#print(datingDataMat)
	#print(datingLabels)
	#normDataSet, ranges, minVals = autoNorm(datingDataMat)
	#print(normDataSet)
	#print(ranges)
	#print(minVals)
	#datingClassTest()
	classifyPerson()

在终端中，运行程序，并输入数据(12,44000,0.5)，预测结果是"你可能有些喜欢这个人"，也就是这个人魅力一般。一共有三个档次：讨厌、有些喜欢、非常喜欢，对应着不喜欢的人、魅力一般的人、极具魅力的人。结果如图下图所示。

到此结束！！！

长路漫漫，从此开始！！！

你可能感兴趣的:(机器学习)

【量子退火（Quantum Annealing, QA）在Machine Learning Classification中的应用】搞技术的妹子机器学习量子计算人工智能
随着量子计算技术的发展，**量子退火（QuantumAnnealing,QA）成为了优化问题中一种潜力巨大的方法。它不仅可以用于求解传统优化问题，还被逐渐应用于机器学习领域，特别是机器学习分类（MachineLearningClassification）**任务中。在这篇博客中，我们将探讨量子退火在机器学习分类中的应用，并通过一个实际的案例来展示如何使用量子退火优化分类模型。什么是量子退火（Qua
二维随机变量 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.二维随机变量基础1.1基本定义二维随机变量(X,Y)(X,Y)(X,Y)是由两个定义在同一概率空间上的随机变量XXX和YYY组成的向量样本空间：每个试验结果e∈Se\inSe∈S对应到平面上的一个点(X(e),Y(e))(
似然函数与极大似然估计 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.似然函数：直观理解与数学定义核心概念似然函数是机器学习中参数估计的基石，它从数据与模型之间的关系出发，提供了一种优化参数的数学框架。直观理解：假设你正在调整相机参数以拍摄最清晰的照片。似然函数就像是一个"清晰度指标"，告诉
正交投影与内积空间：机器学习的几何基础 Shockang 机器学习数学通关指南机器学习人工智能线性代数数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.内积空间的数学定义1.1代数定义✏️两个维度相同的向量a=[a1,…,an]\mathbf{a}=[a_1,\dots,a_n]a=[a1,…,an]和b=[b1,…,bn]\mathbf{b}=[b_1,\dots,b_
特征值与特征向量 Shockang 机器学习数学通关指南机器学习线性代数矩阵数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文一、定义与数学表达特征向量：对于方阵AAA，若存在非零向量v\mathbf{v}v满足Av=λvA\mathbf{v}=\lambda\mathbf{v}Av=λv，则v\mathbf{v}v称为AAA的特征向量。特征值：对应
mac系统下安装pycharm 连小黑 python pycharm macos python
mac系统下安装pycharm前言Windows系统安装教程传送门链接:https://blog.csdn.net/lianxiaohei/article/details/121694126随着人工智能的不断发展，机器学习这门技术也越来越重要，也有很多人都因为做自动化，爬虫会学python，今天写的是pycharm编译器，在mac上如何安装,废话不多说，上步骤一、第一步下载示例：下载安装软件的第一
【机器学习】Reinforcement Learning-强化学习基本概念长相忆兮长相忆深度学习人工智能算法机器学习
1、Q值与V值1.1Q值和V值的定义Q值：也称为动作价值函数，评估动作的价值，它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望，表示为Q(s,a)，其中s是状态，a是动作。V值：评估状态的价值，也称为状态价值函数，表示为V(s)，其中s是状态。它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的，都是衡量在马可洛夫树上某一个节点
机器学习笔记 - 监督学习备忘清单坐望云起深度学习从入门到精通监督学习线性模型支持向量机生成学习集成方法
一、监督学习简介给定一组数据点关联到一组结果，我们想要构建一个分类器，学习如何从预测。1、预测类型下表总结了不同类型的预测模型：2、模型类型下表总结了不同的模型：
30段极简Python代码：这些小技巧你都Get了么 Python 学习者 Python
学Python怎样才最快，当然是实战各种小项目，只有自己去想与写，才记得住规则。本文是30个极简任务，初学者可以尝试着自己实现；本文同样也是30段代码，Python开发者也可以看看是不是有没想到的用法。Python是机器学习最广泛采用的编程语言，它最重要的优势在于编程的易用性。如果读者对基本的Python语法已经有一些了解，那么这篇文章可能会给你一些启发。作者简单概览了30段代码，它们都是平常非常
如何使用DeepSeek进行高效数据挖掘与分析 Small踢倒coffee_氕氘氚笔记经验分享迭代器模式
##摘要随着大数据时代的到来，数据挖掘与分析技术在各行各业中扮演着越来越重要的角色。DeepSeek作为一种先进的数据挖掘工具，能够帮助用户从海量数据中提取有价值的信息。本文将详细介绍DeepSeek的功能、使用方法及其在实际应用中的优势，旨在为用户提供一份全面的使用指南。##关键词DeepSeek、数据挖掘、数据分析、机器学习、大数据##引言###背景在当今信息爆炸的时代，数据已成为企业决策的重
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
什么是预训练语言模型下游任务？衣衣困语言模型人工智能自然语言处理
问题：Word2Vec模型是预训练模型吗？由于训练的特性，word2Vec模型一定是与训练模型。给定一个词先使用独热编码然后使用预训练好的Q矩阵得到这个词的词向量。这里指的是词向量本身就是预训练的语言模型。什么是下游任务？在自然语言处理（NLP）和机器学习领域，下游任务（downstreamtasks）指的是使用已经训练好的模型或表示（如词向量、预训练的模型等）来解决的具体任务。这些任务通常依赖于
AI辅助的企业估值报告生成器 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能人工智能 ai
AI辅助的企业估值报告生成器关键词AI辅助估值企业估值报告数据处理机器学习算法报告生成器摘要本文将探讨如何利用人工智能技术辅助企业估值报告的生成。通过分析估值报告的重要性、AI技术在估值报告中的应用场景、估值模型与数据处理方法，以及机器学习算法在估值中的应用，本文旨在为企业和投资者提供一个高效、准确、可视化的估值报告生成解决方案。同时，本文还将介绍一个估值报告生成器的实现过程，并通过实际案例进行分
大模型推理速度测评的实战代码 herosunly 大模型推理速度人工智能实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。今天给大家带来的文章是大模型推理速度测评的实战代码，希望能对学习大模型的同学们有所帮助
深入探索Python机器学习算法：模型评估数据攻城小狮子 Python机器学习 python 机器学习算法 sklearn 人工智能
深入探索Python机器学习算法：模型评估文章目录深入探索Python机器学习算法：模型评估模型评估1.数据集划分1.1划分原则和方法1.2交叉验证技术1.3不同数据集划分方法的适用性2.评估指标分析2.1分类任务评估指标2.2回归任务评估指标2.3不同评估指标的选择和比较3.模型评估的注意事项3.1避免数据泄露问题3.2评估指标的稳定性和可靠性模型评估1.数据集划分1.1划分原则和方法在机器学习
基于springboot+vue在线小说阅读平台系统(源码+lw+部署文档+讲解等) QQ3295391197 Java毕业设计项目 spring boot vue.js 后端
前言博主介绍：✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌主要内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。精彩专栏推荐订
R语言广义加型模型（GAM）的运用例子及实现教程 Mrrunsen R语言大学作业 r语言开发语言
文章目录步骤1：加载所需包和数据步骤2：数据预处理步骤3：拟合广义加型模型步骤4：查看模型摘要和诊断模型摘要系数估计平滑项模型质量步骤5：预测和可视化结论广义加型模型（GeneralizedAdditiveModel，简称GAM）是一种灵活的非线性建模方法，在统计学和机器学习领域被广泛应用。GAM可以用于拟合非线性关系，适用于多个预测变量之间的复杂关系，并且可以处理连续和分类变量。本教程将向您展示
机器学习--特征选择 Luis Li 的猫猫机器学习人工智能
一、方法介绍（一）定义在机器学习中，特征选择是一个至关重要的环节，其目的是从原始特征集合中挑选出最具代表性和信息量的特征子集，使得在该子集上构建的机器学习模型能够达到最佳的预测或分类效果。在实际的数据集里，往往存在大量的特征，其中一些特征可能与目标变量高度相关，对模型的预测有重要贡献；而另一些特征可能是冗余的、不相关的甚至会对模型产生干扰，增加模型的复杂度和噪声。（二）特征选择方法特征选择方法通常
python流水线自动化项目教程小白教程 python python 自动化开发语言 python自动化 python学习教程 python基础教程
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1.项目环境准备Python安装选择Python开发环境安装必要库2.数据获取与理解4.模型训练流水线6.模型保存7.模型部署（简单Web服务）8.测试模型部署总结前言以下是一个使用Python构建简单机器学习流水线自动化项目的教程，涵盖数据预处理、模型训练、模型评估和模型部署等主要步骤。1.项目环境准备Python安装访
探索路径规划的艺术：CurvesGenerator - 优雅的曲线生成器邹澜鹤Gardener
探索路径规划的艺术：CurvesGenerator-优雅的曲线生成器CurvesGeneratorCommonusedcurvesformotionplanning.项目地址:https://gitcode.com/gh_mirrors/cu/CurvesGenerator项目介绍在机器学习、自动驾驶和游戏开发等领域中，精确且平滑的路径规划是至关重要的。CurvesGenerator是一个开源项目
AI人工智能代理工作流AI Agent WorkFlow：搭建可拓展的AI代理工作流架构 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能代理工作流AIAgentWorkFlow：搭建可拓展的AI代理工作流架构1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，特别是机器学习和深度学习技术的广泛应用，构建高度智能且自动化的代理系统成为了一个迫切的需求。这些代理系统能够自主地进行决策、执行任务并适应不断变化的环境。然而，现有的代理系统往往在面对复杂任务时缺乏灵活性和可扩展性，这限制了它们在实际应用中的广泛部署和大规模应
Chrome下载视频的插件爱编程的喵喵 Windows实用技巧 windows chrome 下载视频
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome下载视频的插件，希望能对
[水]与grok聊Java 啾啾大学习水 java 开发语言
摘要：AI时代，二本毕业一般工资一般履历的java程序员要怎么做才能不被淘汰呢？3步之内必有解药？AI带来的问题让AI解决？转行么？先水一篇吧（我知道可能不如去学习，但是我要是学习好我会这个样子，可恶，加油）目录1、AI带来的问题职业危机2、AI带来的机遇2.1、职业发展的帮助职业发展预测可能的职业1.AI工程师（AIEngineer）2.机器学习工程师（MachineLearningEngine
Deepseek 使用指南与提问优化策略西瓜拍两瓣 ai 语言模型 python gpt
序言随着人工智能技术的迅猛发展，语义搜索已成为提升信息检索效率和用户体验的核心工具。DeepSeek作为一款先进的语义搜索引擎，通过自然语言处理（NLP）和机器学习技术，能够深入理解用户查询的语义意图，提供高度精准的搜索结果。本文将详细介绍DeepSeek的核心功能、集成方法，并深入探讨如何通过优化提问策略，最大化利用DeepSeek的语义搜索能力，从而提升信息检索的效率和准确性。访问DeepSe
【Python】OpenCV算法使用案例全解岱宗夫up 教学 opencv 计算机视觉人工智能算法
OpenCV算法使用案例全解前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。从简单的图像滤波到复杂的三维重建，OpenCV涵盖了计算机视觉领域的众多算法。本文将详细介绍OpenCV中常见算法的使用案例，帮助读者更好地理解和应用这些强大的工具。一、图像处理基础（一）滤波操作滤波是图像处理中最基
程序员未来黄金赛道：AI与大模型引领职业新机遇 AI学习不迷路人工智能大模型自然语言处理 LLM 程序员 AI大模型转行
2025年，人工智能（AI）与大型机器学习模型（LLM）的爆发式发展正重塑技术行业格局。面对AI编程工具日益强大的代码生成能力，程序员的职业角色面临深刻转型。如何在这场变革中抢占先机？本文结合行业趋势与专家洞察，解析程序员未来的核心出路。一、拥抱AI与新兴技术：从“编码者”到“解决方案架构师”AI大模型工程师：随着GPT、通义灵码等代码生成工具普及，程序员的角色正从基础编码转向模型调优与场景化应用
【Address Overfitting】解决过拟合的三种方法 HP-Succinum 机器学习机器学习数据分析
目录1.收集更多数据实践方法：适用场景：优缺点：2.特征选择方法介绍：实践示例：适用场景：优缺点：3.正则化（Regularization）正则化类型：实践示例：适用场景：优缺点：总结与对比总结在机器学习中，过拟合（Overfitting）是模型训练过程中常见的问题。它指的是模型在训练集上表现优秀，但在测试集或新数据上表现较差，无法很好地泛化。过拟合通常源于模型过于复杂或数据不足。本文将详细介绍解
ES: 机器学习、专家系统、控制系统的数学映射 wishchin AI/ES
一、基本定义1.机器学习维基定义：机器学习有下面几种定义：“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”一种经常引用的英文定义是：AcomputerprogramissaidtolearnfromexperienceEw
数据挖掘与数据分析 dundunmm 数据挖掘数据挖掘数据分析人工智能
数据挖掘和数据分析是两个密切相关但有所区别的领域，它们都涉及从数据中提取有价值的信息，但在目标、方法和技术上有所不同。数据挖掘vs.数据分析特征数据挖掘数据分析目标从大数据中自动发现知识和模式通过系统分析数据，得出有意义的结论重点数据模式的自动发现、预测模型的构建数据理解、数据清洗、数据总结、假设验证方法机器学习、聚类、回归、关联规则、深度学习等统计学方法、数据可视化、数据清理、假设检验等应用实时
An Introduction to Statistical Learning with Applicatio AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1定义统计学习（statisticallearning）是一门研究如何从数据中提取知识并应用于预测、决策或其他目的的一门学科。它是机器学习、数据挖掘、计算机视觉等领域的一个分支，是当前热门的AI方向。1.2特点数据驱动：统计学习倾向于采用结构化的数据——如表格或矩阵形式——作为输入；假设空间少：统计学习通常只考虑一种假设空间，即概率模型或概率分布；模型复杂性
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟