这个寒假一直在学习《机器学习实战》这本书,及时记录下自己的学习成果,整理学习思路。在学习过程中,我极大极大极大地(重要事情说三遍)程度上参考的是Jack-Cui前辈的机器学习实战笔记,也特别感谢Jack-Cui前辈把宝贵的学习经验分享给想我一样的广大菜鸡萌新。以下是他的博客链接:https://blog.csdn.net/c406495762.除此之外,学习机器学习实战除了《机器学习实战》这本书外,我感觉斯坦福大学吴恩达老师的课程也是很有帮助,打好基础才重要,网易公开课或者网易云课堂上都有吴老师的免费视频可供学习;还有的就是清华大学出版的“西瓜书”,这本书得啃的下来才行,然而明知道书里面蕴藏着巨大宝藏,但太笨太懒了...哭唧唧...以上都是个人拙见,如果大家有更好的书更好的学习资料希望分享一下,一起学习冲鸭!再说一下,这里就是把自己学习思路整理一下,已经会的地方可能不会太仔细说了,感觉重点的地方会仔细说一下。开启笔记之旅吧。(刚开始打算把文章私密的,因为仅仅就是记录自己的学习过程,提醒自己不要忘记知识点,但后来还是分享出来吧)
k-近邻算法(一):电影的分类(动作片与爱情片)
首先还是大致说一下k-近邻算法的原理吧。书上原文:它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
我的理解就是一个类别你想要识别这个类别的话,肯定会根据一些属性或者是特征来辨别的。肯定不能无根据的乱加猜测。下面的例子就能说明这一点:
这里的电影类别就是由两个特征来判别的,那就是接吻和打斗的字数。训练集会有很多个类似这样的样本,然后测试集中的样本在对应属性上进行欧式几何距离的运算。就像我们求两点之间距离公式一样。以上图片是二维,我们实际上会遇到n维,也是同样的道理,运算测试集样本与每个训练集样本的距离,运算完再统计,统计完后只要距离最短的前k位的训练集样本点,然后前k位的训练集样本点出现最多的标签就认为是该测试集样本的标签了。
因为博文仅仅是在整理自己的学习思路,这里如果有稍微不明白的同学可以参考Jack-Cui前辈的博文,前辈真的很厉害。以下是博文的链接:https://blog.csdn.net/c406495762/article/details/75172850/。当然啦也可以看书。都很简单的。
好。到这里k-近邻算法的原理就算复习完了。以下进入第一个实战例子,电影的分类。先上代码:
import numpy as np
import operator
def creatDataSet():
group=np.array([[1,101],[5,89],[108,5],[115,8]])
labels=['爱情片','爱情片','动作片','动作片']
return group,labels
def classify0(inX,dataSet,labels,k):
dataSetSize=dataSet.shape[0]
#shape[0]返回的是第二维长度,也就是行数,
#shape[1]返回的是第一维长度,也就是列数;
#dataSet就是group,为4行
diffMat=np.tile(inX,(dataSetSize,1))-dataSet
#https://www.cnblogs.com/zibu1234/p/4210521.html
#tile用法是tile(A,r),以上网址解释的很清楚,进行维度扩展
#对inX也就是[101,20]进行(4,1)的拓展,然后与dataSet相应项相减
sqDiffMat=diffMat**2
sqDistances=sqDiffMat.sum(axis=1)
#关于.sum()函数的用法:
# sum()是对多维数组里面元素的简单相加,
# sum(axis=0)是对多维数组的列进行相加得到一个新的矩阵
# sum(axis=1)是对多维数组的行进行相加得到一个新的矩阵
distances=sqDistances**0.5
sortedDisIncices=distances.argsort()
#关于argsort()函数,它会遍历distances数组,按从小到大顺序排列
#但不会返回数组里面的原来的值,而是返回数组里面值的位置顺序,也就是索引值
classCount={}
for i in range(k):
voteIlabel=labels[sortedDisIncices[i]]#这个语句的作用是取出前k个(距离)的标签
classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
#关于此函数classCount.get()+1的用法,记录爱情片动作片这两个标签出现的次数
#https://blog.csdn.net/weixin_38705903/article/details/79231551博文介绍的很清楚
#在此强调一下字典在python中的“特殊的感觉”就是学长对我说的感觉,嗯,能懂吧?
sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#关于items()函数,以列表返回可遍历的(键, 值) 元组数组,我觉得是可以使字典‘活’过来,可以对其进行一系列操作了
#reverse--排序规则,reverse=True降序,reverse=False升序(默认)
# key=operator.itemgetter(1)根据字典的值进行排序
# key=operator.itemgetter(0)根据字典的键进行排序
return sortedClassCount[0][0]#返回出现次数最高的那个标签
if __name__=='__main__':
group,labels=creatDataSet()
test=[101,20]
test_class=classify0(test,group,labels,3)
print(test_class)
申明一下,代码《机器学习实战》书上有,上面分享的博文上也有,以上是我对代码的注释解析。嗯,开始分析代码。
代码分为三个部分,一是creatDataSet(),二是重点的classify0(inX,dataSet,labels,k)函数,第三个是类似于C/C++中的主函数:if __name__=='__main__'。
首先简要分析三个代码的主要作用。
creatDataSet()主要的是制造训练集,把训练集输进去;classify0(inX,dataSet,labels,k)就是最主要的分类;第三个我认为是统筹把握具体代码的步骤。creatDataSet()和if __name__=='__main__'部分很简单,在此不做说明,可以参考以上链接博文。
classify0(inX,dataSet,labels,k)部分是按照k-近邻算法这种算法的精髓来设计的。肯定是要计算训练集样本点与测试集样本点的距离,计算距离肯定要有相应属性的作差,再平方。把所有的相应属性差值平方作和,在开根号,就是样本点之间的距离了。
看程序,dataSetSize=dataSet.shape[0]语句返回的是训练集的行数,在这里返回的是4。这个语句的作用在后面体现出来了。要计算距离的话,本身就是一对多的关系:一个测试样本点,对应着很多个训练集样本点。在这里有四个训练集样本点,分别是[1,101],[5,89],[108,5],[115,8]。dataSetSize=dataSet.shape[0]返回的是行数,也就是返回了有多少个训练集样本。比如在这里,返回了有4个训练集样本,然后用np.tile(inX,(dataSetSize,1))对测试集[101,20]进行(4,1)的扩展,变成了[[101,20],[101,20],[101,20],[101,20]]形式,这样测试集样本与训练集样本形成了4对4了。
[1,101],[5,89],[108,5],[115,8]与[[101,20],[101,20],[101,20],[101,20]]计算起来的话直接利用数组列表与数组列表之间的运算法则,会很方便了。以上是我的理解。
diffMat=np.tile(inX,(dataSetSize,1))-dataSet #这句话是在相应项作差
sqDiffMat=diffMat**2 #这句话是在求平方
sqDistances=sqDiffMat.sum(axis=1) #这句话是在求所有项的平方和
distances=sqDistances**0.5 #这句话是在求距离(总体开方)
接下来就是统计所有的距离,因为是要计算一个测试样本点与所有的训练集样本的距离。找出前k的训练集样本点,再记录这k位训练集样本相应的标签,是爱情片还是动作片。后面的代码就是在做这个事情,返回出现次数最多的标签,并以此作为测试集的标签啦。
最终结果如下所示:
到此,电影分类的算法及其程序实现整理完了...效率好低...
欢迎交流学习!