推荐系统 - 基于物品本身的特征来(分类)推荐- 步骤与进阶的knn

原文

https://github.com/litaotao/guidetodatamining/blob/master/chapter-4.md

https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md

 

定义

分类器是指通过物品特征来判断它应该属于哪个组或类别的程序!分类器程序会基于一组已经做过分类的物品进行学习,从而判断新物品的所属类别。

eg: 会先计算出与这个物品距离最近的物品,然后找到用户对这个最近物品的评价,以此作为新物品的预测值。

 

步骤

1.我们将这些数据集分为了两个部分,第一部分用来构造分类器,因此称为训练集;另一部分用来评估分类器的结果,因此称为测试集。(如何分两部分:十折交叉验证和留一法,https://blog.csdn.net/abcd1101/article/details/90383952)

2.数据特征值选取。

2.标准化。当不同特征的评分尺度不一致时,为了得到更准确的距离结果,就需要将这些特征进行标准化,使他们在同一个尺度内波动。

3.利用特征值建立向量。

4.通过向量来计算距离,到这里为止搭建了一个分类器(计算距离可以选择曼哈顿等的距离算法)

5.使用第二部分数据来评估分类器,如果ok就来预测(其中使用了混淆矩阵来记录结果,Kappa指标来评估分类器,https://blog.csdn.net/abcd1101/article/details/90383952)

6..预测新物品的类别。

 

进阶的分类算法

knn(k近邻)算法:https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md#knn%E7%AE%97%E6%B3%95

ps:

1.KNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学习的语料模板来分类

2Kmeans算法是聚类算法,聚类算法与分类算法最大的区别是聚类算法没有学习语料集合。

你可能感兴趣的:(数据挖掘)