推荐算法会使用的模型

Classification

Classification分类的主要目的就是为我们的数据记录打上标签。分类模型主要分为两大类:1.Supervised 2.Unsupervised

监督模型特点是训练的数据是拥有标签的,模型根据训练数据中的特征和标签来为只有特征的数据打上标签

非监督模型特点是训练数据和测试数据都是没有标签的,模型只根据特征来打标签,如聚类算法。

K Nearest Neighbors

K Nearest Neighbors

K Nearest Neighbors是一个lazy learner,及当需要打标签的时候才会被运行,不会对模型进行持久化。原理是在要打标签的数据通过相似度度量来得到k个相似度最高的已打上标签的数据,通过投票的方式来判断未打上标签的数据的标签,如k=7, 最近的中有3个为方形,4个为圆形,则该数据的标签为圆形。

缺点:1. 分类的样本不均衡时,不易使用;

           2. 计算量大。

Decision Trees

Information Gain

where ki are values of the attribute i, N is the number of observations, vj is the jth partition of the observations according to the values of attribute i. Finally, I is a function that measures node impurity. There are different measures of impurity: GiniIndex, Entropy and misclassification error are the most common in the literature.

优点:1. 可解释性强

           2. 速度快

缺点:1. 容易过拟合(措施使用tuning)

References

1.Recommender Systems Handbook p39-p48

你可能感兴趣的:(推荐算法会使用的模型)