一周未见,甚是想念,今天小Mi带大家学习推荐系统(Recommender Systems)!推荐系统是机器学习中一个很重要的应用,比如某易推荐的歌曲呀,某宝推荐的购物清单呀等等,既然应该这么广泛,那就废话不多说,我们开始吧~
1 定义
推荐系统是个很有意思的问题,机器学习的学术会议上通常不太会关注推荐系统问题,但是在我们生活中却随处可见。
同时对机器学习来说,特征是很重要的,选择的特征将对学习算法的性能有很大影响。因此,在机器学习中有一种大思想,针对一些问题,可以通过算法自动学习一套比较好的特征,从而代替手动设计,其中推荐系统就是类型设置的一个例子。
那么什么是推荐系统问题呢?我们从一个例子开始定义推荐系统的问题。
假使一个电影供应商有5部电影和4个用户,我们要求用户为电影打分。
前三部电影是爱情片,后两部则是动作片,图中可以发现Alice和Bob似乎更倾向与爱情片,而Carol和Dave似乎更倾向与动作片,同时每个用户都并未给全部的电影都打过分。这时可以构建一个算法,预测每个人可能会给各自没看过的电影打多少分,并以此作为推荐的依据。
下面引入一些相关参数:
:用户数量;
:电影数量;
:如果用户给电影评过分,则;
:用户给电影的评分;
:用户评过分的电影总数。
2 特征与算法
在一个基于内容的推荐系统算法中,对于用户希望推荐的电影有一些数据,而这些数据更准确地说就是相关的特征。
假设每部电影都有两个特征,如代表电影的浪漫程度,代表电影的动作程度。
那么每部电影都有一个特征向量,如是第一部电影的特征向量:[0.9 0]。
基于这些特征来构建一个推荐系统算法,采用线性回归模型,我们可以针对每一个用户都训练一个线性回归模型,如是第一个用户的模型参数。于是就有:
:用户的参数向量;
:电影的特征向量;
对于用户和电影,我们预测评分为:;
代价函数
针对用户,该线性回归模型的代价为预测误差的平方和,加上正则化项:
其中表示只计算那些用户评过分的电影。在一般的线性回归模型中,误差项和正则项应该都是乘以,在这里的话我们选择将去掉,同时也不会对方差项进行正则化处理。
上面的代价函数只是针对一个用户的,为了学习所有用户,将所有用户的代价函数求和:
如果要用梯度下降法来求解最优解,计算代价函数的偏导数后得到梯度下降的更新公式为:
3 协同过滤
在基于内容的推荐系统中,对于每一部电影,我们都掌握了可用的特征,使用这些特征训练出了每一个用户的参数。举一反三,如果我们拥有用户的参数,那么其实也可以学习得出电影的特征,有没有?!
但是如果既没有用户的参数,也没有电影的特征,那么应该如何解决呢?不用担心,协同过滤算法闪亮登场~
优化目标将同时针对和进行,对代价函数求偏导数的结果如下:
注:在协同过滤算法中,通常不使用方差项,如果需要的话,算法会自动学得。 协同过滤算法使用步骤如下:
1.初始为一些随机小值
2.使用梯度下降算法最小化代价函数
3.在训练完算法后,预测为用户给电影的评分
通过这个学习过程获得的特征矩阵包含了有关电影的重要数据,可以用这些数据作为给用户推荐电影的依据。
例如,如果一位用户正在观看电影,寻找另一部电影,依据两部电影的特征向量之间的距离大小,距离越小,那么就越符合该用户的品味。
4 协同过滤算法
协同过滤优化目标:
给定,估计::
给定,估计,同时最小化和:
5 算法的向量化实现
根据五部电影的数据集,将这些用户的电影评分,进行分组并存到一个矩阵中。
由于数据集有五部电影和四位用户,那么这个矩阵Y就是一个5行4列的矩阵,同时包含了这些电影的用户评分数据:
推出评分:
找到相关影片:
前期小Mi已经带大家对特征参数向量进行了学习,那么其实如何度量两部电影之间的相似性就很好解决啦。例如说:电影有一个特征向量,而另一部不同的电影,只要保证两部电影的特征向量之间的距离和很小,那就能很有力地表明电影和电影在某种程度上有相似,至少在某种意义上,某些人喜欢电影,或许更有可能也对电影感兴趣。也就是说,当用户在看某部电影的时候,如果需要找出5部与电影非常相似的电影,为了能给用户推荐5部新电影,我们需要做的是找出电影,在这些不同的电影中与我们要找的电影的距离最小,这样你就能给你的用户推荐几部不同的电影了。
通过这个方法,相信大家可以知道,应该如何进行一个向量化的计算来对所有的用户和所有的电影进行评分计算,同时也能掌握通过学习特征参数,来找到相关电影和产品的方法。
6 均值归一化
用户评分数据:
如果新增一个用户Sky,并且Sky没有为任何电影评分,那么我们以什么为依据为Sky推荐电影呢?
首先需要对矩阵Y进行均值归一化处理,将每一个用户对某一部电影的评分减去所有用户对该电影评分的平均值:
然后利用这个新的矩阵来训练算法,如果我们要用新训练出的算法来预测评分,则需要将平均值重新加回去,预测,而对于用户Sky,新模型会认为她给每部电影的评分都是该电影的平均分。
好啦,对于推荐系统的学习就先到这咯~下周小Mi给大家安排大规模机器学习!我们,下周再见呦(挥手十分钟!)