摘要:
购买或者打分行为
为工程师线上编程标题
为妈妈线上婴儿玩具
click-through andconversion rates
点击率、转化率
banneradvertisements:品牌广告
top-sellerlists:销售排行榜
电子商务推荐的挑战:
(1)千万用户、百万商品
(2)许多需要实时的推荐
(3)新用户冷启动问题
(4)老用户兴趣太多,历史很多
(5)用户数据是动态的
基本方法:
过滤、聚类、搜索
traditionalcollaborative;filtering, cluster models, and search-based Methods
Item协同过滤可以实时产生推荐。
推荐算法:
根据相同购买、打分找相似用户。
算法通过用户聚合 item ,消除用户已经打分或者购买的商品,推荐剩下的。
最流行的算法:包含基于搜索的方法,我们的 item 协同过滤:关注找到相似的 Item ,而不是相同的用户。聚合相似的item并且推荐他们。
传统的协同过滤:
传统的系统过滤,用户用一个n维的item向量来表示。N是商品个数。
其中购买是正的分数;负的打分是负面的
对于热卖商品:取倒数
矩阵对大多数用户都非常稀疏
根据用户最相似的用户来推荐商品。
用户相似度用cosin公式来计算。
协同过滤的计算量非常大。
找相似用户的时候,随机抽样,减少相似用户数量。
We can reduce Mby randomly sampling the customers ordiscarding
customers with few purchases, and reduce N by discarding very popular or unpopular items
通过非常流行和非常不流行的,也可以减少数据量
不幸的是,这些方法都会降低推荐的效果。
如果抽样:那么选择的的用户不会很相似。
第二:item空间的分区,降低了推荐产品或者主题的区域。
第三:去除不重要或者重要的item,他们不会被放到推荐系统中。
用户可能购买但是没有得到推荐。
维度约减技术应用到item也可能去除低频的item。
reduce用到用户,也可能降低推荐的质量。
ClusterModel
找到相关用户,把用户划分到很多区间。
分类问题:
To find customers whoare similar to the user, cluster
models divide thecustomer base into many segments
and treat the task asa classification problem。
聚类:
把用户放到最相似的用户群。
通过相似用户的购买和打分提供推荐。
非监督的聚类。把相似的用户放在聚类里面或者分区。
有用最优聚类在大数据集上难以应用,因此很多算法都是贪心的聚类算法。
这些算法从一些初始集合开始,包含随机抽取相似用户。
有些算法吧用户分到不同的分区,有些把同一个用户分到几个分区(相似度不一样。)
Amazon:你的推荐;购物车推荐。
复杂和昂贵的计算放到离线来完成。
The complex and expensive clusteringcomputationis run offline.
SearchBased Model
搜索和基于内容的方法。
给定用户的打分和购买。算法构建Query,找到流行的商品。Query可以是相同的作者,艺术家等等。
如果客户购买DVD,系统通过DVD信息推荐。
Item-to-ItemCollaborative Filtering
推荐系统搜索是一个市场的工具。包括
Amazon 首页都是推荐的。通过产品线或者通过主题领域推荐,并且给出为什么被推荐。
How It Works
如何工作:不是找相似用户,而是找相似的商品。
算法伪代码:
For each item inproduct catalog, I1
Foreach customer C who purchased I1
For each item I2 purchased by
customer C
Record that a customer purchased I1
and I2
Foreach item I2
Computethe similarity between I1 and I2
2900万用户,数百万的商品。
Amazon.com has more than 29 million customers
and several million catalog items
For example, the MovieLens data
set4 contains35,000 customers and 3,000 items,
and the EachMovie data set3 contains 4,000 customers
and 1,600 items.
传统的协同过滤:离线计算很少。
关键是离线的找到相似的商品:
The key toitem-to-item collaborative filtering’s
scalability andperformance is that it creates the
expensivesimilar-items table offline.