第1章 绪论

1.1研究背景

    推荐系统背景:

    随着移动互联网、物联网、云计算等技术的快速发展,全球数据量呈爆炸式增长,大数据时代已经到来. 全球数据量级从TB 发展至PB 乃至ZB,可称为海量、巨量甚至超量. 相对于以往便于存储的以文本为主的结构化数据,音频、视频、图片、地理位置信息等非结构化数据的比例逐步提升,达到80% 左右[1]. 互联网上信息的急剧增长,一方面使人们获取的信息资源越来越丰富,给人们带来极大的便利;另一方面,面对海量的信息资源,人们不得不花费更多的时间和精力去搜寻对其有帮助的信息,因此“信息超载( Information Overload) ”现象越来越严重.

   推荐系统( Recommender System) 是解决信息超载问题的有效方案,

    推荐系统成为一个相对独立的研究方向一般认为自1994年明尼苏达大学GroupLens研究组退出的GroupLens系统。该系统有两大重要贡献:一是首次提出了基于协同过滤(Collaborative Filering)来完成推荐任务的思想,二是为推荐问题建立了一个形式化的模型。基于该模型的协同过滤推荐引领了之后推荐系统在今后十几年的发展方向。

    GroupLens所提出的推荐算法实际就是目前人们时常提及的基于用户的协同过滤推荐算法(User-based Collaborative Filtering Algorithms),虽然论文本身并没有使用这样一个名字。在之后的十几年中,其他的一些著名的协同过滤算法逐渐被提及,主要的有基于物品的协同过滤算法(Item-based Collaborative Filtering Algorithms),基于矩阵分解的协同过滤算法(SVD-based/NMF-based,etc.)等等。当然,基于其他方法而非协同过滤的推荐算法也在不断地发展,这些方法之间的互补,融合也成为一个重要的研究方向。

    广义上的推荐系统可以理解为是主动向用户推荐物品(Item)的系统,所推荐的物品可以是音乐,书记,餐厅,活动,股票,数码产品,新闻条目等等,这依赖于具体的应用领域,推荐系统所推荐的物品或者对用户有帮助,或者用户可能感兴趣。

    随着电子商务规模的不断扩大,商品数量和种类不断增长,用户对于检索和推荐提出了更加高的要求。由于不同用户在兴趣爱好,关注领域,个人经历等方面的不同,以满足不同用户的不同推荐需求为目的,不同人可以获得不同推荐为重要特征的个性化推荐系统(Personalized Recommender System)应运而生。目前所说的推荐系统一般指个性化推荐系统,它根据用户特征推荐满足用户需求的对象,实现个性化服务. 

    推荐系统的优点在于,它能主动收集用户的特征资料,通过对用户个性、习惯、偏好的分析,为用户定制并提供其感兴趣的信息; 同时能及时跟踪用户的需求变化,根据变化自动调整信息服务的方式和内容. 与搜索引擎提供的“一对多”式的信息服务不同,推荐系统输出的结果更符合用户的个性化需求,实现“一对一”式的信息服务,同时用户的参与程度也更低,从而大为降低用户搜寻信息的成本. 推荐系统作为一种新近的智能信息服务方式,在电子商务、社会网络、数字化图书馆、视频/音乐点播等领域得到广泛应用.比较著名的有Netflix在线视频推荐系统,Amazon网络购物商城等。实际上,大多数的电子商务平台尤其是网路购物平台,都不同程度地集成了推荐算法,如淘宝,京东商城。 在电子商务领域,其作用尤为突出:

     1) 将电子商务网站浏览者转变为购买者( Converting Browsersinto Buyers) ; 

     2) 提高电子商务网站的交叉销售能力( Increasing Cross-Sell) ; 

     3) 建立客户忠诚度( BuildingLoyalty) .

Amazon发布的数据显示,亚马逊网络书城的推荐算法为亚马逊每年贡献近三十个百分点的创收。

目前推荐系统所采用的推荐技术主要包括关联规则( Association Rules) 、基于内容的推荐( Content-Based Recommendation) [10]、协同过滤( CollaborativeFiltering ) [3] 和混合推荐( Hybrid Approach)11]. 

对于推荐系统的任务,李聪[3]给出如下形式化

的描述.

            Given:

            对于网站w,令其用户集合

             U = {u1,u2,…,um} ,

项目集合

            I = { i1,i2,…,in} .

存在一个兴趣度函数δ( u,i ) 用以计算用户u 对项目i 的兴趣度,即δ ∶ U × I→Rw,Rw 是一定范围内的非负实数. 任取一用户ua ∈ U.

            Goal:

            1) 对任一项目ij ∈ I,计算δ( ua,ij) ;

            2) 求得项目集合I( ua) = arg max ij∈I δ( ua,ij) .

    目前各Web 站点用以满足用户个性化需求的推荐技术主要包括关联规则、基于内容的推荐、协同过滤和混合推荐. 表1 列出各种推荐技术的主要优缺点.


协同过滤根据其他用户的偏好向目标用户推荐,它首先找出一组与目标用户偏好一致的邻居用户,然后分析该邻居用户,把邻居用户喜欢的项目推荐给目标用户[12 - 15]. 协同过滤的优势在于:

1) 不需考虑被推荐项目的内容[16 - 18]; 

2) 可为用户提供新异推荐( Serendipitous Recommendations)[16 - 17]; 

3) 对用户访问网站时的干扰较小;

 4)技术易于实现[19].

 因此它成为一种较流行的推荐技术.

协同过滤背景:

你可能感兴趣的:(第1章 绪论)