用户行为数据

总体思路是通过用户留下的文字和行为了解用户兴趣和需求,通过算法自动发掘用户行为数据。基于用户行为分析的推荐算法一般称为协同过滤算法。个性化推荐算法通过对用户行为的深度分析,可给用户带来更好的网站使用体验。所谓协同过滤,是指用户可齐心协力,通过不断和网站互动使自己的推荐列表能不断过滤掉自己不感兴趣的东西,越来越满足自己的需求。

对于电商来说,最常见的是购物车分析,分析哪些商品会同时出现在购物车中。

一、用户行为数据简介

用户行为数据在网站上最简单的存在形式是日志,每个会话表示一次用户行为和对应的服务。在电商中这些用户行为主要包括网页浏览、购买、点击、评分和评论等。

用户行为有显性反馈和隐性反馈之分。显性反馈包括用户明确表示对物品喜好的行为,主要是评分和喜欢/不喜欢,正负反馈均有。对于视频网站,用户只有在特别满意或特别不满时才会评分,因此二级评分就够了;对于评论网站,用户将精力放在评论上,因此多级评分很必要。隐性反馈中最有代表性的是页面浏览行为。隐性反馈虽不明确,但数据量巨大,只有正反馈(也就是说只知道用户喜欢什么物品,不知道不喜欢什么)

综合上述,用户行为的统一表示如下:

用户行为数据_第1张图片

二、用户行为分析(用户行为中蕴含的一般规律)

1.  用户活跃度和物品流行度的分布

互联网上很多数据分布都满足长尾分布,在双对数曲线上应呈直线。如歌曲和软件的下载、网页的点击、网上店铺的销售均满足。也成为Zipf定律,即大部分词的词频其实很低,只有很少的词被经常使用。

物品流行度:对该物品产生过行为的用户总数。物品流行度分布曲线:横坐标是物品流行度,纵坐标为该流行度的物品总数

用户活跃度:该用户产生过行为的物品总数。用户活跃度分布曲线:横坐标是用户活跃度,纵坐标为该活跃度的用户总数

2. 用户活跃度和物品流行度的关系

新用户倾向于浏览热门物品,老用户逐渐开始浏览冷门物品。用户越活跃,越倾向于浏览冷门的物品。

你可能感兴趣的:(推荐系统)