推荐去中心化

个性化推荐系统简单来说是一个将user和item进行匹配的一个系统。个性化推荐系统主要包括召回、排序两个典型模块:召回是指根据用户信息和历史行为,从内容池中获取与之相匹配的部分内容(item);排序是指根据用户、内容的特征,通过模型预估出内容的点击率情况。

一般来说,个性化推荐系统的召回主要有:标签召回(用户、内容打标签)、协同召回、热度召回(根据行为计算出来的内容)等,排序模型主要有lr、fm、gbdt、NN网络等。在现实的情况下为了强调个性化,往往过度通过用户的行为来计算召回、排序,这样就会导致一个严重的问题——头部内容集中。问题表现主要分两个阶段:

1、马太效应:头部内容获得了大量的推荐(流量),而腰部、尾部的内容只获取到了少量的流量甚至无法获取流量,并且这种情况随着时间会越来越明显(强者更强、弱者更弱)。

2、信息茧房:从用户角度出发,某个人看到的内容始终是那些品类,类似原地打转。

为了减轻上面说的两种情况,一般会通过算法策略来控制流量的分发——去中心化。接下来我们看下抖音算法逻辑

 

抖音算法是非常有魅力的,而使其产生魅力的是抖音的流量分配是去中心化。抖音的推荐算法逻辑可以分为三部分:

抖音与其他互联网产品的中心化流量分配不同,它是去中心化流量分配机制(微博就是中心化流量分配,刚开通微博的粉丝是没有人关注的,而抖音即使是0粉丝,发布的任何小视频都能分配几十甚至上百的流量)。为了确保内容的多样性,针对每个内容都会预分配一定的流量,从1-200到500到1000阶梯型给流量,根据权重判定给你流量大小,权重越高,内容获取的曝光越高。主要包括:

1、小权重:完播率、重复率;

2、中权重:点赞、转发、评论量...;

3、大权重:热门音乐、挑战话题...;

具体如下:

抖音对于一个新的内容,先对其审核,通过后根据内容属性(标签...)进行一定量的试分发(1-200);如果其播完率和重复率超过一定的数量,算法就会将之判断为受欢迎内容,自动为内容加权,分发量扩大到500;如果其点赞、转发、评论超过一定的量,算法又会自动加权,继续扩大分发量。

最后经过大量粉丝的检验,被层层热度加权之后才会进入抖音的推荐内容池,接受几十甚至上百万的大流量洗礼。其热度的评判标准包括两个方面:

  1. 热度权重的参考次序:转发量>评论>点赞量。
  2. 根据时间择新去旧:除非有大量粉丝模仿及跟拍,一条火爆视频的热度最多持续一周。

 

你可能感兴趣的:(#,机器学习)