推荐系统陈开江 - C7 探索和利用

1 MAB问题和Bandit算法

  • Bandit算法定义
    最大化收益
    解决冷启动和EE问题
    最小化累积遗憾,把选择的机会给那些确定好的和还不确定的选项
  • Bandit算法实现
    汤普森采样:使用B分布,α和β,点击了α+1,没点击β+1,对于每个臂根据概率分布产生随机数,选择随机数最大的那个
    UCB算法:使用置信空间上界,预估期望和预估收益的置信区间宽度,每次给分最高的,对选择次数不足的臂给予照顾,倾向于那些确定收益好的
    Epsilon贪心算法
  • 冷启动
    用分类或者topic表示用户的兴趣,对每个新用户,用汤普森采样为每个类采样一个随机数,排序后输出TopK个视频,根据点击和不点击更新对应的Topic的参数

2 UCB算法

加入特征的UCB算法LinUCB,收敛快,臂的独立参数,动态处理

3 Bandit算法和协同过滤

解决信息茧房的问题
抱团取暖+走一步看一步

你可能感兴趣的:(推荐系统陈开江 - C7 探索和利用)