Recommendation Fairness: From Static to Dynamic 阅读笔记

论文链接icon-default.png?t=M85Bhttps://arxiv.org/abs/2109.03150v1

Section 1 引言

        越来越多的推荐系统开始将推荐建模为一个马尔可夫决策过程,并使用强化学习来解决这个问题。从而推荐系统场景下的公平性研究便面临着一个从静态评价与一次性干预static evaluation and one-shot intervention到动态监控与不间断控制dynamic monitoring and non-stop control的转变。

        在本文中,我们首先介绍了推荐系统的最新发展,然后讨论了如何将公平性融入到推荐的强化学习技术中。此外,我们认为,为了在推荐公平性方面取得进一步的进展,我们可以在随机博弈stochastic games的一般框架下考虑多智能体(博弈论)优化multi-agent (game-theoretic) optimization多目标(帕累托)优化multi-objective (Pareto) optimization基于仿真的优化simulation-based optimization

Section 2 强化学习的兴起

1. 矩阵补全问题&矩阵分解算法

在推荐系统中,我们经常会拿到一种数据是user—item的表格,然后对应的是每位user对每个item的评分,如下图:

userID item1 item2 item3 item4 ... ... item10
user1 5 5 ? 1 ... ... 1
user2 5 ? 4 1 ... ... 1
user3 1 ? 1 5 ... ... 5
user4 1 1 ? 4 ... ... ?

矩阵补全问题顾名思义,即根据现有的单元格值来预测缺失的单元格值。

这种矩阵补全问题通常用矩阵分解算法来解决。由于并没有接触过推荐系统相关的项目,小禾对此也不是很了解,感兴趣的可以参考其他博主博客了解一下这类算法。也许这篇会有帮助(但小禾也没来得及拜读,最近还是专注于公平性研究来读论文中的重点)。

2. 基于强化学习的推荐系统

Reinforcement learning (RL) — an area of machine learning which is concerned with optimal decision making over time in a dy namic environment — offers a promising approach to tackling the problems of personalization and interactivity by capturing users’ evolving interests and optimizing their long-term experiences.
Markov decision process
A hot research topic is to develop offline reinforcement learning meth ods for interactive recommendation which can make effec tive use of previously collected user-item interaction data without expensive online data collection.

Section 3 推荐系统算法公平性研究的演变发展

3.1 Static Recommendation Fairness

1. 推荐系统的公平性指标可以被定义为两个层次: individual fairnessgroup fairness.
2. 一般来说,迄今为止,在推荐中抵消偏见和促进公平性的技术主要是以约束优化的形式进行的。要么在一组公平约束的情况下最大化效用,要么在保证效用下限的前提下最大化公平,或共同优化两者以获得整体满意度。
3. 这些工作大多是对传统的基于矩阵补全的推荐系统进行公平性调整。他们的推荐公平性概念是静态的,因为受保护的组在推荐过程中是固定的。
3.2 Dynamic Recommendation Fairness
1. 很少有研究来调查基于强化学习的推荐系统的公平性,其中受保护的群体可能会随着时间的推移而变化。在人口分布正在发生变化或所做的决策会产生反馈效应的动态环境中,反直觉的现象(如辛普森悖论)可能会发生,偏见可能会被反复放大。例如,在每一步都施加公平,实际上可能会加剧不公平。
2. Balancing Accuracy and Fairness for Interactive Recommendation with Reinforcement Learning中,提出了一种基于强化学习的公平性推荐框架,以长期动态平衡推荐的准确性和用户的公平性。不断变化的用户偏好和公平性状态在MDP推荐模型中共同表示为状态。此外,还设计了 a two-fold reward function来综合准确性和公平性。
3. 针对item而不是user的公平性推荐方案: Towards Long-Term Fairness in Recommendation. 关注不同项目组的流行程度,在推荐过程中动态变化,即流行的项目在一段时间后会变得不受欢迎,反之亦然。【 solved by performing constrained policy optimization with an actor-critic architecture
3.3 Looking Ahead
1. 多智能体(博弈论)优化:
① 由于推荐系统是multi-stakeholder platforms,至少涉及item的消费者(客户)以及item的生产者(供应商)
② MARL问题
③ 纳什均衡 \rightarrow 相关均衡correlated equilibrium,可通过这篇知乎简单了解
行为博弈论behavior game theory
2. 多目标(帕累托)优化:
现在也可能是时候将 约束优化方法转向 推荐公平性,并寻求包括效用和公平性在内的多个目标的 帕累托优化了。即使公平是我们关注的唯一目标,研究人员也严格证明了一些常见的公平指标之间存在固有的冲突,而且往往不可能同时优化它们。
3. 模拟环境:
为了充分理解和解决推荐中动态公平性的复杂性,为这种多智能体多目标推荐系统开发一个仿真环境是非常需要的。
虽然谷歌已经发布了 fairness-gym 来模拟简单的动态公平性任务(贷款申请、大学录取和注意力分配),但目前还没有一个专门用于推荐中的动态公平性的模拟器。

Section 4 结论

推荐系统的公平性研究领域的最新发展显示出一种明显的动态公平观趋势。因此,公平推荐的基本数学框架可能会从矩阵补全转移到马尔可夫决策过程,然后再转移到随机博弈

你可能感兴趣的:(强化学习,算法公平)