Trustworthy Recommender Systems (TRS) 可信推荐系统
传统影响力很大,但是不受欢迎。因为涉及用户隐私,由此引出TRS。
不局限于多种推荐系统,考察很多方面,说明研究的很广泛。
最后说明目的
第一段:推荐系统应用范围,给个人带来的影响。总的来说,推荐系统是以人类为中心的AI研究的前沿,是人类和AI之间的桥梁。
第二段:某些推荐系统的弊端(还是一个隐私问题),给个人、平台和社会带来的不良影响。引出应该怎么开发系统(公开,透明)。
第三段:开发系统考虑多个方面,包括可解释性、公平性、隐私性、健壮性等。这样做的优点(获得信任、促进社会效益)。
第四段:现有考察的差异。文章参考了很多论文,不同论文考察的方面不够全面,本文结合多种视角进行考察。
第五段:与其他值得信赖的人工智能研究的关系。不同作者对于AI的不同看法,最应该拥有什么样的特征。本文多次强调explainability, fairness, privacy, robustness, and controllability这几个单词。
第六段:供阅读的目标是个人和论文组织。解释文章结构。
第3、4、5、6、7节分别关注可解释性、公平性、隐私性、稳健性和可控性。最后一部分是对全文的总结。
在本次调查中,我们将推荐算法大致分为三个阶段:浅模型、深模型和大模型。
Shallow Models:
利用相似函数从数据中提取简单有效的用户物品匹配模式。这包括协同过滤方法和基于内容的过滤方法。
根据用户物品评级矩阵
Deep Models:
深度学习和神经网络的发展进一步改进了推荐方法。
基于深度学习的协同过滤(CF):将推荐视为一个感知学习问题,利用相似学习或表示学习从数据中提取感知相关模式进行匹配和推荐。可分为两类,
相似度学习方法采用简单的用户/物品表示(如one-hot vector),学习复杂的匹配函数(如神经预测网络)来计算用户/物品的匹配分数。
表示学习方法从文本、图像、知识等学习丰富的用户/物品表示,采用简单的匹配函数(如:内积)的有效匹配评分计算。
基于深度学习的协同推理(CR):将推荐视为认知推理问题,采用逻辑推理或因果推理进行用户行为预测和推荐。
序列推荐(也与基于会话或感知会话的推荐有关)。序列推荐在推荐系统中的概念。
传统的序列推荐模型使用简单的机器学习方法对顺序数据进行建模:如马尔可夫链[237]和基于会话的KNN[138]。
很大发展的思想方法: RNN, CNN, LSTM, BERT,注意力模型,记忆网络。
推荐排名:根据综合评分进行推荐: 贝叶斯个性化排序
Big Models:
大型语言模型(LLM),P5,成本昂贵,但是效果很好。
可解释的推荐提供了对预测结果的额外解释,以更好地理解黑箱预测模型背后的推理和推理过程。
推荐系统对可解释性的要求在以下几个方面表现出特点:
Personalized Explanation:
现有的一些研究认为,推荐系统应该提供不同的推荐和解释,以适应不同的用户偏好。
就是在不同场景里,比如电影推荐、音乐推荐、服装推荐等,会有不同的解释,说明为什么要这么推荐。
Interactive Feedback:
向用户提供解释可能会产生下游影响,尤其是在会话推荐、会话推荐和交互推荐的应用中,而一般的ML任务中解释只与一次性预测相关。
通过交互来进行推荐结果的改善,帮助用户理解推荐的原因。
Subjective Reaction:
一般的可解释机器学习方法有助于理解模型如何进行预测的基本机制,以便模型开发人员能够更好地调整或调试方法。
系统是否能够根据用户的反馈调节自身。
可解释性考虑的角度:
Explanation Method, Explanation Scope,Explanation Style, Benefited Users。
用来解释的数据存在形式:
Entities,Text,Multimedia,Logical and Neural-Symbolic Rules,Graphs,Counterfactuals( 已有的一些研究将因果推理中的反事实推理应用于推荐场景),Multi-round interactions。
解释视角可以根据服务对象分为四类:
End users,System developers,Content providers,Regulators。
解释评价方法一般可以分为以下三类,每一类方法都面临着结果可靠性与评价成本之间的权衡:
Offline evaluation,User study and online evaluation,
Causal explanations,Controllable explanations,Unbiased explanations。
我的理解:如果在商品推荐中,RS系统可能会倾向卖家一方,而忽视买家的购买体验。或者过多注重买家的推荐,而忽略卖家的利润。
偏差主要有两种类型:
数据偏差: 数据产生、数据收集或数据存储的过程。
当在有偏差的数据上进行训练时,推荐模型极有可能学习那些被过度代表的群体。
算法偏差:
性别,宗教,教育等也会引起偏见;有些系统根本就无法实现公平性,实现A,那么B的就会被破坏。
举例:个人公平和群体公平、消费者公平和生产者公平、关联公平和因果公平、静态公平和动态公平
公平首先被定义为群体层面和个人层面:
Group fairness:组公平是指由特定属性定义的组之间的平均处理应该是相同的。
Individual fairness : 相似的个体应该得到相似的对待。
用户和物品都属于受保护组:
User (consumer)-side fairness,Item (producer)-side fairness( 保证了市场公平,避免了垄断统治或马太效应 )。
联想公平和因果公平的定义:
Associative fairness:它衡量个体或亚群体之间的统计差异。
Causal fairness:不仅基于数据,而且以因果模型的形式考虑关于世界结构的额外先验知识。
推荐中的公平性要求需要考虑系统的动态特性 :
Static fairness: 提供了一个基于公平约束优化的一次性公平解决方案。
Dynamic fairness: 考虑环境中的动态因素,学习适应这种动态的公平策略。
隐私通常包含:Private information,Ownership,Threat,Goal of privacy protection。
RS中的隐私问题通常与两类实体有关:用户/客户和推荐平台本身:
Anonymization:目的是在向第三方发布数据集时隐藏某些用户详细信息
System Design
1)让用户知道隐私风险并获得同意
2)多方认证和验证
3)动态认证和访问时间限制
4)通过分布式数据存储和计算降低风险
Encryption:加密
Obfuscation and Differential Privacy
Adversarial Machine Learning:当数据泄漏(通过有意发布或无意泄漏)不可避免时,另一种解决方案是向数据添加噪声,从而可以掩盖实际值。
Adversarial Machine Learning: 最近的一些工作提出通过将噪声查找任务制定为机器学习问题来学习特殊的噪声,在不影响效用的情况下实现差分隐私 。
介绍攻击的方式基本原理,还有如何防范。
研究者主要将机器学习的对抗攻击分为三类:在每一种描述之后,都有对应的解决方法
更具体地说,在使用非可控推荐系统时,用户只能被动地选择接受或不接受推荐结果,而很难控制自己收到的推荐结果是什么。它允许用户手工表达自己的偏好,并通过特定类型的交互干预偏好构建过程。
让用户显式地编辑或更新用户的偏好,最常见的方法是让用户设置他们的配置文件或重新权衡预定义的方面或功能,以直接干预偏好构建过程。
先说明显示控制的缺点,然后引出隐式控制。隐式可控性的关键思想是,用户不会直接操纵用户配置文件或喜欢的功能。相反,它们会在与推荐系统动态交互时间接地微调自己的偏好。
本调查总结了当前可信推荐系统研究的发展和趋势,旨在促进和推进未来可信推荐系统的研究和实施。
本调查从技术角度为全面开发值得信赖的推荐系统提供了路线图。