strawberry47

“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统综述

这是2021预发表的一篇强化用在推荐系统的综述，文中介绍了RLRSs的分类以及多种算法，非常全面。

本篇文章只是一个简单的总结翻译，要想详细了解相关知识还是去看看原文吧~

1 introduction

contribution

2 Preliminaries

2.1 Recommender Systems

2.2 Reinforcement Learning and Deep Reinforcement Learning

2.3 Reinforcement Learning for Recommendation

3 Algorithms

3.1 RL-based Methods

3.1.1 TD Methods

3.1.2 DP Methods

3.1.3 MC Methods

3.1.4 Fitted Q Methods

3.1.5 summary

3.2 DRL-based methods

3.2.1 Q-learning (DQN) Methods

3.2.2 Actor-Critique Methods

3.2.3 REINFORCE Methods

3.2.4 Compound Methods

4 Discussion and Open Research Directions

1 introduction

用于解决推荐问题的方法：collaborative filtering（协同过滤）, content-based filtering（基于内容）, and hybrid methods（混合）
上述方法存在的问题：cold start（冷启动）, serendipity（惊喜度）, scalability（可扩展性）, low quality recommendation（低质量）, and great computational expense（计算耗时）
引入DL（深度学习）：能够发现user和item之间复杂的非线性关系
DL存在的问题：non-interpretable（可解释性差）, data hungry（需要大量数据）, and computationally expensive（计算耗时）；当rating数据很少时，问题变得复杂。
其他问题：RS方法是静态的，不能处理用户与系统交互的顺序性 -> 引入强化学习

RL：semi-supervised，agent通过与环境的交互来学习要做什么。RL与DL的结合，解决具有巨大状态和行动空间（enormous state and action spaces）的问题，包括自动驾驶汽车、机器人、工业自动化、金融、医疗保健和RSs。（下图表明，越来越多的领域用到了RLRSs）

contribution

Presenting a classification for RLRSs. We first generally divide the algorithms in the field into RL- and DRL-based methods. Then, each category is subdivided into specific RL algorithms used in the papers.
Surveying all algorithms in the field. We first provide a concise but complete description about each algorithm to give the reader the main idea and contribution of the work. Then, we present two large tables to give the detailed information about every method, including information about MDP formulation, RL algorithm used, dataset, experiments and performance metrics.
Suggesting some open research directions for the future. In order to consolidate our survey paper, we finally present some observations about ongoing research in the RLRS field and propose some open research directions to advance the field.

2 Preliminaries

2.1 Recommender Systems

这一部分主要介绍了CF和CBF，以及推荐算法常见问题：cold start, serendipity, scalability, low quality and static recommendation, and great computational expense

2.2 Reinforcement Learning and Deep Reinforcement Learning

强化学习的三个特征：

the problem is closed-loop（闭环），学习系统产生的行为(action)会影响到后续的输出
the learner does not have a tutor to teach it what to do, but it should figure out what to do through trial-and-error（试错）
actions influence not only the short term results, but also the long-term ones.（长期回报）

强化学习的四个元素

Policy：给出采取某一action的概率；可分为on-policy和off-policy（In the former, RL methods aim at evaluating or improving the policy they are using to make decisions. In the latter, they improve or evaluate a policy that is different from the one used to generate the data.）
Reward signal：用来反映action的好坏程度
Value function：衡量长期回报
Model：model is an inference about the behaviour of the environment in different states.（环境在不同state下行为的推断）

补充知识：on-policy和off-policy的区别

简单类比：古时候，优秀的皇帝都秉持着“水能载舟亦能覆舟”的思想，希望能多了解民间百姓的生活。皇帝可以选择通过微服出巡，亲自下凡了解百姓生活（On-policy），虽然眼见为实，但毕竟皇帝本人分身乏术，掌握情况不全；因此也可以派多个官员去了解情况，而皇帝本人则躺在酒池肉林里收听百官情报即可（Off-policy）。
文字解释：什么是行为策略（Behavior Policy）和目标策略（Target Policy）：行为策略是用来与环境互动产生数据的策略，即在训练过程中做决策；而目标策略在行为策略产生的数据中不断学习、优化，即学习训练完毕后拿去应用的策略。上面的例子中百官（锦衣卫）就是行为策略，去收集情况或情报，给皇帝（目标策略）做参考来学习，当皇帝收集到的情报越多，能做的决策就越优。

为什么会有两个策略呢？

1. 因为从人类的直观上来看，为了解决强化学习问题中的exploitation（利用）和 exploration （探索），我们可以利用一个策略（行为策略）来保持探索性，提供多样化的数据，而不断的优化另一个策略（目标策略）。

2. On-policy 的目标策略和行为策略是同一个策略，其好处就是简单粗暴，直接利用数据就可以优化其策略，但这样的处理会导致策略其实是在学习一个局部最优，因为On-policy的策略没办法很好的同时保持即探索又利用；

3. Off-policy将目标策略和行为策略分开，可以在保持探索的同时，更能求到全局最优值。但其难点在于：如何在一个策略下产生的数据来优化另外一个策略？

强化学习算法

tabular 表格法：状态空间和动作空间很小，值函数用表格表示；动态规划(DP)、蒙特卡罗(MC)、时序差分法(TD)；Qlearning(off-policy)、 SARSA(on-policy)
approximate 近似法：状态空间和动作空间很大，从以前的经验归纳未来的状态；policy gradient 、REINFORCE、 actor-critic
加入深度学习（DL）：DQN、DDPG、DDQN

2.3 Reinforcement Learning for Recommendation

将推荐问题抽象为顺序决策问题（sequential decision），建模为MDP。
RL：通过与环境的交互最大化奖励； RS：向用户推荐商品，最大化用户满意度。 =>RS相当于agent，用户、物品等相当于environment；（动作空间和状态空间都很大）

3 Algorithms

3.1 RL-based Methods

（综述里并没有详细讲解每种算法，只是讲了相关论文、工作进展，所以这篇文章也只是翻译了一下相关工作；想要了解具体算法的可以移步我的另一篇文章~ https://blog.csdn.net/strawberry47/article/details/116606212?spm=1001.2014.3001.5501）

3.1.1 TD Methods

时间差分法（TD-learning）：model-free；一种不使用完整状态序列求解强化学习问题的方法；包含了常用的Sarsa、Q-learning等，以及各种拓展变形：expected Sarsa、n-step Sarsa、double Q-learning等等。

Q-learning：

WebWatcher是第一个使用RL来提高推荐质量的RS算法。他们简单地将网页推荐问题建模为一个RL问题，并采用Q-learning来提高他们的基本web RS的准确性，使用相似度函数(基于TF-IDF)来推荐与用户兴趣相似的页面。
十年后，Taghipour和Kardan将这一理念扩展到向用户推荐个性化网页。更准确地说，为了解决状态维数问题，他们借用了N-gram模型，并使用滑动窗口表示状态，如图3所示。他们通过将概念信息整合到基于使用的web RS中来加强他们的工作。
开发旅行社，向游客推荐个性化的旅行。该方法由两个主要模块组成:个性化学习者，负责向用户学习静态和动态信息;个性化排名，负责通过Q-learning生成推荐。
RLWRec的主要贡献是提出了一种状态压缩模型来解决状态空间的维数问题。具体来说，这个想法是基于相似用户的表现对歌曲进行聚类，然后在学习阶段用歌曲聚类代替歌曲。采用流行的K-means算法对歌曲进行聚类。
RPMRS利用WaveNet和Word2Vec等有效方法从歌曲的音频和歌词中提取特征。CBF模块使用这些功能来筛选最初的建议集，然后通过Q-learning进行精炼。

SARSA：

web RS有两个主要单元:全球和本地。全球部门负责了解系统的全球趋势，例如最受欢迎的产品，而本地部门则单独跟踪每个客户。该系统采用加权方法结合局部模型和全局模型，决定下一页要推荐的商品。这项工作的一个明显问题是可伸缩性，因为不清楚他们想要如何在全球范围内跟踪所有用户。
SARSA (λ)是原始SARSA算法的近似解版本，用于开发个性化的基于本体的web RS。工作的主要目标是使用RL技术和认识论逻辑程序向用户推荐网站上的最佳概念。实际上，该工作的贡献在于将认知信息转换为实数数组，这适合于近似RL方法的工作。参考文献[63]使用RL在线学习。RS的目标是为学生提供适合其特定要求和特点的学习路径，使用N-gram模型来处理状态维数问题。

Q-learning + SARSA：

基于情感的播放列表生成在[59]中被定义为一个RL问题。为了管理状态空间，使用N-gram(滑动窗口)模型对状态进行建模，即每个状态包含用户最后m首歌曲的情感类信息。参考文献[64]将推荐问题定义为使用双聚类的网格世界游戏。首先，使用Bimax和Bibit算法从用户-物品矩阵形成双簇。然后将每个双簇映射到网格世界中的一个状态。gridworld中的任何状态都可以是开始状态，根据Jaccard距离，这是与用户最相似的状态。

3.1.2 DP Methods

•动态规划的关键点有两个：

1. 问题的最优解可以由若干小问题的最优解构成，即通过寻找子问题的最优解来得到问题的最优解。

2. 可以找到子问题状态之间的递推关系，通过较小的子问题状态递推出较大的子问题的状态

• 强化学习对应的问题：

1. 预测问题 ，即给定强化学习的 6 个要素：状态集 S, 动作集 A, 模型状态转化概率矩阵 P, 即时奖励 R ，衰减因子 γ, 给定策略 π ，求解该策略的状态价值函数 v(π)

2. 控制问题 ，也就是求解最优的价值函数和策略。给定强化学习的 5 个要素：状态集 S, 动作集 A, 模型状态转化概率矩阵 P, 即时奖励 R ，衰减因子 γ, 求解最优的状态价值函数 v∗ 和最优策略 π∗

• 问题 1 ：求解给定策略的状态价值函数的问题（ policy evaluation ）

• 基本思路是从任意一个状态价值函数开始，依据给定的策略，结合贝尔曼期望方程、状态转移概率和奖励同步迭代更新状态价值函数，直至其收敛，得到该策略下最终的状态价值函数。

•

• 问题 2 ：求解最优的价值函数和策略

• 思路：根据我们之前基于任意一个给定策略评估得到的状态价值来及时调整我们的动作策略 (Policy Iteration)

总结：主要就是利用贝尔曼方程来迭代更新状态价值，用贪婪法之类的方法迭代更新最优策略

论文内容

[68]通过一个在机场指导用户的例子讨论了使用MDP解决推荐问题的可能优势。类似地，[51]是将推荐问题建模为MDP的早期有价值的尝试之一。由于基于MDP的推荐者的模型参数是未知的，且开销大，他们建议使用一个能够为MDP提供初始参数的预测模型，该预测模型是一个马尔可夫链。（MDP和DP关系：马尔可夫决策（MDP）过程为强化学习（RL）提供了理论基础，而动态编程（DP）为马尔可夫决策过程提供了一种实现的方法。）

3.1.3 MC Methods

• 动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。计算量大。

• 无法事先得到模型状态转化概率矩阵 P ： model free

•

• 预测问题，即给定强化学习的 5 个要素：状态集 S, 动作集 A, 即时奖励 R ，衰减因子 γ, 给定策略 π ，求解该策略的状态价值函数 v(π)

• 控制问题，也就是求解最优的价值函数和策略。给定强化学习的 5 个要素：状态集 S, 动作集 A, 即时奖励 R ，衰减因子 γ, 探索率 ϵ, 求解最优的动作价值函数 q∗ 和最优策略 π*

• 蒙特卡罗法通过采样若干经历完整的状态序列 (episode) 来估计状态的真实价值。

• 特点：和动态规划比，不需要依赖于模型状态转化概率；从经历过的完整序列学习，完整的经历越多，学习效果越好。

• 每轮迭代先做策略评估，计算出价值 v(s) ，然后基于一定的方法（比如贪婪法）更新当前策略 π 。最后得到最优价值函数 v∗ 和最优策略 π∗ 。

DJ-MC[65]是一个基于rl的音乐播放列表推荐。为了解决维度问题，每首歌曲都被建模为歌曲描述符的一个向量，其中包括关于歌曲的节奏特征、整体响度以及它们随时间的变化的信息。此外，为了加速学习过程，reward被考虑为听者对个别歌曲的偏好和歌曲的过渡模式。DJ-MC架构由两个主要组件组成:学习听众参数(他对歌曲和过渡的偏好)和计划一系列歌曲。学习单元分为两个部分:初始化和动态学习。在初始化步骤中，询问agent有关他的歌曲和过渡首选项。初始化后，学习过程开始于为听众播放歌曲，并征求他的反馈。计划步骤负责选择最好的歌曲来推荐。
与DJ-MC类似的工作是PHRR[66]，他们使用加权矩阵分解(WMF)[112]和卷积神经网络(CNNs)的混合方法来提取歌曲特征。Div-FMCTS[67]的目标是提出一种优化不同topN推荐问题的方法。该方法由两个循环阶段组成。它首先采用MCTS算法启发式地搜索条目空间，找到最优的top-N推荐。然后，他们用神经网络来推广这些发现。为了解决搜索所有条目时的可扩展性问题，采用了结构剪枝和问题分解两种方法。

3.1.4 Fitted Q Methods

使用一种使用近似方法进行策略优化
相关工作：推荐肺癌患者的治疗方案；广告推荐算法。

3.1.5 summary

DP方法通常是不切实际的，因为它们的计算费用以及对环境完美的了解。虽然这些算法在状态的数量中是多项式，但甚至执行甚至一个迭代的政策或价值迭代方法通常是不可行的。
与DP相比，MC方法不需要环境的完美知识（或模型）。相反，他们只需要采样体验，即与环境的一些互动。但是，MC方法有一些局限性;他们没有引导。此外，它们仅在完整的剧集之后更新值函数，因此它们的融合速度很慢。
MCTS是一种成功的增强的MC算法，是决策时间计划算法，其受益于在线，增量，基于样本的价值估计和策略改进[31]。
TD方法在RS社区中非常流行，主要原因是他们的简单性;也就是说，它们在线，无模型，需要最小的计算量，并且可以通过单个方程式表示[31]。
表格方法可以找到精确的解决方案，即最佳价值函数和策略，但它们因为状态和行动空间增长，在学习中效率低下。使用DP和TD方法的RLRSS通过保持状态空间小来解决此问题。

3.2 DRL-based methods

这部分用到了深度学习知识

3.2.1 Q-learning (DQN) Methods

Slate-MDP [75]是利用DQN用于SLATE推荐的第一项工作。为了使组合动作空间引起的组合动作空间（元组），他们使用顺序贪婪方法引入学习Full Slates值的代理。
[76]使用DQN优化肝素剂量推荐。他们首先将问题建模为POMDP并使用隐藏的隐马尔可夫模型来估算状态。然后，将DQN用于优化策略。在另一个临床应用中，DQN的变体用于优化败血症治疗的剂量推荐。他们使用连续的状态空间和离散的动作空间。
由于负面反馈(如跳过项目)的数量比正面反馈多得多，赵等人[78]提出了一个名为DEERS的框架，将两种反馈都纳入系统。
[82]中的主要思想是使用生成对抗网络(GANs)构建用户模型，然后使用级联DQN算法推荐最佳项目。

（文章还列举了很多其他相关工作，我已经看不懂了☹，就不写过来了）

3.2.2 Actor-Critique Methods

SRL-RNN [89]的主要思想是将逆向学习与监督学习相结合，根据电子健康记录推荐治疗方法。
在LIRD [87]中，作者首先提出了一个随机环境模拟器，然后使用一个actorcritic框架来生成推荐。
[93]中的想法是提出一种基于RL的会话式RS，它除了使用用户提供的自然语言之外，还使用视觉数据。
DRR框架[88]中的参与者从状态表示模块接收状态，并使用两个ReLU层和一个Tanh层生成动作。

3.2.3 REINFORCE Methods

CEI的作者[97]开发了一种基于层次关系的会话式遥感[130]。在框架中，有一个称为元控制器的模块，它接收对话状态并预测该状态的目标。
[98]中提出了一种会话式RLRS。该系统由三个主要部分组成:一个信念跟踪器、一个遥感器和一个政策网络。
[99]提出了一种基于图的可解释推荐框架。这个想法是不仅推荐一组项目，而且推荐知识图中的路径，以显示该方法做出这些推荐的原因。
TPGR [100]的主要思想是以平衡树的形式表示项目空间，并学习一种策略，使用策略网络为每个非l eaf节点选择最佳的子节点。（这篇文章我读过）

3.2.4 Compound Methods

刘等人[79]使用RL来推荐智能课堂中的学习活动。建立了一个网络-物理-社会系统，通过收集学生的多模态数据(如考试成绩、心跳和面部表情)来监控学生的学习状态，然后推荐适合他们的学习活动。
[103]中的主要贡献是提出了SlateQ，一种基于Slateq的RS。
Fotopoulou等人[105]为学生的社会情感学习设计了一个类似RL的活动推荐框架。
在[104]中，提出了一种面向任务的对话管理系统，并将其应用于不同的推荐任务。
EDRR [106]的作者讨论了在所有RL方法中有三个共同的组成部分:嵌入、状态表示和策略。他们认为用另外两个模块直接训练嵌入模块是不可能的，因为反向学习方法具有高方差的梯度。

4 Discussion and Open Research Directions

主要是在总结和展望（需要更好的评估策略）

如何使用多向量检索文档 scaFHIO 服务器 linux 运维 python
在现代信息检索系统中，使用多个向量来检索单个文档是一个非常有用的技术。这种方法在多个应用场景中都有其优势，比如可以将文档分割为多个块，对这些块分别进行嵌入，从而提高语义检索的准确性。LangChain提供了一个baseMultiVectorRetriever类，为我们简化了这一过程。本文将详细讲解如何生成这些向量，并使用MultiVectorRetriever进行检索。1.技术背景介绍在信息检索中
Kotlin学习5.4：Map接口 CNwanku Kotlin入门学习 Kotlin
Kotlin学习5.4：Map接口Map接口简介不可变Map查询操作遍历操作可变MutableMap修改操作批量操作Map接口简介Map接口是一种双列集合，它的每个元素都包含一个键对象Key和一个值对象Value，键和值对象之间存在一种对应关系，称为映射。从Map集合中访问元素时，只要指定了Key就能找到对应的Value。Map集合中的元素是无序可重复的，Map集合与List、Set集合类似，同样
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
连续10年国内销售冠军，科沃斯在AWE发布新地宝X9系列 TMT星球家电人工智能
3月20日，中国扫地机器人市场连续10年规模第一的服务机器人品牌，科沃斯机器人携全场景智慧清洁解决方案亮相AWE2025（中国家电及消费电子博览会）。作为服务机器人技术革新的引领者，科沃斯秉持"让机器人服务每个人"的品牌使命，在E1馆1F11/1F21携手添可智能生活电器，双品牌联动打造智能家居沉浸体验。据「TMT星球」了解，现场展出了行业首款双核旗舰洗地机器人地宝X9PRO、上市即登顶天猫&京东
TCL空调携手中家院发布“SHE空调智慧健康绿色评价标准” TMT星球家电科技
3月20日，2025年TCL空调「智慧健康再进化」发布会于上海AWE圆满举办。据「TMT星球」了解，发布会现场，TCL空调携手中国家用电器研究院，联合发布《房间空气调节器智慧、健康和环境可持续评价规范》，以Smart（智慧）、Healthy（健康）、Environmental（环境可持续）为核心维度，首次构建空调行业智慧、健康、低碳的全链路标准，让用户购买智慧健康空调有标准可依、有标准可查。破解行
kotlin中的数据转换 LCY133 spring后端 kotlin python 开发语言
在Kotlin中，将数字转换为字符串非常简单且灵活。以下是几种常用的方法及其示例：1.直接使用toString()方法所有数字类型（Int、Long、Double等）都提供了toString()方法，可以直接将数字转为字符串。valnumber=42valstr1=number.toString()//"42"valpi=3.14159valstr2=pi.toString()//"3.14159
kotlin中的list set map整理 LCY133 kotlin list 开发语言
在Kotlin中，List、Set和Map是三种核心集合类型，它们分别适用于不同的场景，具有独特的特性和操作方式。以下是它们的详细对比与使用指南：1.List（列表）核心特性•有序：元素按插入顺序存储。•可重复：允许存在相同值的元素。•索引访问：通过下标（get(index)或[index]）快速访问元素。分类•不可变列表：List，创建后不可修改。valimmutableList=listOf(
判断html标签是否存在,jquery怎么判断标签元素是否存在？ BugHunter666 判断html标签是否存在
jquery怎么判断标签元素是否存在？下面本篇文章给大家介绍一下在jquery中判断页面标签元素是否存在的方法。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。jquery判断页面标签元素是否存在在传统的Javascript里，当我们对某个页面元素进行某种操作前，最好先判断这个元素是否存在。原因是对一个不存在的元素进行操作是不允许的。例如：document.getElementBy
JavaScript数组-遍历数组咖啡の猫 javascript 开发语言
在JavaScript开发过程中，数组是一种非常常见且强大的数据结构，用于存储一系列有序的数据项。遍历数组是处理这些数据项的基础操作之一，无论是为了显示、转换还是过滤数据。本文将详细介绍几种常见的遍历数组的方法及其应用场景，帮助你选择最适合当前任务的方式。一、为什么需要遍历数组？遍历数组意味着逐一访问数组中的每个元素，以便执行特定的操作，如打印输出、修改值或基于条件筛选数据。不同的场景可能需要不同
Windows和Linux系统上的Mamba_ssm环境配置清纯世纪笔记 python 深度学习人工智能
目录一、Linux系统安装二、Win系统安装1）、安装causal_conv1d1、第一种方法2、第二种方法（感觉可靠）3、第三种方法：直接下载大神编译好的文件进行安装2）、安装mamba-ssm1、第一种方法2、第二种方法：直接下载大神编译好的文件进行安装一、Linux系统安装如果自己的系统不是cuda11.8，那么需要先创建一个新环境来安装对应的cuda版本：condacreate-nyour
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
PTA:另类堆栈悦悦子a啊 C语言PTA习题算法数据结构 c++
在栈的顺序存储实现中，另有一种方法是将Top定义为栈顶的上一个位置。请编写程序实现这种定义下堆栈的入栈、出栈操作。如何判断堆栈为空或者满？函数接口定义：boolPush(StackS,ElementTypeX);ElementTypePop(StackS);其中Stack结构定义如下：typedefintPosition;typedefstructSNode*PtrToSNode;structSN
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
华为基于IPD如何做需求管理？！从解读96页【华为IPD如何做需求管理】PPT开始智慧化智能化数字化方案华为学习专栏项目经理售前工程师技能提升华为华为IPD流程 IPD流程体系
该文档全面介绍了华为的IPD需求管理体系，包括概论、体系构建、跨部门协作、需求收集、分析、分发、文档编写与评审、确认、变更管理、跟踪与监控、效果评估以及常见问题解答等内容，旨在为企业提供一套系统的需求管理方法，以提高产品开发的成功率和客户满意度。需求管理概论1.需求管理的定义与流程-需求从客户中来，通过市场管理、需求管理流程提取，经IPD流程实现后回到客户中，形成端到端需求管理。IPD流程总体框架
常用的API设计都有哪些风格 PhilipJ0303 Java面试 java API设计接口设计
API设计是软件开发中非常重要的一部分，良好的API设计可以提高系统的可维护性、扩展性和易用性。常见的API设计风格主要有以下几种：1.RESTfulAPI特点：基于HTTP协议，使用标准的HTTP方法（GET、POST、PUT、DELETE等）来操作资源。资源通过URL定位，URL通常表示资源的层级关系。无状态，每次请求都包含足够的信息来完成请求。返回格式通常是JSON或XML。优点：简单易用，
如何解决MySQL 的深度分页问题？运维小雅 mysql 数据库
前言在构建高性能、可扩展的Web应用程序时，数据库查询性能往往是影响整体系统响应速度的关键因素之一。尤其是在处理大规模数据时，如何高效地进行分页查询成为了开发者需要重点关注的问题。本文将深入探讨MySQL中LIMIT...OFFSET...语法带来的性能挑战，并介绍一种更高效的解决方案——游标分页方法（CursorPagination）。背景介绍假设我们有一个包含500万条记录的表my_table
软件工程课程作业 cfjybgkmf 软件工程课程作业软件工程
一、什么是DevOps?DevOps中的Dev指的是Development（开发），Ops指的是Operations（运维）DevOps包含了三个部分：开发、测试和运维，是一组过程、方法与系统的统称，用于促进开发、技术运营和质量保障部门之间的沟通、协作与整合。DevOps是为了填补开发端和运维端之间的信息鸿沟，改善团队之间的协作关系；突出重视软件开发人员和运维人员的沟通合作，通过自动化流程来使得软
JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示 majunssz elasticsearch elasticsearch
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery("count",count);会将搜索词分词，再与目标查询字段进行匹配，若分词中的任意一个词与目标字段匹配上，则可查询到。count="i"可查出count="ili"可查出co
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
Ubuntu解决开机黑屏五花肉村长 Linux ubuntu linux 运维编辑器前端服务器
Ubuntu系统开机后出现黑屏问题时，可以使用以下方法：1.检查硬件连接：首先，确保所有硬件设备（如显示器、键盘和鼠标）都正确连接并且正常工作.尝试重新插拔它们，确保它们连接牢固且没有松动。2.强制重新启动：系统可能遇到问题导致无法正确启动。按下电源按钮，将计算机完全关机，然后再次启动。3.检查显示器连接：确保显示器正确连接到计算机，并且显示器输入源正确设置。4.进入恢复模式：在启动过程中按下Sh
【自学笔记】Linux基础知识点总览-持续更新 Long_poem 笔记 linux 运维
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置总结Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置Linux简介Linux是一个基于Uni
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
java将动态图转换成静态图_如何用最简单的方法把静态图变成动图？ PEI Lobster java将动态图转换成静态图
在今日头条浏览文章时，我们经常会看到有些作者在文章中插入了一些动态图片，不但美化了页面，而且起到了简明扼要的说明作用，让读者对文章内容加深了理解，也提高了文章的阅读量和点击量。这样的动态效果是如何制作的呢？主要有两个步骤：首先要制作出图片动态效果的视频，一般是MP4格式，第二步用格式工厂等文件格式转换软件，把MP4转换为gif动画格式，然后就可以把它插入到网页中。这其中的难点和重点就在于制作图片的
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
Python语言程序设计 1 摸你就像摸自己 python
目录1Python基本语法元素￲1.1程序设计基本方法1.1.1计算机与程序设计1.1.2编译与解释1.1.3程序的基本编写方法—IPO1.1.4计算机编程1.2Python开发环境配置1.2.1Python语言概述1.2.2Python程序的编写与运行例1：计算圆面积例2：绘制同切圆例3：绘制五角星1.3实例一：温度转换1.3.1问题分析：实例编写：1.4Python程序语法元素分析1.4.1格
JVM常用概念之编译器黑洞剑海风云 JDK（Java Development Kit）jvm 编译器编译器黑洞
问题JMH如何避免微小基准测试中的不会运行的代码的消除工作？是否有隐式或显式编译器支持？基础知识优化编译器擅长优化简单的东西。例如，如果存在任何人都无法观察到的计算，则可以将其视为“不会运行的代码”并将其删除。这通常是一件好事，直到你运行基准测试。在那里，你想要计算，但你不需要结果。本质上，你观察基准测试所占用的“资源”，但没有简单的方法可以与编译器争论这一点。比如下面的测试用例，该方法中只涉及到
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【从零开始学习计算机科学】软件测试（三）回归测试、系统测试与验收测试贫苦游商学习软件测试回归测试系统测试验收测试测试工具 ab测试
【从零开始学习计算机科学】软件测试（三）回归测试、系统测试与验收测试回归测试回归测试的组织和实施回归测试集回归测试的范围自动回归测试框架自动回归测试框架的技术特点回归测试克服的几个问题回归测试人员应掌握的测试手段回归用例库的维护系统测试系统测试的组织和分工系统测试的过程系统测试方法用户界面测试用户界面测试-符合标准和规范用户界面测试-一致性用户界面测试-直观性用户界面测试-灵活性用户界面测试-舒适
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统 综述

1 introduction

contribution

2 Preliminaries

2.1 Recommender Systems

2.2 Reinforcement Learning and Deep Reinforcement Learning

2.3 Reinforcement Learning for Recommendation

3 Algorithms

3.1 RL-based Methods

3.1.1 TD Methods

3.1.2 DP Methods

3.1.3 MC Methods

3.1.4 Fitted Q Methods

3.1.5 summary

3.2 DRL-based methods

3.2.1 Q-learning (DQN) Methods

3.2.2 Actor-Critique Methods

3.2.3 REINFORCE Methods

3.2.4 Compound Methods

4 Discussion and Open Research Directions

你可能感兴趣的:(强化学习,论文阅读,强化学习,推荐系统,马尔可夫链蒙特卡洛方法,人工智能)

“Reinforcement Learning based Recommender Systems: A Survey“强化学习用于推荐系统综述