Ctrl+Alt+L

【论文笔记】 Exploration With Task Information for Meta Reinforcement Learning

文章目录

【论文笔记】 Exploration With Task Information for Meta Reinforcement Learning
- Abstract
- - Keywords
- I. INTRODUCTION
- II. RELATED WORK
- - A. Meta Reinforcement Learning
  - B. Exploration in Meta-RL
  - C. Mutual Information
- III. PRELIMINARIES
- - A. Meta Reinforcement Learning
  - B. Context-Based Meta-RL
- IV. FORMULATION
- - A. Exploration and Execution Problem for Meta-RL
  - - 1. The existing context-based meta-RL lacks effective and efficient exploration in task inference.
    - 2. The joint optimization for task inference and policy networks in context-based meta-RL establishes a chicken-egg optimization problem, resulting in a local optimum.
  - B. Entropy Regularized Meta-RL Objective
  - - Exploration Terms in Action Space
    - Exploration Term in Task Embedding Space
  - C. Exploration Mechanism in Task Inference
  - - Experience Coverage
    - Task-Relevant Experience
- V. METHODOLOGY
- - A. Task Inference in Context-Based Meta-RL Framework
  - B. Task Execution in Context-Based Meta-RL Framework
  - C. Implementation of Context-Based Meta-RL
- VI. EXPERIMENTS
- - A. Experiment Setup
  - - (1) Environments
    - (2) Evaluation Details
    - (3) Training Details
  - B. Performance
  - - 1. 密集奖励函数
    - 2. 稀疏奖励函数
    - 3. Meta-world 环境
  - C. Understanding of E-CMRL
  - - 1. 有效探索
    - 2. 有效执行
  - D. Ablation Studies
  - - 1. 动作信息的有效性
    - 2. 探索奖励 $r_{z}$
    - 3. $N_{\beta}$ 的有效性
- VII. CONCLUSION

【论文笔记】 Exploration With Task Information for Meta Reinforcement Learning

Abstract

Recently, context-based meta-RL has been proposed to improve data efficiency by applying a principled framework, dividing the learning procedure into task inference and task execution. However, the task information is not adequately leveraged in this approach, thus leading to inefficient exploration.

基于上下文的元RL通过应用一个原则性的框架来提升数据的有效性，将训练过程分解成任务推断和任务执行。这种方法下任务信息不能被足够地利用，导致了不充分的探索。

To address this problem, we propose a novel context-based meta-RL framework with an improved exploration mechanism.

为了解决这个问题，我们提出了一个新的基于上下文的元RL框架，它具有改进的探索机制。

For the existing exploration and execution problem in context-based meta-RL, we propose a novel objective that employs two exploration terms to encourage better exploration in action and task embedding space, respectively.

针对现有的基于上下文的元RL中的探索和执行问题，我们提出了一个新的目标，即分别使用两个探索“术语”来鼓励在动作（空间）和任务嵌入空间中进行更好的探索。

The first term pushes for improving the diversity of task inference, while the second term, named action information, works as sharing or hiding task information in different exploration stages.

第一项推动提高任务推理的多样性；而第二项被称为动作信息，在不同的探索阶段起着共享或隐藏任务信息的作用。
We divide the meta-training procedure into task-independent exploration and task-relevant exploration stages according to the utilization of action information.

根据动作信息的使用，将元训练阶段划分为任务独立性探索和任务无关性探索
By decoupling task inference and task execution and proposing the respective optimization objectives in the two exploration stages, we can efficiently learn policy and task inference networks.

通过解耦任务推断和任务执行，并在两个探索阶段提出相应的优化目标，我们可以有效地学习策略和任务推断网络（可能的意思是：任务推断——优化目标——学习任务推断网路；任务执行——优化目标——学习策略）

实验：Mujoco，密集奖励和稀疏奖励。

Keywords

Exploration, meta reinforcement learning (meta-RL), mutual information, task information.

I. INTRODUCTION

**背景：**在实践中，当执行类似的任务时，智能体甚至需要从头开始（learning from scratch）接受训练。因此，通过像人类学习者一样，有效地利用历史经验，提高RL的适应性成为一个有价值的课题。

元强化学习提出：处理上述挑战的有效技术之一是元强化学习（meta-RL），它捕获跨任务的共享知识，并使用很少的交互数据处理新任务。

**分类：**基于梯度（下降）、基于循环网络、基于上下文。

**评价：**前两种方法主要适用于元策略（on-policy）的策略更新，因此在元训练过程中数据效率低。

**基于上下文方法引出：**为了缓解这一问题，一种基于上下文的元RL策略，如"概率嵌入式演员评论家RL"（PEARL），提出了一种异策略（off-policy）形式的元RL，并优于以前的策略方法。

基于上下文方法介绍：在 PEARL 中，学习过程分为两个阶段，即对潜在任务上下文的在线任务推理和基于任务特征条件策略的任务执行。

基于上下文方法问题：

First, existing works lack efficient exploration during task inference. The exploration in PEARL only originates from the policy entropy term and the posterior distribution of task belief, lacking the task information guideline. 首先，现有的工作在任务推理过程中缺乏有效的探索。PEARL 的探索仅源于策略熵项和任务信念的后验分布，缺乏任务信息指导。Although we have no access to task labels or descriptions, task inference should involve more task-relevant information for low inference bias.虽然我们无法访问任务标签或描述，但任务推理应该涉及更多的任务相关信息，以实现低推理偏差。

PEARL则是用一个额外的神经网络训练得到一个可用于描述context的隐层变量中；

on-policy算法是基于policy gradient的算法，它们直接控制策略中动作的分布，从而能够根据当前数据所反映出来的任务分布对策略进行调整，符合meta-RL的要求；

给一个用于训练的任务集合，元训练的过程就是学习得到一个策略，这个策略能够通过对历史transition经验的推理迅速适应新的任务。我们将这种历史信息称为 context， $c$ 。具体来说， $c_{n}^{\Tau}=\{s_{n},a_{n},r_{n},s_{n}^{\prime}\}$ 表示任务 $\Tau$ 中的一个transition，则包含了至今为止所有的经验。在测试阶段，智能体的策略必须能够迅速适应从 $p(\Tau)$ 所采样得到的新任务。

Second, the optimization processes for task inference and task execution are coupled, impeding policy optimization. In context-based meta-RL, an exploration policy and an execution policy are presented but keep the same in many works.

任务推断和任务执行的过程被耦合了，阻碍了策略的优化。在基于上下文的meta-RL中，提出了一个探索策略和一个执行策略，但在许多工作中保持不变。

In other words, the policy shall play the roles of exploration and execution simultaneously. In the early stage of meta-training, the collected experience from the non-optimal policy limits task inference, thus limiting task execution. Hence, the framework of task inference and task execution should be adjusted for effective policy optimization.

策略必须同时具有探索和执行。在早期的元训练阶段，从非最优的策略中收集到的策略限制了任务的推理，因此限制了任务的执行（与我们的想法类似）。任务推断和执行框架应有效地调整来应对高效的策略优化。

In this article, we propose a novel context-based meta-RL framework with an improved exploration mechanism based on task information. Built on the framework of PEARL, meta-RL is formulated as a partially observable Markov decision process (POMDP) while the task representation is approximated by Gaussian distribution. Our aim is to enhance exploration in task inference as well as decouple task inference and task execution for improving policy optimization.

提出基于任务信息的改进探索策略的新的元强化学习框架。在PEARL的框架上，元RL表示为部分可观察的马尔可夫决策过程（POMDP），而任务特征近似于高斯分布。我们的目标是增强任务推理的探索，以及解耦任务推理和任务执行，以改进策略优化。

为此，通过提出一个新的目标，积极鼓励策略探索，并推导出分别作用于行动空间和任务嵌入空间的两个探索术语

任务嵌入空间中的探索项称为任务熵，它起源于任务推理网络的熵，增强任务推理的多样性（目标是熵增，任务推理的结果变得更多）。此外，动作空间中探索术语：动作信息，建立在动作与潜在任务表征之间的互信息基础上，对任务相关信息进行评价。

In our setting, the derived action information works as sharing or hiding task information in different stages of meta-training. In the early stage of meta-training, action information encourages uniform exploration by restraining task-relevant information because the collected experience from the initial policy provide less task-relevant information. When the policy gets improved and fulfills tasks effectively, this term is leveraged to encourage collecting task-relevant information to fulfill the specific task with better performance. In the end, we reconstruct the optimization objectives of task inference and policy network in different stages and propose our novel context-based meta-RL algorithm.

在我们的设置中，衍生出的动作信息在元训练的不同阶段共享或隐藏任务信息。在元训练的早期阶段，行动信息通过限制任务相关信息来鼓励统一的探索，因为从初始策略中收集到的经验提供了较少的任务相关信息（既然任务特征较少，所以就干脆抑制他，抑制同时提供机会训练推理网络）。当策略得到改进并有效地完成任务时，这个术语被用来鼓励收集与任务相关的信息，以更好的性能完成特定的任务（有任务特征信息就尽量放大）。最后，我们在不同阶段重构了任务推理和策略网络的优化目标，并提出了基于上下文的元RL算法。

“Then, we propose a novel objective that encourages more extensive exploration.” 更激进的探索。

II. RELATED WORK

A. Meta Reinforcement Learning

The recurrent or recursive model directly meta-learns a function that takes historical experience as input and distills task-conditional policy in the follow-up time steps. RL^2 structures the agent as a recurrent neural network, extracting the past experience as the internal state for the subsequent task fulfillment. The subsequent related works focus on the network structure for distilling task information efficiently.

循环或递归模型直接元学习一个函数，以历史经验作为输入，并在后续时间步骤中提取任务条件策略。RL^2 将智能体构建为一个递归神经网络，提取过去的经验作为后续任务完成的内部状态。后续的相关工作关注于有效地提取任务信息的网络结构。

B. Exploration in Meta-RL

There exist various exploration techniques for three types of methods.

Stadie et al. asserted MAML and RL^2 pay less attention to exploration and propose E-MAML that applies stochastic gradient descent for good rewards in eventual meta-updates. Model agnostic exploration with structured noise (MASEN) introduces good exploration strategies for MAML by acquiring latent exploration space that injects structured stochasticity into a policy.

E-RL2 extracts task information from the first few rollouts without reward and fulfills tasks in the later rollouts based on the explored task information.

Context-based meta-RL proposes posterior sampling in task embedding space to enable exploration for better task inference.

Gurumurthy et al. use separate policies for pre-update and post-update sampling, and apply a self-supervised objective in the inner loop update for stable task-specific information. Context-aware task encoder with self-supervised task exploration for efficient meta-RL (CASTER) enhances task inference procedure via active task exploration and applies more efficient task information to task execution. In addition to two separate policies, Kamienny et al. and Liu et al. seek a new exploration objective based on privileged information of task ID and learn task inference procedure in a supervised manner.

C. Mutual Information

互信息或信息增益起源于一种流行的度量函数，在RL和元RL中得到了广泛的应用。

Houthooft 等人将状态-动作对和环境动力学特性之间的互信息，表示为智能体对环境或动力学的置信度的贝叶斯不确定性。
Strouse 等人和 Goyal 等人、将这种类型的信息正则化应用于多任务学习中，有助于提炼跨任务共享的知识。
Ratzlaff 等人提出了一种基于高维观测互信息的实用探索方法，在一个紧凑的表示空间内提取预测探测信号。
Teh 等人和 Galashov 等人旨在提炼基于多目标环境中新任务的一般策略。
Sharma等人通过将内在重塑的奖励，定义为状态和生成的技能之间的相互信息，从而实现了对技能的动态感知发现。

III. PRELIMINARIES

A. Meta Reinforcement Learning

Meta-RL aims to address the fast adaptation problem in RL, allowing the agent to adapt to new tasks quickly. We adapt the meta-learning framework to enable fast learning, incorporating a prior of past experience in structurally similar tasks.

元强化学习本身是用来提升泛化的，这篇论文用结合结构化的相似任务的先验知识的元强化学习

通常，meta-RL考虑一个MDPs家族 $(S,A,R_{\Tau},P_{\Tau})$ ，其中状态空间 $S$ 、动作空间 $A$ 、奖励函数 $R_{\Tau}$ 和转移概率 $P_{\Tau}$ ，后两项由任务 $T$ 参数化。不同的任务共享相似的结构（例如，在具有不同布局的迷宫中搜索），并从相同的任务分布 $ρ(\Tau)$ 中采样。更准确地说，任务具有相同的状态、行动空间，而过渡概率或奖励功能可能因任务而不同。

元强化学习的训练过程可以分解为元训练和元测试阶段。两个阶段的任务都从一个分布中采样，但是任务之间不会重叠。对于每个任务，智能体都通过参数化的策略 $\pi_{\theta}$ 重复与环境交互若干次，生成 episodes，终止条件是智能体的交互达到了终点以及达到了最大的交互步长。给定折扣因子 $γ$ ，智能体的目标是通过优化执行策略 $π_{θ}$ 来最大化每个任务 $T_{i}$ 的总折扣回报。
$E_{\pi_{\theta},\mathscr{\Tau_{i}}\in p(\Tau)}[\Sigma_{t=0}^{H-1}\gamma_{t}r_{t}^{i}]$

B. Context-Based Meta-RL

基本上，我们在元测试阶段通过任务性能和样本效率来评估元RL。为此，其核心见解是从训练任务的历史经验中提取与任务相关的信息，以加速测试任务中的学习。基于上下文的元RL提供了一种很有前途的技术。

基于上下文的元RL的元训练过程分为任务推理和任务执行，主要目标是学习一种适应手头任务的策略，调节过去过渡的转换历史，称为上下文 $\vec{c}$ 。 $c^{T_{i}}_{1:N}$ 包括迄今为止收集到的经验，稍后简化为 $\vec{c}$ 。然后提出了由 $φ$ 参数化的推理网络 $q_{φ}(z|c)$ 来对给定上下文 $\vec{c}$ 条件下的潜在概率任务上下文变量 $z$ 进行编码。在任务执行过程中，智能体目标是优化任务条件策略 $π_{θ}(a|s,z)$ ，以解决从 $z$ 上给定的任务样本。

把基于上下文的方法用在了 SAC 方法上，相当于在 $z$ 条件下额外增加了熵的目标，beta是超参数限制幅度的
$E_{\pi_{\theta},\mathscr{\Tau_{i}}\in p(\Tau)}[\Sigma_{t=0}^{H-1}\gamma_{t}(r_{t}^{i}+\beta H^{\pi_{\theta}}(\cdot|s_{t}^{i},z)]\tag{3}$
(3)中的目标是基于奖励的目标的探索形式，在行动空间和任务嵌入空间中引入了一种新的探索机制。

In essence, context-based meta-RL is formulated as a POMDP in which latent context z serves as the unobserved part in state space. As a result, the main procedure is converted to optimizing inference network $q_{φ}(z|c)$ in the task inference phase and optimizing policy network $π_{θ}(a|s,z)$ in the task execution phase, and both of them are interdependent. Therefore, the resulted policy adapts to test tasks quickly.

本质上，基于上下文的元RL被表述为一个POMDP，其中潜在的上下文 $z$ 作为状态空间中未被观察到的部分。因此，主要过程在任务推理阶段转换为优化推理网络 $q_{φ}(z|c)$ ，在任务执行阶段转换为优化策略网络 $π_{θ}(a|s,z)$ ，两者都是相互依赖的。因此，结果得到的策略可以快速地适应测试任务。

IV. FORMULATION

A. Exploration and Execution Problem for Meta-RL

1. The existing context-based meta-RL lacks effective and efficient exploration in task inference.

探索对于适应新任务至关重要，因为它负责收集信息经验来推断任务。尽管 PEARL 对潜在上下文 $z$ 建模了一个推理分布，并鼓励通过后验抽样进行探索，但这种纯粹的探索对任务相关信息的贡献很小。除此之外，现有工作中的推理和策略网络的优化都是在整个元训练过程中建立在相同的目标之上的，这限制了探索。

2. The joint optimization for task inference and policy networks in context-based meta-RL establishes a chicken-egg optimization problem, resulting in a local optimum.

基于上下文的元RL中的任务推理和策略网络的联合优化，建立了一个鸡蛋优化问题，得到了一个局部最优。

chicken-egg optimization problem：二者互生共存问题，以彼此的存在为前提和依赖基础。要求解A，需依赖于B，而B又以A的条件为基础。

具体来说，学习任务推理需要策略收集解决任务的必要经验，而解决特定任务的学习策略需要通过任务推理提供信息丰富的潜在任务上下文。

B. Entropy Regularized Meta-RL Objective

解决探索和执行问题的直观方案是增强对任务推理和解耦任务推理和执行的探索。具体来说，我们提出了一种新的探索机制，其中我们将元训练阶段，划分为与任务独立的探索阶段和与任务相关的探索阶段。我们非常鼓励在任务依赖的早期探索阶段完成任务，并鼓励收集与任务相关的经验，在与任务相关的探索阶段提取有效的任务情境。

正如在基于上下文的meta-RL中所述，任务 $T_{i}$ 的上下文 $c^{i}$ 不会直接应用于策略 $π$ 和释放的熵项。为了方便地应用这种熵正则化（entropy regulation），我们将推理网络 $q_{φ}(z|c^{i})$ 和任务条件策略 $π_{θ}(a|s,z)$ 引入到原始熵项的估计中。const 表示独立于策略和任务推理网络的常数。
$H^{\pi}(a|s,c^{i})\ge \int\int\pi(a,z|s,c^{i})\log\big( \frac{q(z|s,c^{i})}{\pi(a,z|s,c^{i})} \big)\mathbf{d}a\mathbf{d}z\\=-I(a,z|s,c^{i})+E[H^{\pi_{\theta}}(\cdot|s,z)]+H^{q_{\phi}}(\cdot|c^{i})+\text{const}$

Exploration Terms in Action Space

One is the policy entropy term $H^{\pi_{\theta}}(\cdot|s,z)$ that works like SAC. More precisely, the actor network $\pi_{\theta}(a|s,z)$ is modeled as Gaussian distribution, and the entropy term $H^{π_{θ}} (·|s,z)$ encourages the agent to succeed at the task while act as randomly as possible.

$H^{\pi_{\theta}}(\cdot|s,z)$ 的作用跟在 SAC 算法上的很像。演员的网络 $\pi_{\theta}(a|s,z)$ 被建模成了高斯分布， $H^{π_{θ}} (·|s,z)$ 的术语表示鼓励智能体在采取尽可能随机的动作中成功执行任务。
The other is an information regularizer $I (a, z ∣ s, c)$ called action information, which denotes the conditional mutual information between the inferred task context $z$ and action a given state $s$ and context $c$ . The derived term $- I (a, z ∣ s, c)$ encourages the agent to hide task-relevant information and devote policy to explore action space like $H^{π_{θ}}(·|s,z)$ , that is to say, this term is committed to uniform exploration while fulfilling tasks. The function of action information is expounded later.

另一个是被称为动作信息的信息正则化器 $I (a, z ∣ s, c)$ ，它表示推断的任务上下文 $z$ 与给定状态 $s$ 和上下文 $c$ 之间的条件互信息。负项 $- I (a, z ∣ s, c)$ 鼓励智能体去隐藏任务相关的信息并致力于使策略像 $H^{π_{θ}}(·|s,z)$ 一样探索动作空间。这个术语致力于在完成任务的同时统一探索。

Exploration Term in Task Embedding Space

The entropy of the task inference network $H^{q_{φ}}(·|c^{i})$ called task entropy encourages covering the task embedding space. Even though existing works formulate the latent context as probabilistic not deterministic for more active exploration in task embedding space, it only covers the local limited task space for the current task.

任务推断网络输出结果的熵，叫做任务熵，鼓励覆盖任务的嵌入空间。尽管现存的工作，出于有效的探索，将潜在上下文表达成概率信息而非确定信息，但是这种概率信息需要抽象才能用于策略中，只是用到了局部的限制信息而非当前策略的全部信息。（而要想用全部信息，就必须经过多次迭代，才能将潜在变量的分布清晰刻画出来）

$H^{π_{θ}}(·|s,z)$ improves action exploration by acquiring diverse behaviors in action space while $H^{q_{\phi}}(\cdot|c^{i})$ improves task context exploration by acquiring diverse latent context in task embedding space.

$H^{π_{θ}}(·|s,z)$ 通过获得在动作空间中获得多样的行为提升动作上的探索， $H^{q_{\phi}}(\cdot|c^{i})$ 通过在任务嵌入空间中获得多样的潜在上下文来鼓励探索。

任务相关信息 $z$ 是不明确的，特别是在元训练的早期阶段。由于 $z$ 的无监督学习是建立在最初不成熟策略的基础上收集到的经验上的，因此最初的任务推理很难集中有效。在这一阶段，第三项推动策略在不考虑足够的任务信息的情况下去完成任务。

C. Exploration Mechanism in Task Inference

Experience Coverage

首先，策略外缓冲区存储来自以前不同策略的样本轨迹，而策略上的更新仅利用来自当前策略的样本轨迹。这种机制意味着非策略重放缓冲区可以覆盖更宽的状态空间。其次，策略熵项 $H^{π_{θ}}(·|s,z)$ 添加到奖励项中，鼓励智能体同时成功地完成任务和探索行动空间。该随机策略在训练阶段进行探索，并在测试阶段确定以成功完成任务。

在我们的工作中，经验覆盖的创新探索项是任务熵项的部署：
$H^{q_{\phi}}(\cdot|c^{i})=E_{q_{\phi}(z|c^{i})}[-\log(q_{\phi}(z|c^{i}))]$
然而，任务熵鼓励对任务嵌入空间的探索，并通过将潜在情境尽可能随机化，激励潜在任务情境尽可能多样化。沿着这条线，最大化这个术语意味着为一个任务推理学习多个可用的解决方案。这样，这样的任务推理模块在转向一个看不见的测试任务时是健壮的，并快速适应它。然而，直接优化 $H^{q_{\phi}}(\cdot|c^{i})$ 会导致 $z$ 在任务嵌入空间中均匀分布，从而忽略了与任务相关的信息。我们将这个术语转换为 $r_z =−\log(q_φ(z|c^{i}))$ ，对每个任务保持不变。这样，当 $r_{t}^{i}$ 在早期元训练阶段不够具有指导意义时， $r_z$ 有助于任务空间的探索。

Task-Relevant Experience

除了上述经验覆盖外，任务推理的探索基础还包括收集任务信息经验。
$I_a = H(z|s, c) − H(z|a,s, c)\\=H(a|s, c) − H(a|z,s, c)$
互信息量化了给定策略部署 $s, c \to a$ 对 $z$ 的了解程度。最大化这个项对应于通过最大化熵 $H (a ∣ s, c)$ 来提高动作的随机性，同时通过最小化 $H (a ∣ z, s, c)$ 来使 $z$ 提供关于当前状态下动作执行的信息。因此， $I_a$ 作为一种内在的奖励，鼓励收集轨迹来区分当前的任务，即任务信息经验。

$q_{φ}（z|c）$ 表示对预先推断的潜在任务上下文z的期望， $E_{π_{θ}}$ 表示对 $π_{θ}$ 轨迹的期望，KL表示KL散度， $π_{0}(a|s)$ 表示独立于任务上下文 $z$ 的默认策略。 $π_{0}(a|s) = \int p(z)π(a|s,z)dz$ 指导智能体在缺少任何附加任务信息的情况下应遵循的默认行为。从另一个角度来看，默认策略也可以被解释为所有任务上下文 $z$ 下的综合统一行为。

V. METHODOLOGY

A. Task Inference in Context-Based Meta-RL Framework

在任务推理阶段，我们专注于优化推理网络。我们在任务嵌入空间中构建探索奖励，这有助于任务推理。
$r^{\prime}=r+\beta_{1}r_z$
此外， $r_z$ 在每一 episode 开始时都被确定，其他的在每一步都被采样。所有的奖励都是通过一个截断的梯度来产生的。

在任务独立的探索阶段，我们利用贝尔曼更新损失 $Q^{i}_{θ}(s,a,z)$ 的探索奖励，策略熵和行动信息来训练推理网络。
$\mathscr{L}_{critic}=E^{(s,a,r,s^{\prime})}_{z\sim q_{\phi}(z|c)}[Q_{\theta}^{i}(s,a,z)-(r^{\prime}+\gamma\hat{V}_{\theta}^{i}(s^{\prime},z))]^{2}$

$V_{θ}^{i}(s,z) = E_{a\sim\pi}[Q_{\theta}^{i}(s,a,z)-\beta_{2}\log\pi_{\theta}(a|s,z)-\beta_{3}KL(\pi_{\theta}(a|s,z)||\pi_{0}(a|s,z))]$

在与任务相关的探索阶段，我们利用贝尔曼更新损失来训练推理网络。
$\mathscr{L}_{critic}=E^{(s,a,r,s^{\prime})}_{z\sim q_{\phi}(z|c)}[Q_{\theta}^{r}(s,a,z)-(r^{\prime}+\gamma\hat{V}_{\theta}^{r}(s^{\prime},z))]^{2}$

$V_{θ}^{r}(s,z) = E_{a\sim\pi}[Q_{\theta}^{r}(s,a,z)-\beta_{2}\log\pi_{\theta}(a|s,z)-\beta_{3}KL(\pi_{\theta}(a|s,z)||\pi_{0}(a|s,z))]$

综上所述， $q_{φ}(z|c)$ 的更新在很大程度上取决于以下自由能的梯度：
$J_φ = \mathscr{L}_{critic} + αE_{c}[KL(q_{φ}(z|c)||r(z))]$

B. Task Execution in Context-Based Meta-RL Framework

在任务独立的探索阶段，我们试图忽略与任务相关的信息，并训练智能体来最大化新的目标如下：

因为是要最大化 $J(\pi_{\theta})$ 这个公式的，那么就要扣除掉 $I_a$ 这个项目，削弱与任务相关的信息，对应于前文的 “hide”，隐藏信息。

在与任务相关的探索阶段，我们利用与任务相关的信息，训练智能体来最大化新的目标如下：

最大化原有的累计奖励和探索熵，再额外增加 $I_a$ 这个项目，增加与任务相关的信息，对应于前文的“share”，共享信息。

在任务推理过程中推断的 $z$ 下，任务 $T_{i}$ 的新目标如下：

也就是对前面两个式子的整合。

优化关于策略参数 $θ$ 的KL项似乎有点困难，因为上述期望是相对于采样轨迹的。然而，梯度可以通过使用所谓的 对数导数技巧 来重写该项作为对轨迹的期望来估计。

在实际实现中，我们应用了自动微分和重新参数化的技巧，而不是一个低方差估计量。
$π_{0}^{\ast}=\min_{π_{0}}J(π_{0})=\min_{π_{0}}E_{z}\big[KL(\pi_{\theta}(a|s,z)||\pi_{0}(a|s,z))\big]$
因此，学习 $π_{0}$ 可以被看作是监督学习，其中 $π_{0}$ 被训练来匹配由 $π_{θ}$ 产生的任务条件动作序列。事实上，最优的 $π_{0}$ 对整个任务都有足够的信息和能力。

C. Implementation of Context-Based Meta-RL

一些研究者试图利用两种策略来完成任务：探索策略和执行策略，其中探索策略负责探索和收集信息经验来推断任务，而执行策略的目标是基于推断的任务成功地完成任务。但是作者也没有很反驳出来，只是说复杂的，没有同时性的。

对于上面提到的探索和执行问题，我们提出了两个探索阶段来促进探索，并在每个阶段将任务推理和任务执行解耦。算法2揭示了该解耦过程，其中推理和策略网络的优化在训练步骤中被解耦。更准确地说，在每次样本迭代中，我们部署 $L_{i}$ 优化步骤进行任务推理，即只优化 $q_{φ}(z|c)$ ，然后在优化的后续步骤中训练策略和价值网络，同时保持 $q_{φ}(z|c)$ 不变。这样，通过经验证据，稳定的推断 $z$ 对任务的完成有很大的贡献。

策略 $π_{θ}$ 有望利用收集到的经验并执行积极的行动。建议的默认策略 $π_{0}$ 与 $π_{θ}$ 设计相同的结构，只将状态 $s$ 作为输入，并将操作 $a$ 作为输出。此外，在 $N_{β}+1$ 迭代时， $Q^{r}_{θ}(s,a,z)$ 的值继承了 $Q^{i}_{θ}(s,a,z)$ 的值，因为随机初始化它的值将浪费更多的时间。因此，在算法图中，我们只使用一个Q来表示Qi，Qr。我们的算法被命名为E-CMRL（基于上下文的元rl的缩写），算法1的元训练过程在算法1中进行了总结。

VI. EXPERIMENTS

A. Experiment Setup

(1) Environments

name	detail
Half-Cheetah-Dir	Require HalfCheetah-v2 to move forward or backward (two tasks for train and test)
Half-Cheetah-Vel	Require HalfCheetah-v2 to reach different target velocities while keep running forward (100 train tasks, 30 test tasks).
	其他类似，都是在数值语义上做不同的任务。

(2) Evaluation Details

我们采用以下评估方案：每个环境的所有估计的每集性能和每个算法在至少三次使用不同随机种子的试验中被平均。

(3) Training Details

所有的参与者网络和评论家网络都是具有300个单元和重新激活函数的三层网络。

策略网络的输出是策略分布的均值和方差向量。

B. Performance

We compare E-CMRL with existing policy gradient meta-RL methods such as MAML-TRPO, Promp, and context-based meta-RL methods PEARL.

1. 密集奖励函数

测试任务的性能通过所有元测试任务的最后一个适应集平均返回来评估。训练效率是通过收集的元训练经验来衡量的。更值得注意的是，元测试任务与元训练任务没有交集。

First, task inference involves task-relevant information from the same experience. In addition, the adjustment of $I_a$ reaches the balance of exploration and execution for task relevant information, avoiding the utilization of inaccurate task information. Beyond that, the decoupling of the optimization procedure is benefificial for more stable learning.

首先，任务推理涉及到来自同一经验的任务相关信息。此外， $I_a$ 的调整达到了对任务相关信息的探索和执行的平衡，避免了使用不准确的任务信息。除此之外，优化过程的解耦还有利于更稳定的学习。

2. 稀疏奖励函数

Meta-World is a recently proposed challenging evaluation benchmark for meta-RL, in which another assessment criteria: success rate, is proposed. The average success rate over multiple repeated experiments is a valuable measurement for task fulfifillment in addition to cumulative reward.

3. Meta-world 环境

C. Understanding of E-CMRL

1. 有效探索

这一结果告诉我们，E-CMRL的探索推动了代理以更高或更低的奖励覆盖更宽的状态空间，从而促进了任务推理。相比之下，PEARL专注于有限的状态空间，奖励间隔较短，这与任务探索和相关的任务推理相悖。在随后的情节中，潜在变量 $z$ 促进了平均奖励，但不能扩大覆盖范围。有了更准确的任务信息，这两种方法都能将代理推向更有目的性的区域。

2. 有效执行

Although E-CMRL does not propose two policies for sample trajectory and task execution, respectively, our trained policy can make effective exploration and task execution simultaneously.

D. Ablation Studies

1. 动作信息的有效性

2. 探索奖励 $r_{z}$

3. $N_{\beta}$ 的有效性

当 $N_{β} = 0$ 时，这意味着策略在开始时利用推断的任务相关信息，缓慢的收敛趋势意味着从低质量的经验推断的 $z$ 对策略优化有害。随着 $N_{β}$ 的增加，收敛速度和渐近性能得到提高，这意味着从高质量经验推断出的 $z$ 对策略优化有很大贡献。此外， $N_{β} = 50,100,200$ 和 $N_{β} = 300,1000$ 之间的比较表明，对于过度的漫无目的的探索，应该限制任务独立的探索阶段。这一现象也说明了 $N_{β}$ 的调整是一件困难的工作。

VII. CONCLUSION

we built a novel objective with an improved exploration mechanism that employs two additional exploration terms in task embedding and action space, respectively.
The main contribution is formulating meta-RL framework, which utilizes a novel context-based meta-RL framework, which utilizes task-relevant information effificiently and decouples optimizing inference and policy network.

你可能感兴趣的:(论文笔记,MetaRL_Notes,论文阅读,元强化学习)

我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
2019-05-13 王健_100a
【撒下18:2】大卫打发军兵出战，分为三队：一队在约押手下，一队在洗鲁雅的儿子约押兄弟亚比筛手下，一队在迦特人以太手下。大卫对军兵说：“我必与你们一同出战。”解释：大卫检阅部队，将它分成三队，每队由一位元帅统领；约押与兄弟亚比筛，并迦特人以太共同指挥。大卫想与他们一同出战！应用：作为领袖与军兵一起出战是很重要。领袖在事奉中与信徒一起，领袖在任何的环境里与信徒一起走过。我们要同心协力为主而战。祷告：
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
2024.9.14 Python，差分法解决区间加法，消除游戏，压缩字符串 RaidenQ python 游戏开发语言算法力扣
1.区间加法假设你有一个长度为n的数组，初始情况下所有的数字均为0，你将会被给出k个更新的操作。其中，每个操作会被表示为一个三元组：[startIndex,endIndex,inc]，你需要将子数组A[startIndex…endIndex]（包括startIndex和endIndex）增加inc。请你返回k次操作后的数组。示例:输入:length=5,updates=[[1,3,2],[2,4,
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
京券东券优惠券领取网站-点击进入高省爱氧惠
嘿，小伙伴们，你们知道吗？京东商城可是有好多超值优惠券等着我们领取哦！不论是京券还是东券，都有好多好多的优惠等着我们呢！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。想要领取这些优惠券，
手机上有什么兼职可以做？网上兼职一单一结手机就可以做？优惠券高省
建议上班族和全职宝妈把空闲时间拿出来一点做做副业，什么也不耽搁还能多一笔收入！推荐大家一定要试一试！！！只要有手机就可以做，下面小编就为大家推荐用手机就可以做的三类网上兼职工作。一，高省APP高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。万方导师高省邀请码005500，注册送双皇冠会员，送万元推广大礼包，教你如
“元宇宙”带不动Meta？基本业务已“后院起火”！小扎举步维艰！链科天下
由于宏观经济疲软、市场动荡，“放缓”已经成为美国科技股的主线逻辑，曾风光无限的科技巨头Meta也开始一路下行、举步维艰。据彭博社报道，Meta已宣布计划裁员并重组团队以削减预算，这是该公司2004年成立以来首次大幅削减预算。此次裁员或受到业绩低迷的影响，Q2财报显示Meta业绩远不及预期，上市以来营收同比出现首次下滑，净利连续三季度下降。扎克伯格表示，“希望经济能够稳定下来，但从目前的情况来看并非
中国广电永久9元流量套餐！性价比最高流量卡套餐介绍！优惠攻略官
中国广电是中国最大的传媒集团之一，其推出的流量套餐备受消费者青睐。中国广电最实惠的流量套餐不仅价格亲民，而且提供了优质的网络体验。首先，中国广电的流量套餐价格实惠，适合不同消费者的需求。无论是短期的日租卡还是长期有效的月租卡，用户都可以根据自己的实际情况选择适合自己的套餐。而且，流量的价格相对于其他运营商的套餐来说更加合理，给用户提供了更大的选择空间。☞大流量卡套餐「→点这免费申请办理」或者截图扫
现金贷“租系统”产业崛起：租金3000，本金10万，一月回本 Dayon
最近，地下现金贷的全面崛起，已成了不可阻挡的趋势。大量民间资本开始涌入，民间高利贷、炒房团、土豪的钱，都裹挟其中。而地下现金贷的入门门槛正在不断降低，一条新的产业链开始崛起：租现金贷系统。现在，只需要10万本金，花3000元租个系统，两个人的团队，一个月就能回本。大量的小本金玩家进场了，为了急速获利，他们甚至将利率调到1600%以上。业内人士称，真实的现金贷用户，现在大概只有200多万。整个行业几
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
天猫返利网哪个最好?天猫返利网站有哪些? 优惠券高省
关于哪个返利网站好用，今天汐儿给大家介绍以下十大网站，可以作为参考：1、高省网【高省APP】（邀请码：668666）全网佣金最高。手机应用商店搜索“高省”即可免费下载安装，填写高省邀请码：668666，直升2皇冠，享更高佣金及分红奖励。高省APP全网佣金最高，手机应用商店搜索“高省”即可下载，高省邀请码：668666，此码注册，直升2皇冠，佣金更高！送万元推广大礼包，教你如何1年做到百万团队。其实
日更第120天-顺其自然，为所当为飞翔001
在教培业务萎缩之后，新东方前不久宣布转型带货，初期人气寥寥，直播间也就几千人观看，近日，新东方的“东方甄选”因英语老师双语直播带货爆火，直播间人数过万，6月10日，新东方在线股价暴涨近40%，单日成交额突破1000万元，累计近400万人观看了直播。当晚俞敏洪来到直播间，和老师们一起直播带货。俞敏洪称，这是新东方老师们非常关键的转型，他们老师转型做带货主播，受到了大家的关注和部分的肯定，感谢各位网友
经纬恒润二面&三七互娱一面&元象二面 Redstone Monstrosity 面试前端
1.请尽可能详细地说明，进程和线程的区别，分别有哪些应用场景？进程间如何通信？线程间如何通信？你的回答中不要写出示例代码。进程和线程是操作系统中的两个基本概念，它们在计算机系统中扮演着不同的角色，并且在不同的应用场景中发挥作用。进程和线程的区别定义：进程：进程是操作系统进行资源分配和调度的基本单位。每个进程都有独立的内存空间和系统资源。线程：线程是进程内的一个执行单元，是操作系统进行调度的最小单位
补充元象二面 Redstone Monstrosity 前端面试
1.请尽可能详细地说明，防抖和节流的区别，应用场景？你的回答中不要写出示例代码。防抖（Debounce）和节流（Throttle）是两种常用的前端性能优化技术，它们的主要区别在于如何处理高频事件的触发。以下是防抖和节流的区别和应用场景的详细说明：防抖和节流的定义防抖：在一段时间内，多次执行变为只执行最后一次。防抖的原理是，当事件被触发后，设置一个延迟定时器。如果在这个延迟时间内事件再次被触发，则重
每天赚50零花钱的方法，日赚50元左右的5个正规渠道一起高省
每个人都希望拥有一笔自己的零花钱，但是很多人可能没有太多的时间去赚钱，或者没有太多的机会去赚取收入。但是，你可以通过一些简单的方法来赚取每天50元的零花钱。下面分享一些能每天赚50元的方法门路，总有一个适合你！①电商——高省高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。拂晓导师高省邀请码989898，注册送双皇
但行好事，莫问前程娟恋YOU
下班路上，路过菜市场，突然想吃火锅了。于是于是边去常去批发雪糕的地方去买些涮火锅的丸子类的菜，选了一些后，结算是24.9，老板爽快的说，给我24.5就行，正好钱包有现金25元，超递给老板结账，老板又给我一元钱，说24就行，我说那怎么可以，我又沾光了，总沾你的光，多不好意思！老板说你常来我就是沾你的光了！最后还是收了我24块钱，心里还是很开心的。不是因为沾光而开心，而是被让的开心！这样的老板做生意闻
死心眼的家长 Z青青
今天礼拜一是儿子打篮球的时间，放学回家高高兴兴的把饭吃完了，准备上篮球课，走到门口小卖铺，放学回来时候，孩子想买零食，我同意了说好3元标准，嗯，到了小卖铺他想吃南瓜酥（很上火），我说孩子你嗓子不舒服着的这个不能吃吧，又要可乐我摇头，他又去选，我提醒他快到时间了，生气了不买了，一路上哭我生气把车子停下来，打算好好说说，一停不要紧不去上课了，说他不喜欢篮球，都是我逼他报的。我:孩子我让你考虑了几个月，
读《红楼梦》第十九回情切切良宵花解语意绵绵静日玉生香梦一场_c315
元春回宫，贾府上下又忙碌了二三日，方收拾停当，个个是累得人仰马翻。王熙凤为了不落人口舌也只能硬撑着，凡事冲在前头。袭人的母亲来面见贾母，将袭人接回去吃年饭，晚上才会回来，宝玉甚觉无聊。宁府这边唱戏，贾珍来邀宝玉过府观赏，刚欲出门，元春赐了糖蒸酥酪来，宝玉想着平日里袭人最爱吃，便留给袭人，自己出门看戏去了。到了宁府，只闻锣鼓喧天，热闹非凡，宝玉稍坐了片刻，忽想起一间小书房里挂着一张美人图，今日府上这
中国电信推出9.9元10g暖心流量包，每g流量只需0.99元全网优惠分享
中国电信推出9.9元10g暖心流量包，每g流量只需0.99元！关注微•信•公•众•号"卡泡泡"就知道啦！中国电信推出了9.9元10g暖心流量包，该流量包适用于所有中国电信手机用户，无论是预付费还是后付费用户均可办理。该流量包的价格非常实惠，仅需9.9元即可获得10g的国内流量，折合每g流量仅需0.99元。该流量包的有效期为5天，支持跨月使用。用户在当月办理后，当日即可生效，有效期至次月同日的24:
白龙落凡鬼少箫笛工作室
七星猫、穿山甲和血蝙蝠在魔君的法力护持下，痊愈地很快，十几日的时间，功力就恢复了七八成，穿山甲和血蝙蝠与龚菊珍大战，两人又惊又惧，知晓对方法力在己之上，已经不敢对她有任何不敬之言，几人朝会上却是相安无事，七星猫因不外传的至宝“七星连冰珠”被近身侍女芳菲偷去，心头愤懑，派出人手入阳间追杀，却无意巧遇善恶二使，二使将上龙元剑交给了杀手，并求其带话到魔都，希望能救白发少年一命。杀手知晓其中厉害，连夜返回
外卖优惠券公众号哪个好?外卖领券公众号高省爱氧惠
随着外卖行业的不断发展壮大，越来越多的外卖平台开始推出各种优惠券活动，吸引用户下单。而在这些外卖优惠券公众号中，我最常用的就是【氧惠】了？不知道大家都在用什么。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如
身体乳哪个牌子的好用?口碑超好的身体乳排行榜前十名高省APP珊珊
做小仙女真不容易啊~不仅脸蛋要漂亮精致，连身体每一寸肌肤都不能放过！天气变冷后，稍不注意身上的皮屑就开始“下雪”了~网上购物用高省APP更优惠！高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码666123，注册送2皇冠会员，送万元推广大礼包，
高级UI<第二十四篇>：Android中用到的矩阵常识 NoBugException
（1）定义在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合。由m×n个数aij排成的m行n列的数表称为m行n列的矩阵，简称m×n矩阵。记作：图片.png这m×n个数称为矩阵A的元素，简称为元，数aij位于矩阵A的第i行第j列，称为矩阵A的(i,j)元，以数aij为(i,j)元的矩阵可记为(aij)或(aij)m×n，m×n矩阵A也记作Amn。元素是实数的矩阵称为实矩阵，元素是复
原力元宇宙：Web3时代下的虚拟现实融合与普通人逆袭的机遇口碑信息传播者
在数字化浪潮席卷全球的今天，一个崭新的概念——原力元宇宙，正以其独特的魅力吸引着越来越多的目光。作为元宇宙国际性的一个项目，原力元宇宙不仅融合了Web3第三代互联网的前沿技术，更将虚拟现实与现实生活紧密相连，为我们描绘出一幅前所未有的数字新世界画卷。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen原力元宇宙，是一个时代的跨越，它代表着互联网技术的又一次革新。Web
《相面天师》第六百七十一章能动了先峰老师
庄孝贤的修为之前虽然比李尚鸿差上一线，但实在是相差无几，他平日里在这聚灵阵中修炼的时候，都要控制自己吸收元气的速度，以防肉体承受不住。但是此刻李尚鸿的作为，简直就是在掠夺这些天地元气，那气势如同长鲸吸水一般，很快就将整个聚灵阵范围内的灵气席卷而尽。将别墅内聚灵阵中的灵气吸收殆尽后，李尚鸿的元神似乎壮大了一分。不过这些灵气显然不足以让它满足，那团无形无色的元神居然纵身一跃，来到了观景台的龙口之处。观
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

【论文笔记】 Exploration With Task Information for Meta Reinforcement Learning

文章目录

【论文笔记】 Exploration With Task Information for Meta Reinforcement Learning

Abstract

Keywords

I. INTRODUCTION

II. RELATED WORK

A. Meta Reinforcement Learning

B. Exploration in Meta-RL

C. Mutual Information

III. PRELIMINARIES

A. Meta Reinforcement Learning

B. Context-Based Meta-RL

IV. FORMULATION

A. Exploration and Execution Problem for Meta-RL

1. The existing context-based meta-RL lacks effective and efficient exploration in task inference.

2. The joint optimization for task inference and policy networks in context-based meta-RL establishes a chicken-egg optimization problem, resulting in a local optimum.

B. Entropy Regularized Meta-RL Objective

Exploration Terms in Action Space

Exploration Term in Task Embedding Space

C. Exploration Mechanism in Task Inference

Experience Coverage

Task-Relevant Experience

V. METHODOLOGY

A. Task Inference in Context-Based Meta-RL Framework

B. Task Execution in Context-Based Meta-RL Framework

C. Implementation of Context-Based Meta-RL

VI. EXPERIMENTS

A. Experiment Setup

(1) Environments

(2) Evaluation Details

(3) Training Details

B. Performance

1. 密集奖励函数

2. 稀疏奖励函数

3. Meta-world 环境

C. Understanding of E-CMRL

1. 有效探索

2. 有效执行

D. Ablation Studies

1. 动作信息的有效性

2. 探索奖励 r z r_{z} rz​

3. N β N_{\beta} Nβ​ 的有效性

VII. CONCLUSION

你可能感兴趣的:(论文笔记,MetaRL_Notes,论文阅读,元强化学习)

2. 探索奖励 $r_{z}$

3. $N_{\beta}$ 的有效性