最爱吃蒜苔炒肉

《Benchmarking Model-Based Reinforcement Learning》阅读笔记

文章主要内容：

1：强化学习介绍

1)无模型（RL）

通过与环境的交互直接学习一个值函数或者策略。

高样本复杂度限制了其在仿真领域的应用

2）基于模型（MBRL）

通过与环境的交互学习一个模型。

通过学习环境的模型，基于模型的方法可以显著降低样本复杂度。

但是建模错误会削弱算法的有效性，这被称为模型偏差。

本文主要工作：

最近的方法是通过概率模型和集合的方法来描述模型的不确定性，缓解了模型偏差问题。

标准化基于模型的强化学习算法，文章收集了大量的MBRL算法，给出了18种算法基准测试环境。对照条件一致（即解决相同的问题，包括噪声环境)，最后给出这些算法的性能比较。

文章基于标准OpenAI Gyml测试了18个环境中的11个MBRL算法和4个MFRL（model free RL）

2 Preliminaries

将任务作为一个离散事件有限时域的马尔可夫决策过程。此过程由数组(S; A; p; r; ρ0; γ; H)决定。S代表状态空间，a代表动作空间，p代表跃迁动力学密度函数，r定义奖励函数，ρ0代表初始状态分布，γ代表损失因数，H代表问题视野。

与无模型RL相反，设计一个可微奖励函数，RL的目的是通过学习参数pai，使得奖励函数最优化。

动态学习过程;

在与环境重复交互之后，经验的转换存储在数据集D中，然后用来学习动态函数f ~φ。真实的情况下动态确定性,学到动力学函数f ~φ预测下一个状态。

在随机环境中，通常用高斯分布来表示动力学，

3 Algorithms

主要介绍三种算法

1）Dynastyle Algorithms, 2) Policy Search with Backpropagation through Time, and 3) Shooting Algorithms.

3.1 Dyna-Style Algorithms

在此算法中，训练在以下两步中迭代。首先，使用初始策略，从与环境的交互中收集数据，然后用于学习动态模型。其次，使用学习的模型生成的想象数据改进策略，这类算法使用无模型算法学习策略，具有丰富的想象经验，不与真实环境交互。

Model-Ensemble Trust-Region Policy Optimization (ME-TRPO)-整合多个模型

ME-TRPO没有使用单一的模型，而是使用一组神经网络对动力学进行建模，这有效地克服了模型偏差。在策略改进步骤中，使用信任域策略优化更新策略(TRPO)，学习动力学模型产生的经验。

Stochastic Lower Bound Optimization (SLBO)-随机下界优化(SLBO)

是ME-TRPO的单项变体，将ME-TRPO中的单步L2损失改为多步L2-范数损失，用来训练动态系统。

Model-Based Meta-Policy-Optimzation (MB-MPO)-基于模型的变优化策略算法（MB-MPO）

MB-MPO通过meta-learning放弃了对精确模型的依赖，meta-learning是一种能够适应不同动态的策略。类似于ME-TRPO, MB-MPO通过学习神经网络进行集成。然而，集成中的每一个模型都被认为是一个不同的任务，以对其进行元训练。MB-MPO元训练策略可以快速适应集成的任何不同动态，这对模型偏差具有更强的鲁棒性。

3.2 Policy Search with Backpropagation through Time（通过时间反向传播进行策略搜索）

与dyna风格的算法相反，学习的动态模型用于提供想象的数据，而通过时间反向传播的策略搜索利用了模型的导数。因此，这些算法能够计算出RL目标相对于策略的解析梯度，并相应地改进策略。

Probabilistic Inference for Learning Control (PILCO)-学习控制的概率推理

在PILCO中，使用高斯过程(GPs)来模拟环境的动态。动力学模型f为关于采集数据D的概率非参数函数。通过对每个策略参数θ进行计算目标函数解析梯度计算，策略πθ被训练来最优化RL的目标函数。训练过程在使用当前策略收集数据和改进策略之间迭代。GPs中的推理在高维环境中不具有可伸缩性，这限制了它在更简单领域中的应用。

Iterative Linear Quadratic-Gaussian (iLQG)-迭代线性二次高斯算法

在iLQG中，基于事实的动态被认为是由代理知道的。该算法对RL奖励函数采用二次逼近，对动力学采用线性逼近，采用线性二次调节器(LQR)对问题进行转化。利用动态规划方法，逼近问题的最优控制器是一个线性时变控制器。iLQG是一种模型预测控制(MPC)算法，它在每个时间步长上执行重新规划。

Guided Policy Search (GPS)-

通过行为克隆，引导政策本质上是提取iLQG控制器πG到神经网络的策略πθ，从而来最小化目标函数。动力学模型为高斯线性时变。。。。。

Stochastic Value Gradients (SVG)-随机值梯度

SVG通过使用来自真实环境的观察，而不是想象的环境，解决了组合模型错误的问题。为了适应模型预测和实际转换之间的不匹配，SVG中的动态模型是概率性的。通过计算实际轨迹相对于该策略的解析梯度，改进了该策略。采用重参数化技术，允许通过随机采样进行反向传播。

3.3 Shooting Algorithms

这类算法提供了一种近似求解模型预测控制(MPC)中处理非线性动态和非凸奖励函数时的范围缩小问题的方法。随着神经网络在动力学建模中的应用，它们的普及程度有所提高。

Random Shooting (RS)

RS优化行动序列来最大化预期计划奖励，在学习得到的动力学模型中。特别地，该代理从一个均匀分布中生成K个候选随机动作序列，并使用所学习的动态评估每个候选。最优操作序列近似为收益最高的操作序列。RS代理只应用来自最优序列的第一个操作，并在每个时间步重新计划。

Mode-Free Model-Based (MB-MF)

一般来说，与无模型算法相比，RS具有更差的渐近性能。在MB-MF中，作者首先训练RS控制器πRS,然后将控制器提炼成一个神经网络策略πθ,最小化DKL(πθ(st);πRS)。在策略提取步骤之后，使用标准的无模型算法对策略进行微调。作者特别使用了TRPO[43]。

Probabilistic Ensembles with Trajectory Sampling (PETS-RS and PETS-CEM)

在该算法中，通过概率神经网络模型的集成来建模，该模型从有限的数据和网络容量中捕获认知不确定性，从基础真实动态的随机性中捕获随机不确定性。除了建模上的差异外，PETS-RS与RS是相同的，而在PETS-CEM中，在线优化问题采用交叉熵法来获得更好的解决方案。

3.4 Model-free Baselines

在我们的基准测试中，我们使用了MFRL基线来量化样本的复杂性和MFRL与MBRL之间渐进的性能差距。具体地，我们比较了代表性的MFRL算法，包括信赖域策略优化(TRPO)、近端策略优化(b0)(PPO)，孪生延迟深确定性政策梯度(TD3)[18]，软行为-批评（SAC)。前两种算法是最先进的基于策略的MFRL算法，后两种算法被认为是最先进的非基于策略的MFRL算法。

4 Experiments

本节主要介绍了1)现有的MBRL方法如何在具有不同复杂性的环境中相互比较和与MFRL方法比较(第4.3节)?2) MBRL算法是否对观测和动作噪声具有鲁棒性(章节4.4)?3) MBRL方法的主要瓶颈是什么?

为了回答最后一个问题，我们提出了MBRL方法固有的三种现象，分别是动力学瓶颈(4.5节)、规划层困境(4.6节)和提前终止困境(4.7节)。

4.1 Benchmarking Environments‘

1：为了适应传统的MBRL算法，如iLQG和GPS，我们修改了奖励函数，使相对于观测的梯度总是存在或可以近似。
2:我们注意到，在MBRL中没有办法提前终止，我们特别拥有原始环境和提前终止的变体，后缀ET表示。
3:OpenAI Gym中最初的Swimmer-v0是所有算法都无法解决的。因此，我们修改了速度传感器的位置，使其更容易求解。我们把这个简单的版本命名为“游泳者”，但仍然保留原来的名字

NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction 奶盐芝士小麻薯 Nerf 人工智能深度学习
Paper_Reading(不定时更新版）（仅为个人记录，若有错误，请指正）Nerf：因为缺乏曲面约束，导致从学习到的隐式表示中提取到高质量的曲面较为困难。NeuS目的：InNeuS,theyrepresentsasurfaceasthezero-levelsetofasigneddistancefunction(SDF)anddevelopsanewvolumerenderingmethodto
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri