Offline RL
是这样一种问题设定:Learner 可以获取由一批 episodes 或 transitions 构成的固定交互数据集,要求 Learner 直接利用它训练得到一个好的策略,而且禁止 Learner 和环境进行任何交互,示意图如下注意到 Offline-RL 其实和监督学习类似,都是利用一个 fixed 数据集进行学习,但由于特殊的问题设定,Offline-RL 数据集的构成方式特别自由,大部分论文都使用了自己特殊的构造方式。最常见的做法是从零开始训练一个 Online RL agent 至收敛,然后用整个训练过程上的所有交互数据组成数据集, BAIL 这篇文章揭示了这种方案的一个问题:如果使用不同的随机种子,即使是完全相同的 Online RL agent,用其得到的 Offline 数据集做 Offline RL,都有可能得到截然不同的结果
One important observation we make, which was not brought to light in previous batch DRL papers, is that batches generated with different seeds but with otherwise exactly the same algorithm can give drastically different results for batch DRL.
作者想要研究离线数据集特征对 Offline-RL 算法性能的影响。注意到数据集对 RL agent 性能的影响主要体现在分布漂移distribution shift
问题上(即 Online 性能测试时 agent 遇到的 ( s , a ) (s,a) (s,a) 分布与训练时面对的 Offline Dataset 不同,策略无法良好地泛化到未见 ( s , a ) (s,a) (s,a) 处),而分布漂移由以下两个因素导致
固定 Offline RL 算法时,因素 1 中学得的 agent 策略也仅由数据集决定,因此导致分布漂移的核心因素就是使用行为策略构造离线数据集的过程,下图可视化了不同 behavior policy 生成的 offline dataset ,行为策略对数据集的影响肉眼可见
综合上述分析,生成离线数据集时使用的 “行为策略的特征” 就可以看做 “离线数据集特征”,作者通过数据集分析得到关于 behavior policy 特征的两个指标,用做离线数据集的特征指标,借以考察离线数据集对 Offline RL 算法的影响,如下所示
策略和环境交互的过程可以看成一个单一的生成 transition ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s′) 的随机过程,如果一个 behavior policy 有高概率可以产生很多不同的 transition,就可以认为该策略具有探索性explorativeness
Note:由于 transition 是通过和给定 MDP 的交互过程产生的,所以策略的探索性只能和 MDP 一起定义。在一个 MDP 中很有探索性的策略可能在另一个 MDP 中缺乏探索性。比如一个带门的迷宫环境,如果门都是打开的,一个随机移动策略可能就有不错的探索性;如果门都是关闭的,随机移动策略由于不会开门,agent 只能卡在一个房间中
上述指标可以实现为 transition 的香农熵
H ( p π ( s , a , r , s ′ ) ) : = − ∑ s , a , r , s ′ p π ( s , a , r , s ′ ) > 0 p π ( s , a , r , s ′ ) log ( p π ( s , a , r , s ′ ) ) 、 (1) H\left(p_{\pi}\left(s, a, r, s^{\prime}\right)\right):=-\sum_{\substack{s, a, r, s^{\prime} \\ p_{\pi}\left(s, a, r, s^{\prime}\right)>0}} p_{\pi}\left(s, a, r, s^{\prime}\right) \log \left(p_{\pi}\left(s, a, r, s^{\prime}\right)\right)、 \tag{1} H(pπ(s,a,r,s′)):=−s,a,r,s′pπ(s,a,r,s′)>0∑pπ(s,a,r,s′)log(pπ(s,a,r,s′))、(1) 其中 transition 分布概率 p ( s , a , r , s ′ ) p\left(s, a, r, s^{\prime}\right) p(s,a,r,s′) 可以分解
p ( s , a , r , s ′ ) = p ( s ′ , r ∣ s , a ) p ( s , a ) p\left(s, a, r, s^{\prime}\right)=p\left(s^{\prime}, r \mid s, a\right) p(s, a) p(s,a,r,s′)=p(s′,r∣s,a)p(s,a) 其中 p ( s ′ , r ∣ s , a ) p\left(s^{\prime}, r |s, a\right) p(s′,r∣s,a) 是 MDP 的状态转移矩阵, p ( s , a ) p(s,a) p(s,a) 是行为策略 π \pi π 诱导的 ( s , a ) (s,a) (s,a) 分布,可以替换为(不折扣的)占用度量 ρ π ( s , a ) \rho_\pi(s,a) ρπ(s,a)。利用这个关系可以把等式(1)进一步分解为
H ( p π ( s , a , r , s ′ ) ) = ∑ s , a ρ π ( s , a ) H ( p ( r , s ′ ∣ s , a ) ) + H ( ρ π ( s , a ) ) (2) H\left(p_{\pi}\left(s, a, r, s^{\prime}\right)\right)=\sum_{s, a} \rho_{\pi}(s, a) H\left(p\left(r, s^{\prime} \mid s, a\right)\right)+H\left(\rho_{\pi}(s, a)\right) \tag{2} H(pπ(s,a,r,s′))=s,a∑ρπ(s,a)H(p(r,s′∣s,a))+H(ρπ(s,a))(2) 附证明过程
分析等式(2)的成分
直观地看,等式 (2) 说明一个高探索性的策略,需要在 “等概率访问所有 ( s , a ) (s,a) (s,a)” 和 “更多访问状态转移随机性 p ( r , s ′ ∣ s , a ) p(r,s'|s,a) p(r,s′∣s,a) 高的 ( s , a ) (s,a) (s,a) 之间进行权衡”。总之,我们得到评估确定性 MDP 问题离线数据集探索性(生成数据集的 behavior policy 探索性)的合理指标为:transition的熵
本文作者只考虑确定性 MDP,也就是说每个 ( s , a ) (s,a) (s,a) 访问后转移到的 ( s ′ , r ) (s',r) (s′,r) 都是确定性的,这时 H ( p ( r , s ′ ∣ s , a ) ) = 0 H\left(p\left(r, s^{\prime} \mid s, a\right)\right)=0 H(p(r,s′∣s,a))=0,等式 (2) 可以进一步化简为占用度量的熵
H ( ρ π ( s , a ) ) : = − ∑ s , a ρ π ( s , a ) > 0 ρ π ( s , a ) log ( ρ π ( s , a ) ) (3) H\left(\rho_{\pi}(s, a)\right):=-\sum_{\substack{s, a \\ \rho_{\pi}(s, a)>0}} \rho_{\pi}(s, a) \log \left(\rho_{\pi}(s, a)\right) \tag{3} H(ρπ(s,a)):=−s,aρπ(s,a)>0∑ρπ(s,a)log(ρπ(s,a))(3) 在一个简单的迷宫问题上使用占用度量熵指标考察随机策略和引入 ϵ \epsilon ϵ 随机的专家策略,可以看到显著区别
这说明了 transition的熵
这个指标在确定性 MDP 环境中的有效性
期望轨迹return
为了形式化描述 MDP 的(微小)变化,作者借用了之前工作提出的 抽象MDP(AMDP)
的概念,定义如下
这个定义简单说就是给定两个 MDP M = ( S , A , R , p , γ ) M=(\mathcal{S,A,R},p,\gamma) M=(S,A,R,p,γ), M ~ = ( S ~ , A ~ , R ~ , p ~ , γ ) \tilde{M}=(\tilde{\mathcal{S}},\tilde{\mathcal{A}},\tilde{\mathcal{R}},\tilde{p},\gamma) M~=(S~,A~,R~,p~,γ) 以及两个 MDP 上的策略 π \pi π 和 π ~ \tilde{\pi} π~
下面给出更多例子,方便理解 AMDP 的定义和特性
注意,AMDP 只是对具体 MDP 状态空间和动作空间的抽象,并没有对转移矩阵做出要求(也就是说抽象前后的转移矩阵可以不同)。作者把多个具体 MDP 抽象为同一个 AMDP,本质上是想刻画具体 MDP 的微小变化,具体而言
同态图homomorphic images
。可以证明:给定 AMDP M ^ \hat{M} M^ 和它的两个同态图 M , M ~ M,\tilde{M} M,M~(两个具体MDP),设三者的 transition 分布分别为 p ( s , a , r , s ′ ) , p ~ ( s ~ , a ~ , r , s ′ ~ ) , p ^ ( s ^ , a ^ , r , s ′ ^ ) p(s,a,r,s'),\space \tilde{p}(\tilde{s},\tilde{a},r,\tilde{s'}),\space \hat{p}(\hat{s},\hat{a},r,\hat{s'}) p(s,a,r,s′), p~(s~,a~,r,s′~), p^(s^,a^,r,s′^) ,transition熵差异的上界为transition熵
指标的变化是稳定的期望轨迹return
指标不变先小节一下之前的内容,作者提出了两个离线数据集特征指标,并证明了他们关于 MDP 扰动是稳定的
这些指标难以直接计算,且无法跨 MDP 进行比较,下面进行简化和归一化处理,将他们改进为实用的度量标准
Note:如果深究的话,形如 e H ^ ( D ) e^{\hat{H}(\mathcal{D})} eH^(D) 这种对熵取指数的操作,其实是 NLP 领域常用的一个指标,称为
困惑度perplexity
。注意到熵可以看作 E X [ log 1 p ( x ) ] \mathbb{E}_X\left[\log\frac{1}{p(x)}\right] EX[logp(x)1],困惑度对它取指数就相当于 E X [ 1 p ( x ) ] \mathbb{E}_X\left[\frac{1}{p(x)}\right] EX[p(x)1]。NLP 里用测试集 X X X 评估模型 p p p 的好坏时会用到该指标,这时 p ( x ) p(x) p(x) 代表模型认为测试集中句子 x x x 出现的概率,测试集中的句子都是正常的句子,那么好的模型就是在测试集上的概率越高越好,句子越好,预测概率 p ( x ) p(x) p(x) 应该越大,困惑度 1 p ( x ) \frac{1}{p(x)} p(x)1 应该越小(也就是模型对句子越不困惑),所以困惑度越小 NLP 模型就可以认为越好