Policy Evaluation之Sequencial DR论文讲解

● 每周一言

如果觉得自己挣钱能力还不错,很可能只是因为年轻。

导语

在上一篇文章里,小斗给大家讲解了ICML2011那篇关于DR的经典论文,那篇论文所述场景是“多臂老虎机”游戏。在多臂老虎机游戏过程中虽然要连续尝试多次,但其相邻两次之间是满足i.i.d.的,而增强学习很多场景并不满足i.i.d.性质。所以,在ICML2016出现了Sequencial DR,满足了这些场景的需求。

Sequencial DR

paper link: https://arxiv.org/pdf/1511.03722.pdf

论文讲解前,先介绍一下多臂老虎机和i.i.d.。

我相信大部分人在电玩城都玩过这个多臂老虎机,它就是一个有多个拉杆的赌博机,不同拉杆的中奖概率不一样。转化成增强学习问题就是:重复选择k个不同动作中的一个,每次动作都会从一个固定概率分布中,得到相应的奖励回报。目标则是在有限时间内最大化期望奖励(因为游戏不可能一直玩下去)。

Policy Evaluation之Sequencial DR论文讲解_第1张图片

上图就是一个三臂老虎机,k = 3。自然而然我们能想到,这三个老虎机都有自己固定的中奖概率,且同一个老虎机前后操作两次是独立事件,互不影响。然而,在很多其他场景下,前后发生的动作之间是有关联的,比如自动驾驶、下棋、打牌等。

i.i.d.(independent and identically distributed,独立同分布),在概率统计理论中,指随机过程中的任何时刻取值都为随机变量,如果这些随机变量服从同一个分布,并且互相独立,那么这些随机变量就是独立同分布的。

Policy Evaluation之Sequencial DR论文讲解_第2张图片

上面的Related Work部分,交代了这篇论文和上一篇所讲论文的区别与联系。这里说个话外音,“多臂老虎机”在英文里面叫“Contextual bandit”,这个命名着实有点意思(直译“上下文强盗”?)。由于在很多增强学习应用场景中,样本序列并不满足i.i.d.,所以这篇论文讲的就是如何把DR运用到序列评估当中。

序列决策是一个马尔科夫决策过程(Markov Decision Processes,MDP)。一个MDP是一个五元组,其中:S代表状态空间,A代表动作空间,P代表概率转移函数,R代表期望奖励函数,γ代表折扣因子。如论文描述,如下:

Policy Evaluation之Sequencial DR论文讲解_第3张图片

一个满足MDP的样本序列(轨迹)就是上文的 г,假设序列长度为H步,在一个状态下采取动作然后得到相应的回报,如此循环产生直到结束状态或停止动作。

有了样本序列,我们就可以用DR来评估策略了。同样是使用重要性权重,有别于上一篇论文的IPS,论文描述 IS(Importance Sampling) 的评估方式如下。其中 step-wise版本的IS,是在每次遍历序列的时候,遍历到哪一步就计算到哪,然后分别乘以相应的重要性权重,这比原始版本的IS计算更准确。

Policy Evaluation之Sequencial DR论文讲解_第4张图片

仔细思考公式会发现,上述IS公式其实就是IPS在序列计算中的变种。IS的分母 π0 相当于IPS的分母p,都是产生样本的来源;IS的分子是新策略执行动作的概率,IPS的分子 I 也是一样。这两个分式作为重要性权重,都与当前得到的奖励r相乘。只是序列决策考虑了衰减,额外乘了一个折扣因子γ。关于IS和IPS的关系,如果不理解或者有其它问题,欢迎留言讨论。

论文还给我们介绍了一种带权重的IS公式,虽然没有用在后面的SDR,但是参与了论文后面实验部分评估效果的对比。

Policy Evaluation之Sequencial DR论文讲解_第5张图片

有了这个基础的序列公式,论文为了简化实际计算,去掉了累加符号和连乘符号,把 step-IS公式改写成了递推形式,如下:

Policy Evaluation之Sequencial DR论文讲解_第6张图片

这样就得到了序列决策最终版IS公式。从上一篇文章我们知道,DR由DM和IPS/IS结合而成。SDR当然也是如此,加入DM部分,SDR公式如下所示,其中:Q是状态动作奖励的估计函数,可以使用有监督的方法来训练;等式右边带尖号的V,就是DM的计算值。SDR从形式上看,和DR含义一致。

Policy Evaluation之Sequencial DR论文讲解_第7张图片

同样的,SDR满足DR的性质,也是Doubly Robust(双重鲁棒)的。

论文中还用了几节专门讲方差(Variance)和置信区间(Confidence Intervals),由于篇幅关系,小斗就不在此继续讲解。对推导感兴趣的读者,可以点开原文链接进一步阅读。

限于理解能力有限,本文有讲解谬误之处还请留言交流指出。以上便是对Sequencial Doubly Robust论文的讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

Policy Evaluation之Sequencial DR论文讲解_第8张图片

你可能感兴趣的:(增强学习)