Double DQN 论文阅读笔记(估计误差导致的过度乐观)

原文地址

问题

更普遍地证明,任何类型的估计误差都可能导致向上偏差,无论这些误差是否是由于噪声、函数近似、非平稳性或任何其他来源。

关于这个问题的实验证明

这张图是实验性质的。
Double DQN 论文阅读笔记(估计误差导致的过度乐观)_第1张图片

前提:

横坐标是状态S,这里每个状态有10个动作a。真实值是 Q ∗ ( s , a ) Q_{*}(s,a) Q(s,a) 假设真正的最佳价值只取决于状态,所以每个动作都有相同的真实价值。

图像的描述:

图中左侧一列中紫色的曲线是定义好的真实价值。顶部是 Q ∗ ( s , a ) = s i n ( s ) Q_{*}(s,a) = sin(s) Q(s,a)=sin(s) 中间和底下是 Q ∗ ( s , a ) = 2 e x p ( − s 2 ) Q_{*}(s,a) = 2exp(-s^{2}) Q(s,a)=2exp(s2)

绿色的曲线是单个动作的近似价值曲线:

基于绿色的样本点,用d次多项式拟合出的曲线。很显然,多项式次数越高,拟合函数就越灵活(好比线性函数和二次函数)。顶部和中间次数是6,底部是9。那么由于拟合函数不灵活,顶部和中间的绿色曲线存在误差。底部图中的函数足够灵活,但是在未采样到的状态部分精确度会降低。注意:这是一个经典的学习环境,在每个点我们只有有限个数据

中间一列是显示出了所有动作的近似价值曲线。

黑色的虚线就是max操作后选择的动作价值曲线。这里出现每个动作的价值曲线都不同的是因为随机采样,采样点不同。

右侧橙色曲线是max选择后的动作价值和真实值的差异。蓝色是Double DQN的结果。

分析:

第一行和第二行的差异就在真实的价值函数上,但均会得出橙色曲线向上偏移。第二行和第三行差异在近似函数的灵活性上,但是会在未采样的状态上有过高的估计误差。这种过度估计是会传播的,这会影响策略的质量。

你可能感兴趣的:(笔记,强化学习)