jmlr论文部分2021

jmlr论文部分2021

  • 自定节奏学习的概率解释及其在强化学习中的应用
  • 由方程组隐含的条件独立和因果关系

自定节奏学习的概率解释及其在强化学习中的应用

在机器学习方面,课程的使用显示出了强大的经验潜力,可以通过避免训练目标的局部优化来改进数据学习。对于强化学习(RL),课程尤其有效,因为由于探索-开发的权衡,底层优化有很强的陷入局部最优的趋势。最近,与手工设计的课程相比,许多自动生成RL课程的方法已经被证明可以提高性能,同时需要更少的专家知识。然而,这些方法很少从理论角度进行研究,这阻碍了对其机制的深入理解。在本文中,我们提出了一种在RL中具有明确理论基础的自动化课程生成方法。更准确地说,我们将著名的自定节奏学习范式形式化为诱导训练任务的分布,它在任务复杂性和目标之间进行权衡,以匹配所需的任务分布。实验表明,在这种诱导分布上进行训练有助于避免不同RL算法在无信息奖励和具有挑战性的探索要求的不同任务中出现糟糕的局部最优值。

关键词:课程学习,强化学习,自定进度学习,调和推理,rl-as-推理

由方程组隐含的条件独立和因果关系

现实世界中的复杂系统通常是由带有内生变量和外生变量的方程组来建模的。对于这些方程中出现的变量的因果和概率方面,我们能说些什么呢? 我们利用Simon的因果排序算法(Simon, 1953)构造了一个因果排序图,证明了在某些唯一可解的假设下,软而完美的干预对方程的影响。我们进一步构造了一个马尔可夫排序图,并证明了它在具有独立随机外生变量的方程所隐含的分布中编码了条件独立性,在类似的唯一可解假设下。我们将讨论这种方法如何揭示和解决现有因果建模框架(如因果贝叶斯网络和结构性因果模型)的一些局限性。

关键词:因果关系,条件独立,结构学习,因果排序,图形模型,平衡系统,循环,比较静力学

你可能感兴趣的:(翻译,人工智能)