进化论和增强学习

增强学习目标是学习到使激励函数或者价值函数最大化的策略模型。人类把这个过程进行数学抽象化,提取了Markov Decision Process模型。

进化论和增强学习_第1张图片

而求解MDP问题的主要方案(或者说增强学习的典型思路),是对大量的随机过程进行采样,总会采样到一些幸运的样本(这些样本有一些好结果),增强学习就会选择这些好的采样的策略,周而复始,如果采样够多,最终增强学习会获得一个相对不错的策略,但是这个策略通常会收敛到局部最好策略,而不是全局最好策略。

上面讲的是求解MDP问题的基本思路,实际问题解决要复杂的多,要考虑诸如状态空间和动作空间问题,价值函数定义、采样等等问题,尤其是两个特别典型的问题:

1、短期利益和长期利益的权衡,模型要求的是最终综合利益最大化。

2、先验知识和探索的权衡,在已有一个较好的模型下去探索更好的模型的可能性。

增强学习过程是一个很复杂的求解过程(你也可以理解成简单的问题可以用动态规划或者其他传统最优化方案解决,就只剩复杂的问题需要增强学习来解决),现实世界中的生物进化论可以认为是一个典型的例子。

生物进化最基本的驱动就是个体生存和物种生存,这对应于增强学习过程中的激励函数或者说价值函数。

生物进化的本质是在各个方向上试错,赌对了就是进步。这是不是很像上帝在进行生物进化采样?幸运的物种偶尔走对,就被保留下来,这种趋势就不断的在被加强。现在活着的物种无论从那方面来说都是幸运无比,这个概率小到只能用奇迹或者神迹这样的字眼来表达。反过来也可以说,只要对过程采样足够多,增强学习总可以学习到一些东西,现实世界可以作为一个明证。

世界的生物多样性表明了可以生存的策略也是非常多样化的,无论是力量速度型的老虎狮子、可以在天空飞的各种鸟儿,甚至是细菌、微生物都有自己的生存之道,大家都收敛到自己的局部最优点。想一想Advantage函数真的是现实的很好的抽象,生物不需要找到最优策略,只要比均值好一点就能生存。

即使是每种生物都找到了自己的生存之道,但是变异还在继续,进化还在随机的进行中,只不过都集中在现存的这些策略周围进行随机的演变,对应于增强学习中的先验经验和探索的权衡。

人类在生物进化中也是一朵奇葩,放弃了力量、速度和敏捷,在最初的较量中并不占优势,但是在宏大的时间长河中证明这是才长期利益最大化的最好途径,有限资源优先发展大脑。

物种的生存策略选定之后,虽然也在不断的随机进化中,但是大的方向已经调整不了了,所以一旦走到了死胡同,就再也没有回头路,想想这个再看看论文Trust Region Policy Optimization,是不是很感慨呢?

如果把增强学习和生物进化轮联系在一起,会不会惊出一身冷汗?难道真的有更高一级的生物选定了地球做增强学习的试验场吗?不管答案是什么,这是一个真实并且残酷的世界。

你可能感兴趣的:(进化论和增强学习)