在优化问题里,强化学习相比启发式算法有什么好处?

本文出自https://mp.weixin.qq.com/s/J1SsNtU1wkqdGcKZvNACHw纯属个人科研收餐使用
存在部分数学符号和公式,都可通过上面链接查看!!!!
关于强化学习和传统优化算法(包括:数学优化,启发式,元启发式)的探讨越来越多了,很多同学可能是一上来就集中在一个方向和方法上,并没有在全局的视角去审视这几类方法的不同。我这里就做一个总结,欢迎各位来讨论:

1 强化学习源自于动态规划 天生善于处理动态(序列)优化问题

没学过强化学习的同学,应该是知道动态规划的吧。**强化学习实际上起源于动态规划,而动态规划和强化学习解决的是一个动态优化问题或者说是序列优化问题。学过强化学习的同学都知道一个叫做马尔科夫决策过程的概念(Markov Decision Process)。进一步地,由于强化学习继承了动态规划和马尔科夫决策过程的基本框架,使得强化学习依然具备一些传统动态规划和马尔科夫决策过程的理论保障。**强化学习善于解决动态优化问题并不完全是一种感性的认识,在着后边还具备着严谨的理论支撑。

反观贝叶斯优化、粒子群算法、遗传算法这样的启发式搜索算法,还有传统的数学优化方法主要是针对静态的优化问题而设计的。虽然这些方法也不是不能用来解动态(序列)优化问题,但相比强化学习来说 它们这些方法 1是缺乏理论保障;2是实际效果确实也差。所有说在考虑上强化学习之前,就先要看你的问题是不是序列决策问题,如果是那么上了强化学习才有可能取得一个不错的效果,如果不是那么就没有必要上强化学习了,

你可能感兴趣的:(资料,强化学习,科研技巧,启发式算法,算法,深度学习,机器学习,学习,经验分享)