(自适应动态规划综述)

(自适应动态规划综述)
摘要:自适应动态规划(Adaptive/Approximate Dynamic Programming,ADP)是最优控制领域新兴起的一种近似最优方法,它在人工智能领域、强化学习、人工神经网络、模糊系统、演化计算等方面蓬勃发展,为求解非线性系统优化问题提供了很多解决思路和具体技术方法,是当前国际最优化领域的研究热点。本文将按照自适应动态规划的研究背景意义、国内外研究现状、理论发展及应用四个方面对其进行介绍及总结。
关键词:自适应动态规划,非线性系统,稳定性
1 ADP的研究背景及意义
动态运动、动态系统在自然界中普遍存在,对我们来说,要认识、理解并改善一个系统,对动态系统稳定性的研究必不可少。本世纪50∼60年代, 在空间技术发展和数字计算机实用化的推动下, 动态系统的优化理论得到了迅速的发展,形成了一个重要的学科分支:最优控制。它在空间技术、系统工程、经济管理与决策、人口控制、多级工艺设备的优化等许多领域都有越来越广泛的应用。1
20世纪50年代初美国数学家Bellman等人在研究多阶段决策过程(multistep decision process)的优化问题时,提出了著名的最优化原理(principle of optimality),即把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解,创立了解决这类过程优化问题的新方法——动态规划(Dynamic Programming,DP)。动态规划,从本质上讲是一种非线性规划方法,其核心是贝尔曼最优性原理。这个原理可以归结为一个基本递推公式,从而使决策过程连续递推,并将一个多步(级)决策问题化简为多个一步(级)决策问题,从终端开始到始端逆向递推,从而简化了求解过程。自动态规划问世以来,其在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。但是由于动态规划过程中其计算量和存储量会随着状态

你可能感兴趣的:((自适应动态规划综述))