应用前瞻||强化学习求解车间调度问题的未来

在这里插入图片描述

获取更多资讯,赶快关注上面的公众号吧!

文章目录

  在理论和应用上,深度强化学习仍然处于人工智能的初级阶段,随着信息技术和制造技术的发展,将会出现更多不同的应用模式,关于深度强化学习在车间调度中的未来应用,可以考虑以下几个方面:

应用前瞻||强化学习求解车间调度问题的未来_第1张图片

(1) 数字孪生与强化学习的融合
  在工业4.0背景下,数字孪生日益火热,其核心思想是通过建模技术建立物理车间的数字模型,并通过数据采集和分析技术,对车间进行全要素建模,得到真实的车间状态和系统行为,实现物理模型到信息模型的映射。在此基础上,强化学习代理对状态进行感知,选择合适的动作作用于信息模型并得到奖励。当物理车间的实时调度运行与预定义的调度结果出现偏差时,虚拟车间中的调度决策器会主动感知异常,自适应地调整调度策略。

(2) 状态表达冗余性判断
  目前的研究都没有考虑这些状态表达对最终结果的影响,也没有判断调度决策属性是否冗余,在未来应该通过实验建立调度属性与调度性能之间的关系,只保留对调度性能影响大的决策属性用于构造状态特征,而排除对调度性能影响较小的属性以防止输入过多导致模型训练困难。

(3) 多智能体联合决策。
  目前大多数调度问题只考虑了工件内各工序之间的顺序约束,但在实际车间中,由于物理空间的限制,运输距离的存在,原材料的有限数量,不得不考虑有限缓存,运输时间和库存限制。调度中的运输资源和缓存资源均需要进行决策,那么除了将工序安排到机床上以外还存在多个决策点,每种对象的智能体均可以做出决策,最后这些决策联合作用于调度环境。

(4) 多目标强化学习。
  现有的强化学习调度方法大多只考虑了一个目标,强化学习代理与调度环境交互得到的奖励信号为一个标量值,但是调度优化中往往存在多个相互制约的目标,此时的奖励信号应该反映所有的调度目标,那么此时的奖励信号应该是一个向量。现有的不管是值函数法(DQN)还是策略法(REINFORCE、DDPG、PPO等)都无法直接用于求解多目标调度问题。

(5) 逆向强化学习拟合奖励函数
  目前所有的强化学习调度研究几乎都采用了不同的奖励函数设置方法,可见奖励函数目前仍然依赖人工设计,甚至在有些复杂的调度问题中难于设计。逆向强化学习的思想是从专家示例中学习回报函数,本研究中也提到过,决策者有着丰富的调度经验,通过人机交互的方式可以得到较为满意的调度方案,因此未来可以考虑让强化学习代理观察调度员的交互过程,并通过逆向强化学习从中学习奖励函数,再利用学习到的奖励函数进行强化学习,提升调度策略水平。

(6) 借鉴新型网络结构
  从人工神经网络到CNN、RNN,随着深度学习的快速发展,出现了越来越多类型的神经网络,并逐渐用于拟合强化学习的策略函数,这些网络的引入给强化学习带来了新的求解范式。近年来,图神经网络的迅速崛起,已经渗透到了计算机、生物、化学等领域。调度问题本身就可以使用图数据结构表达,所以可以考虑将中图神经网络引入强化学习领域,帮助预测图的下一个节点。

(7) 强化学习调度落地问题
  在应用落地方面,还需要考虑一些现实问题,如训练样本从何而来,如何评价训练好的调度策略在动态车间的有效性,在什么时机对其进行重新训练,因此模型的时效性就很重要。

你可能感兴趣的:(强化学习,车间调度,强化学习,车间调度)