动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型

原文

2021,A reinforcement learning model for material handling task assignment and route planning in dynamic production logistics environment 


摘要

本研究分析了强化学习(RL)在智能生产物流(SPL)物料搬运任务中的应用。基于汽车行业动态生产物流环境中RL模型的经验结果,本文提出了两个贡献。首先,在SPL中集成RL的使用体系结构。其次,本研究定义了与SPL中模型的训练和验证相关的RL的各个元素(环境、价值、状态、奖励和政策)。该研究为制造管理者提供了必要的新见解,并扩展了当前对结合人工智能和SPL研究的相关理解,授予制造公司独特的竞争优势。


1. 绪论

最近的研究强调了智能生产物流(SPL)作为提高制造企业竞争力的关键使能者的重要性[1]。SPL是指应用信息物理系统(CPS)和物联网(IoT)技术,实现对物料搬运任务的实时感知和响应,以及自主决策[2]。特别是,SPL通过减少最大完工时间、能源消耗和准时交货,以及提高吞吐量,使材料处理路线受益,这对获得制造[3]的竞争优势至关重要。

研究认为,实现SPL在物料搬运路线中的好处需要解决动态方面,包括现代工厂环境的快速变化[4]。因此,SPL必须及时响应订单变化、中断、物料搬运资源的流量(如自动引导车辆或叉车),或生产线[5]的工作任务和进度。最近的研究建议将强化学习(RL)应用于自动引导车辆(agv)的路线和机器人的物料搬运,包括动态方面[6]。RL是一种方法,包括代理通过尝试和错误来学习行为,以最大化累积奖励,并与环境[7]进行交互,而不是依赖于环境的完整模型。研究认为,将RL应用于物料处理路线可能会带来两个现有的替代方案的好处,包括线性或混合整数规划,基于模拟的多目标优化,或启发式和元启发式算法[8]。首先,改进路由生成和系统响应时间。其次,代理根据工厂车间动态产生的情况进行学习、适应和优化。将RL应用于路线设计的研究成果改善了配送、燃油消耗和配送,但却超出了制造中的材料处理任务的范围[9,10]。然而,将RL应用于SPL[11]的物料搬运路线还需要进一步研究。

因此,本研究的目的是分析RL在制造企业物料搬运SPL中的应用。研究提出了一种RL模型,用于优化实验室环境下AGV的物料搬运路线。RL模型包括一个2-D网格和可更改的拾取和运送材料的位置。该研究提出了两个贡献,扩展了现有的理解,为材料处理在SPL。首先,本研究借鉴前人的研究成果,提出了一个将RL集成到SPL中的体系结构。其次,本研究定义了与SPL中模型的训练和验证相关的RL的各个元素(环境、价值、状态、奖励和政策)。此外,本研究通过强调将RL应用于材料处理路线的操作效益,为制造实践提供了重要的发现,这可能对解决制造中的动态方面至关重要。


2. 相关研究

本节介绍了最近的一些发现,这些发现对于理解处理物料处理路径(包括SPL中的动态方面)的努力至关重要。首先,本节描述了目前对SPL的理解。其次,本节报告了将RL应用于SPL的努力。

2.1. 智能生产物流中物料搬运的动态路由

SPL旨在提高制造过程中物料和信息流的可见性、可控性和适应性,这对解决物料处理[1]的路由问题至关重要。文献指出,SPL的外部、技术和物流维度对于实现这一目标[2]至关重要。外部维度包括来自客户的变化,例如个性化产品和对可持续性的日益关注。技术层面包括产生、处理和使用信息的技术。物流维度决定了在物理环境中发生的活动。

关于SPL的文献强调,实时感知和响应动态方面的变化对物料处理的路径至关重要。因此,目前的研究为SPL提出了在涉及干扰、生产计划修改、资源可用性或需求变化的情况下促进物料处理路径的体系结构。SPL架构的建议建立在理解CPS[3]的基础上。相应地,SPL体系结构包括物理层、数据连接层、虚拟设备层和服务层[4,5]。物理层包括能够实时感知、传输和处理任务的物理资源和物联网设备。数据连接层建立数据和命令通信,以及第一级数据处理。虚拟设备层提供数字表示,并实时同步物理设备的动态行为。服务层包括用户界面和用于可视化信息并采取纠正或预防措施的应用程序。图1给出了SPL的体系结构,包括基于[3]的物理、数据连接、虚拟设备和服务层

动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型_第1张图片

 最近的一些研究建议用SPL来处理包括动态方面在内的物料搬运路线。Zhang等[1]提出了一种研究自组织构型机制的SPL方法。本研究将遗传、蚁群和粒子群优化算法应用于包括agv和外部和内部干扰在内的物料搬运系统。Qu等人[12]研究了叉车SPL中的动态同步问题。研究对象是生产与仓库之间的物料搬运资源动态管理。Guo等[3]应用了一种NSGA-II算法,提出了一种自适应的SPL协同控制。该研究原型为发动机生产和维护物料处理系统,并考虑外部和内部波动和异常的物料处理发生在工厂车间。Liu等人提出了面向绿色物流的智能车辆实时信息驱动动态优化策略。车辆可以动态选择最优任务,减少距离、成本和燃料消耗。Wang等人[14]应用NSGA-II算法为启用CPS的车间提供了一种主动的物料处理方法,根据配送任务和智能小车的未来状态和当前信息,提出了一种降低能耗和距离的最佳组合。尽管有这些努力,但在实际操作中,由于实际情况可能与计划情况不匹配,工作人员在执行物料搬运路线时遇到了困难。通常情况下,员工依靠经验和直觉来执行材料处理。最近的研究提供了RL作为一种替代方案,可以训练模型接受当前状态,并决定材料处理任务[6]的执行。


2.2. 智能生产物流强化学习

RL的优点是能够对动态环境作出响应,并在新环境中使用训练过的模型。因此,研究将RL应用于支持生产物流调度和路径规划的动态决策过程

Rabe和Dross[15]使用RL和数据驱动的离散事件系统为物流网络开发了一个决策支持系统。Jiménez[16]通过使用多代理RL提出了一种可用于动态情况的调度方法。Waschneck等人[17]将一个复杂的作业车间调度问题描述为马尔可夫决策过程(MDP),并提出了一个多agent RL。作者进行了一个实验来比较不同奖励策略的结果。Gemmink[18]将RL应用到仓库管理中,并根据专家的意见对结果进行验证

Malus等[6]利用多agent RL可以应对动态环境的优势,将多agent RL应用到实时自主移动机器人调度中。Cunha等人[19]提出了一种新的体系结构,克服了现有作业车间启发式求解器的问题,包括执行时间和对环境的适用性。此外,有研究将RL应用于生产物流中的各种组合优化问题[7-9]。

 对于本研究的主要应用路线规划,最近的出版物将RL应用的结果与现有的启发式算法和使用人类专家知识作为输入[10]的学习进行了比较。研究将RL方法用于在线机器人的路线规划[11],将分层结构的路线规划方法用于远程路线搜索[20]。Bae等人[21]提出了一种允许多机器人在动态环境下进行最优路径搜索的方法,Hwang和Jang[22]介绍了一个将RL应用于实际工厂实验室架空提升设备的路径引导的例子。Wang等[14]改进了现有机器人路径规划方法的不足,提出了一种能够在动态环境下进行在线路径规划的方法,并用仿真模型验证了结果。

文献表明RL的优点包括提高灵活性和计算速度。然而,RL并不总是保证最佳结果。此外,文献强调了验证仿真模型超越实验室环3.提出了一个包含强化学习的智能生产物流体系结构境的必要性,论证了实证研究


3.一个包含强化学习的智能生产物流体系结构

动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型_第2张图片


 4. 案例描述和强化学习的定义要素

本文以瑞典汽车制造企业为例,建立了动态生产物流环境下物料搬运任务分配和路径规划的RL模型。这家公司组装整车并制造自己的传动部件。目前,手工操作的叉车执行物料搬运任务,包括从仓库到变速器生产的物资运送。

材料处理实践依赖于员工的直觉或经验,因此他们不足以满足日益增加的计划产品和供应的种类。因此,对于订单的变化、中断、物料处理资源的流动和生产线的工作进度,工作人员都难以提供足够的响应。本研究提出了一种替代现有物料搬运任务分配流程的方法,并建立了一个将RL应用于SPL的模型。该模型包括一辆AGV从限制点到交付,6个固定障碍物(O1 ~ O6)和3个交付点(D1 ~ D3)。图3为本文在SPL中应用RL进行物料搬运的箱体布局。该模型为AGV动态分配一个物料搬运任务,每个任务包括三个交付点(D1到D3)中的任意一个。

动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型_第3张图片

动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型_第4张图片

 图4显示了环境到网格的转换。右上方灰色单元格为AGV当前位置,红色区域为障碍物,绿色区域为交付点。为了反映与动态环境的相互作用,动态障碍定义为粉色细胞。移动的障碍物可以在两个预先定义的点之间以恒定的速度移动。

RL模型一般需要环境、状态、奖励、agent和action。图4展示了生产物流环境的网格类型布局,包括静态和动态障碍和交付点。该模型包括确定物料处理任务的顺序,将其分配给物流设备,并将其交付到预定的目的地。因此,模型的状态包括配送任务完成状态、物流设备配置状态和最优路径跟随状态。对模型状态的量化分别涉及到完成任务的数量、物流设备的利用率和到最短直线的距离。

确定奖励的策略会影响RL模型的性能。因此,我们希望测试不同的奖励政策,并遵循产生最佳结果的政策。以下是可能的奖励决策政策:

•按时完成交付任务/(+)奖励

•延迟交付任务/(-)奖励

•超过阈值的设施利用率/(+)奖励

•与之前的位置相比,距离目的地的距离减少率/(+)奖励

最后,代理在网格定义的生产物流环境中交付几乎所有任务。这个设置支持RL模型的训练

动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型_第5张图片

 图5是利用本文提出的RL模型进行配送任务分配和寻路过程的概念模型。灰色单元格表示AGV的当前位置或移动路径,根据每次试验,AGV可以选择最短的路线(右上),避开障碍物完成交付任务(左下),也可能无法到达目的地(右下)。RL模型收集和学习这些结果,使物流设备即使在动态情况下也能在固定的时间内完成所有给定的配送任务。此外,由于RL模型是一个已经经过训练的模型,即使在生产物流环境的情况发生突然变化的情况下,也可以立即得到结果。


5. 结果与讨论

该研究提出了两个贡献,扩展了现有的理解,为材料处理在SPL。首先,本研究借鉴前人的研究成果,提出了一个将RL集成到SPL中的体系结构。其次,本研究定义了与SPL中模型的训练和验证相关的RL的各个元素(环境、价值、状态、奖励和政策)。

该模型遵循q -学习算法。q学习的主要目标是定义和发展一个策略π,使AGV以最优路径成功导航。最有可能的是,在经历了数百种可能性(比如材料转移)后,代理(在本例中为AGV)将在每种可能的情况下获得一个明确的行动计划政策。因此,策略只是一个函数π,它接受一个布局快照作为输入,并返回代理(在我们的例子中是AGV)所采取的操作。输入由完整的 n x m 布局单元状态和AGV初始位置组成。

 首先,我们应用了一个完全随机的策略。然后通过对成千上万种导航可能性的学习,模型学会自我完善。当然,在最初的训练阶段,策略π会产生错误并使用较长的导航路径,但奖励策略会为其提供如何改进的反馈。学习引擎是一个简单的前馈神经网络。神经网络将环境状态(布局单元)作为输入,并根据每个动作向量生成奖励。为了加强q学习的过程,有两种类型的招式适用。第一,探索包括政策π根据以往经验规定的行动。策略功能在完成前的90%左右的移动中都适用。其次,探索涉及10%的案例,这是一种获取新体验的完全随机行动(可能涉及更大的奖励),而这是策略功能由于其限制性而不允许的。

探索因子是要进行多少探索的频率级别。它被设置为0.1,这意味着每10个移动中就有1个代理采取探索性的(完全随机的)行动。


6. 结论

本研究的目的是分析在生产制造企业物料搬运任务中作业记录的应用。本研究特别针对agv的物料搬运路线,包括动态方面。本研究提出了一种整合了自由选择语言在自由选择语言中的使用的体系结构,并定义了自由选择语言的各种元素(环境、价值、状态、奖励和政策),这些元素与自由选择语言中的训练和验证模型相关。

这项研究的发现提出了重要的管理意义。这项研究建议背离传统的物料搬运路线政策,即agv或叉车分配到固定路线的物料运送。相反,本研究结果表明,将RL应用于SPL中的物料搬运可能有助于分配、感知和响应实时使用不同资源的物料搬运中的个人需求(例如agv或叉车)。后者可能有助于缩短物料搬运的最大完工时间、距离和消耗的能量,更重要的是,如早期研究[1,2]所建议的,可以提高提高制造竞争力所必需的SPL响应能力。

未来的研究可能会从四个方面扩展这项研究的发现。首先,一个直接的步骤包括在模拟环境之外验证本研究的结果。这可能包括开发一个应用RL的SPL演示程序,并涉及来自其他工业环境的案例。其次,制造企业需要协调agv或叉车等多种物料搬运资源,以满足生产物流需求。因此,未来的研究可能涉及将多个代理和动态障碍(如操作员流量)应用于声压场中物料搬运的RL模型中。第三,本研究简化了物料搬运中的动态障碍。未来的研究可能应用实时定位系统增强动态障碍物的数据。最后,政府监管机构、公司董事会和最终客户越来越意识到制造业对可持续性的影响。未来的研究可以致力于理解在SPL中应用RL对经济、环境和社会可持续性的影响

你可能感兴趣的:(AGV调度,人工智能)