Adaptive Supply Chain: Demand–Supply Synchronization Using Deep Reinforcement Learning翻译

自适应供应链:使用深度强化学习的供需同步

摘要

自适应和高度同步的供应链可以避免级联上升和下降的库存动态,并减轻由运营故障引起的连锁反应。本文旨在展示基于近端策略优化算法的深度强化学习代理如何同步入站和出站流量,并在提供端到端可见性的情况下支持在随机和非平稳环境中运行的业务连续性。深度强化学习代理建立在近端策略优化算法之上,不需要硬编码的动作空间和详尽的超参数调整。这些功能与简单的供应链环境相辅相成,为多梯队供应链中的自适应控制提供了一种通用的、任务非特定的方法。所提出的方法与基础库存政策进行了比较,基础库存政策是经典运筹学和库存控制理论中的一种众所周知的方法。基本库存政策在持续审查库存系统中很普遍。
本文最后声明所提出的解决方案可以在复杂的供应链中执行自适应控制。该论文还假设成熟的供应链数字孪生是可扩展的现实世界应用程序的必要基础设施条件

简介

在不断增长的存储数据量和处理能力的支持下,21 世纪已经开始。这种趋势最终导致了一种机器学习方法的出现,该方法能够利用众所周知的深度学习 [1] 增加的计算资源。尽管半导体行业出现了暂时的危机,但预计这一趋势将持续下去。目前,在监督学习范式中,深度学习模型已经掌握了运营和管理层面的大量重要且至关重要的物流任务。在监督学习范式下,深度学习模型将数据点映射到相关标签。然而,深度学习的潜力远远超出了经典的监督学习。深度强化学习 (DRL) 利用深度人工神经网络架构来探索可能的动作序列并将它们与长期奖励相关联。这似乎是经验驱动自主学习的强大计算框架 [2]。因此,基于此原理的自适应控制器,也称为 RL 代理,可以学习如何在动态且频繁随机的环境中运行。
DRL 已经在自动驾驶飞行器 [3]、道路交通导航 [4]、自动驾驶汽车 [5] 和机器人技术 [6] 领域表现出卓越的性能。
然而,作为这项工作的灵感来源,基于 DRL 的系统能够以明显优于职业人类玩家的水平来掌握计算机游戏的能力。许多怀疑论者通过指出规则的相对简单性和游戏的确定性,低估了 AlphaZero 在掌握诸如国际象棋、将棋和自我对弈等经典棋盘游戏方面取得的惊人成功 [7]。然而,DRL 似乎能够掌握部分捕捉和反映现实世界复杂性的视频游戏。著名的例子包括 Dota 2 [8]、星际争霸 2 [9] 和 Minecraft [10]。
一方面,计算机游戏是测试 DRL 技术的丰富且具有挑战性的领域。另一方面,上述游戏的复杂性可以通过长期规划范围、部分可观察性、不完美信息以及状态和动作空间的高维来表征。提到的特征通常是复杂供应链和分销系统的特征。鉴于这些事实,出现了一个核心研究问题:“DRL 背后的基本原理能否应用于控制供应链管理中的问题?”
现代供应链是高度复杂的系统,它不断做出关键业务决策,以在动态环境中保持竞争力和适应性。此类系统中的自适应控制用于确保以最小的延迟和中断交付给最终客户,并避免不必要的成本。没有供应链同步就无法实现这一目标,供应链同步被定义为在全球频繁分布的众多个体供应链参与者之间实时协调生产调度、库存控制和交付计划。由于现有库存是入库和出库商品流之间的区别,因此适当的库存控制是供应链同步的关键要素。例如,较高的库存水平允许人们维持较高的客户服务水平,但它们与通过供应链以较高价格的形式传播到最终消费者的额外成本相关联 [11]。因此,当且仅当供应链同步时,供应链的全部潜力才会被释放,即所有关键利益相关者获得准确的实时数据、识别弱点、简化流程并降低风险。在这方面,同步供应链类似于协调运行的齿轮和齿轮。即使一个齿轮突然停止转动,也会严重破坏整个系统的同步性,最终其他齿轮将失效。
同步供应链可以避免被广泛称为“牛鞭效应”[12] 的级联上升和下降库存动态,并减轻由运营故障引起的连锁反应 [13]。实际上,如果确保端到端的可见性,DRL 代理只能在整个供应链中执行自适应协调。 COVID19 大流行期间的冲击和中断,以及大流行后的恢复,可以成为信息透明度和全球协调必要变化的催化剂[14]。本文旨在展示 DRL 如何同步入站和出站流量,并在提供端到端可见性的情况下支持在随机环境中运行的业务连续性。

相关工作和新颖性

在相关工作中,值得强调的是 [15] 一项证明了 Q-learning 在包括零售商、分销商和制造商的四梯队供应链模型中动态库存控制的效率。供应链模拟以泊松分布下的非平稳需求为特征。巴拉特等人。
提出了一种基于 A2C 算法的 RL 代理,用于供应链中的闭环补货控制 [16]。赵等人。调整 Soar RL 算法以降低弹性和敏捷物流企业的运营风险。该问题被建模为一个不对称的兵棋推演环境 [17]。王等人。将 DRL 代理应用于需求不确定下的供应链同步问题 [18]。在最近的论文中,佩雷斯等人。
比较了几种技术,包括单一产品上的强化学习,一个随机固定消费者需求下的多周期集中式系统 [11]。
最近的一篇论文 [19] 中提出了一种能够玩啤酒分销游戏的 RL 代理。啤酒分销游戏广泛应用于供应链管理教育,以展示供应链协调的重要性。 RL 代理建立在深度 Q 学习的基础上,没有提供任何有关成本或模拟环境其他设置的初步信息。因此,必须强调 OR-Gym [20],这是一个开源库,包含 RL 环境形式的常见运筹学问题,包括本研究中使用的一个。
在本文进一步介绍的数值实验中,DRL 代理建立在近端策略优化 (PPO) 算法之上,该算法不需要详尽的超参数调整。此外,本文中使用的 PPO 的实现不需要硬编码动作空间。这些功能与用作 RL 环境的简单直接的供应链模型相辅相成,导致了多梯队供应链中自适应控制的通用和任务非特定方法。必须强调的是,数值实验是使用简化的供应链模型进行的,这在概念验证阶段就足够了。然而,简化的假设并不能完全涵盖许多现实世界供应链的所有复杂性。

你可能感兴趣的:(RL&OR,自动驾驶,机器学习,深度学习)