课题来源:微软亚洲研究院联合研究基金和某公司横向项目
优化问题涉及在不同的可能性中找到最佳配置或“值”,它们属于具有连续变量和离散变量配置中的一个。例如,找到凸规划问题的解是一个连续优化问题,而找到图中所有路径中的最短路径是一个离散优化问题。有时两者之间的界限不可能那么容易画出来。传统上离散空间被称为组合优化(CO)问题,通常有不同类型的解与连续空间中的那些相比。可以将CO问题公式化如下:设V是一组元素,f:V->R是一个成本函数。组合优化问题目的是找到函数f的最优值和实现该最优值的任何相应的最优元素域V上的组合。
组合优化的求解方法广泛应 用于交通运输、管理、电力、航天、通信等领域,其快速求解具有重要的理论意义和实用价值。例如,车辆的调度、金融资产的配置、仓库货物存储和运输路线的设计等实际问题都属于组合优化问题,随着这些优化问题实例规模的不断增大和实例中动态及随机因素的增加,传统方法的求解将耗费巨大的时间,问题结构一旦发生变化,传统方法需要重新搜索求解,计算成本也会随之提高,快速求解这些优化问题变得十分困难。
旅行商问题(TSP)是组合优化中的一个经典子问题,它的定义是:给定一个无向完全图,其中每个节点代表一个城市,已知任意两个城市之间的距离,旨在找到最短的哈密顿回路。
在图中,从一个城市开始,访问其他城市正好一次,最终回到起点。TSP是一个经典的NP难组合优化问题它在现实世界中有着广泛的应用[1]。TSP的定义虽然简单,但是随着规模的增加对TSP实例的精确求解急剧增长。20世纪中期问题被提出以来至今,众多学者蜂拥而至,为提高问题求解的质量和速度贡献自己的一份力量。当面许多现实世界中对算法效率要求高问题的时候,启发式是最流行和最实用的方法。
强化学习(RL)被定义为智能体与环境不断交互,获取相应的奖励,不断学习以完成特定的目标任务,可以理解为智能体在与环境进行交互的过程中,通过不断的尝试,从错误中学习经验,并根据经验调整其策略,来最大化最终所有奖励的累积值。RL的奖励很重要,具有奖励导向性,这种奖励导向性类似于 SL中正确的标签,从一开始没有数据和标签,不断尝试在环境中获取这些数据和标签,然后再学习哪些数据对应哪些标签,通过学习这样的规律,不断更新 智能体的状态,使之尽可能选择高分行为。RL不是简单学习运算一个结果,而是学习问题的一种求解策略[2]。
随着人工智能、大数据时代的到来,组合优化问题实例的规模不断增大,随之会出现“组合爆炸”的现象,相关问题计算的时间和空间复杂度会呈指数增长,传统方法很难快速求解大规模性的实际问题,即使解决了这类问题,求解时间和花费也是人们无法接受的。在权衡时间和精度的条件下,目前传统算法仍然是求解 NP 问题的有效方法,但高效求解大规模 COP 问题实例及其变体问题成为一个很大的挑战。 在P ≠ NP的假设下,放眼国内外专家团队对 COP 算法的研究,传统方法在短时间内不会取得重大突破,未来的发展是基于线下训练、线上求解的高性能计算设计上[3]。强化学习算法和传统组合问题的结合有机会擦出不一样的知识火花,为学术与工业界的进步贡献力量。
启发式方法主要包括局部启发式方法和全局搜索算法。JF Cordeau等人针对静态的多车辆呼叫路线排班,对问题进行实例化的体现和数学分析并使用禁忌搜索进行求解[4]。C Rego, D Gamboa, F Glover, C Osterman在论文中进行了LK和S&C杰出启发式的总结和实验,在同等情况下,总结来说S&C更好更优秀[5]。F Glover介绍的根茎循环结构与弹射链的TSP算法,能够探寻LK启发式不能搜索到的状态空间[6]。C Yanai, A Solomon, G Katz, B Shapira等人对篮球比赛的决策运用drl进行完整的建模与求解–Q ball,该方法是建立在深度强化学习之上的有效建模[7]。Y Nagata, S Kobayashi提出了TSP中的经典全局搜索算法EAX,该算法能将两个亲本的优良性质传递到子代中,有机会生成更好的子代,并为局部最优的搜索提供良好的开始解[8]。Shen Lin提出了经典的λ-optimal(λ-opt)理论。文章详细介绍了3-pot运行时的实验现象并进行了分析。还有开头基础介绍了一些线性规划和小规模的线性规划算法和分支定界方法等,在文章的写作中都值得借鉴[9]。郑迥之等人的[10]将传统Sarsa,Q-Learning和蒙特卡洛方法与LKH算法进行了成功的结合,取得了卓越的效果。文章[11]提出了1-tree的相关理论,该理论用于计算LKH算法中的α值,它在算法中至关重要。文章[12]将原本在Sat问题中的骨干信息迁移到旅行商问题中来,进行了详细的分析和解释。HK Tsai, JM Yang, CY Kao的工作是,在EAX中选择的个体差异性最大的个体进行杂交产生子代,以充分发挥全局搜索部分的效益[13]。文章在VRP问题中,提出新版本的EAX并在其他组合优化问题中提供泛化[14]。郑迥之等人将EAX和VSR-LKH结合起来,局部搜索和全局搜索结合,效果极好[15]。林剑, 叶璟轩, 刘雯雯, 邵晓雯的求解带容量约束车辆路径问题的多模态差分进化算法,介绍了小生境和差分进化算法在CVRP问题中的应用[16]。ÉD Taillard, K Helsgaun 的[17]将tour分为多个subtour,在subtour内进行路径寻优,然后将这些子路径再连接起来,考虑到subtour的局限性,还有不同大小子旅行优化的阶段。JF Cordeau, M Gendreau, G Laporte使用禁忌搜索在周期性和多车厂问题上进行探索,属于开创性的工作,他很多同期的文章都在进行这些类似的工作[18]。H Su, YD Zhong, B Dey, A Chakraborty的文章探索了路由问题中的EMV子问题,提出一种强化学习框架和baseline,多只能协同优化路线,使紧急路线和非紧急路线的交通都得到最大的优化,属于自成一个新的体系的创新的工作。但是还有没有考虑到的地方,比如多个紧急时间发生且路线重合的情况[19]。W Chu等人从之前的LinUCB引申出基于baseLinUCB的SupLinUCB,并且给出了遗憾界的证明,后续可以关注一下他在最新的研究中的拓展和使用[20]。[21]阐述了多智能体的多样性在RL算法中收敛和提升算法的重要性,并给出了评价指标和证明,并且进行了实验验证。F Liu, G Zeng 提出RMGA算法,即异构EAX加上构建单个解时候的RM算法,中小型算例上部分有超过LKH的baseline[22]。Y Abbasi-Yadkori, D Pál, C Szepesvári的线性经验赌博机中,根据新的不等式证明了新的置信界,给出了证明和简化了寻优过程中的计算[23]。[24]是混合基因搜索算法在VRP问题中的发明。Vidal在他的2012的工作中继续开发出Swap*的领域结构,在CVRP进行了运用,且方法结构清新简单[25]。基于k交换邻域的局部搜索(k-opt)是求解旅行商问题(TSP)中应用最广泛的启发式方法。本文提出了在LKH-2中k-opt的有效实现,LKH-2是Lin-Kernighan TSP启发式的一种变体。在10000到1000万个城市的欧几里得实例上进行了实验,证明了该方法的有效性。介绍了原始LK的k-opt和接下来的LKH1和LKH2,是LKH算法分支很好的总结和创新点的突出论文[26]。W Zhang分析,MaxSat和Sat中的骨干的应用和分析,同时也有一个值得借鉴的地方,因为不同质量的解提取骨干信息的质量也有不同,因此引入折扣因子[27]。HP Wang等人提出了监督学习的组合优化问题理论,将x的取值的{0,1}条件,松弛为[0,1]区间,而不是使用贝叶斯的梯度计算和大量采样[28]。[29]是UCB bandits的经典论文。L Xin, W Song, Z Cao, J Zhang的文章在基于深度学习的LKH在小于500的规模下的算例中取得了很好的效果,接近VSR-LKH等已知最好的LKH的变种算法。其中学习distance用的是监督学习,而惩罚pi用的无监督学习[30]。
强化和组合结合的方向可以总结为以下几个:无模型的RL方法,传统方法难以解决多维度的问题方面和求解动态和受随机因素影响的问题。许多组合优化问题问题都是NP难解的,设计算法的过程本身难度就很大,且不容易被刻画,无模型的RL方法可以通过智能体与环境的不断交互,学习到相应策略,模型训练完成后,短时间内给出一个高质量解,甚至比传统算法求解的质量要高。如 Alipour 等 人[31]提出一种遗传算法和多主体 RL算法结合的混合算法来求解TSP问题,文献[31]采用GA-MARL + NICH-LS算法使得求解的精度高于几个传统算法;Fairee 等人[32]提出一种采用RL算法更新解的模型和 基于人工蚁群的组合变体算法,在6个测试集上测试,在收敛速度上,RL更新的解快于人工蚁群算法。针对传统方法难以解决多维度的问题方面,RL 可以采用值函数近似和直接策略搜索等算法,使问 题的描述更加全面,从而得到更高质量的解。如 Hu 等人[33]提出一种多智能体 RL框架求解多重旅行商问 题(multiple traveling salesman problem,MTSP)。网络架构由 GNNs 和分布式策略网络组成,利用 RL算法训练模型参数,采用 S-样本(批次训练)的方法减少梯度方差,提高模型的整体性能。针对大规模问题求解,该框架学习的策略优于整数线性规划和启发式算法。针对求解动态和受随机因素影响的问题上,RL可在智能体与环境之间的交互以及状态转移过程中加入随机因素,增强模型的鲁棒性,且模型一旦训练完成,对同一问题的变体,也可以很好地适应新数据的变化。如Yao等人[34]提出一种端到端的 RL 框架求解组合优化问题,核心思想是把状态空间作为问题的解,解的扰动信息作为智能体的动作空间。模型利用 GNNs 抽取潜在的表征信息,对状态行为进行编码。推理阶段采用深度 Q-学习改善解(转换或交换向量 标签)的质量,得到问题的最优策略。在 Max-cut 和 TSP问题上,此模型相比学习算法和启发式算法有更 优的表现和泛化能力,更好地适应动态和随机因素。
课题研究内容:
背景介绍: 旅行商问题(TSP)是一个经典的组合优化问题,它要求在给定一组城市和它们之间的距离时,找到一条最短的路径,使得每个城市都恰好访问一次后返回起点城市。TSP在实际中有广泛的应用,例如物流、电子电路设计等领域。
问题陈述: 本研究旨在探索如何使用强化学习方法(或是深度强化学习),来解决TSP问题。我们的目标是开发一种有效的算法,学习算法的完备理论和优良性质,使得算法能够自动学习并优化旅行商的路径,以最小化总旅行距离。
研究假设或研究问题: 本研究的核心问题是,能否开发一种基于强化学习的组合算法,使其能够有效地解决TSP问题,并在大规模实例上提供具有竞争力的性能。
技术方案:
研究方法: 我们计划采用强化学习(或者深度强化学习)方法,具体来说,我们将探索如何使用RL来建模和求解TSP问题。
问题建模: 我们可以定义TSP问题的状态、动作和奖励函数,并将其转化为一个强化学习任务。其中,状态将表示旅行商的当前位置和已访问城市,动作将是选择下一步要访问的城市,而奖励函数基于路径长度。
实验设置: 我们将使用公开可用的TSP数据集进行实验,模拟不同规模和复杂性的TSP实例,并进行超参数调整以优化性能。
数据分析计划: 我们将评估我们的算法在不同TSP实例上的性能,比较其与传统方法的表现,并分析结果以验证研究假设。
预期结果: 我们预期本研究将产生一种能够有效解决TSP问题的强化学习算法,并为组合优化问题的解决提供一种新的方法。
理论研究深度提升: 本论文将通过深入的文献研究和理论分析,为相关领域的研究提供新的理论视角和洞见。预计将从现有文献中识别并填补知识的空白,为相关领域的理论研究做出贡献。
方法学创新: 论文将提出一种新的方法或改进现有方法,以解决相关问题。这个方法将在实践中进行测试和验证,以证明其有效性和可行性。
实践案例研究: 论文将对一个或多个实际案例进行详尽的研究,以验证理论和方法的实际应用。通过深入的实践调查和分析,将提供有关解决实际问题的有效策略和建议。
数据分析和结果呈现: 预计将使用定量和定性数据进行详细的分析,以支持理论和方法的实际效果。相关的图表、表格和可视化工具将用于清晰地呈现研究结果。
贡献和结论: 论文将总结研究的主要发现,并讨论其对相关领域的重要性。还将提供未来研究方向的建议,以推动领域的进一步发展。
这些预期成果将有助于丰富学术知识,提高相关领域的实践效益,并为未来的研究和决策提供有价值的参考。
[1]zig, G. B.; and Ramser, J. H. 1959. The truck dispatching problem. Management science, 6(1): 80–91.
[2] SUTTON R, BARTO A. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998.
[3] BENGIO Y, LODI A, PROUVOST A. Machine learning for combinatorial optimization: a methodological tour d’horizon [J]. European Journal of Operational Research, 2021, 290 (2): 405-421.
[4]Cordeau J F, Laporte G. A tabu search heuristic for the static multi-vehicle dial-a-ride problem[J]. Transportation Research Part B: Methodological, 2003, 37(6): 579-594.
[5]Rego C, Gamboa D, Glover F, et al. Traveling salesman problem heuristics: Leading methods, implementations and latest advances[J]. European Journal of Operational Research, 2011, 211(3): 427-441.
[6]Glover F. New ejection chain and alternating path methods for traveling salesman problems[M]//Computer science and operations research. Pergamon, 1992: 491-509.
[7]Yanai C, Solomon A, Katz G, et al. Q-Ball: Modeling Basketball Games Using Deep Reinforcement Learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(8): 8806-8813.
[8]Nagata Y, Kobayashi S. A powerful genetic algorithm using edge assembly crossover for the traveling salesman problem[J]. INFORMS Journal on Computing, 2013, 25(2): 346-363.
[9]Lin S. Computer solutions of the traveling salesman problem[J]. Bell System Technical Journal, 1965, 44(10): 2245-2269.
[10]Zheng J, He K, Zhou J, et al. Combining reinforcement learning with Lin-Kernighan-Helsgaun algorithm for the traveling salesman problem[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(14): 12445-12452.
[11]Held M, Karp R M. The traveling-salesman problem and minimum spanning trees[J]. Operations Research, 1970, 18(6): 1138-1162.
[12]Zhang W, Looks M. A novel local search algorithm for the traveling salesman problem that exploits backbones[C]//IJCAI. 2005, 5: 343-384.
[13]Tsai H K, Yang J M, Kao C Y. Solving traveling salesman problems by combining global and local search mechanisms[C]//Proceedings of the 2002 Congress on Evolutionary Computation. CEC’02 (Cat. No. 02TH8600). IEEE, 2002, 2: 1290-1295.
[14]He P, Hao J K. General edge assembly crossover-driven memetic search for split delivery vehicle routing[J]. Transportation Science, 2023, 57(2): 482-511.
[15]Zheng J, Zhong J, Chen M, et al. A reinforced hybrid genetic algorithm for the traveling salesman problem[J]. Computers & Operations Research, 2023, 157: 106249.
[16]林剑, 叶璟轩, 刘雯雯, 等. 求解带容量约束车辆路径问题的多模态差分进化算法[J]. 计算机应用, 2023, 43(7): 2248.
[17]Taillard É D, Helsgaun K. POPMUSIC for the travelling salesman problem[J]. European Journal of Operational Research, 2019, 272(2): 420-429.
[18]Cordeau J F, Gendreau M, Laporte G. A tabu search heuristic for periodic and multi‐depot vehicle routing problems[J]. Networks: An International Journal, 1997, 30(2): 105-119.
[19]Su H, Zhong Y D, Dey B, et al. A Decentralized Reinforcement Learning Framework for Efficient Passage of Emergency Vehicles[J]. arXiv preprint arXiv:2111.00278, 2021.
[20]Chu W, Li L, Reyzin L, et al. Contextual bandits with linear payoff functions[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. JMLR Workshop and Conference Proceedings, 2011: 208-214.
[21]Hu S, Xie C, Liang X, et al. Policy diagnosis via measuring role diversity in cooperative multi-agent rl[C]//International Conference on Machine Learning. PMLR, 2022: 9041-9071.
[22]Liu F, Zeng G. Study of genetic algorithm with reinforcement learning to solve the TSP[J]. Expert Systems with Applications, 2009, 36(3): 6995-7001.
[23]Abbasi-Yadkori Y, Pál D, Szepesvári C. Improved algorithms for linear stochastic bandits[J]. Advances in neural information processing systems, 2011, 24.
[24]Vidal T, Crainic T G, Gendreau M, et al. A hybrid genetic algorithm for multidepot and periodic vehicle routing problems[J]. Operations Research, 2012, 60(3): 611-624.
[25]Vidal T. Hybrid genetic search for the CVRP: Open-source implementation and SWAP* neighborhood[J]. Computers & Operations Research, 2022, 140: 105643.
[26]Helsgaun K. General k-opt submoves for the Lin–Kernighan TSP heuristic[J]. Mathematical Programming Computation, 2009, 1: 119-163.
[27]Zhang W. Configuration landscape analysis and backbone guided local search.: Part i: Satisfiability and maximum satisfiability[J]. Artificial Intelligence, 2004, 158(1): 1-26.
[28]Wang H P, Wu N, Yang H, et al. Unsupervised learning for combinatorial optimization with principled objective relaxation[J]. Advances in Neural Information Processing Systems, 2022, 35: 31444-31458.
[29]Auer P, Cesa-Bianchi N, Fischer P. Finite-time analysis of the multiarmed bandit problem[J]. Machine learning, 2002, 47: 235-256.
[30]Xin L, Song W, Cao Z, et al. NeuroLKH: Combining deep learning model with Lin-Kernighan-Helsgaun heuristic for solving the traveling salesman problem[J]. Advances in Neural Information Processing Systems, 2021, 34: 7472-7483.
[31] ALIPOUR M M, RAZAVI S N, DERAKHSHI M F, et al. A hybrid algorithm using a genetic algorithm and multiagent reinforcement learning heuristic to solve the traveling salesman problem[J]. Neural Computing and Applications, 2018, 30(9): 2935-2951.
[32] FAIREE S, KHOMPATRAPORN C, PROM- ON S, et al. Combinatorial artificial bee colony optimization with reinforcement learning updating for travelling salesman problem [C]//Proceedings of the 2019 16th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology, Pattaya, Jul 10- 13, 2019. Piscataway: IEEE, 2019: 93-96.
[33] HU Y J, YAO Y, LEE W S. A reinforcement learning approach for optimizing multiple traveling salesman problems over graphs[J]. Knowledge-Based Systems, 2020, 204: 106244.
[34] YAO F, CAI R Q, WANG H N. Reversible action design for combinatorial optimization with reinforcement learning[J]. arXiv:2102.07210, 2021