作者:徐思坤,王源,叶方顶
编者按:OR Paper Weekly 栏目将会从运筹学顶级期刊上选择一部分有趣的文章,对这些文章的主要研究内容进行一个概述/点评。OR Paper Weekly 的特点是 不做大而全的照搬,也未必都只选择优质的文章,而是精选一部分有趣的文章。辅之以科普/点评/吐槽的方式,让大家随时了解最新的科研动态。欢迎大家一起来 欣赏优质文章,学习脑洞文章,鄙视灌水文章。本期 OR Paper Weekly 精选了六篇文章,涵盖ML4CO,个体行为实证研究,连续决策问题和在线线性规划等多个热点话题。
论文题目:A Classifier to Decide on the Linearization of Mixed-Integer Quadratic Problems in CPLEX
期刊:Operations Research
发表年份:2022
作者:Pierre Bonami, Andrea Lodi, Giulia Zarpellon
原文链接:A Classifier to Decide on the Linearization of Mixed-Integer Quadratic Problems in CPLEX | Operations Research
摘要:我们将是否线性化凸混合二次整数规划(MIQP)的算法问题转化为分类任务并使用机器学习 (ML) 技术来解决它 。我们通过精心的设计机器学习的目标函数和特征工程来表示 MIQP 和线性化的决策。 计算实验和评估指标旨在进一步将优化知识纳入学习领域。 作为实际的应用场景,MIQP 线性化的分类器已成功部署在 CPLEX 12.10.0 中:据我们所知,这是第一个将端到端的学习技术集成到商业优化求解器中的案例,并最终提出了一种通过的框架用来结合基于 ML 的决策和混合整数规划问题。
文章亮点/点评:Andrea Lodi 在 COWork2020会议的时候就已经提到了这项研究工作。Machine Learning for Combinatorial Optimization 这个新方向大致有两大类思路:一类是基于监督学习的,通过监督学习直接学习出一个最优解,显然这样的方法的方法可能会很快的获得一个近似最优解,但是这样的方法稳定性比较差。另外一类的思路是基于强化学习的,也可以说是基于Policy的,借助强化学的思路可能会寻找到比较好的Policy,但该方法同样受限于 exploration difficult,另外 reward function的设计也极具挑战性。本文的工作是用机器学习来在优化问题的预处理阶段发挥作用,这样的一种范式给我们新的启发,可以说这项工作引领了 Machine Learning for Combinatorial Optimization 领域的研究方向。
论文题目:Predictive and Prescriptive Analytics Toward Passenger Centric Ground Delay Programs
期刊:Transportation Science
发表年份:2021
作者:Alexandre Jacquillat
原文链接:https://doi.org/10.1287/trsc.2021.1081
摘要:
地面延误计划 (GDP) 主要是在拥挤的空中交通网络中优化航班的运行。GDP 的核心目标是最大程度地减少航班延误,但这往往对乘客来说不是最优的结果,尤其是对于需要转机行程的乘客。本文通过平衡大规模网络中的航班和乘客延误,提出了一种新的以乘客为中心的 GDP 优化方法。为了便于处理,我们使用滚动过程来分解问题,使模型在规定的时间内可以运行完成。基于真实世界数据的计算结果表明,我们的建模和计算框架可以通过两种主要机制在航班延误成本小幅增加的情况下显着减少乘客延误:(i)延误分配(延误与优先航班)和(ii)延误引入(保留航班以避免乘客误接)。然而,在实践中,空管人员并不知道乘客的行程;因此,我们提出了统计学习模型来预测乘客行程并相应地带入到 GDP 的优化问题汇总。结果表明,所提出的以乘客为中心的方法对乘客行程的不完善信息的问题具有很强的鲁棒性,即使在当前基于协作决策的分散环境中也能获得显著的效果。
文章亮点/点评:这篇文章有两个亮点,一是它强调了很多优化问题的结果无法在实际中应用的原因:单纯追求经济指标的优化问题得到结果往往会让操作人员执行反人类的操作。例如在VRP问题中经常会让司机更换车辆,例如在本例中会照顾不到需要转机的乘客。这些反人类的操作最终就会导致看似美好的优化问题被一线业务人员/客户所抵触。所以本文提出的以乘客为中心的 GDP问题,正是为了解决上述缺陷。二是本文采用了 Predictive and Prescriptive 的框架,其实近年来 Predictive and Prescriptive 的框架越来越受到关注,本文主要也是直接应用这个框架去解决应用问题,并没有在该方法在过多创新,这也并非本文的主要话题。
论文题目: Learning to Approximate Industrial Problems by Operations Research Classic Problems
期刊:Operations Research
发表年份:2021
作者:Axel Parmentier
原文链接:https://doi.org/10.1287/opre.2020.2094
摘要:
运筹学研究者经常关注一些知名的经典优化问题的困难衍生问题。尽管几十年的研究对于这类经典优化问题已经有了高效的算法,但学者仍在努力为那些困难的衍生问题找到好的算法。我们介绍一种“用于运筹学的机器学习”范式,来为那些困难的衍生问题构建有效的启发式算法。如果我们将感兴趣的衍生问题称为困难问题,而将典型问题称为简单问题,我们可以如下描述范式。 首先,使用机器学习预测器将困难问题的算例转化为简单问题的算例,然后解决简单问题的算例,最后从简单问题的解决方案中检索出困难问题的解决方案。使用这种范式需要生成将困难问题算例转换为简单问题算例的预测器。我们表明,从包含困难问题算例及其最优解的训练集中学习这种预测器的问题可以称为结构化学习问题,它的结构化预测问题是那些简单问题。如果文献中将简单问题视为结构化预测问题,我们将提供算法来训练预测器,如果不是,则提供构建学习算法的方法。我们以路径问题为例来说明范式和学习方法。为此,我们引入了最大似然技术来训练结构化预测模型,该模型使用最短路径问题作为预测问题。使用提出的范式,可以通过最短路径问题(简单问题)来逼近有向无环图(困难问题)上的任意路径问题。由于路径问题在定价问题的列生成方法上起着重要作用,因此我们还介绍了该逼近方法在其他问题上的作用。实验表明了它们在两类随机车辆调度问题上有较好效果。
文章亮点/点评:传统运筹学问题对于启发式算法的寻找总是依赖研究人员的经验和不断实验的手段,这导致对于启发式算法的开发缺乏系统性。作者在文中提出了一种新的思想,即较难的衍生问题来自其简单问题,通过对简单问题的解决过程能学习到对于其困难问题的求解方法。在这过程中,通过提出“ML for OR” 范式,来利用简单问题逼近困难问题,并提出了机器学习(ML)对这类问题结构性学习的方法。实验证明该方法在随机VSP问题上有较好表现。但面对无简单问题的困难问题时,该方法存在一定的不足。文章关注未来算法开发的自动化方向,是一篇立意较高的好文
论文题目: Matching While Learning
期刊:Operations Research
发表年份:2021
作者:Ramesh Johari, Vijaj Kamble, Yash Kanoria
原文链接:https://doi.org/10.1287/opre.2020.2013
摘要:
我们考虑服务平台面临的问题,即需要在有限的供给与需求之间进行匹配,同时学习新用户的属性以在未来更好地匹配他们。我们引入了一个基准模型,该模型具有异质的工人(需求)和随着时间的推移到达的有限的工作供应。工作类型是平台已知的,但工人类型是未知的,必须通过观察匹配结果来学习。工人完成一定数量的工作后离开。匹配的预期收益取决于进行匹配的二者的类型,目标是最大化收益累积的稳态率。尽管我们使用受劳动力市场的来描述,但我们的框架广泛地适用于随着时间的推移下,用户和供应有限的异构产品平台的匹配。我们的主要贡献是在每个工人执行许多工作的限制下,对最优策略的结构进行了完整的描述。该平台面临着每个工人在模糊最大化收益(开发)和学习工人类型(探索)之间的权衡。这会产生大量多臂老虎机问题,每个工人一个问题,并由对不同类型工作可用性的约束(容量约束)耦合在一起。我们发现平台应该为每种工作类型估计一个影子价格,并首先使用由这些价格调整的收益来确定其学习目标,然后为每个工人(i)在探索阶段平衡学习与收益,以及(ii)在开发阶段实现其学习目标后进行模糊匹配。
文章亮点/点评:论文提出了一种新颖且实用的算法,用于在需求和有限供给之间进行匹配,和学习需求属性。实验证明,在有限资源的和异质需求的匹配中,该算法能很好地实现累计收益的稳态率最大化,且该算法能应用于一系列网上匹配平台,具有重要的现实意义。但该模型也存在一定缺陷,即忽略了参与者的决策行为,认为参与者完全服从各种匹配状态。在未来研究中,作者关注丰富模型约束,如考虑到市场在供需两端均具有不确定性,作业持续时间随机且取决于工人类型等,以更好的模拟现实情况。
论文题目: Learning When to Stop Searching
期刊:Management Science
发表年份:2019
作者:Dainel Goldstein, Preston McAfee, Siddharth Suri, James Wright
原文链接:https://doi.org/10.1287/mnsc.2018.3245
摘要:
在经典秘书问题(secretary problem)中,通常采取顺序搜索方法在未知且不可学习的分布中寻找选择到最佳申请人的概率最大值。不过,在现实世界的搜索中,分布并不是完全未知的,可以通过经验学习。为了研究在这种环境下的学习,我们进行了一项大规模的行为实验,在这个实验中,人们在“重复秘书问题”中从固定分布中反复搜索。与在经典场景中没有发现学习证据的先验调查相比,在重复设置中,我们观察到大量学习导致接近最佳的停止行为。我们对多个行为模型进行了贝叶斯比较,表明参与者的行为最佳描述是:一类包含理论最优策略的基于阈值的模型。将这种基于阈值的模型与数据拟合后,参与者的估计阈值仅在少量试验后就接近最佳阈值。
文章亮点/点评:本文是一篇典型的有关个体行为的实证研究,常见于经济学、市场营销管理等领域,推荐给对实证研究感兴趣的读者。本文研究在经典秘书问题中,通过重复试验人们能否从经验中学习,来提高搜寻到最佳申请人的概率。在这类最优停止问题领域,实验证明了在反复搜寻过程中通过学习人的行为到达最优解近似值,这与经济学中认为的人的行为会始终偏离与最佳状态形成对比。对于该试验的研究,学者通过改变给与每次试验参与者的信息来研究其行为模式的不同,并最终确定,在给定候选者分布的重复搜寻中,人们的学习能使实验效果近似最优。未来,学者将进一步建模研究搜序行为如何随经验进行演变。
论文题目:Online Linear Programming: Dual Convergence, New Algorithms, and Regret Bounds
期刊:Operations Research
发表年份:2021
作者:Xiaocheng Li, Yinyu Ye
原文链接:https://doi.org/10.1287/opre.2021.2164
摘要:
我们研究一个在随机输入模型场景下的在线线性规划问题,其中约束矩阵的列以及目标函数中的系数是独立同分布地从一个未知分布中抽取并随着时间逐步披露的。基本上所有的在线算法都基于学习线性规划的对偶最优解/价格,并且这些算法的分析都专注于总目标函数值以及求解packing线性规划问题(其中目标函数和约束中所有的参数都是非负的)。但是,有两个重要的待解决的问题如下:(1)现有算法学习到的线性规划的最优对偶价格是否能收敛到“离线”线性规划的最优对偶价格?(2)这些结果是否能拓展到一般化的线性规划问题中,即系数可正可负的情况?我们通过构造了在较轻微的规律性条件下对偶价格的收敛结构解决了上述两个问题。具体来说,我们找到了对偶问题的一个等价问题,它能将带样本平均近似(SAA)的对偶线性规划联系到一个随机规划上。更进一步的,我们提出了一个新的在线线性规划的算法,名为依赖于历史行动的学习算法(action-history-dependent learning algorithm),它通过将过去的输入数据以及历史决策/行为纳入考量,提升了前述算法的表现。在局部强凸性和平滑性条件下,我们推导得到了算法的(logloglog)的后悔值边界,相比之下,经典对偶价格学习算法的边界是(√),其中n是决策变量的数量。我们的数值试验证明了我们提出的算法和依赖于历史行为的设计的高效性
文章亮点/点评:正如本文的简介部分所述,连续决策问题近年来逐渐成为运筹学、管理科学、人工智能等领域的热点问题。相比传统的给定一个数据集求解最优解的静态问题,如何在一个动态且随机的环境下找到最优行动策略,对于非常多应用场景来讲更具应用价值。相应的,连续决策问题带来的挑战也更多,例如算法的收敛性、策略的后悔值边界、如何应对非稳态环境等等。本文考虑的是在一个线性规划模型中,目标函数和约束的参数随时间逐渐披露的场景下,我们要如何求解这个模型。从内容角度而言,本文的算法简洁且符合直觉,容易应用,但是假设较强,现实应用场景有限。