1、文章信息
文章题目为《基于多任务学习的快件送达时间预测方法》,发表在计算机工程期刊上的一篇有关多任务学习预测的文章。
2、摘要
快件送达时间预测是物流领域中一项至关重要的服务。准确地预测快件送达时间一方面可以为用户提供更准时的服务,提升用户体验,另一方面可以帮助快递员进行路径规划,提高派送效率。但快件送达时间预测仍面临许多困难与挑战,主要有以下三个方面:
快件派送受到多种复杂因素影响。快件的送达时间不仅与交通状况、快件本身属性、外界天气等有关,快递员的派送偏好、快件所在地的环境、客户的个性化要求等因素都会对快件送达时间产生影响。快件派送状态存在动态性。在快递员派送快件过程中,快递员位置、已派送快件序列、待派送快件集合等均会发生改变,会导致快件的送达时间随 派送过程动态变化。多目的地预测。本研究需要同时预测快递员的 所有待派送快件的送达时间,不同于单目的地预测 问题,快件的组合、彼此之间距离、派送顺序均会对每个待派送快件产生影响,如何保证多目的地预 测的整体准确性也是本研究一大难点。
文章提出了一种基于多任务学习的模型(MTDTN),从快递员的大量历史 时空轨迹中学习如何预测快件送达时间。MTDTN 充分建模多种影响送达时间的外部因素,使用地理信息编码、卷积操作以及双向长短时记忆网络来捕获派送行为的时空关系,并使用多任务学习框架,引入顺序预测辅助任务,提高了模型预测性能。在真实数据集上的实验结果表明,MTDTN 的表现优于其他现有方法。
3、文章结构
介绍了机器学习、深度学习在快件送达时间预测方面的应用以及存在的问题,通过汲取前人的优点,提出了结合多任务学习的MTDTN模型。
介绍了模型的基本变量的定义,以及模型的框架以及框架中每一部分的具体功能及目的。
通过上海市合计61天的数据进行模型的训练、验证、测试,用于估计快件送达时间的预测。
结果讨论,表明这种多任务学习的框架要优于一些现有的预测方法。
4、模型结构
模型旨在解决当存在不同快件的多个目的地时,快件送达时间的预测,文章的主要模型框架如下图所示。
图 1 MTDTN模型框架
整个MTDTN模型可以分为四个部分:
1、外部因素表示模块,为了建模整个派送过程中时间不变性特征、待预测快件的特征以及快递员的画像表示,本模块对外部因素进行信息嵌入,它的输出将作为其他三个模块的输入;
2、派送路径表示模块。已派送快件序列对剩余快件的送达时间至关重要,本模块通过卷积神经网络及双向LSTM捕获时空轨迹的空间及时间相关性,建模已派送路径;
3、顺序预测模块。为了更好解决多目的地预测问题,本模块选择历史轨迹数据中相似快件序列集合,使用注意力机制完成信息提取与组合,继而与外部因素模块拼接,进行派送顺序预测;
4、多任务融合模块。本模块作为预测任务的输出层,融合其他模块表示向量,结合顺序预测的辅助任务与送达时间预测的主任务,输出快件送达预测时间。
对每个部分进行细致解释。
外部因素表示模块
本文将影响快件送达时间的因素分为三类:全局相关信息、待预测快件oj的相关信息、快递员的特征统计信息。
全局相关信息包括轨迹数据对应的日期、周次、区域编码、快递员编号,由于数据均为离散的数值,无法直接输入网络,文章应用了嵌入层表达全局信息,具体做法是通过乘以一个学习的参数矩阵W,其维度为FE,其中F表示全局特征的类别数,E表示自定义嵌入向量的维度,进而得到Vglobal。
待预测快件oj的相关信息包括oj相对于快递员首个派送快件ofirst的转移方向,实际距离以及oj的地址类型,地址类型采用one-hot编码。(补充:one-hot编码又称一位有效编码是将分类变量作为二进制向量的表示。主要采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有以为有效。可以理解为将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1参考blog.csdn.net/qq_15192373/article/details/89552498)。
最后将Vglobal、预测快件信息、快递员统计特征拼接后得到Vconcat输入到全连接层中,得到Vfea。
派送路径表示模块
该模块主要由三部分组成,首先使用Geo-hash对快件轨迹进行地理信息编码;继而将输入的轨迹序列使用卷积捕获空间转移的局部相关性;最后输入双向LSTM捕获时间相关性,得到派送路径的向量表示。
(补充:双向LSTM网络\双向RNN网络。RNN和LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出,但在有些问题中,当前时刻的输出不仅和之前的状态有关,还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断,还需要考虑它后面的内容,真正做到基于上下文判断。双向RNN网络(BRNN)由两个RNN上下叠加在一起组成的,输出由这两个RNN的状态共同决定。双向卷积神经网络的隐藏层要保存两个值, A 参与正向计算, A' 参与反向计算。最终的输出值y取决于A和A'。)
图 2 双向LSTM\双向RNN示意图
顺序预测模块
由于存在多个目的地快件需要同时预测,文章通过对派送顺序的预测,使模型从相关任务提取特征,得到待派送快件大致顺序,使得到达时的预测更加准确。该模块为辅助任务,其损失函数为:
多任务融合模块
该模块使用全连接层对快件的送达时间的预测结果进行输出。通过将外部表示向量,派送路径表示向量,最相关组合向量进行拼接,得到最终的输入向量,送达时间预测采用平均绝对误差作为损失函数。
5、实验结果及分析
文章的实验数据集来自某快递企业在上海市的 2 个运营区域 2019年11月1日至12月31日共计61天的快递员派送数据,共计有931个快递员,45万条快件数据。选择 11月 1日至12月10日共计40天的派送数据作为训练集,12月11日至20日共计10天的派送数据作为验证集,12月21日至31日共计11天的派送数据作为测试集。采用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,结果如下。
图 3 预测结果对比
可以看到,MTDTN相对于基准方法中最优的DeepETA模型,MAE提升16.11%,MAPE提升12.88%。
此外文章还进一步进行消融实验,验证模型各部分的有效性。设计了原模型的3种变体,将这3种变体与MTDTN进行比较,各模型描述如下:
MTDTN:文章介绍的完整模型。
MTDTN-A:外部因素模块中将嵌入层转为one-hot编码,待预测快件特征及快递员的特征以原始值替代额外统计及计算结果。
MTDTN-D:将原先的路径表示模块更替为堆叠的两层 LSTM。
MTDTN-M:在MTDTN基础上,去除顺序预测子任务,只对快件送达时间进行单任务预测。
结果如下。
图 4 消融实验结果
6、总结
文章提出了一种多任务学习模型(MTDTN)除了对快递员等影响送达时间的外部因素进行特征 提取与表示学习外,还增加了对于地理信息的编码 和卷积操作以进一步捕获地理空间的相关性,同时 通过引入未派送快件派送顺序预测辅助任务,充分 建模了未派送快件之间的相互影响,从而使得模型 效果有了极大提升。
Attention
如果你是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望大家共同进步!