RL+RA 文献阅读 survey: RL/DRL Meets Vehicular Task Offloading Using Edge and Vehicular Cloudlet

[paper]J. Liu et al., ‘RL/DRL Meets Vehicular Task Offloading Using Edge and Vehicular Cloudlet: A Survey’, IEEE Internet of Things Journal, vol. 9, no. 11, pp. 8315–8338, Jun. 2022, doi: 10.1109/JIOT.2022.3155667.

简介:本文主要总结了基于现有的关于基于RL / DRL的车辆任务卸载的文献。

RL+RA 文献阅读 survey: RL/DRL Meets Vehicular Task Offloading Using Edge and Vehicular Cloudlet_第1张图片

 首先,从计算范式上来看,有三种 :中心式云计算(高时延,低吞吐),边缘计算(靠近用户,低时延),车辆计算(一组车辆可构成计算资源池)。

任务卸载有三种决策:

1 )本地执行,整个计算在车辆局部执行。

2 )完全任务卸载,这里整个计算由边缘节点(即MEC服务器/车辆)卸载处理。

3 )部分任务卸载,部分计算任务由车辆本地处理,其余任务卸载至其他车辆/ MEC服务器。

完全利用MEC server 卸载:

车辆高速 移动,在一个edge node的停留时间可能会超过task 计算时间,因此任务可能在RSU之间迁移。

Edge nodes are further elaborated into three types: 1) MEC server; 2) nearby vehicles; and 3) HMEC.

现有paper总结:

  1. 一般而言,基于RL的算法(即DQN和DDQN)在高维状态空间中寻找最优策略优于贪婪算法和基线算法[ 93 ] [ 99 ] - [ 101 ]。如果模型支持部分任务卸载,在高维度动作空间的环境中,基于策略的算法(即DDPG)是更好的选择[ 102 ],[ 103 ],[ 105 ],[ 106 ]。
  2. 考虑到MEC环境的复杂性,一个好的解决方案是将问题分解为两个子问题:a )调度卸载请求和b )资源分配。基于RL的算法主要针对后一个问题寻找最优策略。对于前者,可以采用双边匹配方案[ 94 ]、[ 95 ]和流重定向机制[ 131 ]。
  3. 模型的优化目标主要是执行时延[ 95 ],[ 96 ],[ 104 ] - [ 106 ],其次是系统总消耗[ 114 ],[ 118 ],[ 123 ]。大多数应用在车辆环境下是时间敏感的,优化时间延迟对车辆服务很重要。
  4. 对于临近车辆[ 111 ]、[ 113 ]以及车辆微云[ 127 ]、[ 128 ]、[ 133 ] - [ 135 ]场景,优化时延的文章占比最高。这是因为服务车辆和任务车辆都在行驶,大部分车辆的计算能力较小,使得任务的时间约束较大。
  5. 异步在线学习可以由车辆执行[ 133 ],具有较小的时间延迟。新的模型可以在边缘计算节点进行更新,以更好地适应环境。尽管异步聚合算法已被证明比同步算法更快,但往往收敛于次优结果[ 98 ]。
  6. 利用人工智能工具(即贝叶斯推理和LSTM) [ 111 ]、[ 135 ]进行车辆移动性预测,可以主动提供资源或预取计算任务,减少卸载延迟。
  7. 临近车辆、HMEC和VC计算场景中,基于多跳的卸载比单跳传输更有利于计算资源的利用。单跳更可靠,但执行多次后时延较大。因此,无线跳数存在一个有趣的权衡,必须根据应用需求加以利用。
  8. 与单时间尺度框架[ 93 ],[ 114 ],[ 132 ]相比,多时间尺度方案对系统资源的要求更低,是解决复杂问题的另一个很好的选择。
  9. 与MEC模式不同,在VC方案中,优先使用M / M / C优先队列来构建任务卸载模型,以实现更好的决策。车辆到达率采用泊松分布,任务服务时间服从指数分布[ 129 ] ~ [ 131 ]。
  10. 必须有一个包含DSRC、蜂窝和毫米波连接等异构技术的技术编排架构,以应对车载应用和服务的异构性所带来的URLLC需求。
  11. 车辆之间频繁的任务迁移也会因为资源消耗而增加总成本[ 111 ]。应采用多种路径选择算法,在源车辆处寻找数据发送和接收计算结果的最优路径,以尽量减少任务迁移次数。
  12. 为了对所提出的方案提供准确的评估,必须开发使用实际数据集的大规模和现实的评估场景[ 131 ]。

开放性问题:

1 )建模与优化:一般情况下,一个目标函数需要受到一定的约束;然而,采用随机梯度下降( SGD )算法的人工智能在搜索环境受限时效果不佳[ 48 ]。在网络拓扑实时变化的情况下对任务卸载环境进行建模具有相当大的挑战性。将复杂环境近似为数学模型需要掌握环境中的主要变量是相当具有挑战性的。一些启发式优化算法(即,遗传算法)通常被部署,但收敛速度有待提高。在DRL算法中,存在的问题之一是如何设置奖励机制。代理人需要最大化报酬才能做出决策,而什么样的报酬机制才能做出公平的决策。如何确定模型的优化目标,优化任务执行延迟或资源消耗,或者进行联合优化。同样,如何提出一个合适的奖励机制。

2 ) DRL的收敛性:DRL方法本身存在一些问题,例如,由于以下几个原因,DRL模型的收敛是复杂的:1 )为了逼近Q形式,在DRL中引入了NN,即值函数V。然而,由于监督数据TD目标R + γ ( Q( a′, s′, w) )已经包含了优化参数w的需要,这被称为半梯度,并且梯度不是下降最快的方向;2 ) TD模式的迭代更新,因为TD目标包含需要估计的Q,是包含不确定因素的有偏估计;3 )对于非策略算法控制过程,在探索和优化过程中使用了两种不同的策略,这将导致值函数的估计不准确。以上3个因素显著增加了模型的不稳定性。进一步,对于非线性拟合问题(例如NNs),无论是MC还是SARSA和Q - Learning,这3种算法很难保证得到一个最优解[ 64 ]。最近的算法研究减少了早期的影响问题,即PPO和SAC算法。然而,保证模型的稳定性仍是未来的研究方向之一

3 )预测车辆移动性:在车辆任务卸载环境中存在的问题中,车辆的移动性也带来了一些挑战,包括不可靠的无线链路连接、短暂的连接和距离外的问题。此外,在车联网中,很少有RSU可用来为车辆提供服务,而当大量车辆需要URLLC服务时,这种情况在任何时候都会发生。因此,在可扩展性和维护被请求用户的性能方面可能存在问题。同样,可变的车辆密度加上快速和频繁的拓扑变化也会造成高丢包率。具体来说,在多跳传输系统中,考虑到参与高动态环境的节点的连通性,成功的概率较低。解决这些挑战的方法之一是利用人工智能工具预测车辆的下一个位置,提高任务卸载效率,减少不必要的资源消耗。

4 )任务迁移:计算任务在不同的边缘服务器之间迁移。一方面,由于车辆的移动性,任务迁移可以保证任务从距离车辆最近的边缘服务器发送到车辆。另一方面可以用于边缘服务器之间的负载均衡,降低用户服务时延。任务迁移需要虚拟化技术,如VM迁移技术或Docker容器[ 137 ]。虚拟化要求分离底层物理传输的资源,包括虚拟硬件、操作系统和网络。执行环境的虚拟化可以提高系统的安全性[ 138 ],还可以实现资源共享、资源聚合、资源模拟、资源隔离等需求。然而,同时虚拟化需要更多的能量,这似乎与减少任务卸载中的资源消耗相冲突。如今的DNN模型可以有很多参数;例如,一个预训练的YOLO模型[ 139 ]大约为200 MB,它不得不考虑延迟问题。另一方面,如何实现任务在车辆上的虚拟迁移也是一大挑战。此外,车辆有限的计算和存储资源在实现虚拟迁移的同时也会增加任务延迟,因此模型哪些部分需要迁移是一个关键问题。迁移方式有3种[ 63 ]:1 )冷迁移;2 )暖迁移;3 )活态迁移。(1) cold migration; 2) warm migration; and 3) live migration.不懂,查一下)冷迁移易于理解和实现,但效率较低[ 140 ]。由于VM迁移时不需要关闭,因此实时迁移更高效[ 141 ]。然而,动态迁移面临更多的技术挑战。

5 )安全和隐私问题:与任何其他网络一样,安全和隐私是车辆任务卸载的主要关注点。对于每个系统和网络,可用性、完整性、真实性、机密性和不可否认性是其主要的安全属性[ 142 ]。具体来说,车辆任务卸载环境有BS、RSU和车辆,它们交换车辆的位置等个人信息,为用户提供更好的卸载服务。此外,不可信的服务器/车辆可以在计算卸载过程中获取敏感数据。再加上中心化控制器的不存在,会进一步复杂化集成安全和隐私策略的创建,这可能会对用户的安全和隐私造成潜在的威胁[ 143 ]。其中一种解决方案是加密数据或适当的认证和授权证书,这可能会因为额外的延迟或计算能力而损害卸载效率和QoE。还有一种风险是,基于RSU / BS的MEC服务器会因为病毒攻击,如分布式拒绝服务( Distributed Denial of Service,DDoS ),而拒绝为用户提供服务,并可能导致卸载失败。这种服务中断也会影响网络资源利用率。EC和VC系统的安全和隐私策略难以实施,缺乏集中有效的管理。因此,有必要分析由于车辆计算能力有限而导致的有效性和隐私策略之间的权衡。因此,隐私与安全问题不容小觑,需要更加深入的研究。

你可能感兴趣的:(#,文献阅读,RL+Resource,allocation,人工智能)