Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne

目录

研究背景

keypoints:

系统模型:V2V为主

4 数字孪生与多智能学习在车辆边缘计算管理中的整合方案

4.1 数字孪生网络辅助边缘车辆聚合

4.2 多智能体学习赋能边缘资源分配

强化学习:

协调图CG解耦合:

4.3 数字孪生进化与多智能体学习之间的相互辅助交互


研究背景

AI方法的有效实施始终依赖于学习代理收集的准确和实时系统信息。数字孪生可以提供更准确和实施的系统信息,不用依赖于多智能体的收集。为了解决这个问题,我们转向多重分布式学习授权的车辆边缘管理,但是在这些多个代理商中,有效的协作和共同决策优化仍然存在着关键的挑战。

为了填补这一空白,在本文中,我们提出了一种基于数字孪生和多智能体学习的新型车载边缘计算网络,可提高智能体协作并优化任务卸载效率。 据我们所知,这是第一部专注于车辆边缘计算网络中的数字孪生和多智能体学习的工作。

keypoints:

  1. 提出了一个新的边缘管理框架,该框架通过数字孪生提高了多个代理的学习效率,同时通过学习方法增强了虚拟和物理网络之间的可复制性能。

  2. 利用数字孪生来揭示不同车辆之间的潜在合作,并自适应地形成多智能体学习组,从而提高边缘资源利用率并降低学习复杂性。

  3. 提出了一种分布式多智能体学习方案,该方案在复杂车辆网络中的严格延迟约束下最小化车辆任务卸载成本,并动态调整数字孪生网络的状态映射模式。

系统模型:V2V为主?

Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne_第1张图片

4 数字孪生与多智能学习在车辆边缘计算管理中的整合方案

4.1 数字孪生网络辅助边缘车辆聚合

   由于大型车辆的大规模分配,因此在全球范围内安排整个边缘网络的任务卸载是昂贵和不切实际的。为了解决这个问题,我们利用DTN(延迟容忍网络)和重力模型设计了边缘服务聚合方案,该方案根据计算资源的供应和需求之间的潜在匹配关系有效地聚集了车辆,并大大降低了任务卸载计划的复杂性。

DTN:(为重力模型服务)

   1、为了引导边缘服务聚合,在 RSU 中构建了车载边缘网络的数字孪生。每个RSU收集其周围车辆的计算功能和通信拓扑。然后,他们通过有线传输共享收集的信息,并形成车辆边缘DTN。 
   2、DTN可以被视为在数字空间中记录的逻辑模型和参数的组合,以表征物理空间中对象的状态。在此考虑之后,在我们的工作中,我们将DTN的元素定义为Ds = {m,φ,w}。在这里,M表示物理系统中车辆的数字模型,该模型由车辆任务集{Wij},计算能力集{fi},资源价格集{zi}和可用传输速率集{Rij}。 φ= {φ1,φ2,φ3}是建模参数,它分别反映了DTN建模中资源,价格和通信的三个因素的重要性。参数的值定期更新,w是映射周期的序列编号。

重力模型:
在 DTN 的帮助下,我们开发了一种基于重力模型的车辆聚合方案。 在此,我们对引力模型进行了改造,使其适合刻画车辆边缘服务的供需关系。【先挑重力大的加入聚类组】

Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne_第2张图片      

4.2 多智能体学习赋能边缘资源分配

多智能体的划分方法根据DTN辅助聚合算法, DTN辅助聚合算法根据潜在的服务关联将复杂的车载网络划分为多个部分,有效降低边缘服务调度复杂度。

强化学习:

Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne_第3张图片
优化问题的目标函数:最小程度的减少在延迟约束下的任务卸载成本/C2 表示任务卸载仅发生在属于同一聚合组的车辆之间

Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne_第4张图片
在状态 St 采取行动 At,Vq 的学习系统获得的reward确立

Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne_第5张图片
多智能体学习的主要目标是为智能体找到最优行动策略,以最小化组的任务卸载成本

协调图CG解耦合:(?)

“To address the abovementioned challenges, we resort to coordination graph (CG) technique, which helps to decompose complex coupling relationships of multiple agents into a linear combinations mode [28].”

为了应对上述挑战,我们求助于协调图(CG)技术,这有助于将多种代理的复杂耦合关系分解为线性组合模式[28]。

“Theorem 1: In the process of decomposing the complex coupling relationship between multiple agents into linear relationship, it has been proved that the achieved optimal joint actions and the coordination reward do not depend on the agent elimination order [29].”

定理 1:在将多个智能体之间复杂的耦合关系分解为线性关系的过程中,证明了所获得的最优联合动作和协调奖励不依赖于智能体消除顺序。

“In this iterative agent learning approach, we can derive the optimal action set of all the vehicular agents belong to Vq at time slot t. The action set will be spreaded among these agents, and prepared as strategic information for the learning in the next time slot. The main steps of the proposed iterative learning algorithm are shown in Algorithm 2. This algorithm leverages the sequential characteristic of the gravity-based aggregation process in DTN to construct a linear iterative learning mechanism in the physical vehicular network, which greatly reduces the learning complexity of multiple agents with complex relations. In addition, the interaction between the agents is limited to their chosen actions, which significantly reduces the amount of data transmission and adapts to the spectrum resource constrained vehicular networks.”在

这种迭代智能体学习方法中,我们可以推导出在时间槽 t 属于 Vq 的所有车辆智能体的最优动作集。 动作集将在这些代理之间传播,并准备作为下一个时间段学习的战略信息。 所提出的迭代学习算法的主要步骤如算法2所示。该算法利用DTN中基于重力的聚合过程的顺序特性,在物理车辆网络中构建线性迭代学习机制,大大降低了学习复杂度。 具有复杂关系的多个代理。 此外,代理之间的交互仅限于他们选择的动作,这显着减少了数据传输量并适应了频谱资源受限的车载网络。

4.3 数字孪生进化与多智能体学习之间的相互辅助交互

Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne_第6张图片
DTN 和多智能体学习系统在调度车辆边缘服务方面共同运作。 一方面,DTN 在参数 Φ={φ1,φ2,φ3} 的指导下,通过聚合车辆组来确定多个智能体的分布式学习环境。 这种聚合改善了边缘资源的供需匹配,降低了多智能体学习的复杂性。 另一方面,多智能体学习结果,即任务卸载目标选择和边缘资源分配,会影响车辆边缘服务性能,性能指标可以反过来评估聚合机制的优劣,从而 调整聚合参数集Φ。 这两部分迭代交互更新,使自己适应应用场景的变化。

你可能感兴趣的:(边缘计算,人工智能)