(论文分析)边缘计算中基于深度强化学习的卸载博弈

论文题目:A Deep Reinforcement Learning Based Offloading Game in Edge Computing

研究内容:利用基于策略梯度的深度强化学习设计分布式计算卸载算法,在用户网络带宽以及偏好信息不公开情况下如何设计一种有效的卸载策略来决定哪些任务可以卸载到资源有限的边缘服务器,

针对问题:在用户网络带宽以及偏好信息不公开情况下如何设计一种有效的卸载策略来决定哪些任务可以卸载到资源有限的边缘服务器,解决边缘计算中的部分计算卸载、动态环境和不完全信息共享问题

解决方案

设计一种用于计算卸载的分散算法,以便用户能够独立地选择他们的卸载决策。在算法设计中应用了博弈论。将用户拒绝公开其网络带宽和偏好信息的情况下进行资源分配的问题表述为部分可观察马尔可夫决策过程。该过程通过基于策略梯度深度强化学习(DRL)的方法解决。通过考虑通信和计算成本,将其表述为每个时隙中的分散计算卸载博弈。提出了一种能够实现纳什均衡的算法。研究了无信息共享的卸载问题,并将其表示为多代理POMDP,针对此问题,提出了一种基于DRL和DNC的算法

首先研究一个简单的场景,用户共享他们的信息,例如网络带宽和偏好,并设计一个能够实现纳什均衡的算法。基于此算法,接着扩展到没有信息共享的场景。该问题被表述为多智能体部分可观察马尔可夫决策过程(POMDP)。为了应对网络动态和连续决策空间的挑战,提出了一种基于策略梯度的深度强化学习(D-DRL)的分散方法和微分神经计算机(DNC)。此方法可以在连续决策空间中直接从计算卸载博弈历史中有效地学习高网络动态下的最优卸载策略,而无需任何关于系统模型的先验知识。与基于模型的计算卸载博弈策略相比,它具有无模型的优点,并为计算卸载问题提供了通用解决方案。因此,它可以应用于难以获得精确系统模型的复杂和不可预测的情况。此外,首次用于策略梯度DRL的DNC能够记忆过去的信息并自动推断观察的隐藏状态。通过将DNC纳入我们的框架,不仅可以大大加快策略优化过程,而且用户可以在网络时变和不确定的情况下学习策略。目标是寻找最佳卸载策略使得用户效用最大。

信息共享算法,所有移动用户共享其完整信息(包括权重an、网络带宽bk n等)的情况下,首先通过数学证明,存在唯一的纳什均衡,然后提出了算法1来实现纳什均衡。算法1中在每个时隙中,每个用户首先与其他用户共享其信息。在从其他用户接收到该私有信息后,每个用户根据定理1获得的最优计算卸载策略来决定其卸载策略。

无信息共享算法,用户可能会出于隐私保护的考虑而拒绝公开这些参数,所以在实践中获取这些共享信息是不现实的。此外,用户的物理参数是时变的,一个用户很难准确估计其他用户的属性,当其他用户的属性不可观测时,将动态分散计算卸载博弈描述为一个多代理部分可观察的马尔可夫决策过程,并基于多代理DRL方法设计了一种新的用户动态计算卸载算法D-DRL。使用该算法,每个用户可以直接从博弈历史中确定近似最优的计算卸载策略,而无需任何其他用户的先验信息。

马尔科夫决策,其中包括状态空间、动作空间、状态转换概率空间、奖励空间、观察空间、观察函数集。

网络设计上,为每个用户设计了一个分散的actor网和分散的critic网,actor网被设计为多层完全连接的神经网络,有两个隐藏的完全连接层,critic网由连接层和DNC组成[34],具有两个隐藏的完全连接层。DNC是一种具有内部记忆模块的特殊递归神经网络,能够学习和记忆输入的过去隐藏状态,带有DNC的批评者网络可以使用户更快更好地收敛到平衡点。

通过策略梯度方法为每个用户优化连续策略

实验结果:与五种基线方法进行了比较,但带宽提高时,在更大的带宽下,单位传输成本降低,这促使用户向边缘服务器上传更多数据,用户效用更高,用户计算延迟随着无线电带宽的增长而减少。本文提出的算法D-DRL具有最高的平均效用和最快的收敛速度,大大超过了其他算法,而且平均效用最高。

你可能感兴趣的:(计算卸载,边缘计算,算法)