Wang, X.,Ning, Z., & Guo, S. (2021). Multi-Agent Imitation Learning for PervasiveEdge Computing: A Decentralized Computation Offloading Algorithm. IEEE Transactions on Parallel and Distributed Systems,32(2), 411–425. https://doi.org/10.1109/TPDS.2020.3023936
普适边缘计算是指仅依靠具有传感、存储和通信能力的边缘设备实现点对点卸载,无需集中管理的一种边缘计算。由于缺乏统一的协调,用户往往以自身效用最大化来追求利润。然而,一方面,用户可能不会根据他们的本地观察做出适当的调度决策。另一方面,如何在完全分散的环境下保证不同边缘设备之间的公平性是一个相当具有挑战性的问题。为了解决上述问题,我们提出了一种普适边缘计算网络中以最小化平均任务完成时间为目标的分散计算卸载算法。在充分观测系统状态的基础上,利用随机博弈论推导出设备间的纳什均衡。在此基础上,结合一般对抗模仿学习,设计了一种基于局部观测的流量分流算法。多个专家可以提供演示,这样设备就可以通过最小化它们的观察-动作对分布之间的差距来模拟相应专家的行为。理论和性能结果表明,该算法与其他代表性算法相比具有显著的优势。
边缘计算通过利用网络边缘的计算和存储资源扩展了传统的云计算架构。云可以安排任务由边缘设备在本地处理,而不需要远程传输。随着5G技术和网络技术的发展,终端设备已经具备了强大的传感、计算和存储能力,为实现普适边缘生成铺平了道路。实际上,它是一种新型的边缘计算,它只是利用边缘设备进行计算和存储,没有集中管理。传统的边缘合成是对云计算的补充,在云计算中,计算和存储资源由边缘服务器提供,并在后端进行决策。与此相反,普适边缘计算允许数据存储、处理和调度决策全部在网络边缘形成。因此,传统的边缘计算策略已经不适合普适的边缘计算环境,需要以完全分散的方式进行新的算法设计。
与传统边缘计算相比,普适边缘计算的优势可以概括为四个方面。首先,它没有部署和维护专用云后端的基础设施。由于数据可以在用户附近处理,因此不需要与云进行通信,大大降低了传输延迟。此外,它通过实现对等设备之间的通信而不需要Internet连接性的要求,具有连接独立性。最后,不需要中央授权,设备可以自由地决定如何与其他设备协作,以及以何种方式启用可行和多样化的网络应用程序。普适边缘计算的应用从娱乐领域广泛地扩展到工业领域。例如,在一场篮球赛现场,坐在不同位置的观众可以通过点对点通信,从自己的角度与他人分享录制的视频。然后,将不同的片段进行聚合,形成多角度观看的游戏视频,在不同地点的观众可以看到现场比赛的全景。另一个例子是协同驾驶,通过短距离通信技术,车辆可以直接共享道路状况和事故现场的实时视频流。
这里两篇引用论文,现在这个场景和p2p有什么区别呢?
[5] C. Xu, Y.-F.Zhang, G. Zhu, Y. Rui, H. Lu, and Q. Huang, “Using webcast text for semanticevent detection in broadcast sports video,” IEEE Trans. Multimedia, vol. 10,no. 7, pp. 1342–1355, Nov. 2008.
[6]W. Chen and S. Cai, “Ad hocpeer-to-peer network architecture for vehicle safety communications,” IEEE Communi. Mag., vol.43,no.4, pp. 100–107, Apr. 2005.
虽然普适边缘计算可以为用户带来各种优势和便利,但在普适边缘计算网络中,考虑多设备效用的公平性,设计一种可行的计算卸载算法依然是挑战。挑战归纳如下:
与传统的边缘计算相比,普适边缘计算允许设备在网络边缘进行决策,而不需要集中管理。仅仅依靠点对点通信,设备很难获得整个网络状态。因此,如何选择合适的边缘服务器(由其他设备组成),根据部分观察来卸载任务,对他们来说是一个挑战。受此影响,没有合理的任务分配策略很难保证任务完成时间。
在多设备环境中,每个设备都希望最大化自己的实用程序[8]。现有的研究一直在开发博弈理论模型来计算纳什均衡的[9]。对于每个设备,它基于系统状态的全局知识与其他设备进行交易。然而,在普适的边缘计算网络中,设备无法获得全局信息,因此如何保证设备在完全分散环境中的公平性是一个值得研究的问题。
在部分观察下,它适用于基于设计学习的通过与环境交互获得良好策略的方法。但是,一方面,现有的无模型学习方法在初始阶段的性能往往较差,不适合在线调度。另一方面,它们的收敛速度较慢,特别是在有多个agent的局部可观测环境中。因此,有必要设计一种收敛速度快、能够分散执行的学习方法。
为了解决上述问题,本文提出了一种