论文阅读06-Task Offloading Optimization in Mobile Edge Computing based on Deep Reinforcement Learning

标题:Task Offloading Optimization in Mobile Edge Computing based on Deep Reinforcement Learning

会议:MSWiM ’23 (CCF-C)

注:本文仅用户学习。

一、知识梳理

问题:边缘计算可以很好地缓解云计算网络拥塞和高通信开销等问题。然而,考虑到边缘计算资源是有限的,需要采用合理的优化策略提高首先资源的利用率。

模型:为解决上述问题,本文提出了一个agent辅助管理用户卸载的计算卸载方案,在考虑到电能、计算和通信约束下做出智能决策。目的是最小化实验和能耗的加权和,优化策略是卸载策略。

算法:Advantage Actor-Critic (A2C)算法。

二、模型介绍

该框架包含一个agent,M个Edge Servers (ESs)和N Mobile Devices (MDs),其中M={1,2,...m,...,M},N={1,2,...,n,...,N}。

论文阅读06-Task Offloading Optimization in Mobile Edge Computing based on Deep Reinforcement Learning_第1张图片

2.1 本地计算

MD n 本地计算的时延和能耗可以表示为:

T_n^l = \frac{D_n}{f_n^l}

E_n^l=\zeta D_n

其中Dn表示任务量大小,f_n^l表示设备n每秒CPU的周期数,\zeta=10^{-27}(f_n^l)^2表示每CPU周期数产生的能耗。因此,本地计算的总成本为:

C_n^l=I_n^tT_n^l + I_n^eE_n^l
其中I_n^t, I_n^e\in [0,1] and I_n^t + I_n^e = 1

2.2 边缘计算

MD n的任务卸载给ES m的上行传输时延和能耗为:

T_{n,t}^m = \frac{B_n}{r_u}    

E_{n,t}^m=P_nT_{n,t}^m=\frac{P_nB_n}{r_u}

其中B_n表示卸载数据量的大小,P_n表示设备传输功率。然后,ES m的处理时延为:

T_{n,p}^m=\frac{D_n}{f_m}

同时,MD在空闲时的功耗为:

E_{n,p}^m=p_n^iT_{n,p}^m=\frac{P_n^iD_n}{f_m}

其中f_m = \frac{F_m}{N_m}F_m表示ES m的总计算资源量,N_m表示卸载到ES m的任务数目量,D_n表示计算B_n的CPU周期数,表示p_n^i空闲功耗。此外,任务结果下行的传输时延和设备空闲功耗为:

T_{n,d}^m=\frac{B_d}{r_d}

E_{n,d}^m=P_n^dT_{n,d}^m

其中B_d表示计算的结果大小,P_n^d表示下载的功耗。任务的总时延和总能耗为:

T_n^m=T_{n,t}^m+T_{n,p}^m+T_{n,d}^m

E_n^m=E_{n,t}^m+E_{n,p}^m+E_{n,d}^m

因此,最后的总成本为:
C_n^m=I_n^tT_n^m+I_n^eE_n^m
则计算卸载决策\alpha_n=\left\{ 1,2,...,M \right\}所产生的总成本为:

C_n=\begin{cases} C_n^l & \text{ if } \alpha= 0 \\ C_n^m & \text{ if } \alpha \in M \end{cases}

由此可知C=[C_1, C_2,...,C_N]。因此,MEC系统的平均成本和最坏情况的成本为:

C_{mean}=\frac{\sum_{n=1}^{N}{C_n}}{N}

C_{max}=max C

2.3 问题公式

总成本的优化目标为:

\min C=W_{mean}*C_{mean} +W_{max}*C_{max} \\ s.t. \quad 0 \le W_{mean} \le 1, \\ 0 \le W_{max} \le 1. \\ W_{mean}+W_{max} = 1.

2.4问题转化

上述问题转为MDP问题为:

状态空间:S={s=(\mathcal{R})}表示状态空间,包含所有请求的任务。其中\mathcal{R}=[R_1,R_2,...,R_N] and R_n=[B_n, B_d, D_n,I_n^t, I_n^e], (生成的计算任务量,计算结果大小,所需的CPU周期数,时延权重,能耗权重)

动作空间:A={a=(\mathcal{A})} and \mathcal{A}=[\alpha_1,\alpha_2,..,\alpha_N],表示动作空间。

转台转移矩阵:S \times A \times S \rightarrow [0,1] 表示转移概率分布 P(s_{t+1}\mid s_t, a_t)

奖励函数:R=-C(s,a),最大化成本的负奖励。

三、代码

代码:https://github.com/Carlos-Marques/rl-MEC-scheduler

你可能感兴趣的:(论文,论文阅读)