强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》

目录

  • 一、文章概述
  • 二、系统目标
  • 三、应用场景
  • 四、算法架构
    • 1.微基站处----DQN
    • 2.宏基站处---Actor-Critic
  • 五、伪代码
  • 六、算法流程图
  • 七、性能表征
    • 1.收敛时间
    • 2.信道总容量


本文是对论文《Deep Reinforcement Learning for Multi-Agent Power Control in Heterogeneous Networks》的分析,第一作者为北京邮电大学Lin Zhang
强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第1张图片

一、文章概述

本篇文章的主要内容是:在异构网络条件下使用强化学习(包括DQN和AC)算法对各个基站的功率进行控制,最终达到信道容量最大化的目的。我个人觉得这篇文章的内容很饱满,可以认为是强化学习在功率控制领域(干扰管理)应用的集大成者。

二、系统目标

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第2张图片
与常见功率控制系统目标相同,作者所提出的算法目的是使得信道容量总和最大化。
在这里插入图片描述
系统的SINR定义如上式所示。

三、应用场景

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第3张图片
作者的算法应用于如图所示的异构网络场景下,包含一个宏基站和四个微基站。宏基站的坐标为(0,0),覆盖半径为[10,1000]。微基站的坐标分别为与宏基站的距离是500米,坐标分别为(500,0)、(-500,0)、(0,500)、(0,-500),覆盖半径为[10,200]。宏基站的发送功率为30dB,微基站的发送功率为23dB,传输的路径损耗定义为120.9 +37.6 log 10(d),距离d以千米为单位。

四、算法架构

1.微基站处----DQN

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第4张图片
每一个微基站处的强化学习模型为DQN,以基站的七中可能状态作为输入,最终的发送功率值作为输出,其环境的奖励为计算后所得到的局部信道容量值,目的是尽可能的提升局部信道容量,达到全局信道容量最大化的目的。值得注意的是,微基站处只进行网络的前向传播,其参数由顶层AC网络下发。
强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第5张图片

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第6张图片

具体而言,每一个局部网络共有五层。第一层是微基站的七种状态,对应七个神经元。第二、三两层是具有一百个神经元的全连接层。第四层只有一个神经元,对应的激活函数为sigmod,用于把神经网络的输出转换到0-1之间。第五层也只有一个神经元,是将0-1之间的输出线性放大到0-Pmax。

2.宏基站处—Actor-Critic

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第7张图片
宏基站处建立与微基站结构相同的DQN网络,作为AC算法的actor部分。其更新方法要点包括DQN中的:(1)网络模型固定(2)经验回放。作为顶层网络,actor部分收集local处积累的经验(状态转换_功率变化对应关系)优化自身,目的是局部功率输出最大。并将计算所得的θ参数实时下发,在实际的local模型中应用并不断积累经验值。
宏基站处同时建立一个共享的评估网络,作为AC算法Critic部分。Critic统筹全局的网络模型,以所有网络动作-状态以及全局CSI等信息作为输入,系统的信道容量总和作为输出,对于局部DQN网络做出指导,在原有DQN输出基础上调节其更新的幅度,使得模型从各个局部最优趋向于全局最优。
强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第8张图片

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第9张图片
具体而言,对于Critic网络,以全局S的状态和动作作为输入,经过全连接层传递后各生成200个神经元,作为动作-状态混合网络的第一层。混合网络的第二层有200个神经元,激活函数为relu。最后一层以全局信道容量和作为输出。

五、伪代码

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第10张图片

六、算法流程图

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第11张图片
0时刻开始,微基站使用随机功率控制策略,向宏基站发送经验累积信息
Td时刻开始,local经验第一次到达,actor网络对其进行存储。
Td+D时刻开始,宏基站积累的经验达到训练的最小批次,开始进行网络的训练。
Td+D+tu时刻开始,actor网络参数下发,并且每个Tu时间间隔进行更新。
2Td+D+tu时刻开始,Critic网络开始积累actor网络的第一批次经验值,训练并且对actor网络做出指导。
至此,整个网络正常运行,系统不断学习与优化。

七、性能表征

1.收敛时间

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第12张图片
无论是底层DQN的前向传播,抑或是顶层AC算法的训练,其用时均大幅度优于WMMSE和FP算法。

2.信道总容量

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》_第13张图片
其性能如上图所示,在前200个时隙,微基站以随机功率策略发送信号。在200-1500时隙中,模型对累积经验进行学习,信道容量大幅提升并超越WMMSE和FP算法那。在约1500个时隙之后,模型收敛。

你可能感兴趣的:(RL论文分析,python,深度学习)