5G网络的深度强化学习:联合波束成形,功率控制和干扰协调

摘要:第五代无线通信(5G)支持大幅增加流量和数据速率,并提高语音呼叫的可靠性。在5G无线网络中共同优化波束成形,功率控制和干扰协调以增强最终用户的通信性能是一项重大挑战。在本文中,我们制定波束形成,功率控制和干扰协调的联合设计,以最大化信号干扰加噪声比(SINR),并使用深度强化学习解决非凸问题。通过利用深度Q学习的贪婪性质来估计行动的未来收益,我们提出了一种用于6 GHz以下频段的语音承载和毫米波(mmWave)频段的数据承载的算法。该算法利用来自连接用户的报告SINR,基站的发射功率以及所连接用户的坐标来改善通过覆盖和测量容量测量的性能。所提出的算法不需要信道状态信息并且不需要信道估计。仿真结果表明,我们的算法优于亚6 GHz语音承载的链路自适应行业标准,并且在真实的蜂窝环境中接近mmWave数据承载的最佳限制。

 

1 引言

随着第五代无线通信(5G)的推出,流量和数据速率的大幅增长继续发展。 同样发展的是增强的语音通话质量,更好的可靠性和改进的编解码器。 因此,预计未来的无线网络将满足对数据速率和增强的语音质量的巨大需求。 为了学习小区间干扰和波束间干扰的隐含特征,我们提出了一种基于强化学习(RL)框架的在线学习算法。 我们使用此框架来推导近似最优策略以最大化最终用户SINR。 强化学习在功率控制中的重要性已在[1]  -  [3]中得到证明。 语音承载中的功率控制使其对抗无线损伤(例如衰落)更具鲁棒性。 它还增强了网络的可用性并增加了蜂窝容量。

A.先前的工作
在[4] - [7]中研究了在上行链路和下行链路中执行功率控制和波束成形。 功率控制和波束形成在[7]中使用优化联合求解,但不考虑散射或阴影,这是毫米波(mmWave)传播中的关键现象。

工业标准采用几乎空白子帧(ABS)的方法来解决LTE中的同信道小区间干扰问题,其中两个基站相互干扰[8]。 虽然ABS在固定波束天线方向图中运行良好,但波束形成的动态特性降低了ABS的有用性[9]。

在[2]中研究了用于多输入多输出(MIMO)承载中的链路自适应的在线学习算法。 该算法的计算复杂度与现有的在线学习方法相当,但空间开销最小。 此外,该算法适应于快速改变信道分布。

在[3]中研究了异构网络中的干扰避免。 提出了用于宏和毫微微BS共存的Q学习框架。 建立了这些BS的分散式自组织的可行性,其中减少了毫微微小区对宏BS的干扰。 在[1]中也提出了Q学习的使用。 该框架侧重于多室内环境中的分组语音功率控制。 它利用半持久性调度来建立专用信道的虚拟感知。 该信道实现了下行链路的功率控制,以确保与行业标准相比增强的语音清晰度。

5G网络的深度强化学习:联合波束成形,功率控制和干扰协调_第1张图片

 

 

图1.对来自服务基站的信号执行联合波束成形和功率控制,同时协调来自其他BS的干扰。 有L个基站,其站点间距离为R,小区半径为r

 在[4]中引入了大规模MIMO中的联合功率控制。 由于参与联合功率控制的BS之间的信道状态信息的有限交换,该方法导致开销减少。 联合功率控制方案导致SINR测量的性能增强。 在上行链路方向上,在[5]中研究了波束形成中的功率控制。 制定优化问题以最大化两个用户的可实现的总和速率,同时确保每个用户的最小速率约束。 使用强化学习来解决上行链路的问题在计算上是昂贵的并且可以导致用户设备(UE)电池的更快耗尽。 另一方面,我们专注于下行链路和干扰消除以及功率控制。

在过去的两年中,在[6],[10]  -  [12]中研究了无线通信中深度学习的使用。 [6]研究了深度强化学习对mmWave进行功率控制的具体用法。提出这种方法作为改进非视距(NLOS)传输性能的波束形成的替代方案。使用深度强化学习解决了在传输功率和质量目标的约束下最大化UE的总和速率的功率分配问题。在该解决方案中,使用卷积神经网络来估计深度强化学习问题的Q函数。在[10]中,使用深度Q学习获得了使动态相关多信道接入环境中的成功传输最大化的策略。在[11]中提出使用深度卷积神经网络来增强在低SINR下认知无线电中的调制的自动识别。在[12]中研究了能够通过功率控制可靠地阻塞传输的深度学习分类器。

B.贡献
在本文中,我们介绍了一种不同的功率控制方法,其中我们不仅控制基站(BS)的发射功率,而且还协调干扰基站的发射功率。 这种方法允许我们通过控制干扰来控制SINR,而不是通常控制发射功率电平。 作为这种明显冲突的结果,出现竞争条件,其中给定用户的服务BS是另一用户的干扰BS。 因此,虽然功率控制请求给定BS和给定用户的功率增加,但是干扰协调可以同时请求相同BS的功率降低。 在我们之前的工作[1]中,我们通过改变服务BS发射功率来关注语音用户在下行链路上的功率控制。 然而,对于SINR目标计算,我们仅导出干扰的上限并在我们的计算中使用它。

我们提出了一种深度强化学习(DRL)方法来解决上述竞争条件。 我们进一步利用功率控制和干扰协调进行联合波束形成。 我们通过同时协调服务和干扰BS的发射功率来实现这一点。 这种联合活动可以在中心位置或在其中一个基站进行,如图1所示。我们采用波束形成波束形成方法并执行下行链路功率控制和干扰协调(PCIC),而无需连接手机发送 这些命令到服务或干扰BS。 而是,BS基于RL自主地计算其PCIC命令。 PCIC命令是在任何给定的离散时间步骤代表单个手机发出的。

C.论文组织
本文的其余部分安排如下。 在第二节中,我们详细描述了网络模型,系统模型和信道模型。 第三部分概述了问题的制定,并激发了在这些问题中使用强化学习的重要性。 在第四部分,我们讨论深度强化学习及其在解决问题中的用法。 在第五节中,我们提出了基于RL的深度算法,以便在6 GHz以下频段内为语音承载执行协调PCIC。 第VI节将这个想法扩展到联合波束成形和PCIC,但是用于mmWave数据承载。 在第七节中,我们展示了建议的性能测量数量,以便对我们的算法进 第VIII节显示了基于所选性能测量的我们提出的算法的结果以及对这些结果的讨论。 我们在第九节中总结了这篇论文。

2 网络,系统和信道模型

A.网络模型

B.系统模型

C.信道模型

3 问题制定

我们的目标是联合优化波束成形矢量和L BS处的发射功率,以最大化用户可实现的总和速率。 我们制定了联合波束形成,功率控制和干扰协调优化问题

5G网络的深度强化学习:联合波束成形,功率控制和干扰协调_第2张图片

 

 其中rDL,target表示下行链路传输的目标SNR。 由于约束的非凸性,该问题是非凸优化问题。 使用经典(非机器学习技术)解决这个问题通常需要在大空间上进行穷举搜索以找到候选解决方案。 在本文中,我们建议通过利用深度学习工具来解决这一挑战,这些工具可以在实现高SINR的同时避免穷举搜索。 特别是,采用深度学习(更具体地说是深度强化学习)的动机有以下几点:

1)我们不需要知道信道以便找到最佳波束形成向量。
2)我们最小化UE参与向BS发送反馈的参与。 特别地,UE发送回其接收的SINR及其坐标,而代理处理所涉及的BS的功率控制和干扰协调命令。
3)当涉及多个BS时,联合波束形成,功率控制和干扰协调的最佳协调是非常昂贵的。 RL的使用提供了L中线性时间内多个BS的控制开销的近似最优分布式协调。
4)UE发送给服务和干扰BS的显式PCIC命令需要修改当前的行业标准[13]。

接下来,在深入研究第V和VI节中提出的算法之前,我们将在第IV节中简要介绍深度强化学习。

 

4 关于深度加强学习的启动者

5G网络的深度强化学习:联合波束成形,功率控制和干扰协调_第3张图片

 

 

在本节中,我们描述了深度强化学习(DRL),它是[19]中引入的一种特殊类型的强化学习。 强化学习是一种机器学习技术,它使代理能够发现应该采取什么行动来最大化其在交互式环境中的预期未来奖励。 代理与环境之间的相互作用如图2所示。

由于我们在本文中采用强化学习算法,如第V和VI节所述,下一个描述侧重于强化学习。 特别是,DRL利用深度神经网络学习比手工制作的特征更好的表示的能力,并充当功能的通用逼近器。

强化学习要素:观察,状态,行动,策略,奖励,状态行动价值函数。

这些元素一起工作,它们之间的关系由目标决定,以便最大限度地提高代理商选择的每个行动的未来折扣奖励,从而使环境转变为新的状态。 该政策规定了代理人与状态之间的关系。 通过训练阶段学习预期折扣奖励的价值。

 

 

5 在声音功率控制和干扰协调中深度强化学习

6 mmWAVE波束形成功率控制和干扰协调中的深度强化学习

7 绩效措施

A.收敛性

B. 覆盖范围

C.合率容量

 

8 仿真结果

在本节中,我们根据第VII节中的性能指标评估基于RL的建议解决方案的性能。 首先,我们在深入研究第VIII-B和VIII-C节中的模拟结果之前,描述了第VIII-A节中采用的设置。

A.设置

B.结果

C.图片

9 结论

在本文中,我们寻求在从多天线基站到单天线用户设备的多址OFDM蜂窝网络中最大化下行链路SINR。 用户设备受到来自其他多天线基站的干扰。 我们的系统使用低于6 GHz的频率用于语音和mmWave频率的数据。 我们假设每个基站可以从有限集中选择波束形成向量。 功率控制命令也来自有限集。 我们表明不存在封闭形式的解决方案,找到最佳答案需要进行详尽的搜索。 穷举搜索的运行时间是基站数量的指数。

为了避免穷举搜索,我们使用深度强化学习开发了联合波束形成,功率控制和干扰协调算法(JB-PCIC)。 实现的近似最佳SINR值高于通过工业标准算法实现的值。 对于语音通信,由于其更快的收敛,所提出的算法优于表格和固定功率分配算法。 所提出的算法的运行时复杂性是可能动作的数量,基站的数量和基站天线的数量的乘积。 也就是说,运行时复杂度在每个数量上都是线性的。

我们提出的用于联合波束形成,功率控制和干扰协调的算法要求UE每毫秒将其坐标及其接收的SINR发送到基站。 然而,所提出的算法不需要信道状态信息,这消除了对信道估计和相关训练序列的需要。 此外,降低了来自UE的总反馈量,因为UE不需要发送用于波束成形矢量改变,功率控制或干扰协调的显式命令。

转载于:https://www.cnblogs.com/JadeZhao/p/11460815.html

你可能感兴趣的:(5G网络的深度强化学习:联合波束成形,功率控制和干扰协调)