【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of

文章目录

  • 论文基本信息
  • 摘要
  • 1.引言
  • 2.系统模型
    • A. Network Formation and Sub-channel Allocation 网络形成及子信道分配
    • B. Channel Models 信道模型
  • 3.PROBLEM FORMULATION 问题定式化
  • 4.HEURISTIC DECOMPOSITION AND LEARNING-BASED SOLUTION
    • A. Adaptive Network Formation
    • B. Learning for Trajectory Optimization
      • (1)MDP reformulation
      • (2)Multi-agent DRL Algorithm
  • 5.仿真结果
  • 6.总结
  • 补充

论文基本信息

《Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Offloading》
《多无人机辅助无线数据卸载的自适应网络形成与轨迹优化》

2021 IEEE 23rd Int Conf on High Performance Computing & Communications; 7th Int Conf on Data Science & Systems; 19th Int Conf on Smart City; 7th Int Conf on Dependability in Sensor, Cloud & Big Data Systems & Application (HPCC/DSS/SmartCity/DependSys)

摘要

在本文中,我们采用了一个由蜂窝基站(BS)协调的多架无人机来帮助物联网用户将他们的传感数据卸载到BS中。为了最小化整体能耗和传输延迟,我们允许不同的无人机优化它们的轨迹,并通过多跳中继进行数据传输。这意味着无人机的轨迹优化和网络形成之间存在复杂的时空耦合。为了解决这一问题,我们提出了一种双步算法,在自适应网络形成和轨迹优化之间进行迭代。首先,为了平衡无人机的能量消耗和队列大小,我们采用了一种启发式算法来更新自适应网络的形成。然后,一旦我们更新了网络的形成,我们就会通过使用多智能体深度强化学习算法来进一步优化无人机的运动轨迹。仿真结果表明,与传统的非协同情况相比,联合轨迹优化和网络形成可以更好地利用多架无人机在数据卸载时的协同作用。

1.引言

最近,无人机(uav)已被用于各种网络场景,为物联网(IoT)用户或传感器提供无线接入,构成了未来物联网的重要组成部分,如[1]和[2]。一般来说,由于物联网用户的能源供应有限、位置偏远和非视线障碍,他们可能难以满足实时需求。这些困难可以通过在无线网络中部署飞行无人机来解决,无线网络也被称为无人机辅助的协作物联网网络,如[3],[4]。无人机的快速部署、移动性和灵活性使无人机辅助的无线网络能够在超出直接通信范围的大服务领域内为不同的物联网用户提供服务。它不仅可以将通信范围扩展到远方用户,还可以提高密集物联网网络的网络容量。

为了在无人机辅助的无线网络中探索这种性能增益,无人机的机动性应与传输控制策略共同优化。在一些文献中,无人机的机动性已经被用来改善数据速率,能源效率,和信息的年龄(AoI),例如,[5]-[10]。具体来说,通过规划多架无人机的飞行路径,在[5]中物联网用户的数据率显著提高。此外,通过联合优化物联网设备的传输功率和无人机的移动性,在[6]中探索了多无人机辅助无线网络的能源效率。通过设计无人机的飞行轨迹,不仅可以显著提高能效,而且还可以降低[7]系统中的总能耗。除了考虑一些与数据速率和能量相关的性能指标外,我还在多无人机辅助的无线网络中进行了研究,以提高数据的新鲜度。[8]论文中的作者发现,通过联合优化无人机的飞行轨迹、能耗和使用时间,可以有效地降低AoI。

虽然轨迹优化可以大大提高无人机辅助网络的系统性能,但由于其时空上的相互作用,多架无人机的联合轨迹优化仍然是一个高维控制问题。由于无人机的资源限制、飞行控制中的物理限制以及物联网用户的不同服务需求,这一点变得更加复杂。例如,多架无人机可以扩展到一个大的服务区域。然而,这可能会消耗更多的能量,让遥远的无人机通过多跳中继报告回基站(BS)。无人机也可以在一个小群中运行,以增加物联网用户的访问概率,但另一方面,由于它们的相互干扰,这可能会降低能源效率,使无人机的传输调度复杂化。因此,多无人机的轨迹优化通常需要近似和启发式算法设计。具体来说,[11]的作者通过将复杂的问题解耦为一系列凸优化问题来优化无人机的轨迹。考虑了深度强化学习(DRL)算法来解决[12]中的轨迹优化问题。上述无人机辅助网络只考虑了无人机与某一终端之间的通信链路,但也需要考虑无人机之间的空间合作。多架无人机之间的合作可以通过允许无人机对无人机(U2U)直接通信[13]来实现。无人机可以首先收集和缓存用户的数据,然后在他们在飞行中相遇时将数据转发给下一个无人机。无人机也可以在不同的U2U链路之间进行动态切换这取决于它们的通道条件。[14]的作者旨在通过优化网关无人机的部署位置来提高用户服务的质量,网关无人机被设计为聚合来自其他无人机的传感数据,然后通过无人机到bs(U2B)通道转发数据。

在本文中,我们关注一个多无人机辅助的无线网络,并探索通过无人机协同操作的无线数据卸载的性能增益。我们的目标是通过联合优化无人机的飞行轨迹和网络形成来最小化传输延迟和整体能耗。为了确保令人满意的服务覆盖范围,无人机在数据收集过程中的运动轨迹可以根据物联网用户的空间分布和他们的服务需求而有所不同。例如,当两架无人机飞行距离很远时,它们的U2U通道可能会恶化,甚至断开。这意味着无人机的网络形成应该能够适应无人机运动轨迹的变化。为了实现这一目的,我们提出了一种两步算法在无人机轨迹优化和自适应网络形成之间迭代。与现有的轨迹优化策略相比,该方法具有较低的网络形成方案的复杂度,通过多架无人机的同时协作,大大提高了网络性能。自适应网络形成的基本思想是评估无人机的局部状态,确保其在能耗和数据之间的平衡。一旦无人机在当前时隙中的数据和能量队列成为不稳定的,BS将初始化自适应网络的形成,以优化不同无人机之间的信道分配。网络形成的变化进一步促使各无人机更新其轨迹,并利用多智能体深度确定性策略梯度(MADDPG)算法[15]来解决这个问题。因此,我们可以有效地解决用传统的优化方法难以建模和解决的复杂非凸问题。仿真结果表明,与几种基线策略相比,所提出的联合轨迹优化和网络形成可以显著降低传输延迟和总能耗。

2.系统模型

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第1张图片
如图1所示,我们考虑了一个BS和多无人机的多无人机辅助无线网络,用集合N = {1,2,…,N}表示。有一组传感器或物联网用户设备,表示为M = {1,2,…,M},空间分布在地面上,可能超出与BS的直接通信范围。可以部署多架无人机四处飞行,并将用户的传感数据传输到基站中。每架无人机既可以直接连接到基站,也可以通过其他无人机将其信息传递回基站。我们假设每架无人机都配备了一个天线。直接的U2U通信允许无人机形成不同的网络拓扑结构,从而潜在地减少了通过多跳中继传输的传输延迟和总能耗。此外,随着每架无人机优化并遵循自己的轨迹,无人机的网络形成变成时变的,应该与它们的轨迹共同优化。

A. Network Formation and Sub-channel Allocation 网络形成及子信道分配

我们考虑一个有时开槽的框架结构。在每个时隙t∈T {1,2,…,T}中,每架无人机可以飞到某个位置,从物联网用户接收数据,并将其数据卸载到BS。我们假设每个无人机有最大的缓存容量Dmax。无人机的状态信息(例如,无人机的位置、缓冲区大小和网络状态)也可以在卸载阶段更新到BS。无人机的通信通道描述如下:

  1. 物联网用户对无人机(I2U):每架无人机都使用I2U通道,在其信号覆盖范围下从物联网设备收集传感数据。我们假设,由于长距离或物理障碍,从物联网设备到BS的直接通道是不可用的。所有的传感数据都将通过规划无人机的飞行轨迹来收集。
  2. 无人机到BS(U2B):每架无人机都可以通过U2B通道直接向BS报告其数据。我们假设U2B传输依赖于一个专用的蜂窝通道,这是在所有无人机之间共享的。U2B信道上的数据速率取决于无人机的位置和信道条件。
  3. 无人机对无人机(U2U):如果一些无人机远离BS,我们允许它们通过U2U通道与附近的无人机连接。通过多跳无人机中继,所有物联网用户的传感数据都可以转发到基站。因此,无人机的网络形成也与整体延迟性能有关。

N h ( t ) = { 1 , 2 , . . . , N h ( t ) } \mathcal{N}_h (t) = \{1,2,...,N_h (t)\} Nh(t)={1,2...Nh(t)} N l ( t ) = { 1 , 2 , . . . , N l ( t ) } \mathcal{N}_l (t) = \{1,2,...,N_l (t)\} Nl(t)={1,2...Nl(t)} 分别表示在第t个时隙中使用U2B和U2U通道转发传感数据的无人机集。设 N = N h ∪ N l \mathcal{N} =\mathcal{N}_h∪\mathcal{N}_l N=NhNl 为无人机集,每架无人机要么与BS连接或另一个连接无人机系统。对于一些远离BS的无人机,直接链路可能具有低信噪比(SNR)和较大的传输延迟,这意味着更长的悬停时间和更高的能耗。在这种情况下,每架无人机都可以转向使用U2U通道,并与设置 N l ( t ) \mathcal{N}_l (t) Nl(t)中的另一架无人机进行连接。

考虑到蜂窝系统中有限的信道资源,我们假设所有无人机共享K个正交子信道。所有子通道的集合均记为K = {1,2,…,K}。设二进制矩阵Φ(t)=[φk i(t)]i∈Nh,k∈K表示U2B子信道分配策略,即φk i (t)=1表示无人机使用第∈-i用U2B信道卸载其数据。同样,我们将二进制矩阵Ψk (t)=[ψk i,j(t)]i,j∈Nh定义为U2U子信道分配策略,即ψk i,j (t)=1表示第t个时间段内UAV-j之间的第k个子信道上的U2U连接。为了避免不同链路之间的干扰,我们要求每个子信道每次都可以用于信息传输或接收。因此,子通道分配受到以下资源约束:

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第2张图片

很明显,两个矩阵Φ(t)和Ψk (t)指定了无人机在不同时间段内的网络形成,这需要与无人机的轨迹相适应。

B. Channel Models 信道模型

我们假设所有无人机都在固定高度H飞行,从物联网用户那里收集传感数据。实际上,我们的问题公式和解可以推广到时变飞行高度的情况下。每个UAV-i的轨迹可以定义为一组不同时间段上的位置点,即 L i = [ ℓ i ( t ) ] t ∈ T \mathcal{L}_i=[\ell_i(t)]_{t∈\mathcal{T}} Li=[i(t)]tT,每个位置由二维坐标指定,即 ℓ i ( t ) = ( x i ( t ) , y i ( t ) ) \ell_i (t)=(x_i (t),y_i (t)) i(t)=xi(t)yi(t)。BS位于坐标的原点处。考虑到无人机-i以有限的速度向方向di(t)vi(t)≤vmax移动。无人机-i在下一个时间段t + 1中的位置由 ℓ i ( t + 1 ) = ℓ i ( t ) + v i ( t ) d i ( t ) \ell_i(t+1)= \ell_i (t)+v_i (t)d_i (t) it+1=i(t)+vi(t)di(t)给出。无人机i与无人机j之间的距离为:

在这里插入图片描述

H b H_b Hb表示BS天线的高度,我们同样可以得到无人机-i和BS之间的距离,用 d i , 0 d_{i,0} di0 表示。考虑到物联网设备在地面上的位置 ℓ m u = ( x m u , y m u ) \ell_m^u=(x_m^u,y_m^u) mu=(xmu,ymu),它与无人机的距离由 d m , i u ( t ) = ( x m u − x i ( t ) ) 2 + ( y m u − y i ( t ) ) 2 + H 2 d_{m,i}^u(t)=\sqrt{(x_m^u-x_i(t))^2+(y_m^u-y_i(t))^2+H^2} dm,iu(t)=(xmuxi(t))2+(ymuyi(t))2+H2 表示。

请注意,它是无人机和BS之间的典型的视线(LoS)。因此,我们考虑了一个用于U2U和U2B通信的自由空间信道模型[16]。当无人机-i传输信息的无人机j子通道,对于任何 i i i j ∈ N ∪ { 0 } j∈\mathcal{N}∪\{0\} jN{0},接收功率在无人机 j 子通道 k 表示为 p j , i k ( t ) = p i k β i , j ( d i , j ( t ) ) − α u p_{j,i}^k(t)=p_i^k\beta_{i,j}(d_{i,j}(t))^{-\alpha_u} pj,ik(t)=pikβi,j(di,j(t))αu ,其中 p i k p^k_i pik表示无人机-i 的 k 子通道传输功率而 β i , j β_{i,j} βij 是由收发器的放大器和天线引起的恒定功率增益。路径损耗 ( d i , j ( t ) ) − α u (d_{i,j}(t))^{−α_u} (dij(t))αu 取决于收发器之间的距离, α u α_u αu表示路径损耗常数。如果UAV-m ( m ≠ i ) (m \neq i) m=i也在同一子信道k上传输,则对UAV-j的干扰为
在这里插入图片描述
因此,从UAV-i到UAV-j在所有子通道上的数据速率被确定为

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第3张图片
其中, δ k 2 δ^2_k δk2表示第k个子信道上的噪声功率。U2B数据速率也可以同样定义。直观地说,每架无人机在地面上飞越物联网设备时都会收集传感数据。这意味着I2U通信的LoS信道条件。因此,我们可以类似地将I2U信道模型描述为U2U和U2B信道的模型。

3.PROBLEM FORMULATION 问题定式化

我们的目标是优化无人机在不同时隙上的运动轨迹网络形成,以最小化传输延迟总能耗。最初,每个物联网用户m都有一个固定数量的传感数据Dm,需要卸载到BS中。在每个时隙t中,位于固定位置的无人机-i可以从物联网用户那里收集一部分传感数据,然后将数据转发给下一个无人机或BS。这意味着无人机的缓冲区大小会随着时间的推移而发生动态更新。当无人机接收到所有物联网用户的数据,所有无人机的数据也被转发给BS时,传感任务将成功完成。

对于每架UAV-i,时隙可以进一步分为传感、传输和飞行子槽,分别用ti、s、ti、o和ti、f表示。在传感期间,无人机-i接收到的数据si (t)取决于其覆盖范围和I2U传输速率。设Wm (t)表示物联网用户m的剩余数据。因此,物联网用户-m的数据队列可以更新如下:

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第4张图片

式中,[X] +表示最大操作,即最大{0、X}、xi、m(t)∈{0,1}表示用户-m到无人机-i的I2U通信,si,m (t)≤Dm表示无人机-i收集的传感数据量。让Mi表示无人机-i覆盖范围内的用户集,我们有 s i ( t ) = ∑ m ∈ M i s i , m ( t ) s_i (t) =\sum_{m∈\mathcal{M}_i}s_{i,m}(t) si(t)=mMisi,m(t),因此无人机的缓冲动态可以更新如下:
【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第5张图片
其中, O i ( t ) = o i , 0 ( t ) + ∑ j ≠ i , j ∈ N o i , j ( t ) O_i (t) =o_{i,0}(t) +\sum_{j\neq i,j∈\mathcal{N}}o_{i,j}(t) Oi(t)=oi,0(t)+j=ijNoi,j(t) 表示来自UAV-i的输出数据。第一项 o i , 0 ( t ) o_{i,0}(t) oi,0(t) 是发送给基站的数据,而第二项 ∑ j ≠ i , j ∈ N o i , j ( t ) \sum_{j\neq i,j∈\mathcal{N}}o_{i,j}(t) j=ijNoi,j(t) 表示转发给其他无人机的数据。(6)中的第三项表示从其他无人机接收到的数据。

在从物联网用户收集传感数据后,无人机-i将在同一点停留在第二个子槽ti,o (t),并将数据转发给下一个无人机或BS。然后,它将飞到第三个子插槽ti,f (t)中的下一个点。很明显,每架无人机的能耗主要取决于其在空中的悬停时间 t i , o ( t ) t_{i,o}(t) ti,o(t)和飞行时间 t i , f ( t ) t_{i,f}(t) ti,f(t)。考虑到[17]中著名的能量模型,无人机的能量消耗也与飞行速度 v i v_i vi有关。设 e i ( t ) e_i(t) ei(t) 表示无人机-i在第t个时间段内的能量消耗。给定任务完成时间T,无人机-i的总能耗由 e i = ∑ t = 1 T ( e i ( t ) + p i ( t ) ) e_i =\sum^T_{t=1}(e_i (t) + p_i (t)) ei=t=1T(ei(t)+pi(t)) 给出,其中 p i ( t ) = ∑ j ∈ N ∑ k ∈ K p i , j k ψ i , j k ( t ) p_i(t) =\sum_{j∈\mathcal{N}}\sum_{k∈\mathcal{K}}p^k_{i,j}ψ^k_{i,j}(t) pi(t)=jNkKpi,jkψi,jk(t) 表示无人机-i在不同子信道上的总发射功率。到目前为止,我们可以将能量最小化问题表述如下:
【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第6张图片
我们的目标是优化网络形成策略(Φ,Ψk)和二进制矩阵X(t)=[xi,m(t)]i∈∈,m∈∈,它指定了每个时间段的I2U关联策略。所有这些矩阵变量都应该与无人机的i∈N轨迹Li进行联合优化。我们还优化了完成所有用户数据卸载所需的总时间槽数T。为了简单起见,我们可以考虑一个固定的传感策略,因此如果给出了无人机的位置,就可以知道I2U关联矩阵 X ( t ) X(t) X(t)。约束(1)-(6)指定了无人机和物联网用户的子信道分配和缓冲动态。(7c)和(7d)确保所有物联网用户的传感数据在T时隙后都能成功地卸载到BS中。(7e)和(7f)中的不等式限制了无人机在不同时隙内的飞行轨迹。实际上,无人机在目标(7a)中的发射功率 p i p_i pi 远低于无人机悬停和飞行的功耗,这在优化问题中可以省略。

4.HEURISTIC DECOMPOSITION AND LEARNING-BASED SOLUTION

问题(7)是一个混合整数问题,由于无人机网络公式与轨迹优化之间的时空耦合,难以有效解决。对时间跨度T的优化进一步使其对于简化的重新公式化非常不灵活。在有限的时间跨度内,无人机和物联网用户可能会在他们的缓冲空间中拥有剩余的数据。为了简化公式,我们修改了(7a)中的目标将缓冲区中的剩余数据作为惩罚项,从而将问题(7)转换为具有固定时间跨度T的联合优化。

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第7张图片

其中 e ^ ( t ) = e i ( t ) + p i ( t ) \hat{e}(t)=e_i(t)+p_i(t) e^(t)=ei(t)+pi(t) λ i λ_i λi 是在无人机的能量消耗和队列大小之间进行权衡的常数参数。给定T个时隙,我们关注总能耗平均队列长度的联合最小化。在本文中,我们将问题(8)分解为无人机网络形成问题和轨迹优化问题,设计了一个问题的近似解。

A. Adaptive Network Formation

给定无人机的轨迹Li,无人机的目标是适应网络的形成,即子信道分配矩阵(Φ(t),Ψk(t)):
【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第8张图片
问题(9)变成了一个非线性整数程序。虽然可以通过现有的分支边界方法求解,但由于无人机和物联网用户缓冲空间在不同时间段的动态演化,具有很高的计算复杂度。因此,我们提出了一种简单的启发式算法,即能量感知和延迟感知网络形成(EDA-NF)算法,以适应基于无人机的能量消耗缓冲状态的网络形成。

EDA-NF算法的基本思想是平衡不同无人机的能量消耗和队列大小。具体地说,在每个传输子槽ti、o中,无人机-i还向BS报告其当前状态,包括其位置i (t)、子信道分配(φk i (t)、ψk i、j(t))j∈N、k∈K、能耗eˆi (t)和缓冲信息 D i ( t ) + ∑ m ∈ M i W m ( t ) D_i (t) +\sum_{m∈M_i}W_m(t) Di(t)+mMiWm(t)。缓冲信息包括无人机i的缓冲大小Di (t)和无人机i覆盖下物联网用户的剩余数据大小Wm (t)。

当BS收集所有无人机的状态信息时,它将调整网络形成矩阵(Φ(t)、Ψk (t))来平衡无人机的能量消耗和队列大小。特别是,BS为每架无人机分配一个成本函数如下:
在这里插入图片描述

e ^ ( t ) = e i ( t ) + p i ( t ) \hat{e}(t)=e_i(t)+p_i(t) e^(t)=ei(t)+pi(t) D i ( t ) D_i(t) Di(t)是无人机缓冲区, W m ( t ) W_m(t) Wm(t)是GU-m的数据量。

BS将评估每个时间段t中每个无人机的成本函数。当UAV-i的成本函数持续增加超过一个阈值时,UAV-i被允许启动与附近以最小成本cj(t)的UAV-j(或直接到BS)的U2U(或U2B)连接。与此同时,BS可以禁用UAV-i与其他无人机的U2U连接。这就避免了消耗无人机-i的能量和夸大其延迟性能。

B. Learning for Trajectory Optimization

给定网络形成矩阵(Φ(t),Ψk (t)),剩下的任务是在剩余时间隙中更新无人机的轨迹。

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第9张图片
与问题(9)类似,(11)中的轨迹优化由于其动态特性仍然非常复杂。在这一部分中,我们使用一个无模型的DRL方法来近似它,这意味着原始的问题(11)应该被重新表述为马尔可夫决策过程(MDP)。

(1)MDP reformulation

MDP可以简单地用一个元组(S、A、R)来表征,其中S和A分别表示状态空间和动作空间。R是状态动作(st,at)对的函数。对于多无人机系统,状态s (t)表示所有无人机的联合观测,即s (t)=(s1(t)、s2(t),…,sN (t))。类似地,我们有一个(t)=(a1(t),一个2(t),…,aN(t))。每个无人机的状态si (t)包括其位置i (t)、子信道分配(Φ(t)、Ψk (t))、能量状态Ei (t)和缓冲区大小Di (t)。每个无人机的动作ai (t)包括飞行方向di (t)和速度vi (t)。

当无人机在第t个时隙的状态s (t)中采取行动ai (t)时,我可以获得自己的奖励Ri(s(t),ai (t))。对于一个多无人机系统,无人机-i的奖励也取决于其他无人机的行为,表示为一个−i(t)。UAV-i的奖励包括三个部分:能量奖励Ri、e(t)、传输奖励Ri、d(t)和感知奖励Ri、c(t)。能量奖励由Ri,e (t) =−eˆi(t)定义,它促进UAV-i在每个时间段的能量消耗。为了减少传输延迟,每架无人机如果尽可能多地转发数据,就会获得奖励。第二部分是传输奖励Ri、d(t),它是指从UAV-i传输到BS或下一跳无人机的数据量,即 R i , d ( t ) = O i ( t ) = o i , 0 ( t ) + ∑ j ≠ { i , 0 } , j ∈ N o i , j ( t ) R_{i,d}(t)=O_i(t)=o_{i,0}(t)+\sum_{j\neq \{i,0\},j∈\mathcal{N}}o_{i,j}(t) Ri,d(t)=Oi(t)=oi,0(t)+j={i,0},jNoi,j(t)。最后一部分是感知奖励,由 R i , s ( t ) = ∑ m ∈ M i s i , m ( t ) R_{i,s} (t) =\sum_{m∈M_i}s_{i,m}(t) Ri,s(t)=mMisi,m(t)表示,这是由在无人机-i的覆盖范围下从物联网用户收集的感知数据量决定的。然后,我们使用学习方法,用上述奖励定义来近似(11)中的原始设计目标。此外,还需要一个惩罚项 R i , p ( t ) R_{i,p}(t) Ri,p(t),以确保无人机-i和其他无人机之间的最小安全距离。如果(7f)中的约束没有hold,我们可以简单地给 R i , p ( t ) R_{i,p}(t) Ri,p(t) 分配一个高值,即,
在这里插入图片描述

其中, I ( ⋅ ) I(·) I表示一个指标函数。在这一点上,我们可以将DRL代理的奖励功能定义如下:
在这里插入图片描述

(2)Multi-agent DRL Algorithm

给定无人机的网络形成矩阵(Φ(t),Ψk (t)),无人机需要根据局部观测寻找最优飞行方向di (t)和移动速度vi (t)来更新其轨迹。考虑到系统中的多架无人机,每架无人机的观测不仅取决于其自身的行动,而且还与其他无人机的行动有关。因此,我们可以使用MADDPG算法来学习无人机的飞行轨迹,它依赖于集中训练和分散执行方案[15]。在离线训练阶段,BS收集所有无人机的状态更新,并集中训练无人机的批评和行为网络,如算法1第12-20行所示。经过离线训练后,批评者和参与者网络可以被宣布在不同的无人机上,并以分散的方式指导单个无人机的决策,如算法1的第22行所示。

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第10张图片

根据通过MADDPG算法学习到的轨迹,每架无人机将跟踪其轨迹来感知物联网用户的数据,并在接下来的时间段内将其转发给BS或下一跳无人机。一旦BS接收到无人机转发的数据和背带式状态更新,它将评估每架无人机的成本函数,如(10)所示。该结果可用于初始化无人机的网络形成,如算法1的第8-10行所示。利用网络形成矩阵(Φ(t)、Ψk (t))的更新作为MADDPG算法的输入,并通过训练输出无人机的运动轨迹。

5.仿真结果

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第11张图片

在这部分中,我们给出了仿真结果,以验证联合网络形成和轨迹优化多无人机的性能增益。为了简单起见,我们考虑了一个拥有多架无人机的无线系统,以帮助收集来自地面物联网用户的所有传感数据。该系统可以被设想为一个用于监测环境条件的无线传感器网络。如图1所示,我们考虑了一些分布在2×2km2区域的物联网用户,但为了进行视觉显示,我们将坐标缩放到[-1,1]的范围。BS远离服务区,位于该区域的右上角。无人机和物联网用户的固定功率都在23分贝。更详细的参数如表一所示。

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第12张图片

在图2中,我们评估了联合网络形成和轨迹优化算法的性能。图2(a)显示了三架具有自适应网络形成的无人机的运动轨迹。每架无人机从一个随机的起点起飞,并沿着其轨迹从物联网用户那里收集传感数据。图2(a)中使用不同的颜色表示不同无人机的飞行位置。我们可以观察到,整个感知任务被分为三个空间上分离的任务组。每个任务组都包含了地面上附近的物联网用户的一个子集。然后,每架无人机将通过围绕这些用户飞行,专注于一个任务组的数据收集。这种感知任务的空间划分可以更好地利用无人机的协同操作,从而潜在地降低整体能耗和传输延迟。
图2(b)显示了无人机沿其轨迹飞行时网络形成的动态变化。我们使用不同类型的点来表示U2U和U2B通信。图2(b)中的空心圆表示U2B的直接通信。当无人机远离BS时,我们可以观察到无人机更喜欢通过U2U链路进行通信。这就需要附近的无人机作为中继节点,并将数据转发给BS。这有助于提高数据速率,从而减少传输延迟,这有助于提高数据速率,从而减少传输延迟。当无人机飞得更靠近BS,U2B通道变得更可取,因此我们可以看到开从U2U通道到U2B通道的转换。
图2©显示了无人机飞越物联网用户时缓冲区大小的动态。通过采用自适应网络的形成,不同的无人机在收集物联网用户沿着其轨迹的传感数据时,可以平衡其能量消耗和数据缓冲区。我们可以看到,当无人机-3的数据缓冲区变为空时,UAV-2可以通过U2U链路将其数据转发到无人机-3。最后,所有无人机都可以同时完成自己的数据卸载,如图2©.所示这意味着自适应网络的形成可以最小化传输延迟,从而降低无人机的能耗。
根据网络的形成,无人机的轨迹优化是基于MADDPG算法的。如图2(d)所示,验证了奖励性能的收敛和提升,验证了MADDPG算法的有效性。

【论文阅读】Adaptive Network Formation and Trajectory Optimization for Multi-UAV-Assisted Wireless Data Of_第13张图片
在图3中,我们将所提出的两步算法与三个基准测试进行了比较。case I,所有无人机与BS有直接U2B通信链路。在case II中,只有一架无人机作为其他两架无人机的中继节点,并直接与BS进行通信。在case III中,两架无人机与BS有直接的U2B连接,而另一架与中继无人机有U2U连接。在图3(a)中,我们评估了网络形成对工作负载完成时间的影响。随着物联网用户工作负载的增加,与其他形成固定网络的基线相比,工作负载传输可以在更短的时间内完成。另一方面,我们在图3(b).中显示了无人机轨迹数据队列的最大尺寸很明显,无人机的数据队列也保持在一个相对较低的水平,这意味着提高了系统的稳定性和降低了通过联合网络的形成和运动轨迹的优化来实现的传输延迟。

6.总结

在本文中,我们提出了一种两步迭代算法来联合优化无人机的网络形成和无线数据卸载的轨迹。根据无人机的轨迹,自适应网络的形成是基于每个无人机在每个时隙的成本函数的评估,这主要由无人机的能量消耗和缓冲大小决定。当网络形成发生改变时,我们使用MADDPG算法进一步更新无人机的运动轨迹。此过程将继续进行,直到收集到所有用户的数据为止。数值计算结果表明,该算法可以根据无人机的运动轨迹来适应无人机的网络形成。在未来的工作中,我们将考虑一个更实际的情况,即在动态和复杂的环境下,无人机的空间位置和工作量是未知的。

补充

Q:论文中图3部分实验的三个baseline设置是否合理?这三个基线显然太弱了。
A:在文中,图3中的三个baseline是为了与提出的算法进行比较而设置的。这些基线是为了说明提出的算法相对于一些简单的基线算法的优越性。虽然这些基线算法相对简单,但它们可以提供一些有用的参考信息,以便更好地理解提出的算法的性能。同时,这些基线算法也可以用来评估提出的算法的实用性和可行性。因此,这些基线算法的设置是合理的。(TODO 存疑)

你可能感兴趣的:(科研,论文阅读,无人机,网络形成,轨迹优化,无线网络,强化学习,启发式)