目录
一、摘要
二、介绍
A. Preliminaries and Motivation
B. Challenges
C. Contributions
三、主要内容
1. System Model
2. Problem Formulation
3. Solution Approach
车联网+蜂窝系统(尤其是UAV)
本文考虑的是在过载或没有可用通信基础设置的路段上向车辆发送内容的问题
每个入站车辆会发出请求,从部分缓存在UAV上的内容库中获取服务
文章主要针对问题→联合查找缓存决策、UAV轨迹和无线电资源分配,这是一个MINLP问题
将问题描述为MDP并求助于诸如PPO等工具,以及一组精心设计的算法来解决
现有的研究要么忽略了利用高速缓存技术来卸载流量,要么忽略了UAV运动所产生的能量消耗
本文的目标即解决上述问题,并利用最近开发的机器学习工具有效地解决它
UAV的机动性有利有弊
一方面,UAV能够更接近所需车辆,以更高的数据速率创建更强的连接
另一方面,当UAV向车辆移动时,它可能会远离其他车辆
1)提出了一个基于UAV缓存的系统→考虑了UAV上有限的能量,其目标为在流量卸载和能源消耗之间取得平衡;找到一个合适的轨迹,使得UAV的能量效率最大化
2)由于所解决问题的复杂性和输入参数的模糊性,提出了PPO算法,以有效的方式解决上述UAN机动性问题
3)针对上行链路和下行链路资源分配的挑战,开发了两种有效且设计简单的无线资源调度算法
1)U2V and V2U Communication
通信时通过正交时分复用访问建立的,该通信为全双工,并且在两个不同的频谱上
UAV状态三种:从vehicle上获取内容,向vehicle转发内容,处于空闲状态
无线通信→采用时分多址作为UAV和vehicle链路的通道访问方法,那么每个时隙只允许一次传输
2)Content Model
相同类型的分布模型对内容在车辆上被缓冲的概率进行了建模,但需要使用不同的偏度参数
假设所有content容忍的时间大于车辆穿越公路的行驶时间
content不允许部分服务→为了提供一个内容,它必须完全下载,否则,它被认为是损坏的
3)Traffic Model
为了模拟到达和通过车辆的速度,假设一个自由流模型,体现速度和交通的关系
其中→车辆预期速度;
→交通密度;
→堵塞密度(车流完全停止的极端交通堵塞)
4)Operation Phase and Objective
如果UAV在车辆离开前无法提供服务或获取内容,则必须终止该流程
UAV需要智能操作,使其最大限度地利用其能源和缓存能力
通过优化能源效率来解决内容传递和能源消耗之间的平衡
5)Problem Definition
假设一组车辆在由UAV覆盖的高速公路上行驶
假设UAV的飞行速度影响其能耗,同时UAV配备了有限的缓存单元
假设即将到来的车辆在它们的缓冲区中有一个内容,并提出对另一个内容的请求
假设UAV有一个特定的服务时间,包括几个时隙,在每个时隙,UAV可以移动或悬停,此外,它可以根据距离以不同的数据速率服务and/or从车辆获取内容
总结:什么是UAV的最佳移动、服务、抓取、缓存替换动作,从而使能源效率最大化
目标函数→最大限度地提高能源效率
考虑因素:防止浪费无线电资源,保障每个时隙仅一次传输,UAV的缓存容量,UAV移动距离,可利用资源
对于vehicle相关信息,仅仅在其靠近相应的高度公路段时才可以全部获得
将问题建模为MDP,并提出了PPO-Clip方法
解决UAV移动性和缓存问题
三个子问题→UAV轨迹,无线通信,缓存替换
此部分我主要关注第一个问题,有兴趣的读者移步UAV-Assisted Content Delivery in Intelligent Transportation Systems-Joint Trajectory Planning and Cache Management | IEEE Journals & Magazine | IEEE Xplore
1. UAV轨迹控制
PPO的目标是在实现、批采样效率和调优的便利性之间取得平衡
PPO-Clip→依赖于目标函数中待定的裁剪技术,是一个更简单的版本,并展示了显著的效率
1)MDP五元组中每个元素
→UAV当前位置,该时段每辆现有vehicle的信息,缓存内容
vehicle信息→vehicle位置,可用内容,从下行链路取得,需求内容,服务于上行链路,内容缓存区和需求大小,UAV上的缓存内容
→UAV悬停速度,特定数量的使UAV前进和后退的速度,这些速度都是预先确定的
→折扣因子
→折扣累计奖励,使用RL计算每一步的即时奖励时,总能量消耗值仍然是未知的,因此对即时奖励进行修改,为了解决此问题,使用服务量与能耗相减的方式
阶梯式奖励→积极奖励与消极奖励
→UAV状态转移的可能性取决于之前位置和行为
→通过下行链路被服务的vehicle状态转移的可能性取决于当前服务数量,总和,下行链路资源和UAV位置
→通过上行链路接收vehicle内容的UAV状态转换的可能性取决于UAV位置和上行链路资源分配决策取得的数量
→UAV上被缓存内容的改立取决于当前缓存状态、内容替换决策,获取量和上行决策变量
→vehicle位于新位置的可能性和拥有新内容的概率仅依赖于当前状态
2)PPO-Clip算法
PPO与environment进行交互,通过多次迭代收集样本,并实现实际奖励
算法流程:
Input:n时刻vehicle i的位置,i是否缓存content,i是否需要content,学习效率,折扣因子,→阈值
Output:UAV速度控制策略
Lines3-4:PPO为神经网络初始化随机采样策略和值函数
Line7:在每次迭代中,agent观察由vehicle机器可用性、请求、缓存内容、UAV位置等组成的环境
Line8:根据所示策略选择一个动作,并使用该动作将UAV移动到其新位置
Lines9-12:UAV要保持在其服务区域内
Lines13-25:使用以下两种算法用于实现在该时段出现的车辆集合之间的资源分配
Lines27-28:收集了样本并计算了奖励
Line29:PPO找出优势函数,被定义为从实际奖励中减去期望值函数的结果,该优势函数是所选动作的估计优势函数或相对值。根据它的正常估计函数值,帮助系统了解它的预成形情况
Lines30-32:对策略进行更新的前提是优势函数在一个合理的值内(梯度上升),通过最大化PPO-Clip目标对策略进行更新,通过最小化均方误差(梯度下降)拟合值函数