2021-arXiv-Multi-UAV Path Planning for Wireless Data Harvesting with Deep Reinforcement Learning

一、主要内容

提出一种多智能体强化学习MARL方法,该方法适用定义数据收集任务的场景参数的深刻变化,而不需要执行高昂的重新计算或重新学习控制策略

场景参数:部署的UAV数量、物联设备的数量、位置和数据量,或最大飞行时间等

无人机团队特点:合作的、非通信的、同质的

无人机团队任务:max从分布式物联网传感器节点收集的数据

路径规划问题→部分可观察马尔科夫决策过程

该方法旨在直接在大场景参数空间上进行训练和泛化,学习一般化的场景参数

二、contributions

1. 提出了飞行时间受限的多UAV路径规划问题,以max物联网传感器收集的数据

2. 采用了集中学习和分散执行的深度多智能体强化学习

3. 展示了在多UAV环境下,通过在更传统的标量神经网络输入上以地图为中心的双全局-局部地图方法在学习和适应大型地图和状态空间方面的优势

4. 算法最显著的特点→提供了参数泛化

5. 广义控制策略的学习能够直接比较大场景参数空间中的性能

三、系统模型

地图网格化,环境包括起始/着陆位置,UAV不能占据位置,阻断无线连接的障碍

UAV模型

UAV状态:位置,操作状态,电池能量水平

允许每架UAV在不同的高度飞行,但是UAV在整个任务中飞行高度保持不变

该项工作只处理2D轨迹优化,UAV机载电池限制了3D控制对数据采集性能的有效性

根据UAV的位置定义了一组可行的动作→构成行为空间数组,包括盘旋,东,北,西,南,着陆

注:忽略悬停的影响,UAV电池损耗恒定

任务的时间间隙选择较小,这样可以保障UAV在一个时间间隙内的速度恒定,并且UAV被限制在每个时间间隙中以水平速度移动或者保持静止状态

任务结束的标准→所有UAV的状态均为未活动

四、分散的部分可观察马尔科夫决策过程

状态空间:Environment,Agents,Devices

奖励函数:每个任务时隙中所有agents从所有设备收集到的数据获得的集体奖励+当安全控制器拒绝该行为的个人惩罚+对于未在规定时间着陆的个人惩罚+通过参数化的持续运动惩罚

五、总结

文章中对于大场景进行泛化,主要解决的是对于地图的映射及观察空间

但是这种方法不是完全合作,每个代理并没有共享经验

对于共享经验这个地方,可以进行改进,如果共享经验应该可以更快速的获取相应的数据

文章后面部分未详细观看,有意向的读者可移步https://arxiv.org/abs/2010.12461

你可能感兴趣的:(人工智能)