MADDPG学习记录--mapping

项目地址:Transfer Learning for Mapless Quadrotor Navigation Using Recurrent Neural Network

2.28进程:间歇性放弃

环境改好了,代码跑通了的我单纯地以为这就是终点,没想到只是一个悲惨的终点/(ㄒoㄒ)/~~

它不收敛啊!!!气死我了!!!!

跑到最后,loss一直在增加,所有agent只往一个方向跑!!!我以为是replayBuffer采样的数据没对应好,就重新改了一下buffer,然后还是没用。就算是后来把action改成和openai一样的x、y方向的增量,也不收敛啊。所以最后只能先放一放,我要被它搞得神经衰弱了。

 

 

2.19进程:查看项目,制定计划

文件夹 RL_review/try.py  项目地图如下:

MADDPG学习记录--mapping_第1张图片MADDPG学习记录--mapping_第2张图片

 2.20 进程: 修改环境 map_street,变成多智能体环境

action 为的离散8方向:{0,1,2.....7},0为往右,1右上,2往上....以此类推 (2.21 增加动作8:原地不动

MADDPG学习记录--mapping_第3张图片MADDPG学习记录--mapping_第4张图片

2.21 进程:  修改map_street 和map_forest,根据原代码和Maddpg(--scenario的sample_spread实验),整改各个函数,修改每个agent的reward、done、observation   

MADDPG学习记录--mapping_第5张图片

 

done:  撞到障碍、出界、到达目标点

reward: -(与最近目标的距离) +  -1(撞障碍)   + -1(撞到队友)

observation:  自己的雷达信息+自己的state(1*3)+与目标相对位置(n*2)+与队友相对位置(m*2)+交流信息

设置雷达10个点,4个agent,4 个目标,没有交流信息,则输出的observation是1*27大小:

MADDPG学习记录--mapping_第6张图片

2.22 进程:

更新: 四周的墙是obstacle[0:3],增加了遇到墙停止的动作:设置agent.stop   get_to_wall时为TRUE
更新: 设置action为连续值角度 - pi  到 pi
更新: step中获得奖励的函数为:maddpg_reward_done()获得单个agent的reward和all_agent_done()获得集体reward和done.'''

MADDPG学习记录--mapping_第7张图片

 用DDPG进行了初步实验,多智能体:目标点不动(或动),不收敛单智能体:目标点不动,收敛

MADDPG学习记录--mapping_第8张图片

你可能感兴趣的:(强化学习)