​微信公众号
手机版
​​新浪微博
会员登录
关于我们  |   商务合作  |  友情链接   |  意见反馈  |  人才招聘
北京云翼同创科技有限公司 深圳高博特文化发展有限公司   版权所有,并保留所有权利 © 2018 京ICP备16044150号-1                       

跨界 · 融合 · 服务 · 创新



双击此处添加文字
新闻聚焦
行业技术
首页  >  新闻聚焦   >  行业技术  >   详情
基于PER-PDDPG 的无人机路径规划研究
来源:尖兵之翼 | 作者:无人系统技术 | 发布时间: 2023-02-27 | 5646 次浏览 | 分享到:
针对未知复杂环境下的多无人机路径规划问题,提出了一种基于优先经验回放的并行深度确定性策略梯度(PER-PDDPG)算法……

完成上述过程后,如果经验池中的样本数量达到batch _size 个,则根据样本权重从经验池中随机抽取batch _size 个样本,计算其对应的重要性采样权重和TD_error,并根据TD_error 更新样本优先级。然后利用抽取的样本计算目标Q 值,通过最小化TD 偏差来更新评价网络,并根据小批量样本计算得到的策略梯度更新策略网络。如果当前训练次数为10 的倍数,则软更新两个目标网络中的参数。然后进入与环境交互的下一步,重复互动和学习的过程,直至该回合结束。

重复上述每个回合的运行过程,直至回合数达到Max_ Episode,训练完成。

 4 仿真结果及分析 

4.1 实验环境及参数设置

实验中设置优先经验回放参数α=0.6,β = 0.4,经验回放池大小为30000,小批样采样数据个数为32;设置OU 探索噪声参数θ=0.2,σ = 0.15,γ d ecay = 100;设置最大回合数为1000~5000,每回合时间步长ΔT = 1s,每回合最大步数为3000,学习率为0.001,折扣因子为0.9,目标网络的更新率τ =0.01,使用Adam Op timizer优化器更新神经网络参数。无人机的运动性能参数参考了固定翼无人机CW-10 的性能参数,仿真环境初始参数如表3 所示。

表3 多无人机仿真环境初始参数

Table 3 Initial parameters of simulation

4.2 训练过程

训练场景采用图6 设定,在障碍物数量为4的场景中分别训练2~6 架无人机。每回合开始时,重置随机的无人机位置、速度、航向角,重新随机设置障碍物的位置、半径,并且障碍物之间不发生重叠,重新随机设置目标点位置。每回合遵照Algorithm1 流程,当经验池充满时开始训练,经验池为充满则采用加入OU 噪声的策略机动。同时,为了观测PER-PDDPG 算法的收敛性和学习有效性,采用平均奖励指标对算法进行评价。训练得到的奖励函数曲线如图7 所示。

 

图7 PER-PDDPG 不同数量无人机得到的奖励曲线对比

Fig. 7 Comparison of reward curves obtained by PERPDDPG with different numbers of UAVs

由奖励曲线对比图可见,在4 个障碍物场景下,随着迭代次数的增加,无人机获得总奖励的平均值逐渐上升然后趋于稳定,网络训练收敛时间约在1100 回合,这个值也是算法训练过程中想要最大化的评价指标,平均奖励值趋于稳定表示算法的模型在训练过程中也趋于收敛。随着无人机数目的增多,训练收敛至稳定的所需时间均逐渐减小,验证了多架无人机通过共享经验池和两个训练网络可以更快地探索到环境中更多的状态,缩短训练所需时间。比较特殊的是代表2 架无人机网络的蓝色曲线,它的平均奖励值上升的时间和速度比3、4、5 架无人机网络都要快,且最后收敛到的平均值比其他无人机网络更高,这说明2 架无人机训练时对单架无人机而言环境更为简单,它的决策所面临的复杂度更低,使得收敛的平均奖励值相对更高。

4.3 验证过程

为了评估算法的训练效果,使用训练好的2架无人机的PER-PDDPG 网络在障碍物数量为4、6 的环境中进行仿真测试,接着在这个网络中设置无人机数量为3、4、5、6 后再分别进行10000次蒙特卡罗测试。测试的仿真参数与训练时的参数设置相同,测试的数据结果如表4 所示。可以看出,该网络使用2 架无人机进行测试时任务完成率最高,随着障碍物数量增多,成功率逐渐减小,但是成功率降低范围在3%以内,综合而言还是有较高成功率。

表4 使用2 架无人机网络在不同障碍物数量及不同无人机数量场景中测试任务成功率

Table 4 Use 2 UAV networks to test the mission success rate in scenarios with different numbers of obstacles and different numbers of UAVs

 

为了验证算法效果,采用4 架无人机训练的PER-PDDPG 网络设置4 架无人机分别在障碍物数量为4、6 的场景中仿真,测试该网络在指定场景中的任务完成情况。坐标系建立以第一架无人机的出发点为原点,水平向右为y 轴正向,竖直向下为x 轴正向。4 架无人机分别从(0,0)(1 km,0)、(0.5 km, 0.5 km)、(1 km,1 km)出发,初始速度均为(15 m/s),初始航向角均为0.25π,机载雷达探测半径为2 km,探测范围为60°;4 个目标点坐标分别为(35 km, 35 km)、(37.5 km, 37.5 km)(40 km, 35 km)、(40 km, 30 km);其余相关参数范围如表2 所示。

4 障碍物场景下,在大小为[ 0,50 ] ×[ 0,50 ] km2的任务区内设置障碍物,设置障碍物坐标为(15 km, 30 km)、(20 km, 15 km)、(40 km, 20 km)、(30 km, 5 km),半径分别为4 km、5 km、6 km、5 km,得到的各无人机航迹和本机信息如图 8所示。