基于PER-PDDPG 的无人机路径规划研究

微信公众号

手机版

新浪微博

会员登录

关于我们 | 商务合作 | 友情链接 | 意见反馈 | 人才招聘

跨界 · 融合 · 服务 · 创新

双击此处添加文字

新闻聚焦

行业技术

首页 > 新闻聚焦 > 行业技术 > 详情

基于PER-PDDPG 的无人机路径规划研究

针对未知复杂环境下的多无人机路径规划问题，提出了一种基于优先经验回放的并行深度确定性策略梯度（PER-PDDPG）算法……

图8 4 架无人机在4 个障碍物场景中的航迹及测试结果

Fig. 8 Track and test results of 4 UAVs in 4 obstacle environments

6 障碍物场景下增加两个坐标分别为(35 km,30 km)、(5 km, 25 km)，半径分别为2 km、3 km的障碍物，得到的各无人机航迹和本机信息如图9 所示。

图9 4 架无人机在6 个障碍物场景中的航迹及测试结果

Fig. 9 Track and test results of 4 UAVs in 5 obstacle environments

综合图9～10 可以看出，在探测到障碍物时，无人机做出转弯避让决策，与最近一个障碍物距离均大于危险距离，成功避开障碍物后，及时调整航向，使得无人机尽量以最小夹角接近目标点，规划出相对短的安全路径，减少飞行所需时间。并且训练得到的模型可以灵活调整系统中智能体的数量和环境中的障碍物数量，而不会对训练的收敛性有大的影响，体现了算法极强的泛化性和鲁棒性。

为了评估本文提出的算法相对与传统的多智能体强化学习算法的效果，选择用经典的深度强化学习算法 DDPG 在多智能体上的延拓方法PDDPG 来与本文提出算法进行对比，通过比较两者的奖励曲线变化情况来说明优劣程度。对比训练过程中，仿真场景初始参数设置如表3 所示，无人机数量设置为4。

从图10 可明显看出，本文提出的PER-PDDPG算法的收敛速度快于PDDPG 算法。并且当算法收敛时，PER-PDDPG 算法所获得的奖励明显比PDDPG 算法更高。

图10 两种算法的奖励曲线对比

Fig. 10 Reward curves of the two algorithms

5 结论

本文主要以无人机路径规划为研究背景，基于深度强化学习对单无人机路径规划与多无人机路径规划问题特点进行了详细分析、研究。针对无人机连续动作空间特点，引入优先经验回放机制设计单无人机PER-DDPG 网络，结合分布式独立强化学习与集中式强化学习将单无人机路径规划算法网络做并行化拓展，得到多无人机PERPDDPG 算法。最终仿真结果表明，PER-PDDPG算法可以加快对环境的采样速度，缩短多无人机网络训练所需时间，能够规划出相对更短的安全到达指点目标点的路径，并且可以自由增减无人机数量，适用于无人机数量较多或数量经常变化的场景。

来源《无人系统技术》

以上内容为高博特编辑选取的热点新闻，尊重原创，如有侵权请联系删除。

—————— 特别关注 ——————

让科技更好地赋能产业，“尖兵之翼”永不落幕。高博特自2006年发起、策划、投资、组织，在相关专业机构支持下成功举办了最早的无人机主题会展活动——“尖兵之翼中国无人机大会暨展览会”后持续推动无人机技术交流。高博特创新引领最早在深圳、上海、郑州等地发起举办无人系统会展赛飞活动，有力促进了我国无人系统整体技术进步和产业发展。

20年来，高博特始终坚持让科技更好地赋能产业的愿景；努力为行业企业搭建产业链高端交流平台，为科技转化为生产力服务。具体业务范围涵盖：信息情报、媒介传播、会展活动、招商加盟、品牌提升、咨询服务、产品中心等七大服务体系，长期服务于“军转民、民参军、军民融合”等国家战略。

2023年，高博特集买、卖、租、播、展、会、赛、培于一体的新型展厅项目即将启幕，该展厅旨在从深度对接的层面为各入驻企业一站式解决经营中面临的各项问题，企业租、卖的产品我们来、企业需要的品牌我们筑、行业顶尖的赛会我们办、行业急需的培训我们办。新的一年，高博特新模式、新服务、新平台，必将给各一直以来支持我们的朋友带来全新的体验。

以上内容为高博特编辑选取的行业技术，尊重原创，如有侵权请联系删除。

< 2 3 4 56 > 查看全文 »

高博特公司活动官网