​微信公众号
手机版
​​新浪微博
会员登录
关于我们  |   商务合作  |  友情链接   |  意见反馈  |  人才招聘
北京云翼同创科技有限公司 深圳高博特文化发展有限公司   版权所有,并保留所有权利 © 2018 京ICP备16044150号-1                       

跨界 · 融合 · 服务 · 创新



双击此处添加文字
新闻聚焦
行业技术
首页  >  新闻聚焦   >  行业技术  >   详情
基于PER-PDDPG 的无人机路径规划研究
来源:尖兵之翼 | 作者:无人系统技术 | 发布时间: 2023-02-27 | 5573 次浏览 | 分享到:
针对未知复杂环境下的多无人机路径规划问题,提出了一种基于优先经验回放的并行深度确定性策略梯度(PER-PDDPG)算法……


摘 要: 针对未知复杂环境下的多无人机路径规划问题,提出了一种基于优先经验回放的并行深度确定性策略梯度(PER-PDDPG)算法。首先,该算法在传统深度强化学习算法和匈牙利算法的基础上,结合了优先经验回放机制与多智能体经验共享的特点,提高了经验的获取效率,并使高价值经验能够被更加充分的多次利用。其次,算法将针对单无人机的PER-DDPG 算法并行拓展到多无人机中,使得算法的网络结构相对于传统多智能体强化学习算法更加简洁高效。仿真结果表明,该方法可以灵活应用于不同数量的无人机群中,并且相较于传统的多智能体强化学习算法拥有更快的收敛速度以及更高的收敛奖励均值,有效提升了在未知复杂环境下的多无人机路径规划效果。

 1 引 言 

由于现代战争的作战环境日益复杂,无人机作为一种新兴飞行器,研究其相关技术对掌握作战主动权、提高作战性能有着明显的作用。其中,路径规划技术是无人机领域重要的研究方向之一。

路径规划本质上是一个最优路径搜索问题,需要找到一条从起点出发的、连续无碰撞的、能够到达终点的路线。传统路径规划算法如A*算法[1]、Dijkstra 算法[2]、协同粒子群算法[3]、遗传算法[4]等更适合解决静态路径规划问题。针对动态环境,传统控制方法与模糊控制方法需要涉及很多专家知识,而基于神经网络的方法则需要外界提供大量样本经验。作为机器学习方法之一的强化学习能够弥补上述算法的不足,其几乎不需要专家知识,且不需要外界提供的大量样本。同时,在动态环境下,也具有优秀的自适应性能与学习能力。

La 等[5]提出协作Q-learning 算法,将经典一致性控制算法、人工势场法与Q-learning 结合,使得机器人在连续空间中能够躲避静态障碍与捕食者,但文中强化学习网络的输入是一致性控制算法的相关状态,而不是从环境中得到的真实状态。香港中文大学的潘佳教授团队[6]提出了一种基于传感器的避碰策略,将原始传感器测量值直接映射到智能体的运动指令上。智能体可以根据环境信息对场景进行建模、分类,从而采取不同的运动策略,但文中未考虑对动态障碍物的避碰。王延祥等[7]将流体扰动算法与深度神经网络相结合,解决了现有的无人机路径规划方法难以兼顾路径质量和计算效率的问题,但此算法仅聚焦于单智能体,没有考虑环境中有多个智能体存在的情况。Ryan 等提出了MADDPG 算法[8],为多无人机的航迹规划问题提供了新的方向[9]。2019 年,Qie 等[10]通过采用MADDPG 算法实现了多无人机在二维平面的目标分配与路径规划,但此时MADDPG 算法训练所需时间较长。上述文献均利用强化学习算法对单智能体和多智能体路径规划问题进行研究,但并未对复杂环境中的路径规划考虑周全。

通过上述分析,本文将基于深度强化学习,使用优先经验回放机制改进DDPG 网络并设计单无人机基于优先经验回放的DDPG 算法(Deep Deterministic Policy Gradient based Prioritized Experience Replay,PER-DDPG),随后引入经验共享机制将PER-DDPG 并行拓展到多无人机中,设计基于优先经验回放的并行 DDPG 算法(Parallel Deep Deterministic Policy Gradient based on Prioritized Experience Replay,PERPDDPG),让所有无人机使用共享的经验池和网络进行学习,实现多无人机在未知复杂环境中的路径规划。

 2 问题描述与分析 

2.1 未知复杂环境下的多无人机路径规划问题

本文描述的未知复杂环境是封闭的有边界的空域范围。在这个环境中,有静态障碍,如山丘、建筑等;也有动态障碍,如鸟禽等。无人机在未知复杂环境中的路径规划任务场景如图1 所示。

 

图1 多无人机路径规划场景

Fig. 1 Scenario of multiple UAVs path planning

由于战场环境的多样性和不可预测性,无人机执行实际任务时无法获取所有环境信息,因此无人机在运动时除目标点信息已知外,只能通过机载雷达检测到其他物体相对于本机的位置信息,并不知道环境中其他物体的运动意图和决策策略,其观测获得的信息仅是全局信息的一部分。

2.2 无人机运动学模型

由于多无人机任务决策问题本身就具有高维度、高复杂性的特点,为简化研究问题,本文假设多无人机为同构机型,具有相同的物理特性,并且在研究过程中不考虑无人机的形状大小等物理特性,将无人机简化为质点运动。无人机二维运动学模型如图2 所示,无人机位置为( x ,y ),速度为v,航向角为ψ,雷达探测距离为R,雷达探测范围为60°。

 

图2 无人机二维运动学模型

Fig. 2 2D Kinematics model of UAV

无人机质点在二维空间的简化运动模型定义为

 

模型简化后,控制向量简化为加速度a、角速度ω 两个动作向量。无人机的运动控制变量约束为