​微信公众号
手机版
​​新浪微博
会员登录
关于我们  |   商务合作  |  友情链接   |  意见反馈  |  人才招聘
北京云翼同创科技有限公司 深圳高博特文化发展有限公司   版权所有,并保留所有权利 © 2018 京ICP备16044150号-1                       

跨界 · 融合 · 服务 · 创新



双击此处添加文字
新闻聚焦
行业技术
首页  >  新闻聚焦   >  行业技术  >   详情
基于PER-PDDPG 的无人机路径规划研究
来源:尖兵之翼 | 作者:无人系统技术 | 发布时间: 2023-02-27 | 5651 次浏览 | 分享到:
针对未知复杂环境下的多无人机路径规划问题,提出了一种基于优先经验回放的并行深度确定性策略梯度(PER-PDDPG)算法……

 

式中, amax 是无人机的最大加速度, vmax是无人机的最大速度, ωmax 是无人机的最大角速度,其计算方程为

 

式中, TΔ 为仿真的时间步长,r 为转弯半径,rmin为最小转弯半径, ψΔ 为 TΔ 时间内的航向角最大转弯角, nmax 为无人机的最大侧向过载,g 为重力加速度。因此,最大角速度为

 

无人机初始状态为

 

2.3 匈牙利算法

经典匈牙利算法是Kuhn 利用匈牙利数学家Koning 针对矩阵中独立零元素定理提出的用于解决指派问题的优化方法。本文使用该方法从初始的多个目标中为每个无人机分配其对应的目标点。

该方法的理论基础是:在代价矩阵的任意行或列加上或者减去一个常数不会改变最优分配方案。其基本思想是通过每行或每列加减同一个常数来修改代价矩阵,直到代价矩阵不同行不同列至少有一个零元素。此时,零元素就对应了一个总效益最小的最优分配方案。

经典匈牙利算法的基本步骤如下:

步骤 1:建立资源分配问题的代价矩阵M 0(m ×n);

步骤2:从效益矩阵M 0每行中减去该行最小的元素,使得每行都有一个零元素,得到 M1 ;

步骤3:从M 1每列中减去该列最小的元素,使得每列都有一个零元素,得到M 2;

步骤4:用最少的直线覆盖M 2(仅包含横线和竖线,不包含斜线)中的零元素得到M 3,如果最少直线的数量等于m,转入步骤6,否则转入步骤5;

步骤5:矩阵M 3中所有末被直线覆盖的元素减去末被覆盖元素中最小的元素,同时在直线相交点加上该最小元素得到M 4,令 M 2= M 4,转步骤4;

步骤6:从零元素最少的行或列开始指派,直到所有任务都指派完毕,得到最优指派方案P。

上述步骤是按照假定m = n 进行的,即认为效益矩阵M 0是一个方阵。但在实际问题中,任务数与人数不一定完全相等。针对任务数与人数不相等的情况,一般的处理方式是增加虚拟人或虚拟任务,即对效益矩阵进行加零补边处理,然后再按照上述步骤进行任务指派。

在本文中,目标点的数量等于无人机的数量,即m=n。在路径规划前,会使用经典匈牙利算法先根据无人机在目标点执行任务的代价矩阵,对多个目标点预先分配给不同的无人机。

2.4 单无人机PER-DDPG 算法

Lillicrap 等[11]在Actor-Critic 框架上,引入DQN 的经验回放机制,对确定策略性梯度算法(Deterministic Policy Gradient,DPG)进行改进,提出了深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)。由于无人机控制量为连续值,因此选择动作空间为连续的DDPG 算法,设计单无人机路径规划算法。

对于本文任务场景而言,由于动作空间、状态空间的连续性,任务场景构成的样本数量非常巨大,但是训练初期无人机成功避开障碍到达目标点的数据很少,更多的是无人机与障碍物发生碰撞或毫无头绪徘徊的数据。如果只使用随机抽样来选择参加训练的数据样本,会使无人机倾向于更多地学习如何避障,而关于飞往目标点的学习则相对较慢。为了更加有效地利用数据样本,本文引入优先经验回放机制对DDPG 算法进行改进,设计单无人机基于优先经验回放的DDPG 算法(Deep Deterministic Policy Gradient based on Prioritized Experience Replay,PER-DDPG)。

基于优先级的经验抽取方法最早由 Schaul等[12]提出,该方法提出的Prioritized Experience Replay 思想解决了如何从经验池抽取高质量经验的问题。强化学习中,TD-error 表示当前的Q 值与目标Q 值的差距值。因此,可以将TD-error 定义为一个可以衡量样本是否重要的指标。D-error,即 tδ 的具体计算为

 

式中,如果 tδ 较大,则说明这个样本预测的准确性有待提高,需要提高这个样本的优先级,从而有更多的机会去学习它;如果 tδ 较小,则说明这个样本的优先级会被降低。

设定经验样本的采样概率为

 

式中, jP 是以TD-error 为标准的优先级指标,α为优先度调节参数,确保每一个经验都有机会被选择、被至少放入网络中参与一次训练。当α=1时,说明网络使用原始TD-error 计算优先级;当α= 0时,使用随机采样的方式对样本进行抽样,此时每个样本的优先级变为

 

式中,rank ( j )为第j 个样本在全体样本中所在位次,按照每个样本的 由大到小排序。

智能体倾向于更新高TD-error 的经验样本改变了原本的概率分布,模型引入了误差,可能导致神经网络训练时无法收敛。因此在计算权重变化时使用重要性采样来修正误差

 

式中,M 为经验回放池数量,参数β 为修正误差的程度。将与环境交互的数据根据上述排序就能区分经验样本的重要程度,大幅提高经验样本的学习效率。

因此,PER-DDPG 网络结构[13]如图3 所示。