​微信公众号
手机版
​​新浪微博
会员登录
关于我们  |   商务合作  |  友情链接   |  意见反馈  |  人才招聘
北京云翼同创科技有限公司 深圳高博特文化发展有限公司   版权所有,并保留所有权利 © 2018 京ICP备16044150号-1                       

跨界 · 融合 · 服务 · 创新



双击此处添加文字
新闻聚焦
行业技术
首页  >  新闻聚焦   >  行业技术  >   详情
基于PER-PDDPG 的无人机路径规划研究
来源:尖兵之翼 | 作者:无人系统技术 | 发布时间: 2023-02-27 | 5645 次浏览 | 分享到:
针对未知复杂环境下的多无人机路径规划问题,提出了一种基于优先经验回放的并行深度确定性策略梯度(PER-PDDPG)算法……

 

图3 PER-DDPG 网络结构

Fig. 3 PER-DDPG structure

2.5 多无人机PER-PDDPG 算法

一般来说,多智能体深度强化学习根据智能体之间通联方式的不同将多智能体深度强化学习分为如下4 类:无关联型、通信学习型、协作学习型和建模学习型[14-15]。其中,无关联型算法并不是提出了一个完全新的学习算法,它们主要是分析和评估单智能体算法在多智能体场景中的应用情况,每个智能体独自与环境交互、学习,不与其他的智能体产生通信联系[11]。尽管此算法忽略多智能体的场景特性会导致学习失败,但该方法能够灵活用于智能体数量多变的场景,实际应用中也取得了较好的训练效果。

因此,本文借鉴无关联型多智能体强化学习思想,引入经验共享机制,设计一种集中式训练、分布式执行的算法来解决多无人机路径规划问题,称之为基于优先经验回放的并行DDPG 算法(Parallel Deep Deterministic Policy Gradient based on Prioritized Experience Replay,PERPDDPG)。PER-PDDPG 算法将PER-DDPG 网络并行扩展到多无人机场景中,每架无人机把各自观测到的状态存入同一经验池中进行共享,使用同一个PER-DDPG 网络,即同一Actor 策略网络与Critic 评价网络进行集中式学习、训练,再根据各无人机当前状态各自选择动作执行。

所有的无人机基于相同的策略网络,将自身的观测数据、目标点、与其最近的无人机的相关信息等组成的状态s 输入到Actor 网络中,得到控制指令a 并执行,到达新的状态s',从环境中得到相应的回报r,并将该条经验( s , a , r , s' )存入所有无人机共享的经验池中。训练时,从共享经验池中按照优先经验回放机制优先抽取一批数据样本,结合共享的目标网络Critic 网络来更新实时的策略和评价网络。网络参数更新方式同样为软更新。具体网络结构如图4 所示。

 

图4 PER-PDDPG 网络结构

Fig. 4 PER-PDDPG structure

相比于单无人机算法,PER-PDDPG 使用多无人机并行的方式加速探索,能更快更广地探索状态空间,丰富了经验池的多样性。

 3 基于PER-PDDPG 的无人机路径规划算法 

3.1 状态空间

设定无人机携带机载GPS 设备和陀螺仪,可以获得自身的位置信息和速度信息,即 ξ=[x, y,v ,ψ];携带激光雷达传感器能获得周围环境信息,在雷达探测范围内遇到障碍物时,激光被阻挡,障碍物后方就探测不到,每条射线都会返回一个距离值。雷达半径的参数设置以无人机机载激光雷达VUX-240 的探测距离为参考,具体参数设置如下:

(1)雷达探测半径为2 km;

(2)雷达探测范围为60°。

若有障碍物阻挡,则返回被阻挡处与机载雷达的距离,否则将该值设置为雷达最大探测半径值2 km。

在多智能体系统中,智能体除了绕过障碍物外,还要避免与其他智能体发生碰撞。为了简化网络结构,多无人机系统中的每架无人机将除本机以外的其他无人机视为环境中正在移动的障碍物。

本文选择的状态输入包括3 部分。

(1)无人机i 机载雷达返回的观测数据:本文使用正前方60°范围的雷达测量数据,为了降低计 算 复 杂 度,将 此 范 围 分 为 7 方 向 {d i1 , d i2 , di3,di4 , di5 , di6 , di7 },即使用间隔10°的测量数据作为网络输入。得到无人机i 坐标系下的各角度障碍物分布情况后,对其进行归一化处理

利用上述糙率及1997年地形资料,复演同量级的各场历史洪水,可以判定该量级洪水在该河段水面线的下降程度,从而可在一定程度上估算历史资料用于模型率定的可靠程度。比较惠阳—樊屋河段6 000 m3/s~7 000 m3/s量级的历史洪水结果见表2,结果显示1970年—1987年发生同量级洪水时,东深取水口附近水位较现在高1.35 m~1.55 m,博罗水位较现在高0.68 m~0.83 m,相应地惠阳水位较现在高0.59 m~0.78 m,表明惠阳的水位变化受博罗水位变化影响大,其水位变化受自身河床变形影响相对较小。

 

此外,传感器的观测数据中包含了与其最近一架无人机的信息(ρ iu , θiu ), ρiu表示无人机i 探测到的与它最近的无人机的距离, 表示无人机i 航向与它最近的无人机所在方位的夹角。

(2)无人机i 自身当前运动状态:( v i , ψi)∈A,其中vi 和ψi 分别表示无人机i 当前时刻的速度和航向角,前者归一化至[ 0,1] ,后者归一化至[ -1 ,1]。

(3)目标点信息:由于不存在全局的地图信息,目标点信息以无人机极坐标系形式给出, ρit表示目标点到无人机的距离,单位为km; θit表示无人机航向与目标点所在方位的夹角,如图5所示。其中,距离信息 ρi t将根据雷达探测范围被归一化,实际输入到网络中的是 ρit /2。而角度信息则归一化至[ -1 ,1],目标点在无人机左侧时夹角 θ