reinforcement learning
根据所在位置的经纬度获取当前位置各个方向的探测距离。在仿真平台使用设定的规则策略进行仿真对局。在强化学习平台配合仿真平台设定训练程序,如果获取到的是重复的状态信息,则不执行动作,直至获取到不同的状态信息。由于仿真平台更新状态信息时间并不固定,训练程序间隔固定时间获取到的状态无法确定是否为更新后的,因此获取状态信息等待方式以状态是否更改为标准。使用自定义仿真器,对仿真器接口进行封装,使其在强化学习平台上以一个算子的形式进行对接。使用自定义环境算子对接封装好的仿真器算子,在算子中调用仿真器的接口进行信息交互。在强化学习训练算子中启用自定义模型来控制智能体的动作。将各个点的探测距离数据作为模型训练的特征,进行模型训练。在红方发现蓝方后,预估蓝方位置周围8个点位置各个方向的探测距离最大值、最小值、平均值作为特征。强化学习通过与环境交互习得任务的决策策略,具有自学习和在线学习的特点,在需要感知高维度输入数据和决策管理的探测任务中应用强化学习时,这种交互试错机制会导致算法的运行效率太低,收敛速度比较慢,由于没有明确的监督信号,强化学习的学习速度会很慢,此时智能无人系统需要在与环境交互时依靠奖励信号来调整动作。在强化学习平台设计奖励函数,计算当前实际距离和预估的探测距离,根据距离进行相关的奖励和惩罚。设计边界奖励函数,如果在边界范围(边界范围包括探测深度)内,即使距离边界很近,只要不出边界就不进行惩罚,出了边界,距离越远惩罚越大,按照指数递增的方式加大惩罚值。
3 结论
强化学习是智能无人系统实现对复杂及不确定环境具备良好适应性的有效手段,也是智能无人系统决策管理的核心技术之一。由于智能无人系统经常用于执行探测任务,以探测决策为例对强化学习辅助决策的过程进行了描述,应用强化学习后探测决策的智能化程度大幅提高。综上所述,强化学习的实质是智能无人系统从环境到动作映射的学习,以使奖励函数值最大。强化学习算法通过与所处环境不断进行自主交互来得到策略,将强化学习的决策能力与智能无人系统的感知能力相结合,通过端对端的学习方式,能够实现从输入到输出的直接控制。但是强化学习的这种特性必然会使智能无人系统的学习时间增长,如何提高强化学习的速度是一个重要问题。未来,智能无人系统依赖强大的决策支持,强化学习技术将在智能无人系统决策管理中发挥不可替代的作用。
参考文献(References)
[1] 严浙平,杨泽文,王璐,等.马尔科夫理论在无人系统中的研究现状[J].中国舰船研究,2018,13(6):9-18.
YAN Z P,YANG Z W,WANG L,et al. Research status of Markov theory in unmanned systems[J]. Chinese Journal of Ship Research,2018,13(6):9-18. (in Chinese)
[2] 张涛,李清,张长水,等.智能无人自主系统的发展趋势[J].无人系统技术,2018(1):11-22.
ZHANG T,LI Q,ZHANG C S,et al. Current trends in the development of intelligent unmanned autonomous systems[J]. Unmanned Systems Technology, 2018(1):11-22. (in Chinese)
[3] 宋庆庆,卫浩,李健,等.美军自主无人系统关键技术现状及发展趋势[J].装备制造技术,2018(11):126-128.

以上内容为高博特编辑选取的行业技术,尊重原创,如有侵权请联系删除。