​微信公众号
手机版
​​新浪微博
会员登录
关于我们  |   商务合作  |  友情链接   |  意见反馈  |  人才招聘
北京云翼同创科技有限公司 深圳高博特文化发展有限公司   版权所有,并保留所有权利 © 2018 京ICP备16044150号-1                       

跨界 · 融合 · 服务 · 创新



双击此处添加文字
新闻聚焦
行业技术
首页  >  新闻聚焦   >  行业技术  >   详情
强化学习在智能无人系统决策管理中的应用
来源:尖兵之翼 | 作者:高博特 | 发布时间: 2022-12-30 | 5840 次浏览 | 分享到:
针对智能无人系统所处的多样性、复杂性、高动态性和不确定性环境,利用强化学习平台进行智能无人系统决策管理…...

 2 智能无人系统决策管理 

智能无人系统往往由于环境及任务复杂度高而难以实施决策管理,利用强化学习平台进行智能无人系统决策管理是很好的解决方案。强化学习是机器学习领域的重要分支,也是人工智能领域的一个研究热点。强化学习是一种特殊的机器学习,通过与环境的自主交互过程来学习决策策略,使得策略的长期累积奖励值最大[14],通过强化学习平台和仿真平台的对接来进行决策模型搭建和智能体训练,并通过对智能体输出策略的控制来实现智能无人系统的决策管理。强化学习在智能无人系统决策管理中的应用可细分为:分层强化学习、分形强化学习、多智能体强化学习、多任务迁移强化学习、信息融合的强化学习、基于推理的强化学习等。

2.1 应用强化学习的决策管理过程

根据仿真系统中的数据和模型训练效果的需要,进行特征抽取和特征工程,定义强化学习智能体的观测空间和动作空间,如果强化学习的环境是完全可观测的,则观测空间实际上就是智能体的状态空间;如果智能体不能完整并准确地观测到自身所处状态,则决策管理问题从完全可观测问题转化为部分可观测问题。此时,需要考虑观测函数,用于决定智能体所处状态的观测情况。将智能体用以决定如何采取动作的机制表示为由参数确定的深度神经网络模型,智能体按照策略与环境交互过程中产生状态- 动作序列,将智能体获得的累积奖励表示为状态- 价值函数,将执行动作之后智能体获得的累积奖励表示为动作- 价值函数。通过智能体与环境交互产生数据,根据这些数据学习智能体的策略,设计相应的奖惩函数,让训练完成的智能体按照已经学习的策略与环境交互。具体过程见图1。

 

图1 应用强化学习的决策管理过程

Fig.1 The decision management process of applying reinforcement learning

将智能无人系统的决策管理问题封装成一个环境类,环境类是要解决的问题与强化学习平台之间的接口,其基类为单智能体环境和多智能体环境。强化学习平台通过环境类获取决策管理问题的相关信息,控制决策管理问题中的智能体与环境进行交互,并产生反馈。将决策管理问题封装成一个环境基类的派生类后,强化学习平台获得所有智能体在当前时间点意图执行的动作,并令环境处理这些动作,产生交互,将智能体所处的新状态表示为转移函数,将智能体获得的奖励表示为奖励函数。然后定义环境中智能体的观测空间状态(例如离散型空间、连续型空间、混合型空间)和动作空间状态。一个环境可以使用不同的配置创建多个场景,每个场景都有最优算法以及算法对应的最优奖赏值,通过最优算法曲线(见图2)展示,并展示不同超参组合下的效果变化。

 

图2 最优算法曲线

Fig.2 Optimal algorithm curve

 

图3 决策管理柱状图

Fig.3 Decision management histogram

将训练完成的场景发布为服务,发布服务后即可对接环境完成决策管理。决策管理可以展示为柱状图(见图3)或折线面积图(见图4)。进行强化学习平台和仿真系统之间的数据对接,将仿真系统中的实时态势转化成智能体的观测,并将智能体的决策转化成仿真系统的指令。根据仿真环境选择适用的算法,自动生成神经网络模型[15]。根据智能体训练的需要,进行规则设定,将设定好的规则在强化学习适配器中进行编程实现,并融入到强化学习平台智能体训练中。在仿真系统中进行红、蓝智能体的对抗模拟,环境的状态为红蓝双方所共同感知,智能体根据环境状态为红蓝双方决策动作,在模型训练时设定蓝方策略,并根据蓝方策略实现红方智能体模型的训练。依据多次试错所获得的瞬时奖励值选择行为策略,同时考虑环境的不确定性和目标的长远性,当红方智能体训练过程中所输出的奖励曲线呈现收敛趋势后,固定红方智能体,训练蓝方智能体并调整训练的轮数,使蓝方智能体的奖励曲线呈现收敛趋势。收敛趋势的定义为:每N次模型更新为一个阶段,对每个阶段计算训练开始至今的最大奖励,计算每个阶段与前一个阶段的最大奖励增幅,如果某阶段结束后,最大奖励增幅相较前一个增幅不提升,则认为出现收敛趋势[16],增大N的取值会增大出现收敛趋势的理论最短时间。

 

图4 决策管理折线面积图

Fig.4 Decision management line area chart

2.2 应用强化学习的决策管理实例

智能无人系统经常用于执行探测任务,下面以探测决策为例进行描述(见图5):

 

图5 基于强化学习进行探测决策

Fig.5 Decision-making detection based on reinforcement learning

根据所在位置的经纬度获取当前位置各个方向的探测距离。在仿真平台使用设定的规则策略进行仿真对局。在强化学习平台配合仿真平台设定训练程序,如果获取到的是重复的状态信息,则不执行动作,直至获取到不同的状态信息。由于仿真平台更新状态信息时间并不固定,训练程序间隔固定时间获取到的状态无法确定是否为更新后的,因此获取状态信息等待方式以状态是否更改为标准。使用自定义仿真器,对仿真器接口进行封装,使其在强化学习平台上以一个算子的形式进行对接。使用自定义环境算子对接封装好的仿真器算子,在算子中调用仿真器的接口进行信息交互。在强化学习训练算子中启用自定义模型来控制智能体的动作。将各个点的探测距离数据作为模型训练的特征,进行模型训练。在红方发现蓝方后,预估蓝方位置周围8个点位置各个方向的探测距离最大值、最小值、平均值作为特征。强化学习通过与环境交互习得任务的决策策略,具有自学习和在线学习的特点,在需要感知高维度输入数据和决策管理的探测任务中应用强化学习时,这种交互试错机制会导致算法的运行效率太低,收敛速度比较慢,由于没有明确的监督信号,强化学习的学习速度会很慢,此时智能无人系统需要在与环境交互时依靠奖励信号来调整动作。在强化学习平台设计奖励函数,计算当前实际距离和预估的探测距离,根据距离进行相关的奖励和惩罚。设计边界奖励函数,如果在边界范围(边界范围包括探测深度)内,即使距离边界很近,只要不出边界就不进行惩罚,出了边界,距离越远惩罚越大,按照指数递增的方式加大惩罚值。