​微信公众号
手机版
​​新浪微博
会员登录
关于我们  |   商务合作  |  友情链接   |  意见反馈  |  人才招聘
北京云翼同创科技有限公司 深圳高博特文化发展有限公司   版权所有,并保留所有权利 © 2018 京ICP备16044150号-1                       

跨界 · 融合 · 服务 · 创新



双击此处添加文字
新闻聚焦
行业技术
首页  >  新闻聚焦   >  行业技术  >   详情
强化学习在智能无人系统决策管理中的应用
来源:尖兵之翼 | 作者:高博特 | 发布时间: 2022-12-30 | 5836 次浏览 | 分享到:
针对智能无人系统所处的多样性、复杂性、高动态性和不确定性环境,利用强化学习平台进行智能无人系统决策管理…...


摘要:智能无人系统需要在复杂环境下快速稳定地进行决策,并具备应对非预期状态的能力。智能无人系统往往由于环境及任务复杂度高而难以实施决策管理,利用强化学习平台进行智能无人系统决策管理是很好的解决方案。针对智能无人系统所处的多样性、复杂性、高动态性和不确定性环境,利用强化学习平台进行智能无人系统决策管理,在传感器有限的情况下对环境和态势进行准确感知与决策,使智能体能够利用自学习和自适应能力快速完成决策。强化学习通过与环境的自主交互过程来学习决策策略,使得策略的长期累积奖励值最大,通过强化学习平台和仿真平台的对接来进行决策模型搭建和智能体训练,并通过对智能体输出策略的控制来实现智能无人系统的决策管理。

 0 引言 

随着智能时代的到来,无人化、智能化逐渐成为工业界关注的重点。智能无人系统发展迅速,从陆地到海洋,从空中到空间,从物理系统到信息系统,各种智能无人系统大量出现,无人车、无人机、无人潜航器、无人船、各种机器人在物流、交通、工业、农业、教育、医疗保健等领域得到广泛应用[1]。智能无人系统已成为推动经济发展、社会进步、工业变革的新引擎[2]。随着AI技术的发展,智能无人系统面临的任务越发复杂,通常要求系统能够在未知环境中自主完成任务。为解决智能无人系统在未知环境及不确定性任务方面的决策问题,智能无人系统必须具备自主地综合各传感器提供的感知信息,并实时与环境进行交互的能力。但是传感器收集到的感知信息是不全面的,其中夹杂着各种噪声,同时智能无人系统的决策也具有不可预知性,这种不确定性为智能体的规划和感知带来很大挑战。

强化学习是解决智能无人系统序列化决策问题的途径之一,适用于复杂任务的智能决策、集群任务的自主决策、交互式任务的决策规划。目前的任务决策方法主要适用于解决确定性条件下的静态决策问题,而在实际应用时,由于智能无人系统的任务环境存在部分可观测性以及可能存在对抗行为,决策时所依赖的环境是不确定且动态变化的。综合考虑任务的不确定性与突发性,智能无人系统之间的竞争与协作关系,使智能无人系统能够以自我为单位,克服环境不确定性与动态性所带来的影响,做出整体效果最优的实时决策,是智能无人系统决策管理的目标。

本文结合智能无人系统的特点,在其决策管理过程中应用强化学习技术,考虑到智能无人系统经常用于执行探测任务,以探测决策为例进行具体描述,充分体现强化学习平台在提高探测决策的智能化程度中的作用。

 1 智能无人系统的特点 

随着人工智能、仿生、机器学习等颠覆性前沿科学技术的发展,催生了无人系统发展的革命性变革,即向智能无人系统发展,其关键技术为:环境感知技术、定位与导航技术、时统技术、控制算法[3]。智能无人系统的种类、功能趋于多样化、跨域化、组网化、协同化,不再强调追求单个智能无人系统功能的最大、最强化,而是通过系统集成手段,将单一系统的功能分布化,通过组网、集群形成分布式能力[4]。

智能无人系统的特点主要体现在6个方面:1)安全可靠的互连性与互操作性;2)高效的信息管理和分发;3)可靠实时的信息保障;4)安全快速的网络资源和服务;5)精确快速的信息融合;6)决策支持;7)协同控制。其中包含6大技术:数据传输技术、数据分发管理技术、决策支持技术、数据保障与安全技术、快速建模和仿真技术、协作处理技术。智能无人系统的特点还体现在物理环境适应能力强、风险小、代价低、非接触、无人伤亡、长续航、多功能、自主可控、可成组编队等方面[5]。智能无人系统通过信息优势形成决策优势,由于任务区域越来越广泛,任务类型不断拓展,智能无人系统需要在多种任务中开展灵活有效的协调,并决策出到达任务目标的路径。

智能无人系统虽然能进行路径规划、避障避碰等智能行为,但是由于环境态势以及规划的复杂多变,智能无人系统很难迅速采取有针对性的措施,做出正确决策[6]。智能无人系统需要在复杂环境下快速稳定地进行决策,并具备应对非预期状态的能力。为确保智能无人系统能够在复杂环境中自主协同地完成各项任务,必须解决环境自适应、自主对接与回收、协同控制、协同导航与定位等技术问题[7]。智能无人系统集动力、机动、控制、传感器、人工智能等多学科先进技术于一体,是机械化信息化智能化高度融合、军民技术高度融合的典型产品,具有很高的环境和任务适应性特点[8]。考虑到智能无人系统所处环境具有多样性与复杂性的特点,如何在传感器有限的情况下对环境和态势进行准确感知与决策,是亟待解决的关键问题之一。考虑到智能无人系统所处环境具有高动态性和不确定性的特点,智能体如何利用自学习和自适应能力快速完成决策,是亟待解决的关键问题之二。

强化学习任务通常用马尔可夫决策过程来描述[9]。强化学习的基本思想是通过最大化智能体从环境中获得的累计奖赏值,以学习到完成目标的最优策略,因此强化学习方法更加侧重于学习解决问题的策略[10]。强化学习的特点有:无监督学习,奖赏的反馈有延迟,智能体选择的动作会影响之后接收的数据等[11]。强化学习必须在利用和探索之间进行折中,即在已知的信息下进行最优策略选择和新路径探索之间的折中[12],使智能无人系统能够与其所处的环境进行交互,根据环境反馈学习最佳行为,并通过反复实验不断改进决策。总之,强化学习赋予了智能体自监督学习能力,使智能无人系统能够自主地与环境交互,在试错中不断进步[13]。