● 摘要
多机器人学习问题是指由多个自主机器人组成的团队在执行协作任务的过程中,每个机器人通过与任务环境以及其他机器人之间的交互进行学习,不断改善自身的行为策略,优化机器人之间的协调控制性能,增强对动态环境的适应性与控制能力,从而使机器人团队能够更好地完成给定的协作任务。学习与认知是紧密相关的,学习是实现认知的有效途径,而好的认知模型可以有效增强机器人的学习能力。近年来随着人工智能、机器人、心理学、计算神经科学、认知科学、动物行为学等多学科交叉研究的深入,许多基于新的认知模型的计算学习方法在机器人领域得到了应用,有效地提高了机器人的自主性与控制决策能力,使机器人能够更好地适应复杂的任务环境。通过学习认知,一方面从机器人个体来说,能够使其改进自身的行为控制策略;另一方面从整个团队来说,能够使其增强系统的适应性,优化协作策略,并实现多机器人之间社会分工与差异化行为的进化演变或涌现,从而提高多机器人系统的整体性能。
本文在综述和分析前人研究成果的基础上,根据智能化多机器人系统的发展趋势和技术需求,以分布式人工智能、机器学习、认知心理学等理论方法为主要工具,研究学习认知相关理论方法在分布式多机器人系统中的应用,以解决机器人团队在协作任务中的行为进化与协同优化控制问题。本文的贡献主要包括以下四个方面:
(1)针对分布式多机器人系统的协同优化控制,提出了一种基于UCT规划的分布式多机器人强化学习方法,解决了分布式多机器人在协作任务中的行为协调与协同控制问题。根据机器人对其它队友状态、行为的依赖程度,分别设计了一个具有弱协作特性的觅食维修协务以及一个具有强协作特性的多机器人围捕任务。最后将本文所提出的方法应用于这两种不同类型的协作任务中,验证了该方法的有效性。
(2)提出了一种基于条件概率模型的队友学习方法,以减轻分布式多机器人学习过程中环境状态的非平稳性对系统性能造成的影响。该方法通过增量式学习,使机器人利用历史经验对其它队友的行为进行建模,并在决策过程中使用该模型对其他队友的行为作出预测,从而实现多机器人行为的协调。在此基础上,重点分析了各种不同形式的队友模型在不同类型的协作任务中的性能表现,指出应该根据协作任务的类型,设计使用相应形式的队友行为模型进行学习。
(3)研究了多机器人系统中的奖励机制设计与优化问题,在分布式协作多机器人系统中引入了基于内在激励的学习认知方法,将传统强化学习方法中所忽略的奖励函数的两种不同的作用进行了区分,在此基础上,提出了多机器人最优奖励函数问题(Multi-robot Optimal Reward Problem,MORP),并设计了一种通用的多机器人奖励函数空间。最后,采用弱缓和求解方式对离散化的奖励函数空间进行离线搜索,通过在两种不同类型的协作任务中使用该方法,验证了在多机器人系统中进行奖励机制优化可以有效提高多机器人系统的性能。
(4)针对多机器人最优奖励函数问题,给出了强缓和求解方式的定义,提出了一种基于策略梯度的多机器人最优奖励函数求解算法,实现了对连续奖励函数空间的在线学习优化,并分析了这种嵌套式奖励优化方法的性能优势与评价指标。通过采用该方法,可以有效提高多机器人的自主学习能力,从而缓解计算资源限制(如实时系统或非精确的环境模型等)给多机器人系统带来的性能损失。最后在两个不同类型的仿真协作任务以及实际多机器人环境探测任务中,从多个方面验证了基于最优奖励机制的多机器人学习认知方法的有效性与优越性。