● 摘要
非完整移动机器人的数学模型相当复杂,是一个与运动学和动力学密切相关的、高度非线性的、强耦合的多输入多输出系统,不确定性不可避免的存在于动态系统中,难以获得系统精确的数学模型。而且实际中的机器人执行器系统往往具有死区等未知的动态非线性,使得系统的控制性能下降,甚至变得不稳定。这就使得对移动机器人的控制面临更大的困难,以往的控制器设计经常忽略执行器的动态非线性因素。但基于标称数学模型所设计的控制律一般很难达到期望的性能指标。虽然实际系统通常具有不确定性、本质非线性等特征,但人们对机器人系统包括实时性和精确性在内的动态品质的要求却越来越高,高性能的运动控制器设计及优化成为移动机器人应用的一个难题。对于非线性系统,其最优控制问题将不可避免的导致求解哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程或非线性两点边值问题,而非线性HJB方程和非线性两点边值问题通常情况下无法求得解析解。鉴于移动机器人系统动力学建模的复杂性,其工作环境的不确定性,以及移动机器人运动学上的非完整性,对移动机器人的控制器设计很少涉及到控制器的最优化问题。由于神经网络具有逼近任意非线性映射,自适应、自学习和容错的能力,使得在以神经网络为基础的控制系统设计中,一般不需要被控对象精确的数学模型,并且对于外界环境和系统参数的变化呈现较强的自适应性,为非线性系统模型、控制器和扰动消除器的实现创造了条件。增强学习以不确定条件下序贯决策的优化为目标,是复杂系统自适应优化控制的一类重要方法,具有与运筹学、控制理论、机器人学等交叉综合的特点。近似动态规划结合了神经网络、自适应评判设计、增强学习等理论,在求解非线性系统最优控制时成功避免了经典动态规划方法所面临的“维数灾”问题,是解决非线性系统最优控制的有效方法。轨迹跟踪问题在移动机器人的理论研究与工程实践中是最基本和最重要的问题,本文以非完整移动机器人的轨迹跟踪控制问题为研究背景,基于神经网络的学习控制方法对模型信息的依赖较少的特点,分别针对移动机器人运动学和动力学模型、确定和不确定对象等进行控制器设计及最优化方法的研究。主要工作有:(1).针对执行器带有未知死区的控制约束问题,提出了一种双神经网络结构的 自适应死区补偿方法。使用两个神经网络:将一个神经网络用于逼近执行机构中存在的死区,另一个神经网络用于逼近改进的死区逆。针对死区的跳变特性,提出了一种新的神经网络结构近似分段连续函数。通过在前向通道中引入死区补偿,从而达到用死区逆抵消死区影响,实现对死区这一未知非线性环节的动态补偿。由神经网络估计器和神经网络补偿器组成的补偿策略,为非线性补偿提供了新的解决方法。并利用反步(Backstepping)设计方法提出了一种针对非完整移动机器人的控制器设计与死区补偿的综合方案。利用Lyapunov理论在给出各个神经网络权值调节律的同时,严格证明了整个闭环系统的跟踪误差的一致最终有界性,而且通过调节设计参数可以使系统的跟踪误差收敛到零附近的一个小邻域内。(2).针对非完整移动机器人的运动学模型设计了一种位姿控制算法实现了对目标机器人参考轨迹的近似最优跟踪。该算法不仅使位姿误差是渐近稳定的,同时在预先设定的性能指标意义上是最优的。有限时间域上的性能指标函数在无限时间域下将变得无效,对于无限时间最优跟踪控制问题,主要的困难在于性能指标函数的定义。为了使性能指标函数有限,通过重新定义系统状态和输入,从而定义一个新的性能指标,原轨迹跟踪最优化问题转变为连续无限时间的状态调节器最优问题。基于增强学习和近似动态规划理论,提出一种前向的在线策略迭代算法来近似求解该最优控制问题对应的HJB方程。采用单神经网络对性能指标函数进行近似,控制策略完全由对性能指标函数的估计确定。评价网络自适应调节权值,由神经网络权值可以直接计算出对应的近似最优控制律。消除了执行器-评价器 (Actor-Critic)结构中控制网络(Actor)的使用,同时消除了该网络对应的逼近误差,大大简化了控制器结构并节省了大量的计算工作。并在考虑神经网络逼近误差的情况下,在理论上证明了性能指标函数的收敛性和非完整移动机器人位姿跟踪系统的稳定性。%即累积误差和系统能耗最少%以及 系统的最优控制进行了深入的研究,取得了如下创新性成果:(3).针对非完整移动机器人的动力学模型设计了一种速度控制算法实现了对参考速度的近似最优跟踪。最优控制器由初始速度控制器和反馈项两部分组成,可以选择已有的控制器作为初始控制器,反馈部分除了用来保证闭环系统稳定,同时确保系统在不确定性及干扰影响下仍然具有良好的跟踪性能。该算法不仅使速度跟踪误差是渐近稳定的,同时在预先设定的性能指标意义上是最优的。通过引入初始控制作为前馈控制,从而原速度跟踪最优问题转变为连续无限时间状态调节器最优问题。针对速度跟踪误差形式的不确定动力学系统提出一种基于近似动态规划方法的近似最优速度跟踪控制设计方法——一种改进的在线前向的策略迭代算法,实现对HJB方程的近似求解,整个过程无需系统内动力学模型,对系统模型要求低。同时通过严格的数学理论证明了求得的最优控制器能够使得系统稳定并使性能指标函数收敛到最优解。(4).基于反步设计方法,针对非完整移动机器人的运动学模型设计满足轨迹跟踪要求的虚拟速度控制作为存在不确定性的系统动力学模型的期望速度。通过将速度跟踪问题转换为镇定问题,针对内动力模型未知的移动机器人速度跟踪误差形式的连续时间动力学系统提出一种基于近似动态规划方法的近似最优速度跟踪控制设计方法,通过基于增强学习的在线、前向的策略迭代优化算法实现对最优性能指标函数的逼近,并通过最优性能指标函数来直接求取最优的控制策略。最终获得系统全局的运动学/动力学控制律,实现了对期望轨迹的近似最优跟踪。并通过构造李雅普诺夫函数,证明系统全局渐近稳定性。(5).在策略迭代算法中,神经网络权值的快速收敛是保证移动机器人最优控制实现的关键因素。而神经网络传统学习算法存在诸多尚未解决的内在不确定问题,在函数逼近与插值理论相关知识启发下,本文采用一组线性无关的基函数作为隐含层神经元的激励函数,从而构造一种多项式型前向神经网络,其逼近能力由多项式逼近理论保证。不同于传统的神经网络迭代学习思想,新方法基于矩阵伪逆可以一步直接计算出神经网络的最优稳态权值,避免了传统算法冗长的迭代学习过程,避免了策略学习过程中的嵌套迭代,展示了其在计算速度和精度方面的优越性。
相关内容
相关标签