当前位置:问答库>论文摘要

题目:基于强化学习的分布参数系统控制方法研究

关键词:分布参数系统, 高耗散偏微分方程, 低阶模型, 强化学习, 神经网络, 最优控制, H∞控制

  摘要



大部分实际工业过程均存在时空分布特性,系统动态一般由偏微分方程(PDE)进行描述,这类系统通常被称分布参数系统(DPS)。为实际工业PDE系统设计控制系统时,存在着许多困难:(1) 由于PDE系统具有无穷维自由度特征,所以现有针对常微分方程(ODE)系统的控制理论与方法无法直接用于PDE系统;(2) 实际工业问题需要考虑一系列的性能,如最优性能、干扰衰减性能等 ;(3) 迄今为止,不管是针对ODE系统,还是PDE系统,大多数控制理论与方法依赖于动态系统的数学模型,它们一般基于这样的思路:首先根据系统的物理化学机理建立精确数学模型,然后基于模型设计控制与优化方法。但是,随着科学技术、特别是信息科学技术的快速发展,航空、航天、化工、机械、电子、电力、交通运输和物流等企业的规模越来越大,生产工艺、生产设备和生产过程越来越复杂,因而导致精确建立过程的数学模型代价非常大,或建立的模型非常复杂而无法用于控制器设计。

为克服上述困难,本论文针对PDE系统的最优与H∞干扰衰减控制问题,提出了基于强化学习(RL)的控制设计方法与理论。主要进行了以下几个方面的工作:

第一,针对高耗散型PDE系统的最优控制问题,考虑PDE系统模型完全已知、部分未知和完全未知三种情况,分别给出了基于RL的控制设计方法。1) 基于K-L分解(KLD)与奇异摄动理论,高耗散型PDE系统的主要动态可由有限维慢子系统精确描述。基于慢子系统,将PDE系统的最优控制问题转换为求解哈密顿-雅可比-贝尔曼(HJB)方程,并进一步分析了原PDE系统的稳定性及优化性能。2) 针对PDE系统模型完全已知的情况,由于HJB方程为一类非线性PDE,理论上无法解析求解,为此,我们提出了一类基于神经动态规划(NDP)的自适应最优控制方法,用于在线学习HJB方程的解及最优控制策略。NDP的实现使用执行-评价结构,并设计了一类新的权值更新算法,初始权值可以任意选取,不需要给定初始稳定控制律。在考虑NN逼近误差的情况下,证明了原闭环PDE系统在范数意义下半全局一致最终有界(SGUUB)。3) 针对PDE系统模型部分未知的情况,HJB方程显式形式无法得到,因而提出了一类基于策略迭代的在线自适应控制方法,使用在线数据求解HJB方程。用神经网络(NN)作为值函数逼近器,设计了一类基于梯度下降法的NN权值更新策略。在考虑持续激励假设和NN逼近误差的情况下,证明了原闭环PDE系统在范数意义下SGUUB。4) 针对PDE系统模型完全未知的情况,提出了一类基于无模型策略迭代的控制设计方法,并证明了其收敛性。无模型策略迭代算法的实现使用基于NN的执行-评价结构,为求解未知NN权值向量,我们基于加权残差法给出了一种最小二乘权值更新策略。实际的算法执行可以分成两个阶段:数据采集与处理阶段、和离线迭代学习阶段。

第二,针对高耗散型PDE系统的H∞控制问题,考虑PDE系统模型完全已知、部分未知和完全未知三种情况,分别给出了基于RL的控制设计方法。1) 基于模型降阶方法可得到慢子系统及其性能指标,进而理论上将PDE系统的H∞控制问题转化为求解哈密顿-雅可比-伊萨克(HJI)方程,并分析了闭环PDE系统的稳定性与性能。2) 针对PDE系统模型完全已知的情况,提出了一类基于模型的同步策略更新算法(SPUA),使用一系列线性PDE逐次逼近HJI方程。通过构造不动点方程,证明了基于模型的SPUA事实上为牛顿迭代法,进而根据坎托罗维奇定理证明了SPUA的收敛性。为求解线性PDE,基于加权残差法给出一类数值计算方法。3) 针对PDE系统模型部分未知的情况,提出了一类基于部分模型的“被动策略”RL方法,不需要PDE系统的内部系统动态模型,并证明了算法与基于模型的SPUA等价,因而收敛性可以得到保证。“被动策略”学习方法是针对已有的“主动策略”学习方法提出来的,可以克服“主动策略”学习方法5个方面的不足,因而具有很好的实用性。采用单个评价NN逼近值函数,一类最小二乘权值更新策略用于计算未知NN权值向量。算法的具体执行可以分成两个阶段:数据采集与处理阶段、和离线迭代学习阶段。4) 针对PDE系统模型完全未知的情况,提出了一类无模型“被动策略”RL方法,完全基于数据设计H∞控制策略,无需PDE系统的数学模型。通过证明算法与基于模型的SPUA等价,因而保证无模型“被动策略”RL方法的收敛性。算法的实现采用执行-评价结构,采用一个评价NN逼近值函数、两个执行NN分别逼近控制控制与干扰策略,为求解未知NN权值向量,我们基于加权残差法给出了一种最小二乘权值更新策略。

第三,针对内部系统动态模型未知的一阶线性双曲型PDE系统,引入RL思想求解其最优控制问题。由于双曲型PDE系统不具备快慢分离特性,因而需基于原PDE系统进行控制设计。为此,在“先设计-后降阶”的控制设计框架下,提出了两类RL算法:策略迭代与值迭代,使用实际PDE系统的在线信息求解空间依赖的黎卡提微分方程(SDRDE)。并从理论上证明了算法的收敛性,即证明了算法收敛于SDRDE的解。通过使用NN逼近SDRDE的解,给出了两类RL方法的实际执行算法。将两类RL算法应用于带有蒸气夹套的管式换热器中,仿真结果验证了方法的有效性。

第四,通过在传递-扩散-反应过程上进行数值仿真,分别验证了模型降阶方法和以及第三、四章所提出的RL控制设计方法的有效性。并将3.4节的基于NDP的自适应最优控制方法与4.3节的基于SPUA的H∞控制设计方法,分别应用于高速飞行散热片温度的最优控制与H∞控制问题。通过实验仿真,结果表明所提出的控制设计方法能很好地实现高速飞行器散热片的温度控制。