当前位置:问答库>论文摘要

题目:仿真条件下的序贯决策理论、方法及其应用研究

关键词:仿真;优化;序贯决策;强化学习;作业排序;供应链管理

  摘要

针对序贯决策问题的普遍性和复杂性,采用系统仿真和强化学习相结合的仿真优化方法对其进行分析求解。仿真用于构建复杂序贯决策问题的环境模型,求取系统性能指标,验证和确保解的可行性;强化学习智能体和仿真环境直接不断交互来感知环境的有关动态信息,通过强化学习的改进算法对问题的解空间进行优化搜索。二者有机结合共同解决复杂序贯决策问题,从而有效地克服了传统序贯最优化方法存在的数学建模困难、假设过于严格和致命的“维数灾难”等问题,为解决现实的复杂序贯决策问题提供了一个新的思路和方法。本文的研究工作主要体现在以下几个方面:(1)序贯决策和强化学习的理论分析与研究。创新点有:从理论上证明了3W+N序贯决策的解空间大小;通过实例证明了“序贯决策每个阶段的局部最优并不能构成整个序列的全局最优”等。由此说明了序贯决策问题的求解复杂性和计算难度。(2)对强化学习算法进行了较为深入的研究。创新点包括:①结合 -贪婪行动值法提出了一种算法总迭代代数和贪婪率的适应性机制;②提出了一种多智能体强化学习框架;③将传统遗传算法和强化学习相结合,提出了一种新的遗传强化学习算法——P-GRL算法。(3)基于通用仿真工具Arena,提出了仿真条件下的强化学习机制,并且从技术上提出了三种仿真优化的实现方案:内部集成、外部集成和混合集成。另外还提出了3W+N序贯决策的一种实现方法:基于Arena的人为(参与)序贯决策。同时还设计开发出了一个基于Arena的嵌入式通用序贯决策工具SD-Making,可在任何Arena仿真模型运行过程中随时根据系统运行情况修改有关决策变量的取值,进行序贯决策。(4)作为应用研究的核心内容之一,针对Flow-shop排序问题的固有复杂性,从序贯决策的角度考虑,采用本文提出的仿真优化方法及P-GRL算法对其进行分析求解。大量的仿真实验结果表明,P-GRL算法优于目前公认的最优启发式规则算法NEH算法,也优于单纯的GA和RL算法,从而验证了本文所提理论和方法的有效性。(5)作为应用研究的另一个主要内容,针对更加复杂的Job-shop排序问题,提出了一种新的分派规则——虚拟抢占规则(Virtual Preemption, VP),以及它的三个性质定理,并通过理论和仿真实验的手段对这些定理进行了分析与证明。结合虚拟抢占规则构建了Job-shop排序问题的仿真环境模型;从序贯决策角度出发,采用P-GRL算法对Job-shop排序问题进行求解。实验结果进一步验证了有关理论和方法的有效性。(6)以某大型炼油厂作为实证研究对象,构建了其供应链的序贯决策模型,采用基于强化学习的仿真优化方法对其订货策略和配送策略进行了仿真建模与优化;使用SD-Making进行了人为序贯决策。实验结果表明,智能体能够通过不断的学习改进自身的行为策略,以逐步达到目标函数的最优化。这也进一步证明,通过和仿真手段相结合,强化学习算法能够用于大规模的、随机的多阶段决策问题,本文提出的有关理论和方法具有较大的实际应用前景。