
线性二次(LQ)最优控制是最优控制理论的重要组成部分,也是现代控制理论诞生的重要标志。LQ 控制研究始于上个世纪60年代,先后发展了LQG、随机控制、MPC、鲁棒/H无穷控制、网络控制以及学习控制等先进控制理论;经历了从确定到随机/不确定,从集中式到分散式/分布式;从单自主体到多自主体/网络系统,从基于模型到无模型学习控制的不同研究过程。过去半个多世纪现代控制理论的发展历程表明,LQ控制方法始终发挥着不可替代的核心作用,同样地,LQ控制思想在未来的人工智能领域也将发挥不可替代的基础作用。结合过去20年的研究工作,从三个方面回顾和探讨了LQ控制的科学意义,即本质性,统一性和完美性;阐明了不论过去、现在、还是未来,最优控制理论方法是解决问题的根本方法:(1)最优控制是基于优化思想解决动态系统控制问题,以最佳的方式达到控制目标,保证了控制性能实现的快速性和稳定性;(2)最优控制方法建立在严格的数学优化理论之上,是解决控制问题的科学方法。最大值原理建立了数学优化与最优控制的桥梁,特别是在20世纪60年代,随着线性二次(LQ)控制和线性二次估计 (LQE) 的出现,最优控制理论取得了重大发展和改进。这一进展推动了最优控制理论的进一步发展,包括随机控制、鲁棒/H∞控制、模型预测控制(MPC)、网络控制和强化学习控制。最优控制建立在严格的数学基础上,将静态优化理论扩展到动态系统,体现了科学的本质性、统一性和完美性。最优控制理论在所有与控制相关的领域中始终扮演着不可或缺的核心角色,包括网络系统中的通信约束控制、趋同控制、协同控制和强化学习控制。最优控制的本质在于其作为动态系统的分析与综合的本质。事实上,无论是解决系统反馈镇定、系统稳定性或网络系统的一致性控制等理论问题,还是解决轨迹规划和跟踪、工业过程优化控制或经济投资组合优化等实际应用问题,这些问题的关键和本质都是最优控制问题。此外,最优控制为这些问题提供了理论上的最优解。最优控制表现出统一性,几乎所有的最优控制问题都可以在一个统一的框架下求解,包括建立最大值原理和求解正倒向方程(解耦)。具体来说,LQ控制问题可以统一为线性二次调节 (LQR) 问题,控制器设计可以统一为Riccati方程的解。事实上,LQR问题在20世纪60年代得到了圆满解决,随后导致了对线性二次高斯(LQG)问题的研究,揭示了LQG问题与LQR的统一,因为两种设计都采用相同的标准Riccati方程的解来设计控制器。此外,线性最优估计和LQR也是统一的,因为前者的估计增益矩阵与LQR问题的对偶倒向系统的控制增益矩阵精确匹配。经过几十年的研究,带乘性噪声的随机LQ控制的结果已经与LQR统一,Riccati方程转化为广义Riccati方程。20世纪80年代,H∞控制/鲁棒控制得到了广泛的关注,经过近20年的研究,最终将H∞控制与LQR统一起来,将Riccati方程转化为不定Riccati方程。此外,MPC是一个分段最优控制问题,而当前研究的热点一致性控制也可以统一到分散LQ控制中。最优控制在科学上表现得非常完美,包括可解的充分必要条件、在一定条件下的唯一解、明确的物理意义以及与其他理论的包容性。首先,在基本假设下,通过Riccati方程的简单形式刻画了LQ控制的可解条件和解析解。LQ控制对偶于线性最优估计。其次,Riccati方程具有明确的物理意义,其解表示最优控制性能的加权矩阵或最优估计误差方差协方差阵。第三,最优性能是最好的李雅普诺夫函数,导致系统稳定和镇定的充分必要条件。Riccati方程可以退化/转化为Lyapunov方程。最优控制的实用价值在于它有可能成为为实际应用提供最有效和最精确算法的唯一方法。事实上,在最优控制理论基础上发展起来的广义预测控制、鲁棒控制和自适应控制理论为实际应用提供了重要而有效的精确控制算法。近二十年来,我们对非标准LQ控制的研究成果,也恰恰论证了LQ控制的本质性、统一性和完备性。下面从三个方面提供详细的解释。具有乘性噪声的随机LQ控制问题在20世纪70年代得到了有效的解决。然而,与确定性系统或具有加性噪声的随机系统不同,具有乘性噪声的随机LQ控制的结果长期以来无法推广到时滞的情况。类似地,时滞系统控制的经典结果不能推广到具有乘性噪声的随机系统。这种限制是由于无法基于现有工具 (如Riccati方程) 设计控制器而产生的。此外,更深层次的原因在于与该问题相对应的正倒向随机微分/差分方程 (FBDEs) 难以解耦和求解。为了解决这个问题,提出了一种解耦和求解FBDES的通用方法,从而全面解决了具有时滞的随机LQ控制问题。此外,将经典的Smith预估控制理论和降阶方法推广到乘性噪声系统。如[1]中所揭示,具有时滞的随机LQ控制器的设计可以使用Riccati-ZXL方程或我们提出的类似方程来统一实现:
其中,


其中,

统一性。上述结果恢复了LQ控制的现有结果。实际上,(i) 当h=0时,Riccati-ZXL方程(1)–(2)变为经典广义Riccati方程中的

(ii) 当
时,方程(1)-(2)被简化为

它是标准的Riccati方程,并且(3)中的最优控制器成为众所周知的史密斯预测控制器。
完备性。平行于LQR控制的经典结果,得到了时滞随机LQ控制存在唯一解的充要条件。同时,在基本假设下,得到了系统镇定的充要条件。
本质性。所得到的结果具有时滞随机控制的本质[1]。实际上,利用[1]中提出的方法,已经很好地解决了多输入时滞和状态时滞的一般情况,更重要的是,在后面的研究中,同时丢包和延迟的网络控制系统中长期存在的具有挑战性的控制问题也得到了很好的解决[2]。
(2) 非正则LQR问题
非正则LQR问题,也称为奇异控制,是经典LQ控制理论尚未完全解决的唯一基本问题。自20世纪70年代以来,这个问题引起了广泛关注。在处理特殊初始条件下的非正则控制方面已经取得了重大进展,但在处理任意初始条件下的非正则LQR问题方面却很少有实质性的进展[3]。许多问题,包括可解条件、控制器形式以及与标准LQR的区别,仍有待阐明。在过去的十年里,我们从最大值原理和正倒向微分方程等基础问题出发,探索了非正则LQR与标准LQR的本质区别。我们的研究表明,求解非正则LQR的关键在于构造非正则FBDEs的解析解。因此,我们通过解耦和求解非规则FBDEs,得到了控制器可解性的充要条件和解析解。该研究论证了LQ控制的本质性、统一性和完备性。
根据[4]可知非正则LQR问题可解的充要条件是存在满足
的矩阵
,使得

是正则的。此外,最优控制器以

的形式给出,其中

当Z(t)导致
最小。
统一性。上述结果统一了LQR的现有结果。事实上,当R>0时,自然满足正则条件,因此
。在这种情况下,最优控制器(8)变为

完备性。平行于LQR控制的经典结果,得到了非正则LQR控制解存在的充要条件。同时,在基本假设下,得到了系统镇定的充要条件。
本质性。所给出的结果为一般的非规则LQ控制问题提供了一种基本方法,包括随机控制、H∞控制、鲁棒控制等。
(3) 基于最优控制的优化方法
正如前面所提到的,最大值原理建立了最优化和最优控制之间的桥梁,导致了最优控制的解决和发展。然而,尽管经过几个世纪的研究,优化问题本身尚未找到完全令人满意的解决方案。
众所周知,常用的优化算法包括梯度下降法和牛顿迭代法。然而,这两种算法都有公认的局限性和缺点。例如,梯度下降法由于其计算简单性而具有优势,但收敛速度慢。改进的加速梯度下降法虽然部分缓解了这一问题,但也增加了参数选择的复杂性。另一方面,虽然牛顿迭代法收敛很快,但它不稳定且容易发散。改进的拟牛顿法在提高稳定性和复杂性的同时,也降低了收敛速度。正则化牛顿法保证了Hessian矩阵的可逆性,但导致线性收敛。
显然,过去提出的改进优化算法并没有超越梯度下降法和牛顿迭代法的框架,仍然存在不足。在此背景下,为了获得更好(更快、更稳定)的算法,我们构思了一种新的思路:基于最优控制原理求解优化问题。特别地,我们将迭代算法的更新项视为控制器,并寻求最小化优化函数值和控制能量之和。这种创新的方法从理论上保证了算法以最快、最稳定的方式收敛到极值点。我们开发的新优化算法也展示了统一性和完备性。
考虑下面的优化问题

其中
是二次连续可微的。将问题(10)转化为最优控制问题,我们首先得到隐式优化算法

进一步,使用泰勒展开线性化和简化,得到迭代算法

更多细节可以在[5]中找到。
迭代算法(12)是超线性收敛的[5]。该算法统一了经典的牛顿迭代算法及其改进算法。设R=0,式(12)简化为牛顿迭代法。如果我们设置gk−1(xk)=xk−xk−1,则等式(12)变为加速梯度下降算法:

其中

算法(11)源于最优控制原理,具有全局最优性,因此表现出最快和最稳定的算法结构。令N=0并使用(11)中的
的一阶泰勒展开式,我们得到了正则化的牛顿迭代。如果取R=0,则迭代简化为牛顿法。此外,如果N=0并且我们假设
,则方程(11)简化为梯度下降。
因此,可以观察到经典的牛顿迭代是局部最优算法,而梯度下降是局部次优算法。
算法(12)是基于最优控制理论推导出来的,为梯度下降法、牛顿迭代法及其改进算法提供了理论基础,因此对最优化来说是必不可少的。
总之,就像科学中的数学一样,最优控制在自动化和信息领域中保持着不可替代的核心基础地位,是解决问题的基本方法。就像被广泛使用的MPC算法,最优控制代表了为实际应用提供精确控制算法的最佳理论方法。