现代控制与最优控制导论

最近修改日期：2026-05-05 参与者：Jackrainman

本文档只是一张地图：梳理 LQR、LQG、MPC 背后真正的理论源头。 不是为了推导每一个公式，而是让你知道这些东西从哪来、为什么存在、它们之间是什么关系。 前置知识：04-控制理论基础.md（状态空间）

1. 从 LQR 往回溯

你已经在实战中接触过 LQR 和 MPC，但它们不是凭空出现的。往上追溯，最优控制的核心问题是：

给定一个系统和一个性能指标，如何找到使性能指标最小的控制序列？

这引出了三个层次的数学工具：

2. 变分法与泛函极值

核心问题

普通微积分对函数求极值，变分法对路径求极值。

控制中的对应

你有一个代价函数 \(J\)，它是对时间积分的：

\[J = \int_0^T L(x(t), u(t), t) \, dt\]

变分法要回答：哪条路径 \(x(t)\) 和控制序列 \(u(t)\) 让 \(J\) 最小？

关键结论

变分法推导出 欧拉-拉格朗日方程
它是 PMP 和 HJB 的数学祖先
物理上：最小作用量原理

3. 庞特里亚金极大值原理 (Pontryagin Maximum Principle)

核心问题

当控制变量有约束时（比如电机力矩有上下界），变分法不够用。

PMP 的做法

引入 伴随变量 \(\lambda(t)\)，构造 哈密顿函数：

\[H(x, u, \lambda, t) = L(x, u, t) + \lambda^T f(x, u, t)\]

PMP 告诉你：最优控制 \(u^*\) 必须在每一步 最大化/最小化 \(H\)（取决于问题定义）。

和你已知的关系

LQR 是 PMP 在二次型代价、线性系统、无约束情况下的特殊解
MPC 每次求解的优化问题，本质是 PMP 在有限时域上的数值近似

你需要理解什么

PMP 给出的是 必要条件（不一定是充分条件）
它产生的是 开环最优轨迹，不是直接的反馈律
要把它变成反馈律，还需要额外处理（比如 MPC 的滚动优化）

4. HJB 方程 (Hamilton-Jacobi-Bellman)

核心问题

如果我想要一个 闭环最优策略（而不是开环轨迹），答案是 HJB 方程。

HJB 的形式

\[-\frac{\partial V}{\partial t} = \min_u \left[ L(x, u) + \left(\frac{\partial V}{\partial x}\right)^T f(x, u) \right]\]

其中 \(V(x, t)\) 是 值函数（从当前状态出发，最优代价是多少）。

关键理解

HJB 给出的是 最优值函数
从值函数可以导出 最优反馈律
LQR 的 Riccati 方程，就是 HJB 在线性二次型下的解析解
动态规划是 HJB 的离散时间版本

和你的关系

这是 LQR、MPC、强化学习的 共同数学框架
RL 中的价值函数 \(V(s)\)、Q 函数 \(Q(s,a)\)，本质上都是 HJB 的不同变体

5. 三者的关系

变分法
  ↓ 推广到有约束
庞特里亚金极大值原理 (PMP)
  ↓ 求闭环最优解
HJB 方程
  ↓ 特殊情况
  ├─ 线性系统 + 二次代价 → Riccati 方程 → LQR
  ├─ 有限时域 + 滚动优化 → MPC
  └─ 离散状态 + 采样 → 动态规划 → 强化学习

6. LQR / LQG / MPC 的定位

方法	求解的是	输出的是	适用场景
LQR	线性系统、二次代价、无约束	最优状态反馈增益	线性化模型、工作点附近
LQG	LQR + 高斯噪声 + 状态估计	最优反馈 + 卡尔曼滤波	有噪声的状态估计
MPC	有限时域、有约束的优化	每步重新求解的控制量	多变量、强约束、前瞻优化

7. 为什么在 MCU 上只需要理解、不需要重写

LQR：离线算好增益，MCU 上只做矩阵乘法
LQG：需要状态估计器，计算量可接受
MPC：每次要解优化问题，计算量大，通常放上位机
PMP/HJB：数学基础，一般不直接用于实时控制

8. 你应该怎么学这条线

必读（理解直觉）： - 什么是代价函数、值函数、最优控制问题 - PMP 的哈密顿函数是什么意思 - HJB 和 LQR 的关系

选读（需要时再深入）： - 变分法的严格推导 - PMP 的必要性/充分性条件 - HJB 的粘性解理论

不需要在 MCU 上手写的： - MPC 的 QP 求解器 - 大规模 HJB 数值求解

文档导航

主线文档	专题导论
00-学习路径指南.md	10-MCU与上位机的控制分层.md
04-控制理论基础.md	12-智能控制与强化学习导论.md

现代控制与最优控制导论

1. 从 LQR 往回溯

2. 变分法与泛函极值

核心问题

控制中的对应

关键结论

3. 庞特里亚金极大值原理 (Pontryagin Maximum Principle)

核心问题

PMP 的做法

和你已知的关系

你需要理解什么

4. HJB 方程 (Hamilton-Jacobi-Bellman)

核心问题

HJB 的形式

关键理解

和你的关系

5. 三者的关系

6. LQR / LQG / MPC 的定位

7. 为什么在 MCU 上只需要理解、不需要重写

8. 你应该怎么学这条线

文档导航

评论