现代控制与最优控制导论
最近修改日期:2026-05-05 参与者:Jackrainman
本文档只是一张地图:梳理 LQR、LQG、MPC 背后真正的理论源头。 不是为了推导每一个公式,而是让你知道这些东西从哪来、为什么存在、它们之间是什么关系。 前置知识:04-控制理论基础.md(状态空间)
1. 从 LQR 往回溯
你已经在实战中接触过 LQR 和 MPC,但它们不是凭空出现的。往上追溯,最优控制的核心问题是:
给定一个系统和一个性能指标,如何找到使性能指标最小的控制序列?
这引出了三个层次的数学工具:
2. 变分法与泛函极值
核心问题
普通微积分对函数求极值,变分法对 路径 求极值。
控制中的对应
你有一个代价函数 \(J\),它是对时间积分的:
\[J = \int_0^T L(x(t), u(t), t) \, dt\]
变分法要回答:哪条路径 \(x(t)\) 和控制序列 \(u(t)\) 让 \(J\) 最小?
关键结论
- 变分法推导出 欧拉-拉格朗日方程
- 它是 PMP 和 HJB 的数学祖先
- 物理上:最小作用量原理
3. 庞特里亚金极大值原理 (Pontryagin Maximum Principle)
核心问题
当控制变量有约束时(比如电机力矩有上下界),变分法不够用。
PMP 的做法
引入 伴随变量 \(\lambda(t)\),构造 哈密顿函数:
\[H(x, u, \lambda, t) = L(x, u, t) + \lambda^T f(x, u, t)\]
PMP 告诉你:最优控制 \(u^*\) 必须在每一步 最大化/最小化 \(H\)(取决于问题定义)。
和你已知的关系
- LQR 是 PMP 在二次型代价、线性系统、无约束情况下的特殊解
- MPC 每次求解的优化问题,本质是 PMP 在有限时域上的数值近似
你需要理解什么
- PMP 给出的是 必要条件(不一定是充分条件)
- 它产生的是 开环最优轨迹,不是直接的反馈律
- 要把它变成反馈律,还需要额外处理(比如 MPC 的滚动优化)
4. HJB 方程 (Hamilton-Jacobi-Bellman)
核心问题
如果我想要一个 闭环最优策略(而不是开环轨迹),答案是 HJB 方程。
HJB 的形式
\[-\frac{\partial V}{\partial t} = \min_u \left[ L(x, u) + \left(\frac{\partial V}{\partial x}\right)^T f(x, u) \right]\]
其中 \(V(x, t)\) 是 值函数(从当前状态出发,最优代价是多少)。
关键理解
- HJB 给出的是 最优值函数
- 从值函数可以导出 最优反馈律
- LQR 的 Riccati 方程,就是 HJB 在线性二次型下的解析解
- 动态规划是 HJB 的离散时间版本
和你的关系
- 这是 LQR、MPC、强化学习的 共同数学框架
- RL 中的价值函数 \(V(s)\)、Q 函数 \(Q(s,a)\),本质上都是 HJB 的不同变体
5. 三者的关系
变分法
↓ 推广到有约束
庞特里亚金极大值原理 (PMP)
↓ 求闭环最优解
HJB 方程
↓ 特殊情况
├─ 线性系统 + 二次代价 → Riccati 方程 → LQR
├─ 有限时域 + 滚动优化 → MPC
└─ 离散状态 + 采样 → 动态规划 → 强化学习
6. LQR / LQG / MPC 的定位
| 方法 | 求解的是 | 输出的是 | 适用场景 |
|---|---|---|---|
| LQR | 线性系统、二次代价、无约束 | 最优状态反馈增益 | 线性化模型、工作点附近 |
| LQG | LQR + 高斯噪声 + 状态估计 | 最优反馈 + 卡尔曼滤波 | 有噪声的状态估计 |
| MPC | 有限时域、有约束的优化 | 每步重新求解的控制量 | 多变量、强约束、前瞻优化 |
7. 为什么在 MCU 上只需要理解、不需要重写
- LQR:离线算好增益,MCU 上只做矩阵乘法
- LQG:需要状态估计器,计算量可接受
- MPC:每次要解优化问题,计算量大,通常放上位机
- PMP/HJB:数学基础,一般不直接用于实时控制
8. 你应该怎么学这条线
必读(理解直觉): - 什么是代价函数、值函数、最优控制问题 - PMP 的哈密顿函数是什么意思 - HJB 和 LQR 的关系
选读(需要时再深入): - 变分法的严格推导 - PMP 的必要性/充分性条件 - HJB 的粘性解理论
不需要在 MCU 上手写的: - MPC 的 QP 求解器 - 大规模 HJB 数值求解
文档导航
| 主线文档 | 专题导论 |
|---|---|
| 00-学习路径指南.md | 10-MCU与上位机的控制分层.md |
| 04-控制理论基础.md | 12-智能控制与强化学习导论.md |