智能控制与强化学习导论
最近修改日期:2026-05-05 参与者:Jackrainman
本文档只是一张地图:梳理当传统/现代控制方法不够用时,还有哪些范式可选。 不是为了让你立刻学会每一种,而是让你知道它们解决什么问题、在系统中处于什么位置。 前置知识:03-PID控制算法原理与应用.md / 10-MCU与上位机的控制分层.md
1. 什么时候传统方法不够用
传统/现代控制的共同前提:
你大致知道系统的数学结构,或者至少能找到一个可用的名义模型。
当这个前提不成立时:
- 系统极度非线性,线性化损失太大
- 动力学太复杂,建不出有效模型
- 人类操作经验比数学公式更直接
- 系统在不断变化,无法固定模型
- 高维、连续动作空间,传统方法难以优化
这时就需要 范式切换。
2. 智能控制
智能控制的核心特征:不依赖精确数学模型,而是依赖经验规则、逼近能力或学习能力。
2.1 专家控制
核心思想:把人类专家的操作经验写成 IF-THEN 规则。
特点: - 规则直观,容易理解 - 规则库需要人工设计,不适合复杂系统 - 常用于故障诊断、工况切换逻辑
在 MCU 上的情况: - 逻辑简单时可以实现 - 规则太多时维护困难
2.2 模糊控制
核心思想:允许控制指令存在 "适度"、"略大" 这种灰度概念。
四个步骤: 1. 模糊化:把精确的误差/误差变化率映射到模糊集合(如 "负大"、"负小"、"零"、"正小"、"正大") 2. 规则库:类似专家控制,但规则的输入输出是模糊量 3. 模糊推理:根据规则推理出模糊输出 4. 去模糊化:把模糊输出变成精确的控制量
特点: - 对模型要求很低 - 设计规则依赖经验 - 不适合高维输入
和 PID 的结合: - 模糊 PID:用模糊逻辑在线调整 PID 参数 - 这是模糊控制在机器人领域最常见的落地形式 - 可以理解为:模糊逻辑做的是参数调度,不是直接替代 PID
在 MCU 上的情况: - 模糊 PID 可以在 MCU 上实现(计算量不大) - 复杂规则库时仍需考虑 MCU 算力
2.3 神经网络控制
核心思想:利用神经网络极强的非线性拟合能力。
在控制中的三种角色:
| 角色 | 做什么 | 和传统方法的关系 |
|---|---|---|
| 直接做控制器 | 网络输入状态,输出控制量 | 替代 PID/ADRC 等 |
| 逼近被控对象模型 | 学习系统的输入-输出映射 | 替代物理建模 |
| 做状态/扰动观测器 | 估计不可直接测量的状态或扰动 | 替代 ESO/Kalman |
特点: - 需要大量数据训练 - 训练通常离线完成 - 推理计算量取决于网络大小 - 安全性和可解释性是实际落地的难点
在 MCU 上的情况: - 小型网络(几层)可以量化后在 MCU 上跑推理 - 大型网络需要上位机或专用加速硬件 - 训练本身不在 MCU 上
3. 强化学习
3.1 核心问题
在没有精确模型的情况下,通过与环境交互试错,找到最优控制策略。
3.2 MDP(马尔可夫决策过程)
强化学习的数学框架:
| 概念 | 控制理论中的对应 |
|---|---|
| 状态 \(s\) | 系统状态 |
| 动作 \(a\) | 控制输入 \(u\) |
| 奖励 \(r\) | 负的代价函数 \(-L(x,u)\) |
| 策略 $\pi(a | s)$ |
| 值函数 \(V(s)\) | 最优代价函数 |
| 转移概率 $P(s' | s,a)$ |
3.3 和最优控制的关系
最优控制 (模型已知)
├─ HJB 方程 → 动态规划 → 离散化后就是值迭代
└─ PMP → 开环优化
↓ 去掉模型依赖
强化学习 (模型未知)
├─ Q-Learning / SARSA → 学习价值函数
├─ Policy Gradient → 直接学习策略
└─ Actor-Critic → 策略 + 价值同时学习
3.4 RL 在控制中的典型应用
| 应用 | 说明 |
|---|---|
| 寻找最优 PID 参数 | 用 RL 在线/离线搜索最优 Kp/Ki/Kd |
| 端到端控制 | 直接从传感器到动作,绕过显式控制器 |
| 机器人行走/抓取 | 难以精确建模,RL 通过仿真学习策略 |
| Sim2Real | 仿真中训练,迁移到真实机器人 |
3.5 关键挑战
- 样本效率低:需要大量交互数据
- 安全性:探索过程中可能产生危险动作
- Sim2Real 差距:仿真和真实系统不一致
- 可解释性差:学到的策略很难分析
- 稳定收敛:不是所有问题都能稳定学到好策略
3.6 在 MCU 上的情况
- 训练:必须在 PC/服务器/仿真器上
- 推理:小网络可以量化部署到 MCU
- 通常:RL 策略运行在上位机,给 MCU 下发参考/参数/模式
4. 三种范式的关系
| 范式 | 模型需求 | 优化方式 | 典型运行位置 |
|---|---|---|---|
| 传统/现代控制 | 需要模型 | 解析推导或在线优化 | MCU / 上位机 |
| 智能控制 | 低/无 | 规则或逼近 | MCU(模糊)、上位机(神经网络) |
| 强化学习 | 无 | 数据驱动试错 | 上位机 / 仿真器 |
5. 你应该怎么学这条线
必读(理解定位): - 三种范式各自的适用边界 - 模糊 PID 的基本原理 - 神经网络在控制中的三种角色 - MDP 和价值函数的基本概念 - RL 与动态规划的关系
选读(需要时再深入): - 模糊推理的具体算法 - 神经网络训练方法 - 具体 RL 算法(PPO、SAC、TD3 等)
不需要在 MCU 上手写的: - 复杂神经网络控制器 - RL 训练流程 - 大规模模糊推理系统
文档导航
| 主线文档 | 专题导论 |
|---|---|
| 00-学习路径指南.md | 10-MCU与上位机的控制分层.md |
| 03-PID控制算法原理与应用.md | 11-现代控制与最优控制导论.md |