智能控制与强化学习导论

最近修改日期：2026-05-05 参与者：Jackrainman

本文档只是一张地图：梳理当传统/现代控制方法不够用时，还有哪些范式可选。 不是为了让你立刻学会每一种，而是让你知道它们解决什么问题、在系统中处于什么位置。 前置知识：03-PID控制算法原理与应用.md / 10-MCU与上位机的控制分层.md

1. 什么时候传统方法不够用

传统/现代控制的共同前提：

你大致知道系统的数学结构，或者至少能找到一个可用的名义模型。

当这个前提不成立时：

系统极度非线性，线性化损失太大
动力学太复杂，建不出有效模型
人类操作经验比数学公式更直接
系统在不断变化，无法固定模型
高维、连续动作空间，传统方法难以优化

这时就需要 范式切换。

2. 智能控制

智能控制的核心特征：不依赖精确数学模型，而是依赖经验规则、逼近能力或学习能力。

2.1 专家控制

核心思想：把人类专家的操作经验写成 IF-THEN 规则。

1 2	`IF 误差很大且误差变化率为正 THEN 输出最大 IF 误差很小且变化率很小 THEN 输出小幅调整`

特点： - 规则直观，容易理解 - 规则库需要人工设计，不适合复杂系统 - 常用于故障诊断、工况切换逻辑

在 MCU 上的情况： - 逻辑简单时可以实现 - 规则太多时维护困难

2.2 模糊控制

核心思想：允许控制指令存在 "适度"、"略大" 这种灰度概念。

四个步骤： 1. 模糊化：把精确的误差/误差变化率映射到模糊集合（如 "负大"、"负小"、"零"、"正小"、"正大"） 2. 规则库：类似专家控制，但规则的输入输出是模糊量 3. 模糊推理：根据规则推理出模糊输出 4. 去模糊化：把模糊输出变成精确的控制量

特点： - 对模型要求很低 - 设计规则依赖经验 - 不适合高维输入

和 PID 的结合： - 模糊 PID：用模糊逻辑在线调整 PID 参数 - 这是模糊控制在机器人领域最常见的落地形式 - 可以理解为：模糊逻辑做的是参数调度，不是直接替代 PID

在 MCU 上的情况： - 模糊 PID 可以在 MCU 上实现（计算量不大） - 复杂规则库时仍需考虑 MCU 算力

2.3 神经网络控制

核心思想：利用神经网络极强的非线性拟合能力。

在控制中的三种角色：

角色	做什么	和传统方法的关系
直接做控制器	网络输入状态，输出控制量	替代 PID/ADRC 等
逼近被控对象模型	学习系统的输入-输出映射	替代物理建模
做状态/扰动观测器	估计不可直接测量的状态或扰动	替代 ESO/Kalman

特点： - 需要大量数据训练 - 训练通常离线完成 - 推理计算量取决于网络大小 - 安全性和可解释性是实际落地的难点

在 MCU 上的情况： - 小型网络（几层）可以量化后在 MCU 上跑推理 - 大型网络需要上位机或专用加速硬件 - 训练本身不在 MCU 上

3. 强化学习

3.1 核心问题

在没有精确模型的情况下，通过与环境交互试错，找到最优控制策略。

3.2 MDP（马尔可夫决策过程）

强化学习的数学框架：

概念	控制理论中的对应
状态 $s$	系统状态
动作 $a$	控制输入 $u$
奖励 $r$	负的代价函数 $-L(x,u)$
策略 $\pi(a	s)$
值函数 $V(s)$	最优代价函数
转移概率 $P(s'	s,a)$

3.3 和最优控制的关系

最优控制 (模型已知)
├─ HJB 方程 → 动态规划 → 离散化后就是值迭代
└─ PMP → 开环优化
        ↓ 去掉模型依赖
强化学习 (模型未知)
├─ Q-Learning / SARSA → 学习价值函数
├─ Policy Gradient → 直接学习策略
└─ Actor-Critic → 策略 + 价值同时学习

3.4 RL 在控制中的典型应用

应用	说明
寻找最优 PID 参数	用 RL 在线/离线搜索最优 Kp/Ki/Kd
端到端控制	直接从传感器到动作，绕过显式控制器
机器人行走/抓取	难以精确建模，RL 通过仿真学习策略
Sim2Real	仿真中训练，迁移到真实机器人

3.5 关键挑战

样本效率低：需要大量交互数据
安全性：探索过程中可能产生危险动作
Sim2Real 差距：仿真和真实系统不一致
可解释性差：学到的策略很难分析
稳定收敛：不是所有问题都能稳定学到好策略

3.6 在 MCU 上的情况

训练：必须在 PC/服务器/仿真器上
推理：小网络可以量化部署到 MCU
通常：RL 策略运行在上位机，给 MCU 下发参考/参数/模式

4. 三种范式的关系

范式	模型需求	优化方式	典型运行位置
传统/现代控制	需要模型	解析推导或在线优化	MCU / 上位机
智能控制	低/无	规则或逼近	MCU（模糊）、上位机（神经网络）
强化学习	无	数据驱动试错	上位机 / 仿真器

5. 你应该怎么学这条线

必读（理解定位）： - 三种范式各自的适用边界 - 模糊 PID 的基本原理 - 神经网络在控制中的三种角色 - MDP 和价值函数的基本概念 - RL 与动态规划的关系

选读（需要时再深入）： - 模糊推理的具体算法 - 神经网络训练方法 - 具体 RL 算法（PPO、SAC、TD3 等）

不需要在 MCU 上手写的： - 复杂神经网络控制器 - RL 训练流程 - 大规模模糊推理系统

文档导航

主线文档	专题导论
00-学习路径指南.md	10-MCU与上位机的控制分层.md
03-PID控制算法原理与应用.md	11-现代控制与最优控制导论.md

概念	控制理论中的对应
状态 \(s\)	系统状态
动作 \(a\)	控制输入 \(u\)
奖励 \(r\)	负的代价函数 \(-L(x,u)\)
策略 $\pi(a	s)$
值函数 \(V(s)\)	最优代价函数
转移概率 $P(s'	s,a)$