跳转至

智能控制与强化学习导论

最近修改日期:2026-05-05 参与者:Jackrainman

本文档只是一张地图:梳理当传统/现代控制方法不够用时,还有哪些范式可选。 不是为了让你立刻学会每一种,而是让你知道它们解决什么问题、在系统中处于什么位置。 前置知识03-PID控制算法原理与应用.md / 10-MCU与上位机的控制分层.md


1. 什么时候传统方法不够用

传统/现代控制的共同前提:

你大致知道系统的数学结构,或者至少能找到一个可用的名义模型。

当这个前提不成立时:

  • 系统极度非线性,线性化损失太大
  • 动力学太复杂,建不出有效模型
  • 人类操作经验比数学公式更直接
  • 系统在不断变化,无法固定模型
  • 高维、连续动作空间,传统方法难以优化

这时就需要 范式切换


2. 智能控制

智能控制的核心特征:不依赖精确数学模型,而是依赖经验规则、逼近能力或学习能力。

2.1 专家控制

核心思想:把人类专家的操作经验写成 IF-THEN 规则。

IF 误差很大且误差变化率为正 THEN 输出最大
IF 误差很小且变化率很小 THEN 输出小幅调整

特点: - 规则直观,容易理解 - 规则库需要人工设计,不适合复杂系统 - 常用于故障诊断、工况切换逻辑

在 MCU 上的情况: - 逻辑简单时可以实现 - 规则太多时维护困难

2.2 模糊控制

核心思想:允许控制指令存在 "适度"、"略大" 这种灰度概念。

四个步骤: 1. 模糊化:把精确的误差/误差变化率映射到模糊集合(如 "负大"、"负小"、"零"、"正小"、"正大") 2. 规则库:类似专家控制,但规则的输入输出是模糊量 3. 模糊推理:根据规则推理出模糊输出 4. 去模糊化:把模糊输出变成精确的控制量

特点: - 对模型要求很低 - 设计规则依赖经验 - 不适合高维输入

和 PID 的结合: - 模糊 PID:用模糊逻辑在线调整 PID 参数 - 这是模糊控制在机器人领域最常见的落地形式 - 可以理解为:模糊逻辑做的是参数调度,不是直接替代 PID

在 MCU 上的情况: - 模糊 PID 可以在 MCU 上实现(计算量不大) - 复杂规则库时仍需考虑 MCU 算力

2.3 神经网络控制

核心思想:利用神经网络极强的非线性拟合能力。

在控制中的三种角色:

角色 做什么 和传统方法的关系
直接做控制器 网络输入状态,输出控制量 替代 PID/ADRC 等
逼近被控对象模型 学习系统的输入-输出映射 替代物理建模
做状态/扰动观测器 估计不可直接测量的状态或扰动 替代 ESO/Kalman

特点: - 需要大量数据训练 - 训练通常离线完成 - 推理计算量取决于网络大小 - 安全性和可解释性是实际落地的难点

在 MCU 上的情况: - 小型网络(几层)可以量化后在 MCU 上跑推理 - 大型网络需要上位机或专用加速硬件 - 训练本身不在 MCU 上


3. 强化学习

3.1 核心问题

在没有精确模型的情况下,通过与环境交互试错,找到最优控制策略。

3.2 MDP(马尔可夫决策过程)

强化学习的数学框架:

概念 控制理论中的对应
状态 \(s\) 系统状态
动作 \(a\) 控制输入 \(u\)
奖励 \(r\) 负的代价函数 \(-L(x,u)\)
策略 $\pi(a s)$
值函数 \(V(s)\) 最优代价函数
转移概率 $P(s' s,a)$

3.3 和最优控制的关系

最优控制 (模型已知)
├─ HJB 方程 → 动态规划 → 离散化后就是值迭代
└─ PMP → 开环优化
        ↓ 去掉模型依赖
强化学习 (模型未知)
├─ Q-Learning / SARSA → 学习价值函数
├─ Policy Gradient → 直接学习策略
└─ Actor-Critic → 策略 + 价值同时学习

3.4 RL 在控制中的典型应用

应用 说明
寻找最优 PID 参数 用 RL 在线/离线搜索最优 Kp/Ki/Kd
端到端控制 直接从传感器到动作,绕过显式控制器
机器人行走/抓取 难以精确建模,RL 通过仿真学习策略
Sim2Real 仿真中训练,迁移到真实机器人

3.5 关键挑战

  • 样本效率低:需要大量交互数据
  • 安全性:探索过程中可能产生危险动作
  • Sim2Real 差距:仿真和真实系统不一致
  • 可解释性差:学到的策略很难分析
  • 稳定收敛:不是所有问题都能稳定学到好策略

3.6 在 MCU 上的情况

  • 训练:必须在 PC/服务器/仿真器上
  • 推理:小网络可以量化部署到 MCU
  • 通常:RL 策略运行在上位机,给 MCU 下发参考/参数/模式

4. 三种范式的关系

范式 模型需求 优化方式 典型运行位置
传统/现代控制 需要模型 解析推导或在线优化 MCU / 上位机
智能控制 低/无 规则或逼近 MCU(模糊)、上位机(神经网络)
强化学习 数据驱动试错 上位机 / 仿真器

5. 你应该怎么学这条线

必读(理解定位): - 三种范式各自的适用边界 - 模糊 PID 的基本原理 - 神经网络在控制中的三种角色 - MDP 和价值函数的基本概念 - RL 与动态规划的关系

选读(需要时再深入): - 模糊推理的具体算法 - 神经网络训练方法 - 具体 RL 算法(PPO、SAC、TD3 等)

不需要在 MCU 上手写的: - 复杂神经网络控制器 - RL 训练流程 - 大规模模糊推理系统


文档导航

主线文档 专题导论
00-学习路径指南.md 10-MCU与上位机的控制分层.md
03-PID控制算法原理与应用.md 11-现代控制与最优控制导论.md

评论