Reinforcement Learning 强化学习

强化学习不是一种特定的具体算法,而是一类机器学习方法论。

Agent(代理人/机器人) 基于环境而行动,从而取得最大化的预期利益。

建模

类比到马尔可夫过程,强化学习建模后可拆分为以下几个部分:

  • 环境状态集合 S
  • 动作集合 A
  • 状态之间的转换规则 P
  • 奖励规则 R
  • Agent 可观察到的规则

从以上拆分可以看出来,环境、代理人、奖励是强化学习中重要的组成部分。

应用和直觉

强化学习即为用探索得到的样本来优化行为,使用近似方式逼近复杂环境。机器学习的目标是函数上的寻优,那么强化学习就是 Agent 根据对环境的观察来一步步渐近寻优。

所以,这种方式适用于以下环境:

  • 周边环境已知,但是无法用数学推导出解析解
  • 人为创建的模拟环境
  • Agent 必须要和环境互动才能获取信息

强化学习的主要算法

  • Value-Based Methods,基于价值的算法。使用 Critic 来给状态动作打分,代表是 Q-LearningDQN
  • Policy-Based Methods,基于策略的算法。训练一个 Actor,让 Actor 在环境中动作,然后根据分数反馈重新训练 Actor。代表为 PPO 等强化学习理论。