Reinforcement Learning 强化学习
强化学习不是一种特定的具体算法,而是一类机器学习方法论。
Agent(代理人/机器人) 基于环境而行动,从而取得最大化的预期利益。
建模

类比到马尔可夫过程,强化学习建模后可拆分为以下几个部分:
- 环境状态集合 S
- 动作集合 A
- 状态之间的转换规则 P
- 奖励规则 R
- Agent 可观察到的规则
从以上拆分可以看出来,环境、代理人、奖励是强化学习中重要的组成部分。
应用和直觉
强化学习即为用探索得到的样本来优化行为,使用近似方式逼近复杂环境。机器学习的目标是函数上的寻优,那么强化学习就是 Agent 根据对环境的观察来一步步渐近寻优。
所以,这种方式适用于以下环境:
- 周边环境已知,但是无法用数学推导出解析解
- 人为创建的模拟环境
- Agent 必须要和环境互动才能获取信息
强化学习的主要算法
- Value-Based Methods,基于价值的算法。使用 Critic 来给状态动作打分,代表是 Q-Learning 与 DQN
- Policy-Based Methods,基于策略的算法。训练一个 Actor,让 Actor 在环境中动作,然后根据分数反馈重新训练 Actor。代表为 PPO 等强化学习理论。