RL

Reinforcement Learning 强化学习

强化学习不是一种特定的具体算法，而是一类机器学习方法论。

Agent（代理人/机器人）基于环境而行动，从而取得最大化的预期利益。

建模

类比到马尔可夫过程，强化学习建模后可拆分为以下几个部分：

从以上拆分可以看出来，环境、代理人、奖励是强化学习中重要的组成部分。

强化学习即为用探索得到的样本来优化行为，使用近似方式逼近复杂环境。机器学习的目标是函数上的寻优，那么强化学习就是 Agent 根据对环境的观察来一步步渐近寻优。

所以，这种方式适用于以下环境：

Value-Based Methods，基于价值的算法。使用 Critic 来给状态动作打分，代表是 Q-Learning 与 DQN
Policy-Based Methods，基于策略的算法。训练一个 Actor，让 Actor 在环境中动作，然后根据分数反馈重新训练 Actor。代表为 PPO 等强化学习理论。