Group Relative Policy Optimization,群体相对策略优化

一则 PPO 的优化方案,同属于 RL 的 PO 范畴。

ref: 2402.03300

概述

问题:PPO 中 critic 的计算要使用模型生成评估。

而 GRPO 是对 PPO 进一步的简化、优化。即为用多次模拟的平均值取代 PPO 的价值函数。

其中

GRPO 为从 PPO 中替换了 的 critic ,用多次的评估成绩来评估平均的价值函数。计算的简化导致训练更加简单,更节约算力。