Group Relative Policy Optimization,群体相对策略优化
ref: 2402.03300
概述
问题:PPO 中 critic 的计算要使用模型生成评估。
而 GRPO 是对 PPO 进一步的简化、优化。即为用多次模拟的平均值取代 PPO 的价值函数。
其中
GRPO 为从 PPO 中替换了 的 critic ,用多次的评估成绩来评估平均的价值函数。计算的简化导致训练更加简单,更节约算力。
Group Relative Policy Optimization,群体相对策略优化
ref: 2402.03300
问题:PPO 中 critic 的计算要使用模型生成评估。
而 GRPO 是对 PPO 进一步的简化、优化。即为用多次模拟的平均值取代 PPO 的价值函数。
其中
GRPO 为从 PPO 中替换了 的 critic ,用多次的评估成绩来评估平均的价值函数。计算的简化导致训练更加简单,更节约算力。