GRPO

Group Relative Policy Optimization，群体相对策略优化

一则 PPO 的优化方案，同属于 RL 的 PO 范畴。

ref: 2402.03300

概述

问题：PPO 中 critic 的计算要使用模型生成评估。

而 GRPO 是对 PPO 进一步的简化、优化。即为用多次模拟的平均值取代 PPO 的价值函数。

J_{GRPO} (θ) = E [i = 1 \sum G (min (\frac{π _{θ} ( o _{i} )}{π _{θ_{old}} ( o _{i} )} A_{i}, clip (\frac{π _{θ} ( o _{i} )}{π _{θ_{old}} ( o _{i} )}, 1 - ε, 1 + ε) A_{i}) - β D_{K L} (π_{θ} ∥ π_{ref}))],

其中

A_{i} = \frac{r _{i} - mean ( { r _{1} , r _{2} , \dots , r _{G} } )}{std ( { r _{1} , r _{2} , \dots , r _{G} } )}

GRPO 为从 PPO 中替换了 $A_{i}$ 的 critic ，用多次的评估成绩来评估平均的价值函数。计算的简化导致训练更加简单，更节约算力。