随着 RLHF 和 GRPO 成为当前大模型对齐(LLM Alignment)的主流方法,模型能力的提升往往依赖于大量训练资源、高质量偏好数据以及复杂的强化学习流程。
Training-Free GRPO 提出了一种新的优化范式:在 不更新模型参数的情况下,通过 上下文学习(In-Context Learning)与经验库积累 持续提升 LLM Agent 的表现。
本文整理并解读了 Training-Free GRPO 的核心机制,包括 经验库构建、reward 评估、自我反思(introspection)以及 Agentic Context Engineering(ACE)框架。
同时对比了 RLHF / GRPO / RLAIF 等传统参数优化方法,分析了 Training-Free GRPO 在 计算成本、数据需求和持续学习能力 方面的优势与局限。