随着 RLHF 成为大模型对齐(Alignment)的核心技术之一,越来越多研究开始探索使用 AI Feedback(RLAIF) 替代昂贵的人类标注,以降低训练成本并提升可扩展性。
本文整理并调研了几种典型的 AI 反馈对齐方法,包括:
- RLAIF:使用 AI 标注器替代人类反馈进行强化学习
- RLAIF-V:通过原子陈述分解与视觉验证提升多模态模型可信度
- Self-Rewarding LLM:模型自生成数据并进行自评估形成训练信号
- Constitutional AI / CCAI:通过原则或公众输入指导模型行为
同时记录了这些方法在 偏好数据构造、LLM-as-a-Judge、DPO 训练 等关键环节中的实现思路。
本文作为一份 RLAIF 系列技术阅读笔记,重点总结不同 AI Feedback 方案的核心流程与差异。