Training-Free GRPO

2026-03-07

1.7k字 | 预计阅读时长: 6min

随着 RLHF 和 GRPO 成为当前大模型对齐（LLM Alignment）的主流方法，模型能力的提升往往依赖于大量训练资源、高质量偏好数据以及复杂的强化学习流程。
Training-Free GRPO 提出了一种新的优化范式：在 不更新模型参数的情况下，通过 上下文学习（In-Context Learning）与经验库积累 持续提升 LLM Agent 的表现。

本文整理并解读了 Training-Free GRPO 的核心机制，包括 经验库构建、reward 评估、自我反思（introspection）以及 Agentic Context Engineering（ACE）框架。
同时对比了 RLHF / GRPO / RLAIF 等传统参数优化方法，分析了 Training-Free GRPO 在 计算成本、数据需求和持续学习能力 方面的优势与局限。

展开全文 >>

RLAIF及相关技术调研

2026-03-06

1.5k字 | 预计阅读时长: 5min

随着 RLHF 成为大模型对齐（Alignment）的核心技术之一，越来越多研究开始探索使用 AI Feedback（RLAIF） 替代昂贵的人类标注，以降低训练成本并提升可扩展性。

本文整理并调研了几种典型的 AI 反馈对齐方法，包括：

RLAIF：使用 AI 标注器替代人类反馈进行强化学习
RLAIF-V：通过原子陈述分解与视觉验证提升多模态模型可信度
Self-Rewarding LLM：模型自生成数据并进行自评估形成训练信号
Constitutional AI / CCAI：通过原则或公众输入指导模型行为

同时记录了这些方法在 偏好数据构造、LLM-as-a-Judge、DPO 训练 等关键环节中的实现思路。

本文作为一份 RLAIF 系列技术阅读笔记，重点总结不同 AI Feedback 方案的核心流程与差异。

展开全文 >>

VSCode PowerShell 设置 UTF-8 编码之最简单方法

2025-08-01

312字 | 预计阅读时长: 1min

在使用 VSCode 的 PowerShell 终端时，经常会遇到中文输出乱码的问题。

网上常见的解决办法包括：修改系统默认编码、修改 VSCode 配置文件、甚至修改注册表等，这些方法不仅繁琐，而且可能带来额外风险。

实际上，只需要一行命令，就可以临时让当前 PowerShell 终端使用 UTF-8 编码，无需修改系统设置。

展开全文 >>

12天速通GRE321+3.5经验总结

2025-07-22

1.7k字 | 预计阅读时长: 6min

12天备考，日均 4h 学习时长

第一天模考 142 + 158 = 300，考前一天模考 139 + 167 = 306

首考 2025.7.11 ETS北京考试中心

Verbal: 151

Quantitative: 170

Writing: 3.5

此处记录个人备考过程、经验总结，以及四处学习到的经验，仅供参考

展开全文 >>

使用 MS-Swift 微调 mPLUG-Owl3-7B：完整流程指南

2025-03-11

719字 | 预计阅读时长: 3min

在本篇博客中，我将记录自己使用 MS-Swift 框架微调 mPLUG-Owl3-7B 模型的全过程。

mPLUG官方提供的微调文档并不可行，存在问题。

展开全文 >>

CS Learning Compass at BUPT 巴普特学习指北🧭

2025-01-23

3.9k字 | 预计阅读时长: 13min

持续更新中…
个人在北邮计科本科学习时的部分思考总结，仅供参考，包不负责的🤗😶‍🌫️

展开全文 >>

My IELTS Writing Study Notes

2024-12-26

1.6k字 | 预计阅读时长: 7min

个人备考IELTS过程中记录的写作学习笔记。

展开全文 >>

学习/工作时期内雅思7.0备考指北

2024-12-26

2.7k字 | 预计阅读时长: 10min

2024.12.1 北理工考点机考

Overall Band Score: 7.0

Lsitening: 7.0 + Reading: 7.5 + Writing: 7.0 + Speaking: 6.0

此处记录个人备考过程、经验总结，以及四处学习到的经验，仅供参考

展开全文 >>

探索多模态视觉语言模型中的Multi-Object Hallucination

2024-11-02

1.8k字 | 预计阅读时长: 6min

在多模态大模型的发展中，视觉语言模型（LVLMs）显示了强大的视觉理解能力，但也面临着严重的Hallucination，特别是在多对象识别任务中。本篇笔记基于《Multi-Object Hallucination in Vision-Language Models》，深入探讨了LVLMs在同时处理多个对象时产生的幻觉现象及其原因。本篇笔记介绍了论文提出的“基于识别的对象探测评估”（ROPE）方法，这是一种全新的评估协议，用于精确分析模型在多对象场景下的表现。此外，我还总结了作者关于数据分布、模型特性等如何影响幻觉行为的关键发现。通过这篇笔记，希望能为多模态大模型的幻觉问题提供启示，为未来的改进方向带来更多思考。

展开全文 >>

ShareGPT4V数据集及其应用

2024-11-01

2k字 | 预计阅读时长: 7min

在这篇笔记中，我详细记录了关于论文《ShareGPT4V: Improving Large Multi-Modal Models with Better Captions》的阅读心得。该论文通过引入一个创新性的高质量图像描述数据集——ShareGPT4V，在大规模多模态模型中实现了显著性能提升。ShareGPT4V数据集包含超过百万条详细且多样化的图像描述，与现有的数据集相比，不仅增强了模型的视觉-文本模态对齐效果，还显著提高了在多个基准测试中的表现。

展开全文 >>