使用 MS-Swift 微调 mPLUG-Owl3-7B：完整流程指南

在多模态大模型的发展中，视觉语言模型（LVLMs）显示了强大的视觉理解能力，但也面临着严重的Hallucination，特别是在多对象识别任务中。本篇笔记基于《Multi-Object Hallucination in Vision-Language Models》，深入探讨了LVLMs在同时处理多个对象时产生的幻觉现象及其原因。本篇笔记介绍了论文提出的“基于识别的对象探测评估”（ROPE）方法，这是一种全新的评估协议，用于精确分析模型在多对象场景下的表现。此外，我还总结了作者关于数据分布、模型特性等如何影响幻觉行为的关键发现。通过这篇笔记，希望能为多模态大模型的幻觉问题提供启示，为未来的改进方向带来更多思考。

展开全文 >>

ShareGPT4V数据集及其应用

2024-11-01

2k字 | 预计阅读时长: 7min

在这篇笔记中，我详细记录了关于论文《ShareGPT4V: Improving Large Multi-Modal Models with Better Captions》的阅读心得。该论文通过引入一个创新性的高质量图像描述数据集——ShareGPT4V，在大规模多模态模型中实现了显著性能提升。ShareGPT4V数据集包含超过百万条详细且多样化的图像描述，与现有的数据集相比，不仅增强了模型的视觉-文本模态对齐效果，还显著提高了在多个基准测试中的表现。

展开全文 >>

MUIRBENCH：突破单图像限制的多图像理解基准测试

2024-10-31

3k字 | 预计阅读时长: 10min

在多模态学习和图像理解领域，传统的基准测试多聚焦于单图像场景，忽略了多图像信息整合的复杂性。《MUIRBENCH: A Comprehensive Benchmark for Robust Multi-image Understanding》一文引入了MUIRBENCH，一个专为评估多图像理解能力而设计的全新基准，涵盖了丰富的图像关系和任务类别。本篇笔记将深入解析MUIRBENCH如何推动多模态大模型在多图像推理上的进展，并揭示现有模型的不足之处与未来改进的方向。

展开全文 >>

多模态图像差异数据集 Img-Diff 的构建与应用

2024-10-30

2.8k字 | 预计阅读时长: 10min

本篇阅读笔记梳理了《Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models》这篇论文的核心内容。论文提出了一个名为 Img-Diff 的数据集，专注于通过生成具有“物体替换”特征的相似图像对，来提升多模态大模型在细微图像差异识别任务中的表现。本篇笔记详细记录了论文中的数据集构建方法、对比学习的创新性应用，以及 Img-Diff 在视觉问答和图像差异识别基准测试中的显著提升效果。

展开全文 >>

跨任务迁移与多模态学习：LLaVA-NeXT-Interleave的多图像场景研究

2024-10-28

2.9k字 | 预计阅读时长: 10min

这篇文章的主要贡献是介绍了LLaVA-NeXT-Interleave模型，该模型旨在解决多模态模型在多图像（multi-image）、多帧（视频）、3D场景和单图像任务上的通用适应性。其核心创新在于提出一种交错（interleave）数据格式，使模型能够在多种视觉任务间灵活适应，并实现跨任务的迁移能力。

展开全文 >>

自驾车事故推理理解：AdVersa-SD与MM-AU数据集解析

2024-10-27

3.2k字 | 预计阅读时长: 10min

本篇笔记解析了论文《Abductive Ego-View Accident Video Understanding for Safe Driving Perception》的核心内容，重点介绍了自驾车事故视频理解领域的最新进展，包括 MM-AU 数据集的构建、基于 AdVersa-SD 框架的事故原因推理方法，以及如何利用视频与文本的多模态数据，推断和预测潜在事故。

展开全文 >>