多模态 | 标签 | 莫叶何竹🍀

BLIP系列文章小结（BLIP, BLIP-2, InstructBLIP）

文本系统梳理了BLIP多模态系列论文BLIP, BLIP-2, InstructBLIP

BLIP-2小结

BLIPv2主要从模态对齐、高效训练两个方向对图文多模态预训练任务（vision-and-language pre-training VLP）做出优化。在模态对齐上提出了一个轻量架构QFormer（querying transformer）来建立图像-文本的桥梁。在高效多模态训练上，结合QFormer提出一种二阶段预训练范式。在VQAv2任务上，仅用了倍Flamingo80B的训练数据，却带来8.7%精度提升

多模态

大模型

BLIP 小结

BLIP这篇文章提出一种boostrapping caption的方案来“提纯”带噪声web datasets，从而进一步提升多模态模型的能力。

大模型

多模态

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

虽然过去BLIP系列对LMM发展起到至关重要的作用，但从效果上来说，已经远落后于当下的SOTA模型，主要有一下3点原因： 1）数据上，训练数据数量少、质量不高、多样性不强。 2）训练策略上，多个stage（`ITM`，`ITC`， `ITG`）训练流程冗长，up scale的训练开销大 3）模型架构上，`BLIP`系列仅支持单图输入，应用范围相对较窄 BLIP3针对以上3个方面进行改进： 1）数据上，构造了更大的、质量更高、多样性更强的数据集。 2）训练策略上，提出3 stage 的训练范式，并统一用next token prediction作为训练目标目标，提升训练效率和模型效果。 3）模型架构上，支持交错图文输入。

多模态

大模型

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

minigpt4系列小结

minigpt4系列实现技术小结

多模态

MM1技术小结（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

建立一个有效的多模态模型需要： • 精心设计不同类型数据的占比。混合图文交错数据（interleaved image-text）, 仅文本数据（text-only），image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。 • image encoder、image resolution、image token的大小对结果非常重要。 • vision language connector对performant的多模态模型不那么重要。

多模态

大模型

MM1技术小结（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

CLIP相关论文泛读

clip相关的一些论文泛读

多模态

CLIP

表征学习

Data Filtering Network论文浅析

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式： • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”； • Stage2: 用DFN清洗后的数据训练induced model （即CLIP）。“data-pool → DFN (trained)→ induced dataset → induced model”。

CLIP

多模态

表征学习

SigLIP技术小结

sigmoid-based contrastive learning从经典的softmax-based contrastive learning的“pick the right class”转化为“rate this pair”。这个转化实现了compute efficient和memory efficient，并在实验中证明，siglip在小batch下（低于32k）更具优势。

CLIP

多模态

表征学习

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解

本文详细介绍了目前多模态任务中常用的两种处理任意分辨率的技术tiling，packing

多模态

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)

补充部分公式推导

多模态

莫叶何竹🍀

非淡泊无以明志，非宁静无以致远