学习分享

Lazy loaded imageMM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

建立一个有效的多模态模型需要: • 精心设计不同类型数据的占比。混合图文交错数据(interleaved image-text), 仅文本数据(text-only),image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。 • image encoder、image resolution、image token的大小对结果非常重要。 • vision language connector对performant的多模态模型不那么重要。
MM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力
YOLO-World技术小结

Lazy loaded imageData Filtering Network论文浅析

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式: • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”; • Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。
Data Filtering Network论文浅析
SigLIP技术小结
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解
Qwen-VL系列解析(一)——Qwen2-VL
Nougat 深度剖析
Segment Anything(SAM)