学习分享

Lazy loaded imageMM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

建立一个有效的多模态模型需要: • 精心设计不同类型数据的占比。混合图文交错数据(interleaved image-text), 仅文本数据(text-only),image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。 • image encoder、image resolution、image token的大小对结果非常重要。 • vision language connector对performant的多模态模型不那么重要。
MM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力
YOLO-World技术小结

Lazy loaded imageData Filtering Network论文浅析

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式: • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”; • Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。
Data Filtering Network论文浅析
SigLIP技术小结
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解
Nougat 深度剖析
Segment Anything(SAM)

Lazy loaded imageDeepMind: 训练LLM的scale law

作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。
DeepMind: 训练LLM的scale law