MM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)学习分享建立一个有效的多模态模型需要: • 精心设计不同类型数据的占比。混合图文交错数据(interleaved image-text), 仅文本数据(text-only),image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。 • image encoder、image resolution、image token的大小对结果非常重要。 • vision language connector对performant的多模态模型不那么重要。2024-6-17 多模态 大模型
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力学习分享固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了是图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.2023-2-28 Google cvpr 大模型
YOLO-World技术小结学习分享这篇文章从计算效率的角度解决开集目标检测问题(open-vocabulary object detection,OVD)。2024-2-21 开集目标检测 YOLO 目标检测
Data Filtering Network论文浅析学习分享文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式: • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”; • Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。2024-8-27 CLIP 多模态 表征学习
SigLIP技术小结学习分享sigmoid-based contrastive learning从经典的softmax-based contrastive learning的“pick the right class”转化为“rate this pair”。这个转化实现了compute efficient和memory efficient,并在实验中证明,siglip在小batch下(低于32k)更具优势。2024-9-27 CLIP 多模态 表征学习
🐮Nougat 深度剖析学习分享提出了一种全新的端到端的OCR模型,该模型基于自回归的方法,旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。2023-8-5 大模型 版面恢复 ocr
Segment Anything(SAM)学习分享近日,MetaAI团队开源了一个用于分割的10亿个masks,1100w张图片数据集SA-1B。并开开源了基于此数据集训练的模型。这应该是目前CV分割领域最强的基础模型。2023-4-10 大模型 图像分割
DeepMind: 训练LLM的scale law学习分享作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。2023-11-15 deepmind 大模型
LoRA: 微调大模型的一种轻量级方法学习分享常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式,其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路,使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B,取代更新原有权重W。2023-3-1 大模型 peft