学习分享 | 分类 | 莫叶何竹🍀

学习分享

minigpt4系列小结

minigpt4系列实现技术小结

MM1技术小结（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

建立一个有效的多模态模型需要： • 精心设计不同类型数据的占比。混合图文交错数据（interleaved image-text）, 仅文本数据（text-only），image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。 • image encoder、image resolution、image token的大小对结果非常重要。 • vision language connector对performant的多模态模型不那么重要。

多模态

大模型

MM1技术小结（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力

固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了是图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.

Google

cvpr

大模型

YOLO-World技术小结

这篇文章从计算效率的角度解决开集目标检测问题（open-vocabulary object detection，OVD）。

开集目标检测

YOLO

目标检测

CLIP相关论文泛读

clip相关的一些论文泛读

多模态

CLIP

表征学习

Data Filtering Network论文浅析

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式： • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”； • Stage2: 用DFN清洗后的数据训练induced model （即CLIP）。“data-pool → DFN (trained)→ induced dataset → induced model”。

CLIP

多模态

表征学习

SigLIP技术小结

sigmoid-based contrastive learning从经典的softmax-based contrastive learning的“pick the right class”转化为“rate this pair”。这个转化实现了compute efficient和memory efficient，并在实验中证明，siglip在小batch下（低于32k）更具优势。

CLIP

多模态

表征学习

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解

本文详细介绍了目前多模态任务中常用的两种处理任意分辨率的技术tiling，packing

多模态

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)

补充部分公式推导

多模态

🐮Nougat 深度剖析

提出了一种全新的端到端的OCR模型，该模型基于自回归的方法，旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。

大模型

版面恢复

ocr

Segment Anything(SAM)

近日，MetaAI团队开源了一个用于分割的10亿个masks，1100w张图片数据集SA-1B。并开开源了基于此数据集训练的模型。这应该是目前CV分割领域最强的基础模型。

大模型

图像分割

DeepMind: 训练LLM的scale law

作者通过400个不同大小语言模型在5B-50B数据训练不同的时长，来探究LLM的scale law。实验发现，model size和training tokens应当scale equally，如：当model size扩大一倍，training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla，在多个任务上实现SOTA。

deepmind

大模型

1 2 3 4 5

莫叶何竹🍀

非淡泊无以明志，非宁静无以致远