BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

虽然过去BLIP系列对LMM发展起到至关重要的作用,但从效果上来说,已经远落后于当下的SOTA模型,主要有一下3点原因: 1)数据上,训练数据数量少、质量不高、多样性不强。 2)训练策略上,多个stage(`ITM`,`ITC`, `ITG`)训练流程冗长,up scale的训练开销大 3)模型架构上,`BLIP`系列仅支持单图输入,应用范围相对较窄 BLIP3针对以上3个方面进行改进: 1)数据上,构造了更大的、质量更高、多样性更强的数据集。 2)训练策略上,提出3 stage 的训练范式,并统一用next token prediction作为训练目标目标,提升训练效率和模型效果。 3)模型架构上,支持交错图文输入。

MM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

建立一个有效的多模态模型需要: • 精心设计不同类型数据的占比。混合图文交错数据(interleaved image-text), 仅文本数据(text-only),image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。 • image encoder、image resolution、image token的大小对结果非常重要。 • vision language connector对performant的多模态模型不那么重要。

RLHF对大模型泛化性和多样性的影响

虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知,本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。

DeepMind: 训练LLM的scale law

作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。

BLIP-2小结

BLIPv2主要从模态对齐、高效训练两个方向对图文多模态预训练任务(vision-and-language pre-training VLP)做出优化。在模态对齐上提出了一个轻量架构QFormer(querying transformer)来建立图像-文本的桥梁。在高效多模态训练上,结合QFormer提出一种二阶段预训练范式。在VQAv2任务上,仅用了倍Flamingo80B的训练数据,却带来8.7%精度提升

LoRA: 微调大模型的一种轻量级方法

常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式,其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路,使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B,取代更新原有权重W。