RLHF对大模型泛化性和多样性的影响

虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知,本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。

🏂diffusion model(九):EmuEdit技术小结

作者将intruction-base image editing任务建模为生成任务,并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务,并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力,引入learnable task embedding,能较好的解决上述问题。并且提出task inversion的训练方法,只需少量数据就能有效将模型扩展到新的task(类似textual inversion的思想)。

DeepMind: 训练LLM的scale law

作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。

🏂diffusion model(八):Dalle3技术报告小结

目前的文生图模型所生成的图片很难对应prompt的一些细节的描述,并且经常会忽视某些单词。作者假设造成生成与prompt不一致的原因是因为训练样本中image caption的噪声导致。针对上述问题,作者训练了一个image-captioner对之前训练样本的caption进行重写,随后重新训练text-to-image模型。

BLIP-2小结

BLIPv2主要从模态对齐、高效训练两个方向对图文多模态预训练任务(vision-and-language pre-training VLP)做出优化。在模态对齐上提出了一个轻量架构QFormer(querying transformer)来建立图像-文本的桥梁。在高效多模态训练上,结合QFormer提出一种二阶段预训练范式。在VQAv2任务上,仅用了倍Flamingo80B的训练数据,却带来8.7%精度提升