type
status
date
slug
summary
tags
category
icon
password
Org: DeepMind
Date:2022-03

1 main idea

作者发现目前的公开的LLM大多under-trained。为了探究计算资源(FLOPs)、模型大小(model size)、训练数据规模(training tokens)的关系。作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。
之前训练大模型的scale law主要参考OpenAI的《Scaling laws for neural language models》
简单比较一下二者的观点。当计算资源增加10倍时
OpenAI建议:model size扩大5.5倍,training token扩大1.8倍
DeepMind建议:model size扩大3.09倍,training token扩大3.32倍

2 方法

2.1 问题建模

作者的研究问题建模如下:给定FLOPs,找到最优的模型参数与训练token数组合,使得最后的训练误差最小。
: 表示模型的参数
: 训练的token数量
: 最后的训练loss
: 计算资源
实验变量取值如下
变量
取值范围
model size
70M - 16B (400+ language model)
token数量
5B - 500B
FLOPs
6e18,1e19, 3e19,6e19,1e20,3e20,6e20,1e21,3e21
作者用平滑的训练误差作为评估指标。因为在作者的实验中训练的token数少于实际的语料数,此时平滑的训练误差是测试误差的无偏估计 原文: For simplicity, we perform our analysis on the smoothed training loss which is an unbiased estimate of the test loss, as we are in the infinite data regime (the number of training tokens is less than the number of tokens in the entire corpus).

2.2 实验

Approach1: 固定模型大小,仅变训练token数

作者对每一种大小的模型进行了4种不同数量的训练序列的训练。得到一系列的数据对,通过拟合得到:最优的模型参数量与计算资源的幂次方成正比;最优的训练tokens数量也和计算资源的幂次方成正比。
其中
notion image

Approach2: 固定训练FLOPs,改变模型参数量

作者固定FLOPs为:。在每一个FLOPs上分别训练的模型(token数并非固定,而是由模型大小和FLOPs共同决定)。来探究当训练预算有限时,训练多大的模型参数较为合适。通过对实验数据的整理和拟合,再一次得出
其中
notion image

Approach3: 拟合训练Loss

通过上述两个搜集的数据,来拟合loss。作者定义Loss与N, D的函数形式为。(为什么这么定义见论文附录SectionD.2)
为了估计,作者用Huber loss
通过最小化损失可以估计出最优的(即 )。为了得到FLOPs和的关系,此处作者将(Kaplan et al., 2020)提出的经验公式带入式(5),最后得到
其中
notion image

Result

作者从3个方向探索模型大小、token数量、训练时长的关系。得出如下结论:
当计算预算增加时,模型大小和训练数据量应该以大致相等的比例增加。
以下表的为例
当FLOPs从增加到时(6.52倍)根据式(2)
  • 模型的参数量应当从400M提升到
  • 训练的token数应当从7.7B提升到
最后作者用这个训练scale law训练chinchilla在多个指标上打败了多个LLM。此处不进行赘述。
notion image
最后作者用这个训练scale law训练chinchilla在多个指标上打败了多个LLM。此处不进行赘述。
相关文章
BLIP系列文章小结(BLIP, BLIP-2, InstructBLIP)
Lazy loaded image
BLIP-2小结
Lazy loaded image
BLIP 小结
Lazy loaded image
BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)
Lazy loaded image
MM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)
Lazy loaded image
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力
Lazy loaded image
Segment Anything(SAM)LoRA: 微调大模型的一种轻量级方法
Loading...
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
Nougat 深度剖析
2025-3-18
表格结构还原——SLANet
2025-2-27
KV-Cache技术小结(MHA,GQA,MQA,MLA)
2025-2-24
diffusion model(十九) :SDE视角下的扩散模型
2024-12-31
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力
2024-11-22
RNN并行化——《Were RNNs All We Needed?》论文解读
2024-11-21