type
status
date
slug
summary
tags
category
icon
password
Author:Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
Org: DeepMind
Date:2022-03
1 main idea
作者发现目前的公开的LLM大多under-trained。为了探究计算资源(FLOPs)、模型大小(model size)、训练数据规模(training tokens)的关系。作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。
之前训练大模型的scale law主要参考OpenAI的《Scaling laws for neural language models》简单比较一下二者的观点。当计算资源增加10倍时OpenAI建议:model size扩大5.5倍,training token扩大1.8倍DeepMind建议:model size扩大3.09倍,training token扩大3.32倍
2 方法
2.1 问题建模
作者的研究问题建模如下:给定FLOPs,找到最优的模型参数与训练token数组合,使得最后的训练误差最小。
: 表示模型的参数
: 训练的token数量
: 最后的训练loss
: 计算资源
实验变量取值如下
变量 | 取值范围 |
model size | 70M - 16B (400+ language model) |
token数量 | 5B - 500B |
FLOPs | 6e18,1e19, 3e19,6e19,1e20,3e20,6e20,1e21,3e21 |
作者用平滑的训练误差作为评估指标。因为在作者的实验中训练的token数少于实际的语料数,此时平滑的训练误差是测试误差的无偏估计 原文: For simplicity, we perform our analysis on the smoothed training loss which is an unbiased estimate of the test loss, as we are in the infinite data regime (the number of training tokens is less than the number of tokens in the entire corpus).
2.2 实验
Approach1: 固定模型大小,仅变训练token数
作者对每一种大小的模型进行了4种不同数量的训练序列的训练。得到一系列的数据对,通过拟合得到:最优的模型参数量与计算资源的幂次方成正比;最优的训练tokens数量也和计算资源的幂次方成正比。
其中
Approach2: 固定训练FLOPs,改变模型参数量
作者固定FLOPs为:。在每一个FLOPs上分别训练的模型(token数并非固定,而是由模型大小和FLOPs共同决定)。来探究当训练预算有限时,训练多大的模型参数较为合适。通过对实验数据的整理和拟合,再一次得出
其中
Approach3: 拟合训练Loss
通过上述两个搜集的数据,来拟合loss。作者定义Loss与N, D的函数形式为。(为什么这么定义见论文附录SectionD.2)
为了估计,作者用Huber loss
通过最小化损失可以估计出最优的和(即 )。为了得到FLOPs和,的关系,此处作者将(Kaplan et al., 2020)提出的经验公式带入式(5),最后得到
其中
Result
作者从3个方向探索模型大小、token数量、训练时长的关系。得出如下结论:
当计算预算增加时,模型大小和训练数据量应该以大致相等的比例增加。
以下表的为例
当FLOPs从增加到时(6.52倍)根据式(2)
- 模型的参数量应当从400M提升到
- 训练的token数应当从7.7B提升到
最后作者用这个训练scale law训练chinchilla在多个指标上打败了多个LLM。此处不进行赘述。
最后作者用这个训练scale law训练chinchilla在多个指标上打败了多个LLM。此处不进行赘述。
- 作者:莫叶何竹🍀
- 链接:http://www.myhz0606.com/article/chinchilla
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章