莫叶何竹🍀

KV-Cache技术小结（MHA,GQA,MQA,MLA)

Wed, 19 Feb 2025 16:00:00 GMT

个人博客位置： http://myhz0606.com/article/kv-cache

1 背景

KV-cache技术是目前LLM，VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比，是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA (Group Query Attention)，MQA (Multi Query Attention)，MLA (Multi-Head Latent Attention)是目前常用的方法。本文将从经典的casual attention出发，阐述kv-cache的必要性，及目前常见优化kv-cache的手段。

TL,DR

image from deepseekv2 tech report

不同attention方法 KV cache的存储单元数量

ㅤ	KV-cache	存储单元数量
Casual Attention
`MHA`
`GQA`
`MQA`
`MLA`

2 经典Casual-Attention的KV-Cache工作机制

假定当前层attention的输入为为sequence的长度。通过3个线性层得到query ，key，value。

随后通过标准的casual attention机制，得到输出。

在训练阶段，为了通过teaching forcing技巧进行并行化训练，引入一个causal mask ，来保证位置的token只看的到的token。这个阶段没有kv-cache。

在生成阶段。token是按序生成，在模型内部体现在的每一行是依次输出的。

对于第一个token的生成只依赖,第二个token的生成只依赖，依次类推。

对每一个，attention的计算如下

如果考虑位置编码，上式写改写为,表示位置编码函数

从上面的计算流程不难看出，的生成只依赖当前位置的query,依赖前面所有位置的key和value。为了得到最naive的做法是：生成位置的token时，将作为Attention的输入，以此保证能够被正确计算。Naive的做法没有kv-cache。

但从上面的计算流程我们不难看出，需要的中已经在的计算中被计算。因此可以能把算好的保存起来，在位置只需计算，再与前面的进行拼接就可以得到。这样大大减少了冗余的计算量。这就是kv-cache的核心motivation。（公式中被“框起来”的部分是可以cache的。）

用kv-cache的生成思路，

生成第个token时，此时attention层输入，输出。是缓存的kv-cache 生成第个token时，此时attention层输入，输出 … 生成第个token时，此时attention层输入，输出 …

kv-cache能够显著降低attention的计算量，但随着生成token的增多，kv-cache所需的存储成本呈线性增加，导致GPU的显存成为生成长度的瓶颈。

3 Multi-Head Attention（`MHA`） KV-Cache工作机制

paper: https://arxiv.org/pdf/1706.03762

MHA是上面的一个推广。假定MHA的输入为为sequence的长度。假定有个head，每个head投影的维度为

通过线性层的矩阵计算，得到不同head下的

表示head query矩阵在序列位置为处的向量，其他符号记法类似。

在生成阶段每一个head经过attention计算后的位置的输出如下（依序生成）,

循环Attention head ,可以计算所有head 时刻的输出最后将不同head的输出进行拼接，得到最终的输出

对于MHA而言，的计算缓存的kv-cache为

4 Group Query Attention（`GQA`） KV-Cache工作机制

paper: https://arxiv.org/pdf/2305.13245

GQA的attention计算机制与MHA一致。有所区别的是，GQA为了降低KV-Cache的存储，将attention的head分为了组，同一组共享kv-cache。

是向上取整符号。若,那么共享这个group的key，value。

同样，在生成阶段依序生成。每一个head经过attention计算后的位置的输出如下,

Loop Attention head ,可以计算所有head 时刻的输出最后将不同head的输出进行拼接，得到最终的输出

对于GQA而言，的计算缓存的kv-cache为 ,相比标准的MHA，KV-cache降低了倍

5 Multi Query Attention（`MQA`） KV-Cache工作机制

paper: https://arxiv.org/pdf/1911.02150

MQA是GQA的一个特例。当时，即所有head的query共享同一组key, value，此时的GQA成为MQA。

对于MQA而言，的计算缓存的kv-cache为 ,相比标准的MHA，KV-cache降低了倍。

6 Multi-Head Latent Attention (MLA)的工作机制

MLA是deepseek提出的一项针对kv-cache的优化。

paper: https://arxiv.org/abs/2405.04434

（一）先抛开位置编码

假定MLA的输入为为sequence的长度。假定有个head，每个head投影的维度为。初步来看未引入位置编码的MLA像是引入了一个低秩分解矩阵(类似LoRA的做法)的MHA

head 的Q,K,V计算过程如下

矩阵维度变换说明

ㅤ	dimension
（下标kv表示key-value的compress latent编码投影矩阵，`/A`类比LORA的A矩阵)
（`/B` 类比LORA的B矩阵， ``)表示attention第个head


（上标q表示 query的compress latent code）
（表示 key-value的compress latent code）

在生成阶段,每一个head经过attention计算后的位置的输出如下（依序生成)

式（9）和MHA的generate阶段的形式相同，当然可以通过缓存实现kv-cache。

但MLA提供了一个新的方法（式10），只需要缓存即可，相比原始方法的kv-cache的存储单元数量从降低到。但这个方法需要引入两个矩阵乘法的计算量。因为不大，引入的计算量是可以接受的。（还有一种更为巧妙的方法能规避计算量增加的问题，在（二）中介绍）

（二）引入位置编码的MLA

这个形式也是deepseek论文中提出的形式。有了上面的基础，再理解就很简单了。同样假定MLA的输入为为sequence的长度。假定有个head，每个head投影的维度为

head 的Q,K,V计算过程如下

矩阵维度变换说明

ㅤ	dimension
(下标kv表示key-value的compress latent编码投影矩阵，`/A`类比LORA的A矩阵)
(`/B` 类比LORA的B矩阵， ``)表示attention第个head




（上标q表示 query的compress latent code）
（表示 key-value的compress latent code）
（上标C表示compression的首字母“C”）	(不含位置编码的query)
（上标R是RoPE的`R`）	(包含位置编码的query)

从式14可见，加了位置编码的MLA相比无位置编码的情形多缓存了一个。这里需要注意，对于所有attention head是共享的（类似MQA）。

此时KV-cache需要缓存的存储单元数量为

与不加位置编码的情形一致，这个方法推理时需要引入两个矩阵乘法的计算量，和。不妨对式（14）再次进行变形，可以看到MLA 又一巧妙的设计

从式（15）可见，在推理时，可以预先合并为1个矩阵，同理也可以和随后的线性层的权重进行合并。但计算量的降低主要与矩阵乘法的计算顺序改变导致：

计算次序	element-level乘法执行次数

维度说明：

7 小结

文本详细介绍了kv-cache原理，及降低kv-cache存储成本目前常用的MQA，GQA，MLA方法。如有疏漏之处，敬请指出。

image from deepseekv2 tech report

不同attention方法 KV cache的存储单元数量

ㅤ	KV-cache	存储单元数量
Casual Attention
`MHA`
`GQA`
`MQA`
`MLA`

表格结构还原——SLANet

Thu, 23 Jan 2025 16:00:00 GMT

paper	https://arxiv.org/abs/2210.05391
github	https://github.com/PaddlePaddle/PaddleOCR/tree/main
个人博客位置	https://myhz0606.com/article/slanet

1 Main Idea

SLANet 是一个轻量级的表格结构识别模型。它将表格结构识别任务建模为序列标注，以自回归的方式预测表格的html序列和单元格位置。

2 Method

2.1 整体架构

SLANet包含3个组件：backbone，neck，head。

Backbone: SLANet采用轻量级backbonePP-LCNet作为体征提取器，提取多尺度（不同stage）的特征。输入图片尺寸为，经过PP-LCNet 后，输出的多尺度特征：

Neck : SLANet 采用CSP-PAN 将backbone提取的多尺度特征进行融合。输入多尺度特征输出融合后的特征尺度为

Head : SLANet 采用GRU+Attention的形式来递归生成表格的html序列和单元格位置。

2.2 SLANet损失函数

从模型架构可见，SLANet有两个预测分支，分别预测表格的HTML序列和对应单元格的位置。HTML序列以分类任务的交叉熵损失进行监督，单元格位置以回归任务的smooth-L1损失训练监督。二者联合训练，总loss为二者的加权叠加。

注意：仅计算HTML序列为单元格处的单元格回归损失。代码中的实现是，仅当序列预测为 '', '' 是计算回归损失。

2.3 `SLANet`的标签体系介绍

SLANet的标签体系主要参考TableMaster。英文表格标签体系如下表所示。值得说明的点

引入来模拟空白单元格

引入 用于和rowspan，colpan来拼接，便于处理合并单元格的情况。

label id	label name	说明
0	`sos`	sequence起始符
1
表格标题标记（始）
2
表格行标记（始）
3		表格单元格标记（终）
4
表格行标记（始）
5
格标题标记（终）
6
组合 HTML 表格的主体内容（始）
7
组合 HTML 表格的主体内容（终）
8		表格单元格标记（始），少右尖括号是为了拼接跨行，或跨列
9	`colspan=\"5\`	单元格跨5列
10	`>`	ㅤ
11	`colspan=\"2\`	单元格跨2列
12	`colspan=\"3\`	单元格跨3列
13	`rowspan=\"2\`	单元格跨2行
14	`colspan=\"4\`	单元格跨4列
15	`colspan=\"6\`	单元格跨6列
16	`rowspan=\"3\`	单元格跨3行
17	`colspan=\"9\`	单元格跨9列
18	`colspan=\"10\`	单元格跨10列
19	`colspan=\"7\`	单元格跨7列
20	`rowspan=\"4\`	单元格跨4行
21	`rowspan=\"5\`	单元格跨5行
22	`rowspan=\"9\`	单元格跨9行
23	`colspan=\"8\`	单元格跨8列
24	`rowspan=\"8\`	单元格跨8行
25	`rowspan=\"6\`	单元格跨6行
26	`rowspan=\"7\`	单元格跨7行
27	`rowspan=\"10\`	单元格跨10行
28			空白单元格
29	`eos`	sequence终止符

2.4 如何合并OCR的结果做表格结构还原

从前文可知，SLANet的识别结果只有表格的HTML序列信息，和单元格的坐标信息。完整的表格结构还原还需要单元格内部的文本信息。因此需要额外引入一个OCR引擎来识别表格内部的文本位置和文本标记。最后将他们进行匹配。

举个🌰

下图为SLANet的识别结果（包含表格的HTML序列和单元格坐标）

下图为OCR引擎的识别结果（包含表格中的文本框坐标，识别结果）

最后通过匹配算法将两个结果进行结合，最终得到完整的表格结果还原结果。

匹配算法的核心思路：将OCR的文本框分配给单元格。分配机制：先分配iou 大的，剩余的就近分配。具体可见代码。

3 小结

SLANet 是一个轻量级的表格结构识别模型，将表格结构识别任务建模为序列标注任务，通过自回归方式预测表格的HTML序列和单元格位置。

模型由三部分组成：Backbone采用轻量级 PP-LCNet 提取多尺度特征。Neck使用 CSP-PAN 融合多尺度特征。Head：基于 GRU 和 Attention 机制递归生成HTML序列和单元格位置。

损失函数结合了HTML序列的分类损失（交叉熵）和单元格位置的回归损失（Smooth-L1），联合训练优化。标签体系参考 TableMaster，引入特殊标签（如和 ）处理空白单元格和合并单元格情况。

最后介绍了完整的表格结构还原链路。



diffusion model(十九) ：SDE视角下的扩散模型
Tue, 31 Dec 2024 00:00:00 GMT
前置知识：
DDPM: http://myhz0606.com/article/ddpm
SMLD: http://myhz0606.com/article/ncsn
1 背景
生成模型期望将未知的数据分布与已知的先验分布建立起映射关系，从而实现从先验分布采样，映射到数据分布样本点，实现图片生成。生成模型通常包含两个过程：
1）前向过程
已知原始数据分布样本点，通过自定的规则，获取其对应的先验分布样本点。即为定义的映射规则。前向过程一般用于构造训练所用的pair数据集。
2）后向过程
从先验分布采样数据点，通过训练好的生成模型得到服从原始数据分布的样本点。即为生成模型。理想情况下，。
目前基于diffusion model的生成模型也和上述两个过程类似，只是将原始数据分布到先验分布的转移分成了多个时间步，可以视作2个随机过程。
SongYang博士从Itô型随机微分方程（Stochastic Differential Equation）的角度对扩散模型的前向、后向过程进行建模，并用该理论框架统一了DDPM][1]和SMLD[2]，下面来看SDE是如何统一DDPM和SMLD！
2 Itô型SDE视角下的diffusion model
在深入介绍Itô型SDE 前，有必要先介绍一下布朗运动。
2.1 布朗运动Intro
布朗运动名于英国植物学家Robert Brown。1827年，Brown在用显微镜观察悬浮在水中的花粉时发现浸没在溶液中的微小粒子受到水分子连续撞击呈现出不规则运动。
1905年，爱因斯坦建立了布朗运动的分子理论，并开启了用随机过程描述自然现象的数理科学发展方向。
之后，Wiener对布朗运动做了大量的数学研究，对布朗运动的轨道性质进行了深入分析，提出了布朗运动上的Wiener积分，这为随机过程和随机积分的发展作出了巨大贡献。
1951年，Itô发表论文[3]创立了关于布朗运动的Itô型随机微分方程（式2）。该论文对随机微分方程的发展具有划时代的意义[1,2]。
式中：
称为漂移系数（drift coefficient），其为vector-valued function，实现的映射。
称为扩散系数（diffusion coefficient）。
 是维纳过程（标准布朗运动）
2.1 布朗运动定义（布朗运动也称为Wiener过程）
若随机过程满足以下三条性质：
1️⃣ 轨迹连续。且是的连续函数
2️⃣ 增量服从正态分布。，增量
3️⃣ 增量独立。，随机变量 相互独立
则将随机过程称之为布朗运动（或Wiener过程）。当时，为标准的布朗运动。
2.2 前向SDE和后向SDE定义
2.2.1 前向过程随机微分方程
作者所采用的Itô型随机微分方程形式如下(简化了扩散系数，使其只与时间步有关)，描述了样本从到的变化过程。
2.2.2 后向过程随机微分方程
Anderson[4]给出了式(3)的逆向随机微分方程。描述了样本从到的变化过程。（注意：此时是逆时间步，从趋向）
这一项其实就是SMLD里面的score。
2.3 SDE视角下的SMLD（VE-SDE）
2.3.1 SMLD简单回顾
生成模型的目标是: 通过采样数据来训练一个模型 (，是模型的参数空间)，使得。
为了保证neural netowrk的输出符合标准概率分布的特征：
1） 非负； 2）概率分布的积分为1
我们可以将定义为
式中： 是一个归一化常数，使概率分布满足，不难得出。称为非归一化概率模型（unnormalized probabilistic model）或能量模型（energy-based model）。
由于难求解，可以通过对式(5)先取对数再对求梯度的方式规避
作者将定义为score based model，记为
我们可以最小化fisher diverence来训练score based model ，即估计的score和实际的score均方误差最小：
由于不可知，需要利用score matching的方法进行变换。并且因为样本数据的存在低密度区域，在低密度区域拟合较差，score估计的不准，故采用对原始数据加噪的形式来扩大训练时的样本空间。作者定义了不同强度的高斯噪声噪声：，加噪数据定义如下：
式中：，显然，,当足够大时
此时的优化目标为
训练完毕后通过朗之万采样生成样本。
2.1.2 SMLD前向过程的SDE形式
从式(8)知SMLD的前向过程服从高斯分布： ，下角标0表示初始时刻，。不妨设置，此时可以用以下马尔可夫链表示前向过程
(用高斯分布可加性可以很方便证明)
为了将式(10)写成连续形式，进行如下定义：
let ,此时，不妨记做,同理不妨记做
式(10)可写作
当时, ；；；
因此，式(11)的可写成随机微分方程形式
回顾式(3)，SMLD的前向过程是式(3)在的一个特例。因随的增大而增大，此时的SDE称之为variance explode SDE(VE SDE)
2.1.3 SMLD反向过程的SDE形式
将带入式(4)，得出SMLD reverse process的SDE形式
2.2 SDE视角下的DDPM（VP-SDE）
2.2.1 DDPM回顾
(一) 前向过程（加噪过程）
DDPM同样将前向过程定义成一个离散马尔可夫过程
，.随的增大而减小.通过式(14)我们还可以进一步推出。
前向过程是一个确定性过程，无训练参数，其作用是给diffusion model构建训练样本。
(二) 反向过程（去噪过程）
去噪过程也是我们做生成任务的目标：从某一先验分布采样一个数据点，通过生成模型获得服从期望数据分布的数据点。
DDPM将去噪过程同样定义为一个离散的马尔可夫过程
问题的关键时如何得到：,这里不妨将其建模为Gaussian。 
根据前向过程的结论，是已知的，根据贝叶斯公式可以求出
既然未知，已知，那么我们可以用模型来估计，记为，以最小化KL散度来对齐这两个分布
通过推导，可以得出最优化式(17)等价于优化 （忽略了常数项）
根据前向过程：，即有：
所以，
因此. 此时对齐均值的问题就转化成:给定预测加入的噪声, 
2.2.2 DDPM噪声预测模型与score based model的联系
这里需要利用一个数学结论：如果一个随机变量服从高斯分布，,那么根据Tweedie’s Formula,有
DDPM的前向公式，带入上式有：
根据Tweedie’s Formula，最佳的期望估计是均值，因此
式中的其实就是SMLD中定义的score
又根据式(19)可知,,联合式(24)可知
式(25)也称之为score function 。可见DDPM中估计的噪声就是SMLD估计的score。
2.2.3 DDPM前向过程的SDE形式
根据DDPM的前向过程式14可知,（， 为了和SMLD的推导对应，不妨将记为）
为了将式(26)写成连续形式，进行如下定义：
let ,此时，不妨记做,同理不妨记做
因此，式26可以写作
为了将式27写成SDE形式，需要让,此时
不妨计算在处的泰勒展开进行估算，此时
此时
从而得到DDPM的前向SDE公式
回顾式(3)，DDPM的前向过程是式(3)在的一个特例。因随的增大是有界的(DDPM中的上界为1)。因此，此时的SDE称之为variance Preserving SDE(VP SDE)
2.2.4 DDPM反向过程的SDE形式
将带入式(4)，得出DDPM reverse process的SDE形式
根据2.2.2的式25可知，,有
2.3 小结
通过上述讨论，分别得出SMLD与DDPM的前向，反向SDE
ㅤ forward SDE reverse SDE
SMLD (VE SDE) 
DDPM (VP SDE) 
同时也建立起SMLD与DDPM的联系，score function
3 SDE的求解
前文我们花大力气将diffusion model的两类主流方法用SDE来统一。在SDE框架下，可以利用现有的数值方法实现更高效的采样。以欧拉丸山法(”Euler-Maruyama”)为例,已知反向过程SDE(式4)如下：
以差分近似微分(注意此处是逆时间过程)：
有：
记当前的迭代步为, 
3.1 Predictor-Corrector (PC) sampling
作者随后提出PC-sampling将DDPM和SMLD的sampling方法进行统一。
PC-sampling分为2步：
1）predictor：通过reverse difusionSDE solver(式35)作为predictor，得出符合当前时间步分布的
2）corrector：通过annealed Langevin dynamics的方法对当前时间步的进行修正
再回过头来看原始DDPM和SMLD sampling的方法：
DDPM相当于只有predictor无corrector
SMLD相当于只做corrector，无predictor（下一个时间步的初始值用上一个时间步最终的修正值）
4 Probability Flow ODE
对于所有的diffusion process，都能找到边际概率密度(marginal probability density)相同的deterministic process，这个deterministic process能用一个ODE来描述(diffusion process对应的SDE为式3)
下面来看看式(36)是怎么来的。
根据Fokker–Planck equation可以写出式(3)SDE的Fokker–Planck equation如下：
令，我们找到新的SDE,其边际概率密度与式3相同,由于为0，此时式38为ODE。
同样参考式(4),可以得到式38后向过程对应的ODE
式（4）与式(39)的score一致，因此可以用基于前向过程SDE（式3)构造score based model的训练样本，训练完成后用reverse diffusion ODE(式39)做生成。（DDIM是上式的一个特例）
用ODE采样过程有多个好处：首先目前数学界对ODE数值求解的研究更为深入，有更高阶、效果更好数值求解方法可以使用；其次ODE的没有引入随机性，初始值确定，采样生成的图片就是确定的，具备部分语义插值效应。
5 小结
本文相对系统介绍了SDE视角下的diffusion model，具体包括：
Itô型SDE 的提出背景及布朗运动定义
用Itô型SDE DDPM和SLMD进行统一
ㅤ forward SDE reverse SDE
SMLD (VE SDE) 
DDPM (VP SDE) 
用predictor-corrector框架统一DDPM和SLMD的采样方法。
推导出score function将SMLD与DDPM的联系起来
通过Fokker–Planck equation 推导ODE形式的反向过程。
如有疏漏、错误敬请指出。
参考文献
[1] 布朗运动100年
[2] 随机微分方程及其数值解
[3] It6K.On stochastic differentialequations[M].AmericanMathematicalSoc,1951
[4] Brian D O Anderson. Reverse-time diffusion equation models. Stochastic Process. Appl., 12(3): 313–326, May 1982
[5] Tweedie’s Formula and Selection Bias
 
 
 


🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力
Mon, 27 Feb 2023 16:00:00 GMT
背景
迁移学习已成为训练模型的一个常用范式.而对应的zero-shot迁移也很好理解:在没有下游数据的前提下,获得对下游任务预测的能力.当下,很多研究工作表明采用网络爬取的“图片-文本对”训练的多模态模型对图像任务zero-shot迁移学习任务取得了较好的效果,如CLIP1,ALIGN2等.然而,网络数据良莠不齐,爬取的“图片文本对”难免有很多噪音.相比之下,传统的图像数据集如ImageNet, JFT数据噪声较少,但其类别数量有限,无法满足zero-shot场景下对开放类别的预测.
最近的一篇工作: 《LiT : Zero-Shot Transfer with Locked-image text Tuning》[3]提出一个“Locked-image Tuning”的训练思路,即利用了高质量的图像数据集训练较好的图像表征,又扩展了其在开放类别的zero-shot能力.下面来看看它是如何做的吧!
方法大意
基于双塔架构的多模态训练方法通常使用图(b)和图(c)中的两种方法.模型的训练起初是从随机噪声或预训练模型的初始化权重开始的,然后使用基于图片embedding与文本embedding的对比损失进行训练。这种基于对比学习训练双塔模型的方法可以理解为同时训练两个任务:1) 学习图片embedding 2)学习一个文本的embedding使其对齐图片的embedding.由于采用网络爬取的“图片-文本对”数据集中包含许多噪声，导致提取图片embedding的质量较差。因此，作者提出了一个新的解决思路:
首先在高质量的图片数据集中训练双塔模型中的“图像塔”.
固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了使图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.
直观来说,这篇文章的思路很简单,就是把多模态对比学习的两个任务进行了拆分,然而获得的收益非常大.
收益1: zero shot 迁移学习的能力更强
作者评估了在ImageNet, Imagenetv2, Imagenet-R, imagenet-A, Imagenet-Real, ObjectNet数据集上zero-shot的能力, LIT方法都有显著的提升.
收益2: 训练速度更快
从某种意义上,我们不缺图像特征提取模型.完成可以复用之前训练的图像特征提取模型.然后参考LiT的思路,训练一个“文本塔”使其和图像特征进行对齐.由于“图像塔”是已知的,且无需反向传播,我们完全可以预先计算图片的embedding并存储,这样在训练“文本塔”只需读取存储的图片embedding计算对比损失即可,极大加速训练速度,也非常节约显存.
更多细节
如何选取“文本塔”架构
作者对比了几种常用的文本特征提取模型.并在Imagnet评估zero-shot能力,在MS-COCO评估跨模态搜索能力.作者发现数据规模较小时,bert架构有明显的优势.但数据规模较大时,bert并没有优势,并且bert训练较不稳定.
重复样本的影响
作者为了避免训练样本中可能的重复样本会影响zero-shot的测试指标进行了去重实验.实验发现,在训练数据去重测试样本后,测试指标并没有明显变化.
文章小结
这篇文章提供了一个简单的思路来为已有的预训练图像模型配备一个文本特征提取模型,并使其具备较强的zero-shot能力.该方法思路简单,但可行性及有效性都很强.
参考文献
[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
[2] Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In ICML, 2021
[3] Zhai, Xiaohua, et al. "Lit: Zero-shot transfer with locked-image text tuning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
 


RNN并行化——《Were RNNs All We Needed?》论文解读
Thu, 21 Nov 2024 00:00:00 GMT
ㅤ Info
Paper https://arxiv.org/abs/2410.01201
GitHub https://github.com/lucidrains/minGRU-pytorch
个人博客地址 http://myhz0606.com/article/mini_rnn
最近在看并行RNN相关的paper，发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始，介绍Bengio团队不久前发表的《Were RNNs All We Needed?》
1 Parallel Scanning算法介绍
首先来看定义。Parallel Scanning字面意思，就是对scan操作进行并行化，那么什么是scan（扫描）操作呢？
1.1 Scan的定义
1.1.1 inclusive scan
scan （inclusive scan）也称为all-prefix-sum，其定义如下：
若给定:
有序集合（order set） ,
二元结合运算符（binary associative operation）  ，并且 的单位元存在
输出一个order set，并满足
.
将满足上述规则的操作称为scan。
显然上式可以写成递归形式，时间复杂度为
注1：二元结合运算符作用于两个操作数返回一个结果，且运算满足结合率。常见的二元结合运算符包括加法（）、乘法（）、逻辑与（）和逻辑或（）等. 注2:  的单位元：若：，则称是运算 的单位元。例如，加法的单位元是0，乘法的单位元是1，向量点乘的单位元是单位向量。
1.1.2 exclusive scan
实践中，scan另一种变体prescan（也叫exclusive scan）也经常用到，输入和scan一致，输出为：
其递归形式为
inclusive scan与exclusive scan可以很方便的转化，
inclusive scan → exclusive scan，只需将输出序列向右移一个单位，并且在序列第一个元素填充单位元。
exclusive scan → inclusive scan，只需将输出序列向左移一个单位，并且用最后一个输入元素加上最后一个输出元素的结果填充最后一个元素。
1.1.3 例子： prefix sum
已知输入有序集合，二元结合运算符为加法，计算A在下的inclusive scan和exclusive scan
根据式1，易得inclusive scan的结果为：
根据式2，易得exclusive scan的结果为：
代码实现：
1.2 Parallel Scanning
前文所述基于递归式计算scan的算法称之为sequential algorithm，其计算复杂度为，并且无法并行化。那么如何并行化计算scan呢？
1.2.1 Kogge-Stone Parallel Scanning algorithm[2]
Kogge-Stone 并行扫描算法的基本计算流程如下图所示（从最底部往上看）
总计分为个阶段，在每一个阶段并行计算(表示阶段， 从0开始取)。该方法的加法运算次数为多于顺序算法的，不考虑并行的情况下时间复杂度为。但在processor足够时，Kogge-Stone 的时间复杂度为。
python代码实现如下：
注意由于python原生的多线程存在GIL，无法利用多核优势，故使用numpy实现
1.2.2 Brent-Kung Parallel Scanning algorithm[3]
从上文中，Kogge-Stone 算法虽然在并行的情况下将scan的时间复杂度从降到了,但Kogge-Stone 算法实际的计算量是比顺序执行多不少的。下面来看计算效率更高的Brent-Kung 算法。
Kogge-Stone 算法分为两个阶段
stage1: 上行阶段，计算reduce （up sweep）
上行阶段有  个阶段，每个阶段执行
算法流程：
下面来分析一下up sweep的时间复杂度
up sweep的计算量为
不做并行的时间复杂度为，并行时的时间复杂度为
python代码如下：
此处为了便于理解，第二个循环没有用并行
通过up sweep 我们可以得到reduce的结果，但无法得到完整的scan结果，需要继续进行down sweep。
stage2: 下行阶段（down sweep）
算法流程：
计算复杂度与up-sweep一致
python代码如下：
综上所述，我们详细介绍了Kogge-Stone 算法，它分为up sweep和down sweep两个阶段，每个阶段的计算量为，不做并行的计算时间复杂度为：，并行时的计算复杂度为
❓小练习
不妨尝试回答一下几个问题：
当输入序列的长度并不是2的N次幂，如何用 Brent-Kung 算法进行并行？
如果系统的processor有限，此时的时间复杂度是多少？
2 并行RNN
通过上文的介绍我们可以用并行的方法计算递归式。那如何将其与RNN建立起联系呢？
先来回顾一下两个经典的RNN算法，1）LSTM, 2)GRU
2.1 经典RNN回顾
2.1.1 LSTM
LSTM引入记忆细胞C(t)来存储长期信息，解决传统RNN无法处理长程依赖的问题。并引入3个门（遗忘门、输入门、输出门）来控制新老信息的交互。
下面来详细看其计算流程：
给定
输入序列：
初始化隐藏状态 
初始化记忆细胞
三个门的输出在0～1之间，通过点乘来控制信息的流入量。
2.1.2 GRU
GRU简化了LSTM的门控机制达到和LSTM类似的效果。GRU主要通过两个门（重置门、更新门）来控制信息的交互。
下面来详细看其计算流程：
给定
输入序列：
初始化隐藏状态 
2.2 经典RNN并行化
2.2.1 理论基础
通过前文介绍，我们回顾了经典RNN的递归更新公式，但显然，无法直接沿用parallel scan算法进行并行
ㅤ 递归更新公式
LSTM 
GRU 
对于LSTM而言依赖上一个时间步的的计算，且其递归式的形式并非已知。
对于GRU而言，同样依赖上一个时间步的的计算，且其递归式的形式并非已知。
故他们都无法利用parallel scan算法进行并行化。
如何让LSTM，GRU能够使用parallel scan算法进行并行呢？
不考虑对以往时间步的依赖，LSTM，GRU的递归更新公式形如：
对已知。这个式子和标准的scan多了一个偏置项。文献[6]指出，只需对式6进行适当变形，即可用两次parallel scan算法对式6进行并行计算。
推导前，不妨将式(6)简写为：
通过归纳，不难得出
对上式子两边取对数，有
从上述递归式可以看出，有两处可以用两次parallel scan算法
第一次parallel scan计算有序集合
第二次parallel scan计算有序集合
有了他们，我们可以并行计算有序集合
下面来看，如何将LSTM，GRU转变为式(6)的形式
2.2.2 LSTM的并行化
Step 1: Drop previous hidden state dependencies from gates
Step 2: Drop range restriction of candidate states
Step 3: Ensure output is time-independent in scale
通过上述的操作，结合文献[6]的技巧（式9）完成LSTM的并行化。
2.2.3 GRU的并行化
GRU的并行化的操作和LSTM类似
Step 1: Drop previous hidden state dependencies from gates
Step 2: Drop range restriction of candidate states
3 小结
本文从parallel scan算法出发，介绍了如何将经典RNN算法——LSTM，GRU进行变换，使其能够并行化。实验结果本文不做介绍，请参考原论文。
Reference：
[1] Prefix Sums and Their Applications
[2] A parallel algorithm for the efficient solution of a general class of recurrence equations
[3] A Regular Layout for Parallel Adders
[4] LONG SHORT-TERM MEMORY
[5] Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
[6] Efficient Parallelization of a Ubiquitous Sequential Computation
[7] https://www.csd.uwo.ca/~mmorenom/HPC-Slides/Parallel_prefix_sum.pdf
[8] https://people.cs.vt.edu/yongcao/teaching/cs5234/spring2013/slides/Lecture10.pdf
[9] https://developer.nvidia.com/gpugems/gpugems3/part-vi-gpu-computing/chapter-39-parallel-prefix-sum-scan-cuda


Supervised Contrastive Learning
Fri, 12 Jul 2024 16:00:00 GMT
paper https://arxiv.org/abs/2004.11362
github https://github.com/HobbitLong/SupContrast
个人博客位置 http://myhz0606.com/article/SupCon
1 Motivation
经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中，会对batch的图片进行数据增强，以同一图片不同的数据增强为正例，其它作为负例，以自监督对比损失(式1)作为训练目标进行学习。
 是一个batch的索引。（这个batch有原始数据经过两个不同的数据增强形成）
：索引的positive sample的索引，对于每一个都有1个positive，个negative
: 索引的图片表征
然而，在某些特定场景下，我们可能已经掌握了类别标签信息，或者至少能够明确哪些实例属于同一类别，而无需具体的类名。在这种情况下，直接沿用传统的自监督对比学习方法进行优化，显然未能充分利用这些宝贵的先验知识。
为了解决这一问题，supervised contrastive learning应运而生。其核心思想在于，将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例，如下图所示。
2 Supervised Contrastive Learning(SupCon)
对于SupConbatch中第个sample，它不像式（1）中只有而是由多个。假定在该batch中为的所有positive的索引集合，那么应当将式（1）改为
但这样改有个小问题。同一个batch中对于不同，的大小可能不一致（可以理解成样本不均衡）。为了均衡不同大小的，作者引入了一个normalize系数。针对这个normalize系数的位置对式（2）提出了两种变体：
(一)outside supervised contrastive learning
(二)inside supervised contrastive learning
这两个等式并不等价，由于是凹函数，根据Jensen's inequality有。可见是的上界。分别分析式(3)和式(4)的梯度信息：（附录有完整求导过程）
其中，且
可以发现，当时，两个loss等价。
从上述的梯度分析中，可以发现相比用了positive的mean，训练过程应当更稳定，从作者的实验观察，outside比inside有较大的提升。
3 Experiment&Analysis
作者用分类准确率来评估SupCon的性能。
3.1 不同loss function的分类准确率
3.2 不同augmentation在ImageNet1K的分类准确率
此处作者给出了一些在不同augmentation的实验结果。
3.3 SupCon的训练稳定性
3.3.1 超参稳定性
作者分别评估不同Augmentation （RandAugment，AutoAugment，SimAugment，Stacked RandAugment）、Optimizer(LARS, SGD with Momentum and RMSProp）、learning rate模型的性能。实验发现，SupCon对Augmentation，Optimizer相对不敏感，对learning rate相对敏感。
总体上SupCon的超参稳定性远胜于CE。
3.4 模型对加噪数据的鲁棒性
As we know，深度学习模型拟合的是训练数据，其对OOD数据（out of domain）的鲁棒性是难以保证的。此节作者评估模型对加噪声后的数据的鲁棒性，评估的benchmark为ImageNet-C，评估指标为mCE(Mean Corruption Error)、rel.mCE (Relative Mean Corruption Error metrics)和ECE(Expected Calibration Error)
3.5 SupCon 训练参数的配置建议
3.5.1 Effect of Number Batch Size
batch size对SupCon有较多增益。作者实验中所用的batch size为6144。如果计算资源有限，可以结合moco的思路，用menory来缓存，作者实验发现，memory缓存的向量为8192，即使采用256的batch size也能达到79.1%的精度。
backbone为resnet50
3.5.2 Effect of Temperature in Loss Function
temperature越小会让式（3）softmax后的结果约接近onehot，此次的梯度强度大，有利于加速训练。但过小的temperature可能会带来数值不稳定的问题。可以配置为0.1
backbone为resnet50
3.5.3 Effect of Number Positives
作者测试positive number对分类精度的增益。测试表明：当positive number增加时，分类精度稳定增长。可能受限于成本，作者没有给出什么时候这个收益会达到bottleneck。
batch size=6144. 当positive-num=1时就是simCLR
小结
本文系统总结了Supervised Contrastive Learning这篇paper的主要内容。并对文中部分推导进行了补充，以便理解。若有不当之处，恳请指出。
拓展阅读
《Selective-Supervised Contrastive Learning with Noisy Labels》 引入一个filter机制，用高置信的positive来做supervised contrastive learning，提升监督质量。
《Balanced Contrastive Learning for Long-Tailed Visual Recognition》提出了balanced supervised contrastive learning loss。1）通过class-averaging来平衡不均衡负类的梯度；2）通过class-complement方法实现每次梯度更新都会考虑所有类别信息。
《Learning Vision from Models Rivals Learning Vision from Data》 将SupCon应用到合成数据表征学习领域。
附录
A. 两种SupCon两种形式loss的梯度分析
 对的梯度
其中
(二)  对的梯度
其中
B. SupCon具备隐式的Hard Sample Mining的能力
hard sample mining在表征学习上是一个非常常用的trick。SupCon有一个非常好的性质：它能隐式的做hard sample mining这个操作。
对于向量表征，我们通常会使用normalize这个操作。不妨记：，计算对的梯度：
其中：
将B.2及式(5)带入B.1中有：
当与为easy sample时，，此时
当与为hard sample时，，此时
首先来看梯度的强度（先不考虑前面的系数）
当为easy sample时，此时的梯度强度接近0
当为hard sample时，B.5 可以简化为
考虑outside形式的SupCon ，有
由于，因此
从式B.8不难得出，梯度强度受益于negative和positive sample的数量。
此处有个假设，
对于positive的easy sample，由于，导致较小的梯度强度。
对于positive的hard sample，此时，根据式B.8，梯度强度进一步受益于negative和positive sample的数量。
同理可以分析negative场景下的梯度信号，此处不再赘述。
C SupCon和其他loss的关系
(一) 与自监督对比学习loss的联系
自监督对比学习时SupCon的一个特例。当positive的数量为1时，此时SupCon等同于自监督对比损失。
(二) 与triplet loss的联系
假定一个batch为一个三元组（anchor, positive, negative）, 分别为anchor image, positive image, negative image的表征，且有。假设与的距离远大于的距离，此时的SupCon为
由此我们从SupCon推出了triplet loss的形式，它是SupCon的一个特例。
(三) 与N-pair loss的联系
当时，SupCon等价于N-pair loss。表示图片作为anchor时生成的图片索引。

ㅤ	Info
Paper	https://arxiv.org/abs/2410.01201
GitHub	https://github.com/lucidrains/minGRU-pytorch
个人博客地址	http://myhz0606.com/article/mini_rnn

paper	https://arxiv.org/abs/2004.11362
github	https://github.com/HobbitLong/SupContrast
个人博客位置	http://myhz0606.com/article/SupCon

莫叶何竹🍀

KV-Cache技术小结（MHA,GQA,MQA,MLA)

1 背景

TL,DR

2 经典Casual-Attention的KV-Cache工作机制

3 Multi-Head Attention（MHA） KV-Cache工作机制

4 Group Query Attention（GQA） KV-Cache工作机制

5 Multi Query Attention（MQA） KV-Cache工作机制

6 Multi-Head Latent Attention (MLA)的工作机制

（一）先抛开位置编码

（二）引入位置编码的MLA

7 小结

表格结构还原——SLANet

1 Main Idea

2 Method

2.1 整体架构

2.2 SLANet损失函数

2.3 SLANet的标签体系介绍

2.4 如何合并OCR的结果做表格结构还原

3 小结

diffusion model(十九) ：SDE视角下的扩散模型

1 背景

2 Itô型SDE视角下的diffusion model

2.1 布朗运动Intro

2.1 布朗运动定义（布朗运动也称为Wiener过程）

2.2 前向SDE和后向SDE定义

2.2.1 前向过程随机微分方程

2.2.2 后向过程随机微分方程

2.3 SDE视角下的SMLD（VE-SDE）

2.3.1 SMLD简单回顾

2.1.2 SMLD前向过程的SDE形式

2.1.3 SMLD反向过程的SDE形式

2.2 SDE视角下的DDPM（VP-SDE）

2.2.1 DDPM回顾

2.2.2 DDPM噪声预测模型与score based model的联系

2.2.3 DDPM前向过程的SDE形式

2.2.4 DDPM反向过程的SDE形式

2.3 小结

3 SDE的求解

3.1 Predictor-Corrector (PC) sampling

4 Probability Flow ODE

5 小结

参考文献

🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力

背景

方法大意

更多细节

如何选取“文本塔”架构

重复样本的影响

文章小结

参考文献

RNN并行化——《Were RNNs All We Needed?》论文解读

1 Parallel Scanning算法介绍

1.1 Scan的定义

1.1.1 inclusive scan

1.1.2 exclusive scan

1.1.3 例子： prefix sum

1.2 Parallel Scanning

1.2.1 Kogge-Stone Parallel Scanning algorithm[2]

1.2.2 Brent-Kung Parallel Scanning algorithm[3]

❓小练习

2 并行RNN

2.1 经典RNN回顾

2.1.1 LSTM

2.1.2 GRU

2.2 经典RNN并行化

2.2.1 理论基础

2.2.2 LSTM的并行化

2.2.3 GRU的并行化

3 小结

Reference：

Supervised Contrastive Learning

1 Motivation

2 Supervised Contrastive Learning(SupCon)

3 Experiment&Analysis

3.1 不同loss function的分类准确率

3.2 不同augmentation在ImageNet1K的分类准确率

3.3 SupCon的训练稳定性

3.3.1 超参稳定性

3.4 模型对加噪数据的鲁棒性

3 Multi-Head Attention（`MHA`） KV-Cache工作机制

4 Group Query Attention（`GQA`） KV-Cache工作机制

5 Multi Query Attention（`MQA`） KV-Cache工作机制

2.3 `SLANet`的标签体系介绍

2 `Itô`型`SDE`视角下的diffusion model

1.2.1 `Kogge-Stone` Parallel Scanning algorithm[2]

1.2.2 `Brent-Kung` Parallel Scanning algorithm[3]

2 Supervised Contrastive Learning(`SupCon`)