KV-Cache技术小结(MHA,GQA,MQA,MLA)学习分享KV-cache技术是目前LLM,VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比,是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA,MQA,MLA是目前常用的方法。本文将从经典的casual attention出发,阐述kv-cache的必要性,及目前常见优化kv-cache的手段。2025-2-20 大模型
Step by Step: Understanding Flash-Attention学习分享Transformers核心组件self-attention的空间复杂度为$\mathcal{O}(T^2)$ ,$T$为序列长度。从显存层面限制了模型长上下文upper bound。对于标准的self-attention计算而言,需要频繁进行HBM(high bandwidth memory, HBM)和SRAM的内存读写,存在IO瓶颈。 FlashAttention的核心创新点是通过online-softmax和tiling技巧来将self-attention的空间复杂度降至$\mathcal{O}(T)$,减少HBM与SRAM的IO通信。2025-9-28 大模型