DeepMind: 训练LLM的scale law学习分享作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。2023-11-15 deepmind 大模型
LoRA: 微调大模型的一种轻量级方法学习分享常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式,其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路,使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B,取代更新原有权重W。2023-3-1 大模型 peft
RLHF对大模型泛化性和多样性的影响学习分享虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知,本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。2023-12-8 大模型 RLHF
Attention Free Transformer(AFT)技术小结学习分享原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。2023-9-14 transformer
RNN并行化——《Were RNNs All We Needed?》论文解读学习分享最近在看并行RNN相关的paper,发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始,介绍Bengio团队不久前发表的《Were RNNs All We Needed?》2024-11-21 大模型
KV-Cache技术小结(MHA,GQA,MQA,MLA)学习分享KV-cache技术是目前LLM,VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比,是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA,MQA,MLA是目前常用的方法。本文将从经典的casual attention出发,阐述kv-cache的必要性,及目前常见优化kv-cache的手段。2025-2-20 大模型
Step by Step: Understanding Flash-Attention学习分享Transformers核心组件self-attention的空间复杂度为$\mathcal{O}(T^2)$ ,$T$为序列长度。从显存层面限制了模型长上下文upper bound。对于标准的self-attention计算而言,需要频繁进行HBM(high bandwidth memory, HBM)和SRAM的内存读写,存在IO瓶颈。 FlashAttention的核心创新点是通过online-softmax和tiling技巧来将self-attention的空间复杂度降至$\mathcal{O}(T)$,减少HBM与SRAM的IO通信。2025-9-28 大模型
大模型MoE架构技术小结学习分享本文从 FFN 的 KV-Memory 视角出发,逐步推导出 MoE(Mixture of Experts)结构的动机与演化过程,并介绍了MOE架构训练过程Routing Collapse现象及解决方案。2025-11-12 大模型
Step by Step: Understanding ROPE学习分享ROPE是目前不论LLM还是VLLM常用的位置编码。本文将step by step梳理个人对ROPE的理解2025-12-23 大模型 多模态
🔀Ross随机过程笔记(一): 概率论引论学习分享1 样本空间的定义,事件的定义。 2 事件的交、并。不可能事件、独立事件、事件互补相容的条件。 3 事件的八大运算规则:交换率、结合率、分配率、同一律、互补率、吸收率、双反率、对偶率。 4 事件上概率的定义、古典概型的定义、对立事件的概率。独立事件的概率。 5 容斥恒等式、布尔不等式. 6 全概公式,贝叶斯公式2024-3-31 随机过程
🔀Ross随机过程笔记(二): 随机变量学习分享1 随机变量定义,连续型随机变量、离散型随机变量 2 随机变量的概率分布(概率质量(密度)函数)、累积分布函数。如何验证概率密度函数 3 常见的离散随机变量及其概率质量函数(伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量) 4 常见连续型随机变量及其概率密度函数(均匀随机变量、指数随机变量、伽马随机变量、正态随机变量) 5 联合分布随机变量的分布函数、概率质量(密度)函数、均值、协方差 6 协方差的定义、性质、意义 7 矩母函数定义,常见随机变量的矩母函数 8 矩母函数的两个重要性质2024-4-5 随机过程