学习分享 | 分类 | 莫叶何竹🍀

学习分享

LoRA: 微调大模型的一种轻量级方法

常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式，其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路，使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B，取代更新原有权重W。

大模型

peft

虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知，本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。

大模型

RLHF

Attention Free Transformer(AFT)技术小结

原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。

transformer

RNN并行化——《Were RNNs All We Needed?》论文解读

最近在看并行RNN相关的paper，发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始，介绍Bengio团队不久前发表的《Were RNNs All We Needed?》

大模型

KV-Cache技术小结（MHA,GQA,MQA,MLA)

KV-cache技术是目前LLM，VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比，是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA，MQA，MLA是目前常用的方法。本文将从经典的casual attention出发，阐述kv-cache的必要性，及目前常见优化kv-cache的手段。

大模型

匈牙利算法小结

匈牙利算法可以将指派问题的时间复杂度从降低到多项式的时间复杂度。

经典算法

指派问题

🔀Ross随机过程笔记（一）: 概率论引论

1 样本空间的定义，事件的定义。 2 事件的交、并。不可能事件、独立事件、事件互补相容的条件。 3 事件的八大运算规则：交换率、结合率、分配率、同一律、互补率、吸收率、双反率、对偶率。 4 事件上概率的定义、古典概型的定义、对立事件的概率。独立事件的概率。 5 容斥恒等式、布尔不等式. 6 全概公式，贝叶斯公式

随机过程

🔀Ross随机过程笔记（二）: 随机变量

1 随机变量定义，连续型随机变量、离散型随机变量 2 随机变量的概率分布（概率质量（密度）函数）、累积分布函数。如何验证概率密度函数 3 常见的离散随机变量及其概率质量函数（伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量） 4 常见连续型随机变量及其概率密度函数（均匀随机变量、指数随机变量、伽马随机变量、正态随机变量） 5 联合分布随机变量的分布函数、概率质量（密度）函数、均值、协方差 6 协方差的定义、性质、意义 7 矩母函数定义，常见随机变量的矩母函数 8 矩母函数的两个重要性质

随机过程

🔀Ross随机过程笔记（三）: 随机过程

1 随机过程的定义，离散随机过程、连续随机过程、随机场 2 随机游走 3 随机过程有限维分布定义、性质（对称性，相容性）、Kolmogorv定理 4 随机过程数字特征。均值函数、协方差函数、方差函数、二阶矩过程定义。 5 随机过程基本类型。平稳过程（严平稳过程、宽平稳过程定义）、独立增量过程、平稳增量过程、独立平稳增量过程。

随机过程

Google Universal Image Embedding前五名方案小结

谷歌通用图像embedding竞赛前五名方案小结

图像搜索

表征学习

Matryoshka Representation Learning (俄罗斯套娃表征学习)技术小结

我们平时做retrieval相关的工作，很多时候根据业务场景和计算资源需要对向量进行降维。受限开发周期，我们往往不会通过重新训练特征提取模型来调整向量维度，而是用PCA等方法来实现。但是当降维的scale较大时，PCA等方法的效果较差。Matryoshka Representation Learning （MRL）这篇paper介绍了一个很简单但有效的方法能实现一次训练，获取不同维度的表征提取。下面来看它具体是怎么做的吧。

DreamSim技术小结

针对模型计算的相似性和human perceptual similarity还是有一定的差距的问题，本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征，并兼顾color、layout等low level特征，能更好的对齐human perceptual similarity。

表征学习

1 2 3 4 5

莫叶何竹🍀

非淡泊无以明志，非宁静无以致远