Attention Free Transformer(AFT)技术小结学习分享原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。2023-9-14 transformer
RNN并行化——《Were RNNs All We Needed?》论文解读学习分享最近在看并行RNN相关的paper,发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始,介绍Bengio团队不久前发表的《Were RNNs All We Needed?》2024-11-21 大模型
KV-Cache技术小结(MHA,GQA,MQA,MLA)学习分享KV-cache技术是目前LLM,VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比,是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA,MQA,MLA是目前常用的方法。本文将从经典的casual attention出发,阐述kv-cache的必要性,及目前常见优化kv-cache的手段。2025-2-20 大模型
🔀Ross随机过程笔记(一): 概率论引论学习分享1 样本空间的定义,事件的定义。 2 事件的交、并。不可能事件、独立事件、事件互补相容的条件。 3 事件的八大运算规则:交换率、结合率、分配率、同一律、互补率、吸收率、双反率、对偶率。 4 事件上概率的定义、古典概型的定义、对立事件的概率。独立事件的概率。 5 容斥恒等式、布尔不等式. 6 全概公式,贝叶斯公式2024-3-31 随机过程
🔀Ross随机过程笔记(二): 随机变量学习分享1 随机变量定义,连续型随机变量、离散型随机变量 2 随机变量的概率分布(概率质量(密度)函数)、累积分布函数。如何验证概率密度函数 3 常见的离散随机变量及其概率质量函数(伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量) 4 常见连续型随机变量及其概率密度函数(均匀随机变量、指数随机变量、伽马随机变量、正态随机变量) 5 联合分布随机变量的分布函数、概率质量(密度)函数、均值、协方差 6 协方差的定义、性质、意义 7 矩母函数定义,常见随机变量的矩母函数 8 矩母函数的两个重要性质2024-4-5 随机过程
🔀Ross随机过程笔记(三): 随机过程学习分享1 随机过程的定义,离散随机过程、连续随机过程、随机场 2 随机游走 3 随机过程有限维分布定义、性质(对称性,相容性)、Kolmogorv定理 4 随机过程数字特征。均值函数、协方差函数、方差函数、二阶矩过程定义。 5 随机过程基本类型。平稳过程(严平稳过程、宽平稳过程定义)、独立增量过程、平稳增量过程、独立平稳增量过程。2024-4-21 随机过程
Matryoshka Representation Learning (俄罗斯套娃表征学习)技术小结学习分享我们平时做retrieval相关的工作,很多时候根据业务场景和计算资源需要对向量进行降维。受限开发周期,我们往往不会通过重新训练特征提取模型来调整向量维度,而是用PCA等方法来实现。但是当降维的scale较大时,PCA等方法的效果较差。Matryoshka Representation Learning (MRL)这篇paper介绍了一个很简单但有效的方法能实现一次训练,获取不同维度的表征提取。下面来看它具体是怎么做的吧。2024-2-27 表征学习 华盛顿大学 哈弗大学 Google
DreamSim技术小结学习分享针对模型计算的相似性和human perceptual similarity还是有一定的差距的问题,本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征,并兼顾color、layout等low level特征,能更好的对齐human perceptual similarity。2024-3-31 表征学习
Supervised Contrastive Learning学习分享经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中,会对batch的图片进行数据增强,以同一图片不同的数据增强为正例,其它作为负例,以自监督对比损失(式1)作为训练目标进行学习。然而,在某些特定场景下,我们可能已经掌握了类别标签信息,或者至少能够明确哪些实例属于同一类别,而无需具体的类名。在这种情况下,直接沿用传统的自监督对比学习方法进行优化,显然未能充分利用这些宝贵的先验知识。 为了解决这一问题,supervised contrastive learning应运而生。其核心思想在于,将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例。2024-7-13 图像搜索 表征学习
表格结构还原——SLANet学习分享SLANet 是一个轻量级的表格结构识别模型。它将表格结构识别任务建模为序列标注,以自回归的方式预测表格的html序列和单元格位置。2025-1-24 ocr 表格结构还原