实例分割新范式:Falcon Perception技术剖析学习分享这篇文章讨论的是一个很有意思的问题:dense perception任务是否一定需要encoder-decoder结构? 目前开放词汇检测、promptable segmentation、OCR这类任务,常见做法大概是: • 先用一个vision backbone提取图像features • 单独的 decoder 或 late-fusion module 将这些 features 转换为任务输出 虽然上面的范式在业内已经验证了有效性,但它的问题也很明显。模块越多,视觉语言的交互较晚,并且系统的复杂度也会更高。 针对dense perception的任务特点,作者提出以下关键设计:1)Unified Dense Transformer with Hybrid Attention Mask; 2)Chain-of-Perception; 3)Specialized heads2026-5-30 多模态 图像分割
多模态模型如何处理任意分辨率输入:位置编码设计学习分享本文围绕 decoder-only 多模态模型中的位置编码设计,讨论了视觉 token 从二维/三维结构被展平成一维序列后带来的位置表达问题。 Vanilla 1D RoPE 的优势是简单、兼容预训练 LLM,但它会把图像中的二维几何关系压缩到一维序列距离中。对于任意分辨率输入,同样的空间相对位置可能对应不同的一维相对距离,这会增加模型学习空间结构的难度。 3D RoPE / MRoPE 的核心思路,是让序列仍然保持一维输入形式,但为每个 token 分配三维 position id,即 $(t,h,w)$。这样既能兼容文本 token 的 1D RoPE 先验,又能让视觉 token 保留时间、高度、宽度方向上的几何相对关系。 MRoPE-I、MHRoPE 等方法在频率分配层面改进标准 MRoPE,使不同位置轴能更充分地利用 RoPE 的频谱。2026-6-18 多模态 位置编码
《Unlimited OCR》技术小结:用R-SWA实现长程文档解析学习分享Unlimited OCR 是基于 DeepSeek OCR 改造的端到端多页 OCR 模型,核心是用 R-SWA 替换 decoder 中的 full attention,使视觉 tokens、prompt 全局可见,而生成历史只保留最近窗口,从而在多页 PDF OCR 中保持恒定 decode-side KV cache,实现更高效的 long-horizon parsing。2026-6-29 ocr 多模态
🐮Nougat 深度剖析学习分享提出了一种全新的端到端的OCR模型,该模型基于自回归的方法,旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。2023-8-5 大模型 版面恢复 ocr
Segment Anything(SAM)学习分享近日,MetaAI团队开源了一个用于分割的10亿个masks,1100w张图片数据集SA-1B。并开开源了基于此数据集训练的模型。这应该是目前CV分割领域最强的基础模型。2023-4-10 大模型 图像分割
DeepMind: 训练LLM的scale law学习分享作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。实验发现,model size和training tokens应当scale equally,如:当model size扩大一倍,training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla,在多个任务上实现SOTA。2023-11-15 deepmind 大模型
LoRA: 微调大模型的一种轻量级方法学习分享常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式,其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路,使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B,取代更新原有权重W。2023-3-1 大模型 peft
RLHF对大模型泛化性和多样性的影响学习分享虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知,本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。2023-12-8 大模型 RLHF
Attention Free Transformer(AFT)技术小结学习分享原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。2023-9-14 transformer
RNN并行化——《Were RNNs All We Needed?》论文解读学习分享最近在看并行RNN相关的paper,发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始,介绍Bengio团队不久前发表的《Were RNNs All We Needed?》2024-11-21 大模型
KV-Cache技术小结(MHA,GQA,MQA,MLA)学习分享KV-cache技术是目前LLM,VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比,是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA,MQA,MLA是目前常用的方法。本文将从经典的casual attention出发,阐述kv-cache的必要性,及目前常见优化kv-cache的手段。2025-2-20 大模型
Step by Step: Understanding Flash-Attention学习分享Transformers核心组件self-attention的空间复杂度为$\mathcal{O}(T^2)$ ,$T$为序列长度。从显存层面限制了模型长上下文upper bound。对于标准的self-attention计算而言,需要频繁进行HBM(high bandwidth memory, HBM)和SRAM的内存读写,存在IO瓶颈。 FlashAttention的核心创新点是通过online-softmax和tiling技巧来将self-attention的空间复杂度降至$\mathcal{O}(T)$,减少HBM与SRAM的IO通信。2025-9-28 大模型