莫叶何竹🍀

这篇文章将从ddpm的原理推导和代码实现两个方向带你深入理解扩散模型。

diffusion model(一)：DDPM技术小结 (denoising diffusion probabilistic)

去噪扩散概率模型 (DDPM6) 在没有对抗训练的情况下实现了高质量的图像生成，但其采样过程依赖马尔可夫假设，需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models  5)是更有效的迭代隐式概率模型，其训练过程与 DDPM 相同，但相比DDPM，采样过程快 10 到 50 倍。

diffusion model(二)：DDIM技术小结 (denoising diffusion implicit model)

对于一般的DM（如DDPM， DDIM）的采样过程是直接从一个噪声分布，通过不断采样来生成图片。但这个方法生成的图片类别是随机的，如何生成特定类别的图片呢？这就是classifier guide需要解决的问题。

diffusion model(三)：classifier guided diffusion model

Classifier-free的核心思路是：我们无需训练额外的分类器，直接训练带类别信息的噪声预测模型来实现特定类别图片的生成，即。从而简化整体的pipeline。

diffusion model(四)：文生图diffusion model (classifier-free guided) 

latent diffusion model提供了一个新的思路：它将扩散过程从传统的像素空间转到了隐空间（DM模型输入参数量大大降低），极大提升了DM的训练效率和推理效率，使得DM模型得以在单张消费级显卡应用，降低了AI图片生成的上手成本。目前火出圈的Dalle2, Stable Diffusion都用到了LDM技术。

diffusion model(五)：LDM: 在隐空间用diffusion model合成高质量图片

OpenAI结合CLIP与diffusion model提出了一个二阶段的文本生成图片范式Dalle21，能够更精细的从语义层面控制图片的生成效果。得益于其训练范式，Dalle2的图片生成的质量不弱于GLIDE2,但生成器的多样性有明显提升。

diffusion model(六)：Dalle2 技术小结

本篇文章指出类似stable diffusion这样的大规模文本转图像模型所计算出的密度估计，可以被用来进行“零样本分类” (zero-shot classification)，而不需要额外的训练。

diffusion model(七)：diffusion model is a zero-shot classifier 

目前的文生图模型所生成的图片很难对应prompt的一些细节的描述，并且经常会忽视某些单词。作者假设造成生成与prompt不一致的原因是因为训练样本中image caption的噪声导致。针对上述问题，作者训练了一个image-captioner对之前训练样本的caption进行重写，随后重新训练text-to-image模型。

diffusion model(八)：Dalle3技术报告小结

作者将intruction-base image editing任务建模为生成任务，并用diffusion model进行求解。核心创新点有两个
• 详细定义了instruction-based image edit处理的任务，并设计了一个高效高质量的数据构建方法。
• 为提升模型对instruction的理解能力，引入learnable task embedding，能较好的解决上述问题。并且提出task inversion的训练方法，只需少量数据就能有效将模型扩展到新的task（类似textual inversion的思想）。

diffusion model(九)：EmuEdit技术小结

过去我们用dreambooth，LORA，textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是：给定目标图片和场景图片就能生成在该目标在该场景不同姿态（角度、光照）的图片。

diffusion model(十)：AnyDoor: Zero-shot Object-level Image Customization技术小结

本文提出了一种plug-and-play 定制人脸生成模型（Plugability），给定一张人脸照片，就能生成指定风格和pos的照片。InstantID不仅前期训练成本低（compatibility），还能实现inference without fine-tune （Tuning-free）和高保真图像的生成。（Superior performance）。既有fidelity又有efficiency还flexible

diffusion model(十一)： InstantID技术小结

StableCascade的核心在于新增了一个图片隐特征的先验，从而带来推理和训练的加速。在训练阶段这个先验来源于pre-training model。在推理阶段这个先验来源于stageC对这个先验信息的估计。

diffusion model(十二)： StableCascade技术小结

DiT 系统研究了diffusion transformer的token化和条件嵌入两个关键问题，验证了基于transformer架构的扩散模型的scalable能力。

diffusion model(十三)：DiT技术小结

作者提出了一种p2p的文字编辑方法（textual editing），无需训练任何参数、添加任何模块，仅用预训练的文生图模型（如stable diffusion）即能实现卓越的textual editing能力。核心是通过约束control cross attention中的attention map实现控制！

diffusion model(十四)： prompt-to-prompt 深度剖析

为了对文生图diffusion model进行特定概念的定制，常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端：每一个新的概念都需要重新训练一个权重，比较麻烦。那么，能不能有一个方法inference前无须微调，只需给一张reference image，就能将该图片的概念融入到生成过程中？这就是IP-adapter想要解决的问题。

diffusion model(十五) : IP-Adapter技术小结

作者针对目前diffusion model无法满足设计行业工作流程依赖图层信息做进一步编辑的痛点提出了layer diffusion方法实现分层图片的生成。
• diffusion model实现RGBA图片的生成。通过额外引入RGBA encoder来将透明层信息编码为不影响预训练latent分布的 offset尽可能的保留了预训练模型的生成能力。并额外引入了一个decoder能解码出透明层图片。
• diffusion model实现分层生成。设计了一套高效可用的数据收集pipeline准备训练数据。通过attention sharing方法保证不同层之间的语义连贯性。

diffusion model(十六)：Layer Diffusion 技术小结

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点
• content leakage。
• image condition的引入会导致text condition变弱
虽然通过调节image weight能够缓解这个问题，但需要手动调节weight，并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。

InstantStyle技术小结

score based model将对概率分布的估计转为对$\nabla_{\mathrm{x}} \log p_{data}(\mathrm{x})$ (称之为score)的估计规避对归一化参数$Z_{\theta}$的计算，以此摆脱网络架构的限制。
但是，由于**原始数据分布$p_{data}(\mathrm{x})$不可知，无法直接用fisher divergence（式4）**训练score based model模型，需要转为score matching  的优化形式（式6）。
对于图片而言，数据维度过大，原生score matching需要计算**Jacobian matrix**，计算开销非常大，需要结合slice score matching（SSM）或denoising score matching（DSM）的方法减少计算开销。
虽然通过以上手段我们可以相对高效的训练score-based model 。但由于流形假设和数据低密度区域的影响，导致模型估计的score 不准确。作者通过对原始数据加噪的方式缓解上述两个问题，并提出退火的朗之万采样算法完成高质量的样本生成。

diffusion model(十七)Score视角下的生成模型（Score-Based Generative Models）

stable diffusion中negative prompt的工作机制

diffusion model(十八)：diffusion model中negative prompt的工作机制

SongYang博士从Itô型随机微分方程（Stochastic Differential Equation）的角度对扩散模型的前向、后向过程进行建模，并用该理论框架统一了DDPM][1]和SMLD[2]

diffusion model(十九) ：SDE视角下的扩散模型

文本系统梳理了BLIP多模态系列论文BLIP, BLIP-2, InstructBLIP

BLIP系列文章小结（BLIP, BLIP-2, InstructBLIP）

BLIPv2主要从模态对齐、高效训练两个方向对图文多模态预训练任务（vision-and-language pre-training VLP）做出优化。在模态对齐上提出了一个轻量架构QFormer（querying transformer）来建立图像-文本的桥梁。在高效多模态训练上，结合QFormer提出一种二阶段预训练范式。在VQAv2任务上，仅用了倍Flamingo80B的训练数据，却带来8.7%精度提升

BLIP-2小结

BLIP这篇文章提出一种boostrapping caption的方案来“提纯”带噪声web datasets，从而进一步提升多模态模型的能力。

BLIP 小结

虽然过去BLIP系列对LMM发展起到至关重要的作用，但从效果上来说，已经远落后于当下的SOTA模型，主要有一下3点原因：
1）数据上，训练数据数量少、质量不高、多样性不强。
2）训练策略上，多个stage（`ITM`，`ITC`， `ITG`）训练流程冗长，up scale的训练开销大
3）模型架构上，`BLIP`系列仅支持单图输入，应用范围相对较窄
BLIP3针对以上3个方面进行改进：
1）数据上，构造了更大的、质量更高、多样性更强的数据集。
2）训练策略上，提出3 stage 的训练范式，并统一用next token prediction作为训练目标目标，提升训练效率和模型效果。
3）模型架构上，支持交错图文输入。

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

minigpt4系列小结

建立一个有效的多模态模型需要：
• 精心设计不同类型数据的占比。混合图文交错数据（interleaved image-text）, 仅文本数据（text-only），image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。
• image encoder、image resolution、image token的大小对结果非常重要。
• vision language connector对performant的多模态模型不那么重要。

MM1技术小结（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了是图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.

🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力

这篇文章从计算效率的角度解决开集目标检测问题（open-vocabulary object detection，OVD）。

YOLO-World技术小结

CLIP相关论文泛读

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式：
• Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”；
• Stage2: 用DFN清洗后的数据训练induced model （即CLIP）。“data-pool → DFN (trained)→ induced dataset → induced model”。

Data Filtering Network论文浅析

sigmoid-based contrastive learning从经典的softmax-based contrastive learning的“pick the right class”转化为“rate this pair”。这个转化实现了compute efficient和memory efficient，并在实验中证明，siglip在小batch下（低于32k）更具优势。

SigLIP技术小结

本文详细介绍了目前多模态任务中常用的两种处理任意分辨率的技术tiling，packing

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)

提出了一种全新的端到端的OCR模型，该模型基于自回归的方法，旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。

Nougat 深度剖析

近日，MetaAI团队开源了一个用于分割的10亿个masks，1100w张图片数据集SA-1B。并开开源了基于此数据集训练的模型。这应该是目前CV分割领域最强的基础模型。

Segment Anything(SAM)

作者通过400个不同大小语言模型在5B-50B数据训练不同的时长，来探究LLM的scale law。实验发现，model size和training tokens应当scale equally，如：当model size扩大一倍，training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla，在多个任务上实现SOTA。

DeepMind: 训练LLM的scale law

常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式，其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路，使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B，取代更新原有权重W。

LoRA: 微调大模型的一种轻量级方法

虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知，本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。

RLHF对大模型泛化性和多样性的影响

原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。

Attention Free Transformer(AFT)技术小结

最近在看并行RNN相关的paper，发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始，介绍Bengio团队不久前发表的《Were RNNs All We Needed?》

RNN并行化——《Were RNNs All We Needed?》论文解读

KV-cache技术是目前LLM，VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比，是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA，MQA，MLA是目前常用的方法。本文将从经典的casual attention出发，阐述kv-cache的必要性，及目前常见优化kv-cache的手段。

KV-Cache技术小结（MHA,GQA,MQA,MLA)

匈牙利算法可以将指派问题的时间复杂度从降低到多项式的时间复杂度。

匈牙利算法小结

1 样本空间的定义，事件的定义。
2 事件的交、并。不可能事件、独立事件、事件互补相容的条件。
3 事件的八大运算规则：交换率、结合率、分配率、同一律、互补率、吸收率、双反率、对偶率。
4 事件上概率的定义、古典概型的定义、对立事件的概率。独立事件的概率。
5 容斥恒等式、布尔不等式.
6 全概公式，贝叶斯公式

Ross随机过程笔记（一）: 概率论引论

1 随机变量定义，连续型随机变量、离散型随机变量
2 随机变量的概率分布（概率质量（密度）函数）、累积分布函数。如何验证概率密度函数
3 常见的离散随机变量及其概率质量函数（伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量）
4 常见连续型随机变量及其概率密度函数（均匀随机变量、指数随机变量、伽马随机变量、正态随机变量）
5 联合分布随机变量的分布函数、概率质量（密度）函数、均值、协方差
6 协方差的定义、性质、意义
7 矩母函数定义，常见随机变量的矩母函数
8 矩母函数的两个重要性质

Ross随机过程笔记（二）: 随机变量

1 随机过程的定义，离散随机过程、连续随机过程、随机场
2 随机游走
3 随机过程有限维分布定义、性质（对称性，相容性）、Kolmogorv定理
4 随机过程数字特征。均值函数、协方差函数、方差函数、二阶矩过程定义。
5 随机过程基本类型。平稳过程（严平稳过程、宽平稳过程定义）、独立增量过程、平稳增量过程、独立平稳增量过程。

Ross随机过程笔记（三）: 随机过程

谷歌通用图像embedding竞赛前五名方案小结

Google Universal Image Embedding前五名方案小结

我们平时做retrieval相关的工作，很多时候根据业务场景和计算资源需要对向量进行降维。受限开发周期，我们往往不会通过重新训练特征提取模型来调整向量维度，而是用PCA等方法来实现。但是当降维的scale较大时，PCA等方法的效果较差。Matryoshka Representation Learning （MRL）这篇paper介绍了一个很简单但有效的方法能实现一次训练，获取不同维度的表征提取。下面来看它具体是怎么做的吧。

Matryoshka Representation Learning (俄罗斯套娃表征学习)技术小结

针对模型计算的相似性和human perceptual similarity还是有一定的差距的问题，本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征，并兼顾color、layout等low level特征，能更好的对齐human perceptual similarity。

DreamSim技术小结

经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中，会对batch的图片进行数据增强，以同一图片不同的数据增强为正例，其它作为负例，以自监督对比损失(式1)作为训练目标进行学习。然而，在某些特定场景下，我们可能已经掌握了类别标签信息，或者至少能够明确哪些实例属于同一类别，而无需具体的类名。在这种情况下，直接沿用传统的自监督对比学习方法进行优化，显然未能充分利用这些宝贵的先验知识。
为了解决这一问题，supervised contrastive learning应运而生。其核心思想在于，将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例。

Supervised Contrastive Learning

SLANet 是一个轻量级的表格结构识别模型。它将表格结构识别任务建模为序列标注，以自回归的方式预测表格的html序列和单元格位置。

表格结构还原——SLANet

给定一张文档图像（可选）及其中全部词级 token 的文本（可选）和bounding box，输出一个排列后的 token 顺序，使其符合人类自然阅读顺序。
形式化：给定一组无序的box序列，$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$，求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。