学习分享 | 分类 | 莫叶何竹🍀

学习分享

🏂diffusion model(十三)：DiT技术小结

DiT 系统研究了diffusion transformer的token化和条件嵌入两个关键问题，验证了基于transformer架构的扩散模型的scalable能力。

🏂diffusion model(十四)： prompt-to-prompt 深度剖析

作者提出了一种p2p的文字编辑方法（textual editing），无需训练任何参数、添加任何模块，仅用预训练的文生图模型（如stable diffusion）即能实现卓越的textual editing能力。核心是通过约束control cross attention中的attention map实现控制！

diffusion_model

图片编辑

attention-control

diffusion model(十四)： prompt-to-prompt 深度剖析

🏂diffusion model(十五) : IP-Adapter技术小结

为了对文生图diffusion model进行特定概念的定制，常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端：每一个新的概念都需要重新训练一个权重，比较麻烦。那么，能不能有一个方法inference前无须微调，只需给一张reference image，就能将该图片的概念融入到生成过程中？这就是IP-adapter想要解决的问题。

🏂diffusion model(十六)：Layer Diffusion 技术小结

作者针对目前diffusion model无法满足设计行业工作流程依赖图层信息做进一步编辑的痛点提出了layer diffusion方法实现分层图片的生成。 • diffusion model实现RGBA图片的生成。通过额外引入RGBA encoder来将透明层信息编码为不影响预训练latent分布的 offset尽可能的保留了预训练模型的生成能力。并额外引入了一个decoder能解码出透明层图片。 • diffusion model实现分层生成。设计了一套高效可用的数据收集pipeline准备训练数据。通过attention sharing方法保证不同层之间的语义连贯性。

diffusion_model

🏂InstantStyle技术小结

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点 • content leakage。 • image condition的引入会导致text condition变弱虽然通过调节image weight能够缓解这个问题，但需要手动调节weight，并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。

🏂diffusion model(十七)Score视角下的生成模型（Score-Based Generative Models）

score based model将对概率分布的估计转为对$\nabla_{\mathrm{x}} \log p_{data}(\mathrm{x})$ (称之为score)的估计规避对归一化参数$Z_{\theta}$的计算，以此摆脱网络架构的限制。但是，由于**原始数据分布$p_{data}(\mathrm{x})$不可知，无法直接用fisher divergence（式4）**训练score based model模型，需要转为score matching 的优化形式（式6）。对于图片而言，数据维度过大，原生score matching需要计算**Jacobian matrix**，计算开销非常大，需要结合slice score matching（SSM）或denoising score matching（DSM）的方法减少计算开销。虽然通过以上手段我们可以相对高效的训练score-based model 。但由于流形假设和数据低密度区域的影响，导致模型估计的score 不准确。作者通过对原始数据加噪的方式缓解上述两个问题，并提出退火的朗之万采样算法完成高质量的样本生成。

diffusion_model

🏂diffusion model(十八)：diffusion model中negative prompt的工作机制

stable diffusion中negative prompt的工作机制

diffusion_model

🏂diffusion model(十九) ：SDE视角下的扩散模型

SongYang博士从Itô型随机微分方程（Stochastic Differential Equation）的角度对扩散模型的前向、后向过程进行建模，并用该理论框架统一了DDPM][1]和SMLD[2]

diffusion_model

BLIP系列文章小结（BLIP, BLIP-2, InstructBLIP）

文本系统梳理了BLIP多模态系列论文BLIP, BLIP-2, InstructBLIP

大模型

多模态

BLIP-2小结

BLIPv2主要从模态对齐、高效训练两个方向对图文多模态预训练任务（vision-and-language pre-training VLP）做出优化。在模态对齐上提出了一个轻量架构QFormer（querying transformer）来建立图像-文本的桥梁。在高效多模态训练上，结合QFormer提出一种二阶段预训练范式。在VQAv2任务上，仅用了倍Flamingo80B的训练数据，却带来8.7%精度提升

多模态

大模型

BLIP 小结

BLIP这篇文章提出一种boostrapping caption的方案来“提纯”带噪声web datasets，从而进一步提升多模态模型的能力。

大模型

多模态

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

虽然过去BLIP系列对LMM发展起到至关重要的作用，但从效果上来说，已经远落后于当下的SOTA模型，主要有一下3点原因： 1）数据上，训练数据数量少、质量不高、多样性不强。 2）训练策略上，多个stage（`ITM`，`ITC`， `ITG`）训练流程冗长，up scale的训练开销大 3）模型架构上，`BLIP`系列仅支持单图输入，应用范围相对较窄 BLIP3针对以上3个方面进行改进： 1）数据上，构造了更大的、质量更高、多样性更强的数据集。 2）训练策略上，提出3 stage 的训练范式，并统一用next token prediction作为训练目标目标，提升训练效率和模型效果。 3）模型架构上，支持交错图文输入。

多模态

大模型

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

1 2 3 4 5

莫叶何竹🍀

非淡泊无以明志，非宁静无以致远