diffusion_model | 标签 | 莫叶何竹🍀

🏂diffusion model(十三)：DiT技术小结

DiT 系统研究了diffusion transformer的token化和条件嵌入两个关键问题，验证了基于transformer架构的扩散模型的scalable能力。

🏂diffusion model(十四)： prompt-to-prompt 深度剖析

作者提出了一种p2p的文字编辑方法（textual editing），无需训练任何参数、添加任何模块，仅用预训练的文生图模型（如stable diffusion）即能实现卓越的textual editing能力。核心是通过约束control cross attention中的attention map实现控制！

diffusion_model

图片编辑

attention-control

diffusion model(十四)： prompt-to-prompt 深度剖析

🏂diffusion model(十五) : IP-Adapter技术小结

为了对文生图diffusion model进行特定概念的定制，常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端：每一个新的概念都需要重新训练一个权重，比较麻烦。那么，能不能有一个方法inference前无须微调，只需给一张reference image，就能将该图片的概念融入到生成过程中？这就是IP-adapter想要解决的问题。

🏂diffusion model(十六)：Layer Diffusion 技术小结

作者针对目前diffusion model无法满足设计行业工作流程依赖图层信息做进一步编辑的痛点提出了layer diffusion方法实现分层图片的生成。 • diffusion model实现RGBA图片的生成。通过额外引入RGBA encoder来将透明层信息编码为不影响预训练latent分布的 offset尽可能的保留了预训练模型的生成能力。并额外引入了一个decoder能解码出透明层图片。 • diffusion model实现分层生成。设计了一套高效可用的数据收集pipeline准备训练数据。通过attention sharing方法保证不同层之间的语义连贯性。

diffusion_model

🏂InstantStyle技术小结

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点 • content leakage。 • image condition的引入会导致text condition变弱虽然通过调节image weight能够缓解这个问题，但需要手动调节weight，并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。

🏂diffusion model(十七)Score视角下的生成模型（Score-Based Generative Models）

score based model将对概率分布的估计转为对$\nabla_{\mathrm{x}} \log p_{data}(\mathrm{x})$ (称之为score)的估计规避对归一化参数$Z_{\theta}$的计算，以此摆脱网络架构的限制。但是，由于**原始数据分布$p_{data}(\mathrm{x})$不可知，无法直接用fisher divergence（式4）**训练score based model模型，需要转为score matching 的优化形式（式6）。对于图片而言，数据维度过大，原生score matching需要计算**Jacobian matrix**，计算开销非常大，需要结合slice score matching（SSM）或denoising score matching（DSM）的方法减少计算开销。虽然通过以上手段我们可以相对高效的训练score-based model 。但由于流形假设和数据低密度区域的影响，导致模型估计的score 不准确。作者通过对原始数据加噪的方式缓解上述两个问题，并提出退火的朗之万采样算法完成高质量的样本生成。

diffusion_model