diffusion_model | 标签 | 莫叶何竹🍀

🏂diffusion model(一)：DDPM技术小结 (denoising diffusion probabilistic)

这篇文章将从ddpm的原理推导和代码实现两个方向带你深入理解扩散模型。

🏂diffusion model(二)：DDIM技术小结 (denoising diffusion implicit model)

去噪扩散概率模型 (DDPM6) 在没有对抗训练的情况下实现了高质量的图像生成，但其采样过程依赖马尔可夫假设，需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models 5)是更有效的迭代隐式概率模型，其训练过程与 DDPM 相同，但相比DDPM，采样过程快 10 到 50 倍。

diffusion_model

🏂diffusion model(三)：classifier guided diffusion model

对于一般的DM（如DDPM， DDIM）的采样过程是直接从一个噪声分布，通过不断采样来生成图片。但这个方法生成的图片类别是随机的，如何生成特定类别的图片呢？这就是classifier guide需要解决的问题。

diffusion_model

🏂diffusion model(四)：文生图diffusion model (classifier-free guided)

Classifier-free的核心思路是：我们无需训练额外的分类器，直接训练带类别信息的噪声预测模型来实现特定类别图片的生成，即。从而简化整体的pipeline。

diffusion_model

🏂diffusion model(五)：LDM: 在隐空间用diffusion model合成高质量图片

latent diffusion model提供了一个新的思路：它将扩散过程从传统的像素空间转到了隐空间（DM模型输入参数量大大降低），极大提升了DM的训练效率和推理效率，使得DM模型得以在单张消费级显卡应用，降低了AI图片生成的上手成本。目前火出圈的Dalle2, Stable Diffusion都用到了LDM技术。

diffusion_model

加速生成

🏂diffusion model(六)：Dalle2 技术小结

OpenAI结合CLIP与diffusion model提出了一个二阶段的文本生成图片范式Dalle21，能够更精细的从语义层面控制图片的生成效果。得益于其训练范式，Dalle2的图片生成的质量不弱于GLIDE2,但生成器的多样性有明显提升。

diffusion_model

🏂diffusion model(七)：diffusion model is a zero-shot classifier

本篇文章指出类似stable diffusion这样的大规模文本转图像模型所计算出的密度估计，可以被用来进行“零样本分类” (zero-shot classification)，而不需要额外的训练。

diffusion_model

🏂diffusion model(八)：Dalle3技术报告小结

目前的文生图模型所生成的图片很难对应prompt的一些细节的描述，并且经常会忽视某些单词。作者假设造成生成与prompt不一致的原因是因为训练样本中image caption的噪声导致。针对上述问题，作者训练了一个image-captioner对之前训练样本的caption进行重写，随后重新训练text-to-image模型。

diffusion_model

🏂diffusion model(九)：EmuEdit技术小结

作者将intruction-base image editing任务建模为生成任务，并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务，并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力，引入learnable task embedding，能较好的解决上述问题。并且提出task inversion的训练方法，只需少量数据就能有效将模型扩展到新的task（类似textual inversion的思想）。

diffusion_model

🏂diffusion model(十)：AnyDoor: Zero-shot Object-level Image Customization技术小结

过去我们用dreambooth，LORA，textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是：给定目标图片和场景图片就能生成在该目标在该场景不同姿态（角度、光照）的图片。

diffusion_model

图片编辑

adapter

diffusion model(十)：AnyDoor: Zero-shot Object-level Image Customization技术小结

🏂diffusion model(十一)： InstantID技术小结

本文提出了一种plug-and-play 定制人脸生成模型（Plugability），给定一张人脸照片，就能生成指定风格和pos的照片。InstantID不仅前期训练成本低（compatibility），还能实现inference without fine-tune （Tuning-free）和高保真图像的生成。（Superior performance）。既有fidelity又有efficiency还flexible

diffusion_model

定制生成

adapter