学习分享
diffusion model(一):DDPM技术小结 (denoising diffusion probabilistic)

🏂diffusion model(二):DDIM技术小结 (denoising diffusion implicit model)

去噪扩散概率模型 (DDPM6) 在没有对抗训练的情况下实现了高质量的图像生成,但其采样过程依赖马尔可夫假设,需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models 5)是更有效的迭代隐式概率模型,其训练过程与 DDPM 相同,但相比DDPM,采样过程快 10 到 50 倍。
diffusion model(二):DDIM技术小结 (denoising diffusion implicit model)
diffusion model(三):classifier guided diffusion model
diffusion model(四):文生图diffusion model (classifier-free guided)
diffusion model(五):LDM: 在隐空间用diffusion model合成高质量图片
diffusion model(六):Dalle2 技术小结
diffusion model(七):diffusion model is a zero-shot classifier

🏂diffusion model(八):Dalle3技术报告小结

目前的文生图模型所生成的图片很难对应prompt的一些细节的描述,并且经常会忽视某些单词。作者假设造成生成与prompt不一致的原因是因为训练样本中image caption的噪声导致。针对上述问题,作者训练了一个image-captioner对之前训练样本的caption进行重写,随后重新训练text-to-image模型。
diffusion model(八):Dalle3技术报告小结

🏂diffusion model(九):EmuEdit技术小结

作者将intruction-base image editing任务建模为生成任务,并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务,并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力,引入learnable task embedding,能较好的解决上述问题。并且提出task inversion的训练方法,只需少量数据就能有效将模型扩展到新的task(类似textual inversion的思想)。
diffusion model(九):EmuEdit技术小结

🏂diffusion model(十):AnyDoor: Zero-shot Object-level Image Customization技术小结

过去我们用dreambooth,LORA,textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是:给定目标图片和场景图片就能生成在该目标在该场景不同姿态(角度、光照)的图片。
diffusion model(十):AnyDoor: Zero-shot Object-level Image Customization技术小结
diffusion model(十一): InstantID技术小结
diffusion model(十二): StableCascade技术小结