🏂diffusion model(一):DDPM技术小结 (denoising diffusion probabilistic)学习分享这篇文章将从ddpm的原理推导和代码实现两个方向带你深入理解扩散模型。2023-5-18 diffusion_model
🏂diffusion model(二):DDIM技术小结 (denoising diffusion implicit model)学习分享去噪扩散概率模型 (DDPM6) 在没有对抗训练的情况下实现了高质量的图像生成,但其采样过程依赖马尔可夫假设,需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models 5)是更有效的迭代隐式概率模型,其训练过程与 DDPM 相同,但相比DDPM,采样过程快 10 到 50 倍。2023-7-2 diffusion_model
🏂diffusion model(三):classifier guided diffusion model学习分享对于一般的DM(如DDPM, DDIM)的采样过程是直接从一个噪声分布,通过不断采样来生成图片。但这个方法生成的图片类别是随机的,如何生成特定类别的图片呢?这就是classifier guide需要解决的问题。2023-7-28 diffusion_model
🏂diffusion model(四):文生图diffusion model (classifier-free guided) 学习分享Classifier-free的核心思路是:我们无需训练额外的分类器,直接训练带类别信息的噪声预测模型来实现特定类别图片的生成,即。从而简化整体的pipeline。2023-8-2 diffusion_model
🏂diffusion model(五):LDM: 在隐空间用diffusion model合成高质量图片学习分享latent diffusion model提供了一个新的思路:它将扩散过程从传统的像素空间转到了隐空间(DM模型输入参数量大大降低),极大提升了DM的训练效率和推理效率,使得DM模型得以在单张消费级显卡应用,降低了AI图片生成的上手成本。目前火出圈的Dalle2, Stable Diffusion都用到了LDM技术。2023-8-10 diffusion_model 加速生成
🏂diffusion model(六):Dalle2 技术小结学习分享OpenAI结合CLIP与diffusion model提出了一个二阶段的文本生成图片范式Dalle21,能够更精细的从语义层面控制图片的生成效果。得益于其训练范式,Dalle2的图片生成的质量不弱于GLIDE2,但生成器的多样性有明显提升。2023-8-17 diffusion_model
🏂diffusion model(七):diffusion model is a zero-shot classifier 学习分享本篇文章指出类似stable diffusion这样的大规模文本转图像模型所计算出的密度估计,可以被用来进行“零样本分类” (zero-shot classification),而不需要额外的训练。2023-8-20 diffusion_model
🏂diffusion model(八):Dalle3技术报告小结学习分享目前的文生图模型所生成的图片很难对应prompt的一些细节的描述,并且经常会忽视某些单词。作者假设造成生成与prompt不一致的原因是因为训练样本中image caption的噪声导致。针对上述问题,作者训练了一个image-captioner对之前训练样本的caption进行重写,随后重新训练text-to-image模型。2023-10-25 diffusion_model
🏂diffusion model(九):EmuEdit技术小结学习分享作者将intruction-base image editing任务建模为生成任务,并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务,并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力,引入learnable task embedding,能较好的解决上述问题。并且提出task inversion的训练方法,只需少量数据就能有效将模型扩展到新的task(类似textual inversion的思想)。2023-11-27 diffusion_model Meta 图片编辑 instruct-based-edit
🏂diffusion model(十):AnyDoor: Zero-shot Object-level Image Customization技术小结学习分享过去我们用dreambooth,LORA,textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是:给定目标图片和场景图片就能生成在该目标在该场景不同姿态(角度、光照)的图片。2023-12-26 diffusion_model 图片编辑 adapter
🏂diffusion model(十一): InstantID技术小结学习分享本文提出了一种plug-and-play 定制人脸生成模型(Plugability),给定一张人脸照片,就能生成指定风格和pos的照片。InstantID不仅前期训练成本低(compatibility),还能实现inference without fine-tune (Tuning-free)和高保真图像的生成。(Superior performance)。既有fidelity又有efficiency还flexible2024-1-30 diffusion_model 定制生成 adapter
🏂diffusion model(十二): StableCascade技术小结学习分享StableCascade的核心在于新增了一个图片隐特征的先验,从而带来推理和训练的加速。在训练阶段这个先验来源于pre-training model。在推理阶段这个先验来源于stageC对这个先验信息的估计。2024-3-7 diffusion_model 加速生成