🏂diffusion model(十八):diffusion model中negative prompt的工作机制学习分享stable diffusion中negative prompt的工作机制2024-6-24 diffusion_model
🏂diffusion model(十七)Score视角下的生成模型(Score-Based Generative Models)学习分享score based model将对概率分布的估计转为对$\nabla_{\mathrm{x}} \log p_{data}(\mathrm{x})$ (称之为score)的估计规避对归一化参数$Z_{\theta}$的计算,以此摆脱网络架构的限制。 但是,由于**原始数据分布$p_{data}(\mathrm{x})$不可知,无法直接用fisher divergence(式4)**训练score based model模型,需要转为score matching 的优化形式(式6)。 对于图片而言,数据维度过大,原生score matching需要计算**Jacobian matrix**,计算开销非常大,需要结合slice score matching(SSM)或denoising score matching(DSM)的方法减少计算开销。 虽然通过以上手段我们可以相对高效的训练score-based model 。但由于流形假设和数据低密度区域的影响,导致模型估计的score 不准确。作者通过对原始数据加噪的方式缓解上述两个问题,并提出退火的朗之万采样算法完成高质量的样本生成。2024-5-30 diffusion_model
🏂diffusion model(十六):Layer Diffusion 技术小结学习分享作者针对目前diffusion model无法满足设计行业工作流程依赖图层信息做进一步编辑的痛点提出了layer diffusion方法实现分层图片的生成。 • diffusion model实现RGBA图片的生成。通过额外引入RGBA encoder来将透明层信息编码为不影响预训练latent分布的 offset尽可能的保留了预训练模型的生成能力。并额外引入了一个decoder能解码出透明层图片。 • diffusion model实现分层生成。设计了一套高效可用的数据收集pipeline准备训练数据。通过attention sharing方法保证不同层之间的语义连贯性。2024-5-12 diffusion_model
🏂InstantStyle技术小结学习分享InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点 • content leakage。 • image condition的引入会导致text condition变弱 虽然通过调节image weight能够缓解这个问题,但需要手动调节weight,并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。2024-4-16 diffusion_model 风格迁移 图片编辑 adapter
🏂diffusion model(十五) : IP-Adapter技术小结学习分享为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。2024-4-2 diffusion_model 定制生成 adapter 图片编辑
🏂diffusion model(十四): prompt-to-prompt 深度剖析学习分享作者提出了一种p2p的文字编辑方法(textual editing),无需训练任何参数、添加任何模块,仅用预训练的文生图模型(如stable diffusion)即能实现卓越的textual editing能力。核心是通过约束control cross attention中的attention map实现控制!2024-3-19 diffusion_model 图片编辑 attention-control
🏂diffusion model(十三):DiT技术小结学习分享DiT 系统研究了diffusion transformer的token化和条件嵌入两个关键问题,验证了基于transformer架构的扩散模型的scalable能力。2024-3-8 diffusion_model transformer
🏂diffusion model(十二): StableCascade技术小结学习分享StableCascade的核心在于新增了一个图片隐特征的先验,从而带来推理和训练的加速。在训练阶段这个先验来源于pre-training model。在推理阶段这个先验来源于stageC对这个先验信息的估计。2024-3-7 diffusion_model 加速生成
🏂diffusion model(十一): InstantID技术小结学习分享本文提出了一种plug-and-play 定制人脸生成模型(Plugability),给定一张人脸照片,就能生成指定风格和pos的照片。InstantID不仅前期训练成本低(compatibility),还能实现inference without fine-tune (Tuning-free)和高保真图像的生成。(Superior performance)。既有fidelity又有efficiency还flexible2024-1-30 diffusion_model 定制生成 adapter
🏂diffusion model(十):AnyDoor: Zero-shot Object-level Image Customization技术小结学习分享过去我们用dreambooth,LORA,textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是:给定目标图片和场景图片就能生成在该目标在该场景不同姿态(角度、光照)的图片。2023-12-26 diffusion_model 图片编辑 adapter
🏂diffusion model(九):EmuEdit技术小结学习分享作者将intruction-base image editing任务建模为生成任务,并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务,并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力,引入learnable task embedding,能较好的解决上述问题。并且提出task inversion的训练方法,只需少量数据就能有效将模型扩展到新的task(类似textual inversion的思想)。2023-11-27 diffusion_model Meta 图片编辑 instruct-based-edit
🏂diffusion model(八):Dalle3技术报告小结学习分享目前的文生图模型所生成的图片很难对应prompt的一些细节的描述,并且经常会忽视某些单词。作者假设造成生成与prompt不一致的原因是因为训练样本中image caption的噪声导致。针对上述问题,作者训练了一个image-captioner对之前训练样本的caption进行重写,随后重新训练text-to-image模型。2023-10-25 diffusion_model