🏂InstantStyle技术小结

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点 • content leakage。 • image condition的引入会导致text condition变弱 虽然通过调节image weight能够缓解这个问题,但需要手动调节weight,并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。

🏂diffusion model(十五) : IP-Adapter技术小结

为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。

🏂diffusion model(十):AnyDoor: Zero-shot Object-level Image Customization技术小结

过去我们用dreambooth,LORA,textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是:给定目标图片和场景图片就能生成在该目标在该场景不同姿态(角度、光照)的图片。

🏂diffusion model(九):EmuEdit技术小结

作者将intruction-base image editing任务建模为生成任务,并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务,并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力,引入learnable task embedding,能较好的解决上述问题。并且提出task inversion的训练方法,只需少量数据就能有效将模型扩展到新的task(类似textual inversion的思想)。