🏂diffusion model(九):EmuEdit技术小结

作者将intruction-base image editing任务建模为生成任务,并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务,并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力,引入learnable task embedding,能较好的解决上述问题。并且提出task inversion的训练方法,只需少量数据就能有效将模型扩展到新的task(类似textual inversion的思想)。