🏂diffusion model(九):EmuEdit技术小结

作者将intruction-base image editing任务建模为生成任务,并用diffusion model进行求解。核心创新点有两个 • 详细定义了instruction-based image edit处理的任务,并设计了一个高效高质量的数据构建方法。 • 为提升模型对instruction的理解能力,引入learnable task embedding,能较好的解决上述问题。并且提出task inversion的训练方法,只需少量数据就能有效将模型扩展到新的task(类似textual inversion的思想)。
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
Attention Free Transformer(AFT)技术小结
2025-4-15
BLIP 小结
2025-4-13
BLIP系列文章小结(BLIP, BLIP-2, InstructBLIP)
2025-4-13
Nougat 深度剖析
2025-3-18
表格结构还原——SLANet
2025-2-27
KV-Cache技术小结(MHA,GQA,MQA,MLA)
2025-2-24