type
status
date
slug
summary
tags
category
icon
password
paper
code
org
InstantX
个人博客位置
前置阅读:IP-Adapter

Motivation

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点
  • content leakage。
  • image condition的引入会导致text condition变弱
虽然通过调节image weight能够缓解这个问题,但需要手动调节weight,并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。
notion image

Method

Instant-style的核心架构还是IP-Adapter。主要进行了两个优化:
优化1 :设计了一个简单但有效的方法对reference image的object和style进行解离来缓解content-leakage问题。
记reference image为,reference image的object text为,原始IP-adapter所得到的reference image的image embedding为
而instant-style所得到的image embedding为:
其中linear normalization为全连接层,用于调整权重。
简单来说,就是将CLIP得到的image feature减去object feature。
优化2:减少decouple-cross-attention的替换数量,提升IP-Adapter的prompt following能力。
作者通过对不同的DM中不同的attention layer进行分析,发现up blocks.0.attentions.1和down blocks.2.attentions.1对style和layout的捕捉能力最强。为了减轻IP-adapter中的image condition对prompt following的影响,仅在这两层将cross attention换成decouple cross-attention。 (感觉这部分的实验不够充分)
notion image

Result

两个优化策略的消融实验
notion image
和其它工作的对比结果
notion image
notion image
更多细节见原文。

参考文献

相关文章
diffusion model(一):DDPM技术小结 (denoising diffusion probabilistic)
Lazy loaded image
diffusion model(二):DDIM技术小结 (denoising diffusion implicit model)
Lazy loaded image
diffusion model(三):classifier guided diffusion model
Lazy loaded image
diffusion model(四):文生图diffusion model (classifier-free guided)
Lazy loaded image
diffusion model(五):LDM: 在隐空间用diffusion model合成高质量图片
Lazy loaded image
diffusion model(六):Dalle2 技术小结
Lazy loaded image
diffusion model(十六):Layer Diffusion 技术小结diffusion model(十七)Score视角下的生成模型(Score-Based Generative Models)
Loading...
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
Nougat 深度剖析
2025-3-18
表格结构还原——SLANet
2025-2-27
KV-Cache技术小结(MHA,GQA,MQA,MLA)
2025-2-24
diffusion model(十九) :SDE视角下的扩散模型
2024-12-31
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力
2024-11-22
RNN并行化——《Were RNNs All We Needed?》论文解读
2024-11-21