type
status
date
slug
summary
tags
category
icon
password
paper
code
org
InstantX
个人博客位置
前置阅读:IP-Adapter

Motivation

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点
  • content leakage。
  • image condition的引入会导致text condition变弱
虽然通过调节image weight能够缓解这个问题,但需要手动调节weight,并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。
notion image

Method

Instant-style的核心架构还是IP-Adapter。主要进行了两个优化:
优化1 :设计了一个简单但有效的方法对reference image的object和style进行解离来缓解content-leakage问题。
记reference image为,reference image的object text为,原始IP-adapter所得到的reference image的image embedding为
而instant-style所得到的image embedding为:
其中linear normalization为全连接层,用于调整权重。
简单来说,就是将CLIP得到的image feature减去object feature。
优化2:减少decouple-cross-attention的替换数量,提升IP-Adapter的prompt following能力。
作者通过对不同的DM中不同的attention layer进行分析,发现up blocks.0.attentions.1和down blocks.2.attentions.1对style和layout的捕捉能力最强。为了减轻IP-adapter中的image condition对prompt following的影响,仅在这两层将cross attention换成decouple cross-attention。 (感觉这部分的实验不够充分)
notion image

Result

两个优化策略的消融实验
notion image
和其它工作的对比结果
notion image
notion image
更多细节见原文。

参考文献

Ross随机过程笔记(三): 随机过程Ross随机过程笔记(二): 随机变量
  • Twikoo