type
status
date
slug
summary
tags
category
icon
password
ㅤ | info |
paper | Prompt-to-Prompt Image Editing with Cross Attention Control |
github | |
Org: | Google Research |
个人复现 | 还在整理代码中:后续置于 https://github.com/myhz0606/diffusion_learning |
1 前言
基于扩散模型(
diffusion model
)的图片编辑技术当下取得了飞跃的进展,涌现出了大量优秀的工作,例如:InstructPix2Pix
[1]和EmuEdit
[2]。这些工作致力于实现直接通过文字指令来编辑图片,极大地提升了传统图像编辑流程的效率。这种新兴的技术领域被称作基于指令的图像编辑(instruction-based image editing
)。饮水思源,这类技术成功的背后,离不开Google在2022年提出的Prompt-to-Prompt
(下文简称为p2p
)这项工作。为了深入理解技术细节,笔者借鉴google的开源代码对其进行复现。
2 P2P提出的Motivation
目前大火的文生图技术(text to image),给定一段文本(prompt)和随机种子,文生图模型会基于这两者生成一张图片。生成图片的不同由两个变量决定
- 随机种子。随机种子决定初始的噪声。
- prompt。prompt是通过文本编码器(如
CLIP
的text encoder)转为语义向量再送入到diffusion model
的cross-attention
层中与图片信息交互。
假定up sampler不引入随机性,如DDIM; classifier-guidance-score; generation step是系统变量维持不变
如果我们固定了随机种子,仅微小的改变prompt,输出的图片是否相似?如果可行,那么根据这个特性,很方便的可以通过修改prompt来编辑图片了。很遗憾,事情没有那么简单。仅微小改动prompt,输出的图片也有很大差异。下图展示了固定随机种子,仅更改蛋糕种类的生成结果。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2F4d68e738-b503-4f66-8544-d680ec464aa0%2Fp2p_exchange_prompt.png?table=block&id=a71ce21e-148b-409c-b435-35608227b79b&t=a71ce21e-148b-409c-b435-35608227b79b&width=1656&cache=v2)
过去为了解决上述问题,
Repaint
[3]、Diffedit
[4]在做图片编辑时,会引入一个mask,在编辑阶段,只更新mask区域的像素值,这类方法也取得了一些令人惊叹的结果,但上述方法同样存在三个问题:- 需要手动构建mask,比较麻烦。(现在一般会接入
SAM
[5]来加速这个过程)
- 由于在编辑过程只修改mask区域的像素值,未考虑mask区域与非mask区域的结构信息,导致生成的图片语义连贯性较差。
- 这类方法只能实现object-level的编辑,无法实现图片风格、纹理的编辑。
在这篇文章中,作者提出了一种
p2p
的文字编辑方法(textual editing),无需训练任何参数、添加任何模块,仅用预训练的文生图模型(如stable diffusion)即能实现卓越的textual editing能力。下图展示了引入p2p
技术后,同样的随机种子和prompt的生成结果。![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2F10cf1763-fade-418f-9107-d500ff20dc6e%2Fp2p_exchange_prompt_p2p.png?table=block&id=a1ce8e30-555f-4a0a-acda-25bff8267e70&t=a1ce8e30-555f-4a0a-acda-25bff8267e70&width=708&cache=v2)
下面来看
p2p
具体是怎么做的吧。3 方法
3.1 什么是prompt-to-prompt 🤔
通过上面的背景和动机介绍,我们知道
p2p
做的是这样一件事:给定原始图片的prompt()与编辑图片的prompt (),通过文生图模型,分别获得原始图片与编辑后的图片。 与除了编辑区域外尽可能的近。
举个🌰,当我输入prompt
a photo of a house on a mountain.
用文生图生成了一张在山上的房子的图片,现在我们想维持生成图片的整体布局,仅将其改为冬景。用p2p技术可以很方便实现,如下图所示![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fa308245a-2971-49c6-b36d-27214331d6f2%2Fp2p_demo_contrastive.png?table=block&id=656fdf66-a515-4f82-87b5-276ea89bf2a8&t=656fdf66-a515-4f82-87b5-276ea89bf2a8&width=480&cache=v2)
3.2 prompt-to-prompt的具体实现 🤔
在详细介绍
p2p
之前,我们先来回答motivation中的一个问题。为什么给定了随机种子,仅微小的改变prompt,输出的图片却差异很大?
我们知道在文生图中,prompt与
diffusion model
是在cross-attention
层进行交互(text embedding作为cross-attention
的key和value)。如下图所示(灰色的块代表mask)。![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fecd7e058-8356-486e-887f-bc4ff9929a66%2Fp2p_cross_atten.png?table=block&id=04d6f75d-2091-44b8-8042-cdebe5d6e4e3&t=04d6f75d-2091-44b8-8042-cdebe5d6e4e3&width=1488&cache=v2)
📌忘记文生图条件融合的话,可以回顾 classifier-free guided的内容。
假定当prompt的第二个token发生改变时,根据下图的计算流,可以看到整个attention score的数值都会发生改变。随着采样步长的增加,最终输出结果会偏离的越来越远。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fe6261eb7-aa5b-4ee0-9a7c-fd06737712a2%2Fp2p_cross_atten_change_token.png?table=block&id=828c14a7-04f7-411b-81e8-e7bb459c8281&t=828c14a7-04f7-411b-81e8-e7bb459c8281&width=2594&cache=v2)
3.2.1 cross-attention对生成图片的影响
通过对diffusion model网络内部的观察,作者发现生成图片的空间布局和几何形状都是由内部的cross-attention层的attention map决定(上图的)。下图是由prompt: “a furry bear watching a bird”生成的图片,我们分别看每一个token对应的attention map对应生成图片的相应位置。并在time step的早期这个对应关系就已形成。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fae5a578b-5447-4d5b-9a10-1fd51aef255d%2Fp2p_atten_map_2.png?table=block&id=61a2976e-30fa-4b43-bce1-6ba64e51c4c9&t=61a2976e-30fa-4b43-bce1-6ba64e51c4c9&width=384&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2F218899fc-ec98-4f7b-ac0f-235cc8ef0b36%2Fp2p_atten_map.png?table=block&id=ea9256f6-c24f-4430-8b41-f7f69b97dab2&t=ea9256f6-c24f-4430-8b41-f7f69b97dab2&width=576&cache=v2)
这里提供一张attention map随时间步变化的gif图。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2F24c832a7-c57b-4061-9485-0c23072f8833%2Ftoken_attn_per_step.gif?table=block&id=c4f4f8bf-9299-4714-9c1e-380b2f2ff98b&t=c4f4f8bf-9299-4714-9c1e-380b2f2ff98b&width=708&cache=v2)
3.2.1 controlling the cross-attention
control的思路很简单。既然cross-attention的attention map决定生成图片的结构信息,那我们维持原始的attention map即可。
p2p的整体算法流程如下图所示
每一个时间步分别计算原始prompt的attention map 和新的prompt的attention map 并用特定的替换规则替换后再进行生成。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Ff9e4ce11-be8d-480c-967e-1bcc7dfcf85a%2Fp2p_algorithm.png?table=block&id=1ff2ebbe-541a-4cc2-b8f6-35c9661a8004&t=1ff2ebbe-541a-4cc2-b8f6-35c9661a8004&width=1452&cache=v2)
作者根据不同的编辑类型,设计了不同的替换方式
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2F30e5ca0c-f257-4963-bf00-852d1a1fdcb9%2Fp2p_atten_edit.png?table=block&id=91ca04ef-b392-4e56-aa48-db6cf9ef5775&t=91ca04ef-b392-4e56-aa48-db6cf9ef5775&width=624&cache=v2)
(一)Word Swap
这个编辑类型是指将原始prompt中的某个token用新的token进行替换。 “photo of a cat riding on a bicycle”, “photo of a cat riding on a motorcycle”。此时的替换规则是
表示某一时间步。当时间步小于时不做替换,否则用原始prompt的attention map做替换。(当两个词的长度不同时,可以对少的进行复制)引入的目的是:有一些编辑对图像的几何改变会很大,可以通过引入控制时机来缓和。Word Swap的编辑形式可以很方便的对图片中某个物体进行局部编辑。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fcfe1bbf8-e6fd-4fdb-afa7-b353d04117aa%2Fp2p_word_swap.png?table=block&id=36774fba-28a7-466e-83d7-9e3adbb96f25&t=36774fba-28a7-466e-83d7-9e3adbb96f25&width=2728&cache=v2)
(二)Adding a New Phrase
指的是在原始prompt 新增一些token。如 “a photo of a house on a mountain”, “a photo of a house on a mountain at winter”。
表示visual token的索引位置,表示中text token 的索引位置;表示,的text token 在中的索引位置。这种类型的control同样可以引入word swap中的来控制control的时机。用这个方法可以对图像进行全局的编辑,如下面例子的改变风格整体图片的风格为“winter”。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fede81dde-e866-4afd-9ede-c69208a54d98%2Fp2p_add_phrase.png?table=block&id=e44c3020-f975-4973-9bd9-38494af7adea&t=e44c3020-f975-4973-9bd9-38494af7adea&width=708&cache=v2)
(三)Attention Re–weighting
基于p2p还可以精细的控制prompt每一个token的控制强度。这个场景和是相同的,可以更改特定token的权重来控制图像。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2F72b6d5eb-4fa2-40ea-9bf4-429452b8bee4%2Fp2p_re_weight.png?table=block&id=d7289f32-ffe6-443e-9864-c9580def1b22&t=d7289f32-ffe6-443e-9864-c9580def1b22&width=708&cache=v2)
4 核心部分代码说明
diffusers.__version__ == 0.10.0
4.1 修改cross-attention层的forward
p2p的核心是修改cross-attention层的计算方式,为此我们需要重写diffusers内部cross-attention的forward函数,引入
controller.control()
来控制attention map的编辑。4.2 control attention map
controller.control()
内部的实现方式4.3 支持的编辑方式
代码中通过
EditParams
类来指定编辑的参数5 One More Thing
5.1 p2p
with additional constraints
的edit能力通过引入以下3个约束还能进一步提升
- self attention的约束
将原始图片在self attention处的attention map迁移给编辑图片,非编辑区域维持性会更强。详细可见pnp[7]论文。
下图展现了当使用self- attention control时的编辑效果。应用的步长越多,非edit区域的维持性越好。
source prompt:
"a photo of a house on a mountain.”
target_prompt:
"a photo of a house on a mountain at winter"
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fafbf2f1e-96c8-456a-8c9a-1502c53faa50%2Fp2p_self_attn_control.png?table=block&id=1d563e4a-67fa-4840-b1ae-bbd901ebd2ce&t=1d563e4a-67fa-4840-b1ae-bbd901ebd2ce&width=1792&cache=v2)
同样,有一些编辑对图像的几何改变会很大,不宜控制过多
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fb9cb0f67-5934-4520-b597-d536ddb5d7f9%2Fp2p_self_attn_control2.png?table=block&id=2fb8f8af-005d-4e15-925b-9147223f4c2d&t=2fb8f8af-005d-4e15-925b-9147223f4c2d&width=1792&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Fb1687128-e13c-452d-91d7-944eb678d7e0%2Fp2p_self_attn_control2.png?table=block&id=17d89fb6-8a74-483d-b961-f84a6afa9e9f&t=17d89fb6-8a74-483d-b961-f84a6afa9e9f&width=708&cache=v2)
- 引入local blend
仅更改需要编辑区域的pixel,保留其它区域的pixel。编辑区域的mask为token对应的attention map。底层原理可见repaint[8] paper。
如:当引入“mountain”的local blend限制时,只有山的区域变为雪景。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2Ff31db2d0-6db2-4ff6-9f90-c4cd56346493%2Fp2p_local_blend_control.png?table=block&id=e97cfca8-0e07-49a3-b3b4-dd41ecd74f22&t=e97cfca8-0e07-49a3-b3b4-dd41ecd74f22&width=768&cache=v2)
当local-blend还可以结合re-weight等编辑策略,可以实现更细粒度的控制
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F843944ec-ceca-4d0d-9958-d8fc309e4037%2F3a3af37a-9d4c-4ffd-9b66-ad894ca23bc0%2Fp2p_local_blend_control_reweight.png?table=block&id=5808f765-59e8-4a0d-ba60-afbdaf97246f&t=5808f765-59e8-4a0d-ba60-afbdaf97246f&width=2048&cache=v2)
- noise分支引入self attention的约束
我们知道对于classifier-free的文生图,需要同时计算条件分支的噪声估计和非条件分支的噪声估计,再通过classifier-free的方式融合。尝试发现,非条件分支引入self-attention control有助于进一步提升编辑效果(相比前面,提升不太大)。
5.2 p2p
for real image editing
若要采用
p2p
论文中的方法进行编辑需要知道两个信息:1)图片的初始噪声分布;2)图片的prompt。如果直接拿一张图过来是没有办法进行p2p进行编辑的。需要先得到以下两个信息:1)给定或生成这张图的prompt;
2)估计出给定prompt下这张图的噪声。
在作者后续的Null-text Inversion [9]工作中对这类情形进一步研究,后续文章中将详细介绍。
参考文献
[5] Segment Anything
[7] Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
[8] RePaint: Inpainting using Denoising Diffusion Probabilistic Models
[9] Null-text Inversion for Editing Real Images using Guided Diffusion Models
- 作者:莫叶何竹🍀
- 链接:http://www.myhz0606.com/article/p2p
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章