diffusion model(十)：AnyDoor: Zero-shot Object-level Image Customization技术小结 | 莫叶何竹🍀

paper	AnyDoor: Zero-shot Object-level Image Customization
code	https://github.com/damo-vilab/AnyDoor
Org	香港大学，Alibaba Group
date	2023-07

1 Motivation

过去我们用dreambooth，LORA，textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是：给定目标图片和场景图片就能生成在该目标在该场景不同姿态（角度、光照）的图片。

2 Method

2.1 模型架构

架构组成	功能	是否更新参数
`Segmentor`	用于去背景	❄️
`Detail Extractor`	类似ControlNet，用于特征注入	🔥
`Unet`	stable diffusion	❄️
`ID Extractor`	提取图片特征，注入unet	❄️`DINOV2` + 🔥投影层

notion image

pipeline如下：

输入：

给定场景图片+生成位置

需要定制的目标图片

STEP1：目标图片送入到segmentor中进行去背景。然后兵分两路，记作分枝1和分枝2

STEP2-分枝1：

STEP2-1-1: 提取去除背景的图片的高频信号HF_MAP (下节有实现细节)
STEP2-1-2: 将提取的高频信号和场景图片在生成位置进行融合
STEP2-1-3: 将融合的结果送入到Detail Extractor 中提取Detail map。（此处的网络结构类似controlnet）

STEP2-分枝2:

STEP2-2-1: 将去除背景的图片送入到ID Extractor中提取ID-Token。

STEP3: 将ID-Token和Detail map一起送入到Unet中，用diffusion model的生成方式进行图片生成。

2.2 实现细节

2.2.1 图中的HF-MAP是什么，有什么用

HF-MAP的计算公式如下

其中：

为HF-MAP

为输入的原图

为水平方向的Sobel kernel

表示卷积操作

表示垂直方向的Sobel kernel

为经过腐蚀后的物体mask

为逐元素相乘。即Hadamard product

该公式的核心就是，提取图片中object的高频信息，随后将其与scene图片拼接。

作者之所以用高频信号进行拼接是因为：直接将物体和scene拼接训练后生成的结果都非常单一，缺乏多样性。

作者也对HF-MAP的必要性进行了消融实验

notion image

2.2.2 如何构建训练的图片pair

从上面的描述中我们知道anydoor的训练目标是给定目标图片和场景生成该目标在该场景下不同姿态的图片。因此容易知道训练集是三元组组成的集合，即（输入目标图片，场景图片+位置，输出图片）。如何用一种cheap的方法得到同个目标在同场景不同姿态（视角、光照等）的图片对是一难点。

作者利用video数据集来构造图片对。整体的pipeline如下，简而言之就是利用同一个object在不同帧的图片来构造图片对。

notion image

训练的数据集如下：

notion image

2.2.3 各组件必要性消融实验

ATS为自适应时间步采样策略（adaptive timestep sampling）

notion image

ID extractor的消融实验。

notion image

3 Result

从论文给出的结果看，生成的效果都很不错。

notion image

notion image

Thinking

作者给出了该技术的两个使用场景。感觉用来合成数据也很不错，后续尝试一下。

虚拟试衣（virtual try-on）

notion image

交互式图像编辑

notion image

作者:莫叶何竹🍀
链接:http://www.myhz0606.com/article/anydoor?target='
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

Lazy loaded image

diffusion model(一)：DDPM技术小结 (denoising diffusion probabilistic)

Lazy loaded image

diffusion model(二)：DDIM技术小结 (denoising diffusion implicit model)

Lazy loaded image

diffusion model(三)：classifier guided diffusion model

Lazy loaded image

diffusion model(四)：文生图diffusion model (classifier-free guided)

Lazy loaded image

diffusion model(五)：LDM: 在隐空间用diffusion model合成高质量图片

Lazy loaded image

diffusion model(六)：Dalle2 技术小结

diffusion model(九)：EmuEdit技术小结 diffusion model(十一)： InstantID技术小结

Loading...

目录

0%

莫叶何竹🍀

非淡泊无以明志，非宁静无以致远

最新发布

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解

《Unlimited OCR》技术小结：用R-SWA实现长程文档解析

多模态模型如何处理任意分辨率输入：位置编码设计

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)

LocateAnything技术小结

Step by Step: Understanding ROPE

目录

0%