DreamSim技术小结 | 莫叶何竹🍀

type

Post

status

Published

date

Mar 31, 2024

slug

dream_sim

summary

针对模型计算的相似性和human perceptual similarity还是有一定的差距的问题，本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征，并兼顾color、layout等low level特征，能更好的对齐human perceptual similarity。

1 Motivation

目前较为成熟度量图片相似性的做法是通过模型将图片转为embedding，再用余弦相似度来度量相似性。虽然在大量数据上训练的vision foundation model提取的embedding具备丰富的high level特征并在图像搜索等业务取得了大量成功，但模型计算的相似性和human perceptual similarity还是有一定的差距。

针对上述问题，本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征，并兼顾color、layout等low level特征，能更好的对齐human perceptual similarity。

2 Method

2.1 Human Perceptual Similarity数据集构建

2.1.1 `Two alternative forced choice(2AFC)`

这个数据集旨在通过对比的方式来定义human perceptual similarity。

作者采用Amazon Mechanical Turk (AMT)平台用于数据搜集：标注步骤如下：

通过diffusion model合成了10w个三元组图片。依次为扰动图片A()，参考图片Ref()，扰动图片B ()。标注者需要从选择与更相似的图片。标注过程重复10轮（不止一个标注人员）。10轮标注后，每一个三元组都有10份标注结果，若当前三元组超过6份标注结果一致，则认为该标注结果可信。最后得到20019份可信的标注结果：, 表示当前三元组的标注结果。

作者按照8:1:1划分为训练集、验证集、测试集