type
status
date
slug
summary
tags
category
icon
password
paper | |
code | |
org | MiT |
1 Motivation
目前较为成熟度量图片相似性的做法是通过模型将图片转为embedding,再用余弦相似度来度量相似性。虽然在大量数据上训练的vision foundation model提取的embedding具备丰富的high level特征并在图像搜索等业务取得了大量成功,但模型计算的相似性和human perceptual similarity还是有一定的差距。
针对上述问题,本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征,并兼顾color、layout等low level特征,能更好的对齐human perceptual similarity。
2 Method
2.1 Human Perceptual Similarity数据集构建
2.1.1 Two alternative forced choice(2AFC)
这个数据集旨在通过对比的方式来定义human perceptual similarity。
作者采用Amazon Mechanical Turk (AMT)平台用于数据搜集:标注步骤如下:
通过diffusion model合成了10w个三元组图片。依次为扰动图片A(),参考图片Ref(),扰动图片B ()。标注者需要从选择与更相似的图片。标注过程重复10轮(不止一个标注人员)。10轮标注后,每一个三元组都有10份标注结果,若当前三元组超过6份标注结果一致,则认为该标注结果可信。最后得到20019份可信的标注结果:, 表示当前三元组的标注结果。
作者按照8:1:1划分为训练集、验证集、测试集
2.1.2 Just noticeable differences (JND)
这个数据集旨在定义开始变得不相似的边界(characterize the boundary when a distortion becomes just noticeable),低于这个边界认为感知相似。
标注过程如下:
将2AFC搜集的数据集,标注者对每一个三元组需要分别判断和 是否相似。当这两个二元组只有一组判定为相似时,保留该三元组且保留标注结果。最终获得411个标注结果。
📌注意,为了保证标注质量:
1. 标注过程是在三元组间交错进行,不会顺序标注,二是。
2. 和2AFC的标注类似,每一对会有3个独立的标注者标注,以投票作为最终的标注结果。
2.2 Perceptual Metric Learning
模型对相似的预测定义如下:
其中。通过模型预测和标注的差异来评估模型对human perceptual similarity的对齐程度。
2.2.1 模型架构与训练
作者采用开源模型CLIP、OpenCLIP、DINO、MAE作为base model,并用Lora,MLP两种微调范式在2AFC数据集上用hinge loss (等价triplet los)作为训练目标进行微调。
其中:,
3 Result
3.1 benchmark的performance
下图给出了训练后模型对human perceptual similarity的对齐效果。主要结论有
- fine-tune后,在该数据集定义的相似性上效果更好(能提升3~6%)
- 采用LoRA finetune比加一个MLP的效果更好(3%左右)
3.2 图片属性对相似度决策一致性的影响
作者探究移除不同图像属性,相似一致性的维持情况。
- 模态变化较大时,相似度维持较差。作者此处没有充分给出只改变reference模态的情形。通过后续跨模态搜索的相关实验可见,模型对跨模态的相似度维持得效果还有待提高。
3.3 跨模态搜索效果
- 作者:莫叶何竹🍀
- 链接:http://www.myhz0606.com/article/dream_sim
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章