type
status
date
slug
summary
tags
category
icon
password
paper
code
org
MiT

1 Motivation

目前较为成熟度量图片相似性的做法是通过模型将图片转为embedding,再用余弦相似度来度量相似性。虽然在大量数据上训练的vision foundation model提取的embedding具备丰富的high level特征并在图像搜索等业务取得了大量成功,但模型计算的相似性和human perceptual similarity还是有一定的差距。
针对上述问题,本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征,并兼顾color、layout等low level特征,能更好的对齐human perceptual similarity。

2 Method

2.1 Human Perceptual Similarity数据集构建

2.1.1 Two alternative forced choice(2AFC)

这个数据集旨在通过对比的方式来定义human perceptual similarity。
作者采用Amazon Mechanical Turk (AMT)平台用于数据搜集:标注步骤如下:
通过diffusion model合成了10w个三元组图片。依次为扰动图片A(),参考图片Ref(),扰动图片B ()。标注者需要从选择与更相似的图片。标注过程重复10轮(不止一个标注人员)。10轮标注后,每一个三元组都有10份标注结果,若当前三元组超过6份标注结果一致,则认为该标注结果可信。最后得到20019份可信的标注结果:, 表示当前三元组的标注结果。
作者按照8:1:1划分为训练集、验证集、测试集
notion image

2.1.2 Just noticeable differences (JND)

这个数据集旨在定义开始变得不相似的边界(characterize the boundary when a distortion becomes just noticeable),低于这个边界认为感知相似。
标注过程如下:
将2AFC搜集的数据集,标注者对每一个三元组需要分别判断是否相似。当这两个二元组只有一组判定为相似时,保留该三元组且保留标注结果。最终获得411个标注结果
📌注意,为了保证标注质量: 1. 标注过程是在三元组间交错进行,不会顺序标注,二是。 2. 和2AFC的标注类似,每一对会有3个独立的标注者标注,以投票作为最终的标注结果。
notion image

2.2 Perceptual Metric Learning

模型对相似的预测定义如下:
其中。通过模型预测和标注的差异来评估模型对human perceptual similarity的对齐程度。

2.2.1 模型架构与训练

作者采用开源模型CLIP、OpenCLIP、DINO、MAE作为base model,并用Lora,MLP两种微调范式在2AFC数据集上用hinge loss (等价triplet los)作为训练目标进行微调。
其中:,
notion image

3 Result

3.1 benchmark的performance

下图给出了训练后模型对human perceptual similarity的对齐效果。主要结论有
  • fine-tune后,在该数据集定义的相似性上效果更好(能提升3~6%)
  • 采用LoRA finetune比加一个MLP的效果更好(3%左右)
notion image
 
notion image

3.2 图片属性对相似度决策一致性的影响

作者探究移除不同图像属性,相似一致性的维持情况。
  • 模态变化较大时,相似度维持较差。作者此处没有充分给出只改变reference模态的情形。通过后续跨模态搜索的相关实验可见,模型对跨模态的相似度维持得效果还有待提高。
notion image
 

3.3 跨模态搜索效果

notion image
notion image
 
相关文章
CLIP相关论文泛读
Lazy loaded image
Data Filtering Network论文浅析
Lazy loaded image
SigLIP技术小结
Lazy loaded image
Google Universal Image Embedding前五名方案小结
Lazy loaded image
Matryoshka Representation Learning (俄罗斯套娃表征学习)技术小结
Lazy loaded image
Supervised Contrastive Learning
Lazy loaded image
Matryoshka Representation Learning (俄罗斯套娃表征学习)技术小结Supervised Contrastive Learning
Loading...
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
表格结构还原——SLANet
2025-2-27
KV-Cache技术小结(MHA,GQA,MQA,MLA)
2025-2-24
diffusion model(十九) :SDE视角下的扩散模型
2024-12-31
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力
2024-11-22
RNN并行化——《Were RNNs All We Needed?》论文解读
2024-11-21
Supervised Contrastive Learning
2024-10-12