type
status
date
slug
summary
tags
category
icon
password

背景

迁移学习已成为训练模型的一个常用范式.而对应的zero-shot迁移也很好理解:在没有下游数据的前提下,获得对下游任务预测的能力.当下,很多研究工作表明采用网络爬取的“图片-文本对”训练的多模态模型对图像任务zero-shot迁移学习任务取得了较好的效果,如CLIP1,ALIGN2等.然而,网络数据良莠不齐,爬取的“图片文本对”难免有很多噪音.相比之下,传统的图像数据集如ImageNet, JFT数据噪声较少,但其类别数量有限,无法满足zero-shot场景下对开放类别的预测.
最近的一篇工作: 《LiT : Zero-Shot Transfer with Locked-image text Tuning》[3]提出一个“Locked-image Tuning”的训练思路,即利用了高质量的图像数据集训练较好的图像表征,又扩展了其在开放类别的zero-shot能力.下面来看看它是如何做的吧!

方法大意

notion image
基于双塔架构的多模态训练方法通常使用图(b)和图(c)中的两种方法.模型的训练起初是从随机噪声或预训练模型的初始化权重开始的,然后使用基于图片embedding与文本embedding的对比损失进行训练。这种基于对比学习训练双塔模型的方法可以理解为同时训练两个任务:1) 学习图片embedding 2)学习一个文本的embedding使其对齐图片的embedding.由于采用网络爬取的“图片-文本对”数据集中包含许多噪声,导致提取图片embedding的质量较差。因此,作者提出了一个新的解决思路:
  1. 首先在高质量的图片数据集中训练双塔模型中的“图像塔”.
  1. 固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了使图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.
直观来说,这篇文章的思路很简单,就是把多模态对比学习的两个任务进行了拆分,然而获得的收益非常大.
收益1: zero shot 迁移学习的能力更强
作者评估了在ImageNet, Imagenetv2, Imagenet-R, imagenet-A, Imagenet-Real, ObjectNet数据集上zero-shot的能力, LIT方法都有显著的提升.
收益2: 训练速度更快
从某种意义上,我们不缺图像特征提取模型.完成可以复用之前训练的图像特征提取模型.然后参考LiT的思路,训练一个“文本塔”使其和图像特征进行对齐.由于“图像塔”是已知的,且无需反向传播,我们完全可以预先计算图片的embedding并存储,这样在训练“文本塔”只需读取存储的图片embedding计算对比损失即可,极大加速训练速度,也非常节约显存.

更多细节

如何选取“文本塔”架构

作者对比了几种常用的文本特征提取模型.并在Imagnet评估zero-shot能力,在MS-COCO评估跨模态搜索能力.作者发现数据规模较小时,bert架构有明显的优势.但数据规模较大时,bert并没有优势,并且bert训练较不稳定.
notion image

重复样本的影响

作者为了避免训练样本中可能的重复样本会影响zero-shot的测试指标进行了去重实验.实验发现,在训练数据去重测试样本后,测试指标并没有明显变化.

文章小结

这篇文章提供了一个简单的思路来为已有的预训练图像模型配备一个文本特征提取模型,并使其具备较强的zero-shot能力.该方法思路简单,但可行性及有效性都很强.

参考文献

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
[2] Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In ICML, 2021
[3] Zhai, Xiaohua, et al. "Lit: Zero-shot transfer with locked-image text tuning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
 
LoRA: 微调大模型的一种轻量级方法匈牙利算法小结
  • Twikoo