🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力学习分享固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了是图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.2023-2-28 Google cvpr 大模型