SigLIP技术小结学习分享sigmoid-based contrastive learning从经典的softmax-based contrastive learning的“pick the right class”转化为“rate this pair”。这个转化实现了compute efficient和memory efficient,并在实验中证明,siglip在小batch下(低于32k)更具优势。2024-9-27 CLIP 多模态 表征学习
Data Filtering Network论文浅析学习分享文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式: • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”; • Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。2024-8-27 CLIP 多模态 表征学习