Data Filtering Network论文浅析

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式: • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”; • Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。