学习分享

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

虽然过去BLIP系列对LMM发展起到至关重要的作用,但从效果上来说,已经远落后于当下的SOTA模型,主要有一下3点原因: 1)数据上,训练数据数量少、质量不高、多样性不强。 2)训练策略上,多个stage(`ITM`,`ITC`, `ITG`)训练流程冗长,up scale的训练开销大 3)模型架构上,`BLIP`系列仅支持单图输入,应用范围相对较窄 BLIP3针对以上3个方面进行改进: 1)数据上,构造了更大的、质量更高、多样性更强的数据集。 2)训练策略上,提出3 stage 的训练范式,并统一用next token prediction作为训练目标目标,提升训练效率和模型效果。 3)模型架构上,支持交错图文输入。

Data Filtering Network论文浅析

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式: • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”; • Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。

Supervised Contrastive Learning

经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中,会对batch的图片进行数据增强,以同一图片不同的数据增强为正例,其它作为负例,以自监督对比损失(式1)作为训练目标进行学习。然而,在某些特定场景下,我们可能已经掌握了类别标签信息,或者至少能够明确哪些实例属于同一类别,而无需具体的类名。在这种情况下,直接沿用传统的自监督对比学习方法进行优化,显然未能充分利用这些宝贵的先验知识。 为了解决这一问题,supervised contrastive learning应运而生。其核心思想在于,将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例。

MM1技术小结(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

建立一个有效的多模态模型需要: • 精心设计不同类型数据的占比。混合图文交错数据(interleaved image-text), 仅文本数据(text-only),image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。 • image encoder、image resolution、image token的大小对结果非常重要。 • vision language connector对performant的多模态模型不那么重要。

🏂diffusion model(十七)Score视角下的生成模型(Score-Based Generative Models)

score based model将对概率分布的估计转为对$\nabla_{\mathrm{x}} \log p_{data}(\mathrm{x})$ (称之为score)的估计规避对归一化参数$Z_{\theta}$的计算,以此摆脱网络架构的限制。 但是,由于**原始数据分布$p_{data}(\mathrm{x})$不可知,无法直接用fisher divergence(式4)**训练score based model模型,需要转为score matching 的优化形式(式6)。 对于图片而言,数据维度过大,原生score matching需要计算**Jacobian matrix**,计算开销非常大,需要结合slice score matching(SSM)或denoising score matching(DSM)的方法减少计算开销。 虽然通过以上手段我们可以相对高效的训练score-based model 。但由于流形假设和数据低密度区域的影响,导致模型估计的score 不准确。作者通过对原始数据加噪的方式缓解上述两个问题,并提出退火的朗之万采样算法完成高质量的样本生成。

🏂diffusion model(十六):Layer Diffusion 技术小结

作者针对目前diffusion model无法满足设计行业工作流程依赖图层信息做进一步编辑的痛点提出了layer diffusion方法实现分层图片的生成。 • diffusion model实现RGBA图片的生成。通过额外引入RGBA encoder来将透明层信息编码为不影响预训练latent分布的 offset尽可能的保留了预训练模型的生成能力。并额外引入了一个decoder能解码出透明层图片。 • diffusion model实现分层生成。设计了一套高效可用的数据收集pipeline准备训练数据。通过attention sharing方法保证不同层之间的语义连贯性。

🔀Ross随机过程笔记(三): 随机过程

1 随机过程的定义,离散随机过程、连续随机过程、随机场 2 随机游走 3 随机过程有限维分布定义、性质(对称性,相容性)、Kolmogorv定理 4 随机过程数字特征。均值函数、协方差函数、方差函数、二阶矩过程定义。 5 随机过程基本类型。平稳过程(严平稳过程、宽平稳过程定义)、独立增量过程、平稳增量过程、独立平稳增量过程。

🏂InstantStyle技术小结

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点 • content leakage。 • image condition的引入会导致text condition变弱 虽然通过调节image weight能够缓解这个问题,但需要手动调节weight,并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。

🔀Ross随机过程笔记(二): 随机变量

1 随机变量定义,连续型随机变量、离散型随机变量 2 随机变量的概率分布(概率质量(密度)函数)、累积分布函数。如何验证概率密度函数 3 常见的离散随机变量及其概率质量函数(伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量) 4 常见连续型随机变量及其概率密度函数(均匀随机变量、指数随机变量、伽马随机变量、正态随机变量) 5 联合分布随机变量的分布函数、概率质量(密度)函数、均值、协方差 6 协方差的定义、性质、意义 7 矩母函数定义,常见随机变量的矩母函数 8 矩母函数的两个重要性质

🏂diffusion model(十五) : IP-Adapter技术小结

为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。