🏂InstantStyle技术小结学习分享InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点 • content leakage。 • image condition的引入会导致text condition变弱 虽然通过调节image weight能够缓解这个问题,但需要手动调节weight,并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。2024-4-16 diffusion_model 风格迁移 图片编辑 adapter
🔀Ross随机过程笔记(二): 随机变量学习分享1 随机变量定义,连续型随机变量、离散型随机变量 2 随机变量的概率分布(概率质量(密度)函数)、累积分布函数。如何验证概率密度函数 3 常见的离散随机变量及其概率质量函数(伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量) 4 常见连续型随机变量及其概率密度函数(均匀随机变量、指数随机变量、伽马随机变量、正态随机变量) 5 联合分布随机变量的分布函数、概率质量(密度)函数、均值、协方差 6 协方差的定义、性质、意义 7 矩母函数定义,常见随机变量的矩母函数 8 矩母函数的两个重要性质2024-4-5 随机过程
🏂diffusion model(十五) : IP-Adapter技术小结学习分享为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。2024-4-2 diffusion_model 定制生成 adapter 图片编辑
🔀Ross随机过程笔记(一): 概率论引论学习分享1 样本空间的定义,事件的定义。 2 事件的交、并。不可能事件、独立事件、事件互补相容的条件。 3 事件的八大运算规则:交换率、结合率、分配率、同一律、互补率、吸收率、双反率、对偶率。 4 事件上概率的定义、古典概型的定义、对立事件的概率。独立事件的概率。 5 容斥恒等式、布尔不等式. 6 全概公式,贝叶斯公式2024-3-31 随机过程
DreamSim技术小结学习分享针对模型计算的相似性和human perceptual similarity还是有一定的差距的问题,本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征,并兼顾color、layout等low level特征,能更好的对齐human perceptual similarity。2024-3-31 表征学习
🏂diffusion model(十四): prompt-to-prompt 深度剖析学习分享作者提出了一种p2p的文字编辑方法(textual editing),无需训练任何参数、添加任何模块,仅用预训练的文生图模型(如stable diffusion)即能实现卓越的textual editing能力。核心是通过约束control cross attention中的attention map实现控制!2024-3-19 diffusion_model 图片编辑 attention-control
🏂diffusion model(十三):DiT技术小结学习分享DiT 系统研究了diffusion transformer的token化和条件嵌入两个关键问题,验证了基于transformer架构的扩散模型的scalable能力。2024-3-8 diffusion_model transformer
🏂diffusion model(十二): StableCascade技术小结学习分享StableCascade的核心在于新增了一个图片隐特征的先验,从而带来推理和训练的加速。在训练阶段这个先验来源于pre-training model。在推理阶段这个先验来源于stageC对这个先验信息的估计。2024-3-7 diffusion_model 加速生成
Matryoshka Representation Learning (俄罗斯套娃表征学习)技术小结学习分享我们平时做retrieval相关的工作,很多时候根据业务场景和计算资源需要对向量进行降维。受限开发周期,我们往往不会通过重新训练特征提取模型来调整向量维度,而是用PCA等方法来实现。但是当降维的scale较大时,PCA等方法的效果较差。Matryoshka Representation Learning (MRL)这篇paper介绍了一个很简单但有效的方法能实现一次训练,获取不同维度的表征提取。下面来看它具体是怎么做的吧。2024-2-27 表征学习 华盛顿大学 哈弗大学 Google
YOLO-World技术小结学习分享这篇文章从计算效率的角度解决开集目标检测问题(open-vocabulary object detection,OVD)。2024-2-21 开集目标检测 YOLO 目标检测
🏂diffusion model(十一): InstantID技术小结学习分享本文提出了一种plug-and-play 定制人脸生成模型(Plugability),给定一张人脸照片,就能生成指定风格和pos的照片。InstantID不仅前期训练成本低(compatibility),还能实现inference without fine-tune (Tuning-free)和高保真图像的生成。(Superior performance)。既有fidelity又有efficiency还flexible2024-1-30 diffusion_model 定制生成 adapter