🐮Nougat 深度剖析学习分享提出了一种全新的端到端的OCR模型,该模型基于自回归的方法,旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。2023-8-5 大模型 版面恢复 ocr
🏂diffusion model(四):文生图diffusion model (classifier-free guided) 学习分享Classifier-free的核心思路是:我们无需训练额外的分类器,直接训练带类别信息的噪声预测模型来实现特定类别图片的生成,即。从而简化整体的pipeline。2023-8-2 diffusion_model
🏂diffusion model(三):classifier guided diffusion model学习分享对于一般的DM(如DDPM, DDIM)的采样过程是直接从一个噪声分布,通过不断采样来生成图片。但这个方法生成的图片类别是随机的,如何生成特定类别的图片呢?这就是classifier guide需要解决的问题。2023-7-28 diffusion_model
🏂diffusion model(二):DDIM技术小结 (denoising diffusion implicit model)学习分享去噪扩散概率模型 (DDPM6) 在没有对抗训练的情况下实现了高质量的图像生成,但其采样过程依赖马尔可夫假设,需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models 5)是更有效的迭代隐式概率模型,其训练过程与 DDPM 相同,但相比DDPM,采样过程快 10 到 50 倍。2023-7-2 diffusion_model
🏂diffusion model(一):DDPM技术小结 (denoising diffusion probabilistic)学习分享这篇文章将从ddpm的原理推导和代码实现两个方向带你深入理解扩散模型。2023-5-18 diffusion_model
Segment Anything(SAM)学习分享近日,MetaAI团队开源了一个用于分割的10亿个masks,1100w张图片数据集SA-1B。并开开源了基于此数据集训练的模型。这应该是目前CV分割领域最强的基础模型。2023-4-10 大模型 图像分割
LoRA: 微调大模型的一种轻量级方法学习分享常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式,其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路,使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B,取代更新原有权重W。2023-3-1 大模型 peft
🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力学习分享固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了是图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.2023-2-28 Google cvpr 大模型