🏂diffusion model(十三):DiT技术小结学习分享DiT 系统研究了diffusion transformer的token化和条件嵌入两个关键问题,验证了基于transformer架构的扩散模型的scalable能力。2024-3-8 diffusion_model transformer
Attention Free Transformer(AFT)技术小结学习分享原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。2023-9-14 transformer