最新技术文章

大规模预训练模型的高效微调策略

探讨参数高效微调技术(PEFT)在资源受限场景下的应用,对比LoRA、Prefix Tuning等方法的优缺点

大语言模型量化技术最新进展

剖析4比特、2比特甚至1比特量化技术在模型推理中的应用,以及如何在精度损失与性能提升间寻找平衡点

从零实现一个高效的Attention机制

手把手教你用PyTorch实现高效的注意力机制,包括Flash Attention、Memory-efficient Attention等最新优化