量化
-
北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!
首个复数大模型!北大推出 2 比特超低比特量化新方案。 当前,大模型在推理过程中往往面临巨大的存储与计算开销,主要原因在于模型权重普遍采用 FP16 格式存储,占用大量空间。 北京大学研究团队首次提出 iFairy 方案,将模型权重量化至复数集合 {+1, -1, +i, -i}。 这四个数值恰好可…
-
首个支持4-bit浮点量化的LLM来了,解决LLaMA、BERT等的部署难题
大语言模型 (LLM) 压缩一直备受关注,后训练量化(Post-training Quantization) 是其中一种常用算法,但是现有 PTQ 方法大多数都是 integer 量化,且当比特数低于 8 时,量化后模型的准确率会下降非常多。想较于 Integer (INT) 量化,Floating…
-
量化、剪枝、蒸馏,这些大模型黑话到底说了些啥?
量化、剪枝、蒸馏,如果你经常关注大语言模型,一定会看到这几个词,单看这几个字,单看这几个字,我们很难理解它们都干了什么,但是这几个词对于现阶段的大语言模型发展特别重要。这篇文章就带大家来认识认识它们,理解其中的原理。 模型压缩 量化、剪枝、蒸馏,其实是通用的神经网络模型压缩技术,不是大语言模型专有的…