GPTQ

  • 2026.06.05 | youres | 28次围观
    大模型INT4量化本地部署实战教程:让消费级显卡跑起百亿参数模型
    写在前面:为什么我折腾了大模型量化部署 三个月前,我尝试在一台只有RTX 3060(12GB显存)的电脑上跑Qwen2.5-72B,结果直接OOM(显存溢出)。后来我花了两周系统研究大模型量化技术,最终成功用INT4量化把这个72B模型塞进了12GB显存,推理速度还能维持在每秒15个token左右。今天这篇文章,就是把我踩过的坑和总结的经验一次性分享给你。 很多人对"量化"这个词有误解,以为就是把模型变糊了。恰恰相反,量化是大模型落地的必经之路,没有量化,绝大多数个人和企业...
1