异构推理

  • 2026.06.09 | youres | 20次围观
    llama.cpp 异构推理实战:8G显存也能流畅运行35B大模型的完整方案
    一、为什么你的8G显卡被严重低估了 很多人的直觉是:35B参数的大模型至少需要20GB以上的显存,8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的,但在llama.cpp的异构推理(Heterogeneous Inference)方案成熟后,这个结论已经被彻底推翻。 我在一台配置RTX 4060(8GB显存)+ 32GB DDR5内存的笔记本上,成功运行了Qwen3.6-35B-A3B(MoE架构,总参数35B,每次激活约3B)的Q4_K_M量化版本,日常对话...
1