本地推理

AI教程

0

llama.cpp 异构推理实战：8G显存也能流畅运行35B大模型的完整方案

2026.06.09 | youres | 20次围观

一、为什么你的8G显卡被严重低估了很多人的直觉是：35B参数的大模型至少需要20GB以上的显存，8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的，但在llama.cpp的异构推理（Heterogeneous Inference）方案成熟后，这个结论已经被彻底推翻。我在一台配置RTX 4060（8GB显存）+ 32GB DDR5内存的笔记本上，成功运行了Qwen3.6-35B-A3B（MoE架构，总参数35B，每次激活约3B）的Q4_K_M量化版本，日常对话...

1