一、为什么你的8G显卡被严重低估了
很多人的直觉是:35B参数的大模型至少需要20GB以上的显存,8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的,但在llama.cpp的异构推理(Heterogeneous Inference)方案成熟后,这个结论已经被彻底推翻。
我在一台配置RTX 4060(8GB显存)+ 32GB DDR5内存的笔记本上,成功运行了Qwen3.6-35B-A3B(MoE架构,总参数35B,每次激活约3B)的Q4_K_M量化版本,日常对话...
本地推理
-
2026.06.09 | youres | 20次围观

