FP8量化

AI教程

0

sglang大模型推理加速部署实战教程：从安装配置到生产级性能调优

2026.05.21 | youres | 105次围观

为什么需要专门的推理加速框架？很多开发者在本地部署大模型时都会遇到同一个痛点：用原生Transformers或Ollama跑模型，速度勉强能接受，但一旦放到生产环境，吞吐量和延迟就完全不够看。我之前用vLLM部署一个70B的模型服务给团队用，并发上来之后RTT直接飙到15秒以上，用户体验极差。后来切换到sglang，同样的硬件配置，P99延迟从15秒降到了2.3秒，吞吐量提升了将近4倍。这篇文章我会把sglang的完整部署流程、性能调优经验和实际踩过的坑都分享出来。 s...
AI教程

0

DeepSeek V4 Flash本地部署实战：vLLM推理加速与量化优化完全指南

2026.05.21 | youres | 91次围观

为什么DeepSeek V4 Flash值得本地部署 DeepSeek V4发布后，我第一时间在实验室测试了V4-Flash。激活参数仅13B，推理FLOPs只有V4-Pro的10%左右，KV Cache缩减到Pro版的10%——这意味着什么？意味着用一张消费级显卡就能跑起一个接近前沿水平的MoE大模型，而且速度飞快。本文不讲概念，直接上实操。我会从硬件评估、环境搭建、模型量化到vLLM推理服务配置，把整个流程走一遍，中间穿插我踩过的坑和实测数据。先算账：你的显卡够不够...

1