推理模型如何估算显存

显存占用主要分为三部分：

模型权重

一个快速计算公式：大小为 x-B 的模型全精度（bf16）占用 2x GB 显存，int8 量化占用 x GB，int4 量化占用 (x/2) GB

例如：Qwen2.5-32B-Instruct 模型大小 32B，因此原始权重占用约 64GB，int8 约 32GB，int4 约 16GB.

vLLM 有个参数 --gpu-memory-utilization(=0.9)，这个值如果过高（例如，0.98）会非常容易引发 OOM，原因就是临时空间不够。
通常使用默认值 0.9，长文本情况下适当降低。