推理模型如何估算显存
显存占用主要分为三部分:
- 模型权重-75%:与模型大小和量化有关
- KV-Cache-20%:与模型结构和最大上下文有关
- 临时空间-5%:主要跟推量框架相关,不是大头
模型权重
一个快速计算公式:大小为 x-B 的模型全精度(bf16)占用 2x GB 显存,int8 量化占用 x GB,int4 量化占用 (x/2) GB
例如:Qwen2.5-32B-Instruct 模型大小 32B,因此原始权重占用约 64GB,int8 约 32GB,int4 约 16GB.
KV-Cache
直接点这里:KV-Cache 计算器
临时空间
vLLM 有个参数 --gpu-memory-utilization(=0.9)
,这个值如果过高(例如,0.98)会非常容易引发 OOM,原因就是临时空间不够。
通常使用默认值 0.9,长文本情况下适当降低。
暂无评论