推理模型如何估算显存

目录 技术

显存占用主要分为三部分:

  • 模型权重-75%:与模型大小和量化有关
  • KV-Cache-20%:与模型结构和最大上下文有关
  • 临时空间-5%:主要跟推量框架相关,不是大头

模型权重

一个快速计算公式:大小为 x-B 的模型全精度(bf16)占用 2x GB 显存,int8 量化占用 x GB,int4 量化占用 (x/2) GB

例如:Qwen2.5-32B-Instruct 模型大小 32B,因此原始权重占用约 64GB,int8 约 32GB,int4 约 16GB.

KV-Cache

直接点这里:KV-Cache 计算器

临时空间

vLLM 有个参数 --gpu-memory-utilization(=0.9),这个值如果过高(例如,0.98)会非常容易引发 OOM,原因就是临时空间不够。
通常使用默认值 0.9,长文本情况下适当降低。

暂无评论

发表评论

电子邮件地址不会被公开。