推理模型如何估算显存

目录 技术

显存占用主要分为三部分:

  • 模型权重-75%:与模型大小和量化有关
  • KV-Cache-20%:与模型结构和最大上下文有关
  • 临时空间-5%:主要跟推量框架相关,不是大头

模型权重

一个快速计算公式:大小为 x-B 的模型全精度(bf16)占用 2x GB 显存,int8 量化占用 x GB,int4 量化占用 (x/2) GB

例如:Qwen2.5-32B-Instruct 模型大小 32B,因此原始权重占用约 64GB,int8 约 32GB,int4 约 16GB.

KV-Cache

直接点这里:KV-Cache 计算器

临时空间

vLLM 有个参数 --gpu-memory-utilization(=0.9),这个值如果过高(例如,0.98)会非常容易引发 OOM,原因就是临时空间不够。
通常使用默认值 0.9,长文本情况下适当降低。

人工智能理论基础

目录 技术

机器学习、深度学习和深度神经网络三者之间存在着紧密的关系

一、机器学习
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

  • 主要特点:
    • 依靠数据:通过大量的数据进行训练,从中发现规律和模式。
    • 算法多样:包括监督学习、无监督学习、半监督学习、强化学习等多种学习方式,每种方式下又有众多具体的算法,如决策树、支持向量机、K 近邻等。
  • 应用领域:广泛应用于图像识别、语音识别、自然语言处理、推荐系统等众多领域。

继续阅读 “人工智能理论基础”