侧边栏壁纸
博主头像
星宇云社区 博主等级

行动起来,活在当下

  • 累计撰写 37 篇文章
  • 累计创建 15 个标签
  • 累计收到 19 条评论

目 录CONTENT

文章目录

Compute Capability(CC 值)详解及模型量化所需 CC 值指南​

kkdshire
2025-09-03 / 1 评论 / 7 点赞 / 112 阅读 / 0 字
温馨提示:
本文最后更新于2025-09-03,若内容或图片失效,请留言反馈。 部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

一、Compute Capability(CC 值)基础定义​

Compute Capability(简称 CC 值)是 NVIDIA 为其 GPU 架构定义的硬件能力标识,采用 “主版本号。次版本号”(如 6.1、7.5、8.6)的格式,直接关联 GPU 的硬件架构(如 Pascal、Volta、Ampere)。它不仅是版本编号,更是 GPU指令集、内存架构、特殊功能单元(如 Tensor Cores) 的 “功能说明书”—— 不同 CC 值的 GPU,在计算精度支持、并行处理能力、量化加速能力上存在本质差异,直接决定了 CUDA 应用(含 AI 模型量化)的性能上限与功能兼容性。​

二、CC 值的核心作用​

CC 值是 GPU 硬件与软件适配的 “桥梁”,对开发者的核心价值体现在以下 4 点:​

2.1硬件功能准入

CC 值直接决定 GPU 是否支持特定硬件单元。例如,用于量化加速的Tensor Cores(混合精度计算核心)仅在 CC≥7.0 的 GPU 中存在;低比特量化(如 4bit/2bit)所需的硬件加速逻辑,仅在 CC≥8.0 的 Ampere 架构及后续 GPU 中支持。​

2.2量化性能瓶颈

更高 CC 值的 GPU 通常具备更优的量化计算效率。例如,CC=8.6(Ampere 架构)的 GPU 支持TF32 混合精度和稀疏量化加速,相比 CC=7.5(Volta 架构),在相同量化位宽下可提升 30%-50% 的推理吞吐量。​

2.3编译与框架适配

CUDA 代码(含量化算子)需针对特定 CC 值编译才能调用硬件特性。若编译目标 CC 值低于 GPU 实际 CC 值,会浪费硬件潜力;若高于,则可能因不兼容导致量化算子运行失败(如 TensorRT 量化插件在低 CC GPU 上报错)。​

2.4兼容性保障

通过 CC 值可提前判断模型量化方案的可行性。例如,PyTorch 的torch.quantization模块对 INT8 量化的基础支持需 CC≥6.0,但要启用硬件加速则需 CC≥7.0。​

三、主流 CC 值版本及架构特性(按代次梳理)​

Compute Capability

Data Center

GeForce/RTX

Jetson

12

NVIDIA RTX PRO
 6000 Blackwell
ServerEdition

NVIDIA RTX PRO 6000
Blackwell Workstation Edition
NVIDIA RTX PRO 6000
Blackwell Max-Q Workstation Edition
NVIDIA RTX PRO 5000 Blackwell
NVIDIA RTX PRO 4500 Blackwell
NVIDIA RTX PRO 4000 Blackwell
GeForce RTX 5090
GeForce RTX 5080
GeForce RTX 5070 Ti
GeForce RTX 5070
GeForce RTX 5060 Ti
GeForce RTX 5060
GeForce RTX 5050

 

10

NVIDIA GB200
NVIDIA B200

 

 

9

NVIDIA GH200
NVIDIA H200
NVIDIA H100

 

 

8.9

NVIDIA L4
NVIDIA L40

NVIDIA RTX 6000 Ada
NVIDIA RTX 5000 Ada
NVIDIA RTX 4500 Ada
NVIDIA RTX 4000 Ada
NVIDIA RTX 4000 SFF Ada
NVIDIA RTX 2000 Ada
GeForce RTX 4090
GeForce RTX 4080
GeForce RTX 4070 Ti
GeForce RTX 4070
GeForce RTX 4060 Ti
GeForce RTX 4060
GeForce RTX 4050

 

8.7

 

 

Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano

8.6

NVIDIA A40
NVIDIA A10
NVIDIA A16
NVIDIA A2

NVIDIA RTX A6000
NVIDIA RTX A5000
NVIDIA RTX A4000
NVIDIA RTX A3000
NVIDIA RTX A2000
GeForce RTX 3090 Ti
GeForce RTX 3090
GeForce RTX 3080 Ti
GeForce RTX 3080
GeForce RTX 3070 Ti
GeForce RTX 3070
GeForce RTX 3060 Ti
GeForce RTX 3060
GeForce RTX 3050 Ti
GeForce RTX 3050

 

8

NVIDIA A100
NVIDIA A30

 

 

7.5

NVIDIA T4

QUADRO RTX 8000
QUADRO RTX 6000
QUADRO RTX 5000
QUADRO RTX 4000
QUADRO RTX 3000
QUADRO  T2000
NVIDIA T1200
NVIDIA T1000
NVIDIA T600
NVIDIA T500
NVIDIA T400
GeForce GTX 1650 Ti
NVIDIA TITAN RTX
GeForce RTX 2080 Ti
GeForce RTX 2080
GeForce RTX 2070
GeForce RTX 2060

 

 

四、模型量化所需的 CC 值要求​

模型量化的核心目标是 “降精度、保性能、提效率”,不同量化技术(如INT8/FP8/INT4、对称 / 非对称量化、稀疏量化)对 GPU 的 CC 值有明确要求

4.1INT8 量化

进行INT8量化推理,对计算能力有明确的分水岭。计算能力7.5(Turing架构)是高效INT8推理的起点。虽然计算能力7.0(Volta架构)的Tensor Core初步引入了INT8支持,但其吞吐量仅为INT32的一半,性能并非最优。

Turing架构(如T4、RTX 20系列GPU)带来了专为整数计算设计的Tensor Core,首次为INT8精度提供了完整的性能支持,使其成为INT8量化实际应用的最低门槛。

对于追求高性能的场景,推荐使用计算能力8.0及以上(Ampere架构) 的GPU(如A100、A30、A10)。Ampere架构的第三代Tensor Core不仅大幅提升了INT8的计算吞吐量,还引入了对结构化稀疏化的硬件支持,为后续优化奠定了基础。

4.2FP8 量化

FP8是一种新的精度格式,其支持有严格的硬件要求。必须使用计算能力8.9(Hopper架构)的GPU,例如NVIDIA H100。Hopper架构首次原生支持FP8数据类型,并通过其革命性的Transformer引擎动态管理FP8和FP16的混合精度,极大地提升了AI训练和推理的效率。这是硬件层面的原生支持,此前的架构无法实现。

4.3INT4 量化

INT4量化主要由软件驱动实现。其支持需要TensorRT 8.4及以上版本,并要求GPU具备计算能力8.0及以上(Ampere架构或更高)。这意味着基于Ampere架构的GPU(如A100)是运行INT4量化模型的基本硬件要求。TensorRT利用现有硬件能力实现了对INT4的软件支持,而在更新的Hopper架构(CC 9.0)上预计会获得更优的性能。

4.4结构化稀疏化

结构化稀疏化(Sparsity)是一种高级优化技术,通常与INT8结合使用,能带来显著的性能提升。此特性对硬件有硬性要求:必须使用计算能力8.0(Ampere架构)及以上的GPU。Ampere架构的Tensor Core能够识别权重中符合2:4模式(每4个元素中至少有2个为零)的稀疏矩阵,并跳过对零值的计算,从而在INT8基础上实现理论上翻倍的吞吐量。这一功能的实现需要配合NVIDIA的cuSPARSELt库。

7

评论区