黑韦尔(Blackwell音译为黑韦尔,意译为黑井)架构和B200 GPU接替了H100/H200。此外,还将有一款Grace Blackwell GB200超级芯片,从名称可以猜测,它将保留Grace CPU架构,但与更新的Blackwell GPU搭配。我们预计Nvidia最终也会推出消费级别的Blackwell GPU,但这些可能要等到2025年才会推出,并且与
数据中心芯片大不相同。
从宏观角度来看,B200 GPU的晶体管数量是现有H100的两倍多。有一些需要注意的地方,但是B200拥有2080亿个晶体管(而H100/H200只有800亿个)。它还提供了单个GPU的20千万亿次的
人工智能性能,而单个H100的最大AI计算量只有4千万亿次。最重要的是,它将配备192GB的HBM3e内存,提供8 TB/s的带宽。
现在,让我们谈谈一些需要注意的地方。首先,正如传言所指出的,Blackwell B200不是传统意义上的单个GPU。相反,它由两个紧密耦合的芯片组成,尽管根据Nvidia的说法,它们可以作为一个统一的
CUDA GPU运行。这两个芯片通过10 TB/s的NV-HBI(Nvidia高带宽接口)连接进行链接,以确保它们可以正常地作为一个完全一致的芯片运行。
这种双芯片配置的原因很简单:Blackwell B200将使用TSMC的4NP工艺节点,这是现有的Hopper H100和Ada Lovelace架构GPU所使用的4N工艺的改进版本。我们对TSMC 4NP的细节了解不多,但它可能不会在特征密度上提供重大改进,这意味着如果您想要更强大的芯片,就需要采取更大的方法。这很困难,因为H100基本上已经是一个完整的芯片尺寸 —— 它的芯片尺寸为814平方毫米,理论上的最大尺寸为858平方毫米。
B200将使用两个完整的芯片尺寸,尽管Nvidia尚未提供确切的芯片尺寸。每个芯片具有四个HBM3e堆叠,每个堆叠24GB,具有1024位接口的每个堆叠的1 TB/s带宽。需要注意的是,H100有六个HBM3堆叠,每个堆叠16GB(最初为六个24GB — H200将其提升为六个24GB),这意味着H100芯片的相当大一部分用于六个内存控制器。通过每个芯片降至四个HBM接口并将两个芯片连接在一起,Nvidia可以在内存接口上分配更少的芯片面积。
我们需要讨论的第二个需要注意的地方是最大理论计算量为20千万亿次。Blackwell B200通过新的FP4数字格式达到该数字,其吞吐量是Hopper H100的FP8格式的两倍。因此,如果我们比较相同的内容并坚持使用FP8,B200“仅”比H100(带有稀疏性)提供了2.5倍的理论FP8计算量,其中很大一部分来自于两个芯片。
这是一个有趣的观点,再次归结为4NP工艺节点的密度没有显著提高。在大多数受H100和B200支持的数字格式中,B200在理论上每个芯片的计算密度最终只增加了1.25倍。删除两个HBM3接口并制作稍大一点的芯片可能意味着在芯片级别上的计算密度甚至没有显着提高 —— 当然,两个芯片之间的NV-HBI接口也占用了一些芯片面积。
Nvidia还提供了B200的其他数字格式的原始计算数据,并应用了通常的比例因子。因此,FP8吞吐量是FP4吞吐量的一半,为10千万亿次,FP16/BF16吞吐量是FP8的一半,为5千万亿次,TF32支持是FP16速率的一半,为2.5千万亿次 —— 所有这些都是带有稀疏性的,因此在密集操作中这些速率减半。在所有情况下,这都是单个H100的2.5倍。
那么FP64吞吐量呢?H100每个GPU的密集FP64计算量为60万亿次/秒。如果B200与其他格式具有类似的比例,那么每个双芯片GPU将具有150万亿次/秒。然而,看起来Nvidia稍微降低了FP64的性能,每个GPU的FP64为45万亿次/秒。但这也需要一些澄清,因为关键的构建模块之一将是GB200超级芯片。它有两个B200 GPU,并且可以进行90万亿次/秒的密集FP64计算,还有其他因素在起作用,这可能会提高与H100相比的经典模拟的原始吞吐量。
就利用FP4而言,Nvidia拥有一个新的第二代Transformer引擎,可以帮助自动将模型转换为适合的格式,以达到最大性能。除了FP4支持外,Blackwell还将支持新的FP6格式,这是一种介于FP4和FP8之间的解决方案,用于FP4缺乏必要精度但FP8也不需要的情况。无论结果的精度如何,Nvidia都将这样的用例分类为“专家混合”(MoE)模型。
Top of Form
英伟达 黑井(Blackwell)系列GPU参数
1. GB200:
· 配置:2x B200 GPU,1x Grace CPU
· FP4张量稠密/稀疏:20/40千万亿次
· FP6/FP8张量稠密/稀疏:10/20千万亿次
· INT8张量稠密/稀疏:10/20千万亿次
· FP16/BF16张量稠密/稀疏:5/10千万亿次
· TF32张量稠密/稀疏:2.5/5千万亿次
· FP64张量稠密:90万亿次
· 内存:384GB(2x8x24GB)
· 带宽:16 TB/s
· NVLink带宽:2x 1.8 TB/s
· 功耗:最高2700瓦
2. B200:
· 配置:Blackwell GPU
· FP4张量稠密/稀疏:9/18千万亿次
· FP6/FP8张量稠密/稀疏:4.5/9千万亿次
· INT8张量稠密/稀疏:4.5/9千万亿次
· FP16/BF16张量稠密/稀疏:2.25/4.5千万亿次
· TF32张量稠密/稀疏:1.12/2.25千万亿次
· FP64张量稠密:40万亿次
· 内存:192GB(8x24GB)
· 带宽:8 TB/s
· NVLink带宽:1.8 TB/s
· 功耗:1000瓦
3. B100:
· 配置:Blackwell GPU
· FP4张量稠密/稀疏:7/14千万亿次
· FP6/FP8张量稠密/稀疏:3.5/7千万亿次
· INT8张量稠密/稀疏:3.5/7千万亿次
· FP16/BF16张量稠密/稀疏:1.8/3.5千万亿次
· TF32张量稠密/稀疏:0.9/1.8千万亿次
· FP64张量稠密:30万亿次
· 内存:192GB(8x24GB)
· 带宽:8 TB/s
· NVLink带宽:1.8 TB/s
· 功耗:700瓦
4. HGX B200:
· 配置:8x B200 GPU
· FP4张量稠密/稀疏:72/144千万亿次
· FP6/FP8张量稠密/稀疏:36/72千万亿次
· INT8张量稠密/稀疏:36/72千万亿次
· FP16/BF16张量稠密/稀疏:18/36千万亿次
· TF32张量稠密/稀疏:9/18千万亿次
· FP64张量稠密:320万亿次
· 内存:1536GB(8x8x24GB)
· 带宽:64 TB/s
· NVLink带宽:14.4 TB/s
· 功耗:8000瓦
5. HGX B100:
· 配置:8x B100 GPU
· FP4张量稠密/稀疏:56/112千万亿次
· FP6/FP8张量稠密/稀疏:28/56千万亿次
· INT8张量稠密/稀疏:28/56千万亿次
· FP16/BF16张量稠密/稀疏:14/28千万亿次
· TF32张量稠密/稀疏:7/14千万亿次
· FP64张量稠密:240万亿次
· 内存:1536GB(8x8x24GB)
· 带宽:64 TB/s
· NVLink带宽:14.4 TB/s
· 功耗:5600瓦
在这里,我们还需要澄清一些事情,因为黑韦尔有多种不同的变体可用。最初,Nvidia提供了关于完整服务器节点的规格,并且有三个主要选项。我们还分离了基于HGX配置的两个“单”GPU。
最大和最快的解决方案将是GB200超级芯片,我们将在下面更详细地讨论,但需要注意的是它有两个B200 GPU。完整的超级芯片的可配置TDP高达2700瓦。这是为了两个GPU(四个GPU芯片)以及一个Grace CPU。我们刚才提供的数字 —— 单个B200的FP4最高20千万亿次 —— 来自半个GB200超级芯片。超级芯片中单个B200 GPU的可配置TDP达到1200瓦峰值,或者对于两个GPU为2400瓦,其中Grace CPU为300瓦。
接下来的黑韦尔选项是HGX B200,它基于在单个服务器节点中使用八个B200 GPU和一个x86 CPU(可能是两个CPU)。这些配置每个B200 GPU为1000瓦,GPU提供的FP4吞吐量最高可达18千万亿次 —— 因此从理论上讲,它比GB200中的GPU慢10%。
最后,还将有一个HGX B100。它与HGX B200的基本想法相同,具有一个x86 CPU和八个B100 GPU,但它被设计为与现有的HGX H100基础设施完全兼容,并且允许最快速部署Blackwell GPU。因此,每个GPU的TDP限制为700瓦,与H100相同,并且吞吐量下降到每个GPU的FP4最高14千万亿次。除了TDP的差异外,硬件中可能还有其他差异导致B200与B100的命名不同。
重要的是要注意,在这三个服务器中,HBM3e似乎每个GPU的带宽都是相同的8 TB/s。我们会假设较低层次零部件的潜在收集,这意味着更少的GPU核心和可能较低的时钟频率,以及TDP的差异。但是,Nvidia尚未透露任何有关Blackwell GPU中有多少CUDA核心或流多处理器的细节。
英伟达NVlink 7.2T
这不仅仅是关于原始计算和内存带宽。在AI和HPC工作负载中,一个重要的限制因素是用于不同节点之间通信的多节点互连带宽。随着GPU数量的增加,通信变得成为一个严重的瓶颈,并且可以占据资源和时间的高达60%。通过B200,Nvidia正在引入其第五代NVLink和NVLink Switch 7.2T。
新的NVSwitch芯片具有1.8 TB/s的全互连双向带宽,支持576个GPU NVLink域。这是一个由同一TSMC 4NP节点制造的500亿晶体管芯片。这相对接近于Hopper H100的大小,显示了互连的重要性。该芯片还支持芯片上的3.6万亿次/s的Sharp v4网络内计算,这可以帮助高效处理更大的模型 —— 所有这些处理能力都可以用于智能工作负载的负载均衡。
上一代支持高达100 GB/s的HDR InfiniBand带宽,因此这是带宽的巨大跃升。与H100多节点互连相比,新的NVSwitch提供了18倍的加速。这应该会为更大的万亿参数模型AI网络带来显著改善的扩展性。
与此相关的是,每个Blackwell GPU都配备了18个第五代NVLink连接。这是H100的连接数量的十八倍。每个连接提供50 GB/s的双向带宽,或每个连接100 GB/s的带宽,这将在扩展到更大模型时极大地帮助。从某种意义上说,它允许更大规模的GPU节点在某些层面上像单个大型GPU一样运行。
英伟达B200 NVL72
将上述内容合并在一起,您将得到Nvidia的新GB200 NVL72系统。这些基本上是一个完整的机架解决方案,每个有两个GB200超级芯片的1U服务器。然而,与之前的一代相比,在构成GB200超级芯片方面存在一些差异。这里有两个B200 GPU与一个Grace CPU配对,而GH100使用了一个较小的解决方案,将一个Grace CPU与一个H100 GPU并置。
GB200 NVL72中的每个计算节点都有两个GB200超级芯片,因此单个计算托盘具有两个Grace CPU和四个B200 GPU,提供80千万亿次的FP4人工智能推理和40千万亿次的FP8人工智能训练性能。这些是液冷的1U服务器,它们占据了机架中提供的典型42个单位中的大部分空间。
除了GB200超级芯片计算托盘外,GB200 NVL72还将配备NVLink交换机托盘。这些也是液冷的1U托盘,每个托盘有两个NVLink交换机,每个机架有九个这样的托盘。每个托盘提供14.4 TB/s的总带宽,以及前述的Sharp v4计算。
总的来说,GB200 NVL72具有36个Grace CPU和72个Blackwell GPU,提供720千万亿次的FP8和1,440千万亿次的FP4计算能力。有130 TB/s的多节点带宽,Nvidia表示NVL72可以处理高达27万亿参数模型的AI LLM。其余的机架单元用于网络和其他数据中心元素。
英伟达B200 SuperPOD
总结一下,我们有了新的搭载GB200系统的SuperPOD。我们之前提到过,最新的NVLink芯片支持多达576个GPU域。这一点很重要,因为新的DGX SuperPOD正好可以扩展到这么多个GB200 Blackwell GPU。每个SuperPOD最多可以容纳八个GB200 NVL72系统,这意味着有288个Grace CPU和576个B200 GPU。
整个SuperPOD本身就是一台强大的AI超级计算机,拥有240TB的快速内存和11.5百亿亿次的FP4计算能力 —— 或者如果您愿意,也可以是5.75百亿亿次的FP8,或者2.88百亿亿次的FP16。安装可以扩展到多个SuperPOD,潜在地拥有成千上万个Blackwell GPU和Grace CPU。
虽然没有详细说明,但我们猜测Nvidia可能已经开始或将很快开始在新的超级计算机中安装GB200 SuperPOD,或者可能是作为其现有Eos超级计算机的扩展。Nvidia提供了一个假设的安装示例,其中包含56个SuperPOD和超过32,000个总计的B200 GPU。如果这成为现实,那将是一台AI超级计算机,具有645百亿亿次的FP4计算能力,13PB的HBM3e内存,58PB/s的总NVLink带宽,以及16.4千万亿次的网络内计算能力。
SuperPOD旨在扩展到万亿参数的AI数据集,并且Nvidia表示,与H100解决方案相比,每个SuperPOD的训练性能提高了4倍,并且推断速度提高了多达30倍。它还声称与先前基于H100的解决方案相比,能源效率提高了多达25倍,尽管比较显然不是普遍适用的。在这种情况下,它使用相同数量的GPU,运行“大规模模型”并使用新的FP4数字格式。
Nvidia还将提供DGX B200系统,据推测,这些系统将使用Xeon或EPYC处理器,而不是Grace。这些系统适用于明确需要x86支持的工作负载。Nvidia表示,与H100相比,DGX B200的训练速度最多提高了3倍,推断速度提高了15倍,节能效果提高了12倍。
与以前的A100和H100 SuperPOD一样,这些都是为数据中心和云服务提供商提供快速扩展解决方案的设计。Nvidia正在与
亚马逊 网络服务、谷歌云和
甲骨文 云合作,提供GB200 NVL72解决方案,并表示AWS将在未来几个月推出Ceiba项目,该项目将拥有超过20,000个B200 GPU,4PB的HBM3e内存以及超过400百亿亿次的AI计算能力。