Tesla A100发布: 英伟达GPU架构如何演进？

关于NVLink，它于2016年首次与PascalP100 GPU一起推出，是NVIDIA专有的高带宽互连，旨在允许多达16个GPU相互连接以作为单个集群运行，应对更大的工作负载。对于Volta，NVIDIA对NVLink进行了较小的修订，将数据传输率提高了25％。同时，对于A100和NVLink3，这次是NVIDIA在进行更大的升级，使通过NVLink可用的总带宽增加了一倍。

总而言之，与NVLink 2相比，NVLink 3有两个重大变化，既可以提供更大的带宽，又可以提供更多的拓扑。

首先，NVIDIA有效地将NVLink的信号速率提高了一倍，从NVLink 2的25．78Gbps提高到NVLink 3的50Gbps。这使NVLink与其他互连技术保持同步，其中许多技术都类似地升级为更快的信号。另一个重大变化是，鉴于信号速率提高了一倍，NVIDIA还将单个NVLink中的信号对／通道数量减少了一半，一个NVLink内可用的带宽数量保持不变，速度分别为上行每秒25GB和下行每秒25GB（或通常每秒50GB／秒），但可以使用一半的通道来完成。

NVIDIA A100在软件也做了些优化，包括50 多个加速、仿真和AI CUDA－X库，CUDA 11，AI服务器框架 NVIDIA Jarvis，应用框架NVIDIA Merlin和NVIDIA HPC SDK。

NVIDIA A100基于7nm Ampere GA100 GPU，具有6912 CUDA内核和432 Tensor Core，540亿个晶体管数，108个流式多处理器。采用第三代NVLINK，GPU和服务器双向带宽为4．8 TB／s，GPU间的互连速度为600 GB／s。另外，Tesla A100在5120条内存总线上的HBM2内存可达40GB。

从单一的Mezz Modular卡到全长PCIe 4．0图形卡，NVIDIA Ampere GA100 GPU提供尺寸不等的各种方案。GPU还具有多种配置，但NVIDIA今天重点介绍的是Tesla A100，它用于DGX A100和HGX A100系统。

关于NVIDIA Ampere GA100 GPU架构和规格，NVIDIA的Ampere GA100 GPU绝对是一个庞然大物。尺寸为826mm2，比Volta GV100 GPU的815mm2还要大。鉴于管芯尺寸和晶体管数量，Ampere GA100 GPU是单手构建的最密集的GPU。

Tesla A100 SMX模块具有带有6个HBM2堆栈的GA100 GPU。相比Tesla V100（Volta），SMX模块发生了变化，孔与上一代不对齐。推测，这可能是我们正在寻找的SMX Gen 4模块。该模具似乎比GV100稍大，估计为820－840 mm 2。GA100 Ampere有望作为数据中心GPU推出，专注于面向计算的Tesla系列。

NVIDIA也发布了 DGX A100系统，该系统由8个GPU A100通过NVLink互连。NVIDIA深度学习工作站，即DGX系统，经历了几次迭代。最早的系统采用Pascal GP100 GPU，随后推出了4款基于Volta架构的系统，规格包含4到16个Tesla V100处理器。

余下全文 2/3

Tesla A100发布: 英伟达GPU架构如何演进？

相关推荐