看搭载了第三代Tensor Core的A100如何实现吞吐性能翻倍

看搭载了第三代 Tensor Core 的 A100
如何实现吞吐性能翻倍

2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构：安培，以及基于安培架构最新的 GPU A100。在安培架构中新增了功能强大的第三代 Tensor Core 单元。

相较于 V100, A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持，提高了各精度的运算吞吐能力，同时新增稀疏运算特性，进一步实现了吞吐性能翻倍。

第三代 Tensor Core 新特性如下：

新增了 Tensor Float-32(TF32) 数据类型操作，提供了对 FP32 数据的加速能力，相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能，相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。
新增了 Bfloat16(BF16) 数据类型操作，与 FP16 拥有相同的吞吐性能。相较于 V100，A100 GPU 获得 2.5 倍 TOPS 提升，单个 SM 上获得 2 倍性能提升。
相较于 V100，A100 新增了 INT8，INT4，INT1 整数数据类型操作,进一步加速 DL 推理。
新增加了 FP64 数据类型操作，相较于 V100，FP64 运算性能提升 2.5 倍。
TF32，BF16，FP16，INT8，INT4 均支持稀疏特性，运算吞吐能力可再获得 2 倍提升。

在这次的在线研讨会中，您可以获得以下的内容: