2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构:安培,以及基于安培架构最新的 GPU A100。在安培架构中新增了功能强大的第三代 Tensor Core 单元。
相较于 V100, A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持,提高了各精度的运算吞吐能力,同时新增稀疏运算特性,进一步实现了吞吐性能翻倍。
第三代 Tensor Core 新特性如下:
- 新增了 Tensor Float-32(TF32) 数据类型操作,提供了对 FP32 数据的加速能力,相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能,相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。
- 新增了 Bfloat16(BF16) 数据类型操作,与 FP16 拥有相同的吞吐性能。相较于 V100,A100 GPU 获得 2.5 倍 TOPS 提升,单个 SM 上获得 2 倍性能提升。
- 相较于 V100,A100 新增了 INT8,INT4,INT1 整数数据类型操作,进一步加速 DL 推理。
- 新增加了 FP64 数据类型操作,相较于 V100,FP64 运算性能提升 2.5 倍。
- TF32,BF16,FP16,INT8,INT4 均支持稀疏特性,运算吞吐能力可再获得 2 倍提升。
在这次的在线研讨会中,您可以获得以下的内容:
- 第三代 Tensor Core 介绍,Tensor Core 作用与原理等
- 如何在现有的函数库与 Kernel 中使用 Tensor Core
- 案例分析:在 GEMM 中,Tensor Core 的使用与分析