Divider

看搭载了第三代 Tensor Core 的 A100
如何实现吞吐性能翻倍


2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构:安培,以及基于安培架构最新的 GPU A100。在安培架构中新增了功能强大的第三代 Tensor Core 单元。

相较于 V100, A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持,提高了各精度的运算吞吐能力,同时新增稀疏运算特性,进一步实现了吞吐性能翻倍。

第三代 Tensor Core 新特性如下:
  • 新增了 Tensor Float-32(TF32) 数据类型操作,提供了对 FP32 数据的加速能力,相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能,相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。
  • 新增了 Bfloat16(BF16) 数据类型操作,与 FP16 拥有相同的吞吐性能。相较于 V100,A100 GPU 获得 2.5 倍 TOPS 提升,单个 SM 上获得 2 倍性能提升。
  • 相较于 V100,A100 新增了 INT8,INT4,INT1 整数数据类型操作,进一步加速 DL 推理。
  • 新增加了 FP64 数据类型操作,相较于 V100,FP64 运算性能提升 2.5 倍。
  • TF32,BF16,FP16,INT8,INT4 均支持稀疏特性,运算吞吐能力可再获得 2 倍提升。

在这次的在线研讨会中,您可以获得以下的内容:
  • 第三代 Tensor Core 介绍,Tensor Core 作用与原理等
  • 如何在现有的函数库与 Kernel 中使用 Tensor Core
  • 案例分析:在 GEMM 中,Tensor Core 的使用与分析
注册在线研讨会
注册成功后,即可查看回放视频及讲义。
关注 NVIDIA 开发者社区公众号,获取更多信息。

主讲人
Add Presenter 1's Head Shot Image URL (ex: http://info.nvidianews.com/rs/156-OFN-742/images/dan_m.jpg)
刘冰
NVIDIA GPU 计算专家

拥有多年 GPU 开发经验和深度学习开发经验。曾参与计算机视觉、高性能计算库开发工作。目前主要负责 FasterTransformer 2.0 的进一步的优化及高性能函数开发工作。
 
Add Presenter 2's Head Shot Image URL (ex: http://info.nvidianews.com/rs/156-OFN-742/images/dan_m.jpg)
戴巍
原力动画资深渲染艺术家, 原力动画

原力动画资深渲染艺术家,Vray官方认证艺术家,Vray官方认证讲师。2016年加入原力动画,参与《爵迹》等项目制作。
 
Add Presenter 3's Head Shot Image URL (ex: http://info.nvidianews.com/rs/156-OFN-742/images/dan_m.jpg)
Add Presenter 3's Name (John Smith)
Add Presenter 3's Title (ex: CMO, ABC Company)

Add Presenter 3's Bio (2-3 Sentences)
Add Presenter 4's Head Shot Image URL (ex: http://info.nvidianews.com/rs/156-OFN-742/images/dan_m.jpg)
Add Presenter 4's Name (John Smith)
Add Presenter 4's Title (ex: CMO, ABC Company)

Add Presenter 4's Bio (2-3 Sentences)


主办方
Host1
Host1
 
Host2
Host1
 
Host2
 
Host3
Host1
 
Host2
 
Host3
 
Host4