A100 超微NV服务器

产品型号： A100

产品分类： ABB瑞士/模块触摸屏

联系人：李香君

手机：15359254348

电话：15359254348

QQ：3005319639

邮箱：plcdcs-module@foxmail.com

地址：厦门市思明区吕岭路1733号创想中心2009-2010单元

A100中新的第三代张量核心架构每SM的原始密集张量吞吐量是V100的两倍，加速了更多的数据类型，并为稀疏矩阵计算提供了2倍的额外加速。通用矩阵矩阵乘法（GEMM）运算是神经网络训练和推理的核心，用于对输入数据的大矩阵和各层的权重进行乘法运算。GEMM运算计算矩阵乘积D=A*B+C，其中C和D是m-by-n矩阵，A是m-by-k矩阵，B是k-by-n矩阵。在张量核上运行的这种GEMM运算的问题大小由矩阵大小定义，并且通常表示为m-by-n-by-k。以FP16/FP32混合精度张量核心运算为例，在硬件层面，Volta架构中的每个张量核心可以执行64个FP16融合乘加运算（FMA），每个时钟具有FP32累加，使其能够计算每个时钟的混合精度4x4x4矩阵乘法。
A100 超微NV服务器由于每个Volta SM包括八个张量核，单个SM每个时钟提供512个FP16 FMA操作或每个时钟提供1024个单独的FP16浮点操作。每一个A100张量核每个时钟可以执行256个FP16 FMA运算，使其能够计算每个时钟8x4x8混合精度矩阵乘法的结果。A100 GPU中的每个SM包括四个新的重新设计的张量核心，因此A100中的每个SM每个时钟提供1024个FP16 FMA操作（或每个时钟2048个单独的FP16浮点操作）。NVIDIA A100 Tensor Core GPU及其108个SM的总GPU性能（不仅仅是SM级性能）相比，共有432个Tensor Core，可提供高达312 TFLOPS的密集混合精度FP16/FP32性能。这相当于整个特斯拉V100 GPU的混合精度Tensor Core性能的2.5倍，以及V100标准FP32（在传统FP32 CUDA内核上运行的FMA操作）吞吐量的20倍。

上一篇： MOOG D138-003-001 穆格伺服控制器加密狗下一篇： MOOG D138-002-003 穆格伺服控制器加密狗

产品类目