[人工智能] 芯片TOPS的真实性 - 解释 ( 标量矢量张量)

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 芯片TOPS的真实性 - 解释 ( 标量矢量张量) -> 正文阅读

[人工智能]芯片TOPS的真实性 - 解释 ( 标量矢量张量)

宣传的TOPS往往都是运算单元的理论值，而非整个硬件系统的真实值。

真实值更多取决于内部的SRAM、外部DRAM、指令集和模型优化程度。最糟糕的情况下，真实值是理论值的1/10算力甚至更低，一般也就50%的使用率。

理论值取决于运算精度、MAC的数量和运行频率。可大致简化为INT8精度下的MAC数量在FP16精度下等于减少了一半。FP32再减少一半，依次类推。

假设有512个MAC运算单元，运行频率为1GHz，

INT8的数据结构和精度，算力为512 x 2 x 1 GHz = 1000 Billion Operations/Second = 1 TOPS

FP16精度那么就是0.5TOPS，

FP32精度就是0.25TOPS。

英伟达的Tesla V100有640个Tensor核，每核有64个MAC运算单元，运行频率大约1.480GHz，那么INT8下算力为640 * 64 * 2 * 1.480 GHz=121TOPS。

#?深度学习计算设备存在两个瓶颈，一个是处理器计算能力，另一个是计算带宽。

动态的来看，不考虑使用的算法，内存和算力无法很好的匹配

分析哪一个限制了计算性能可以使用 Roofline 模型-计算性能（纵轴）和算法的运算强度（横轴）。

例如

ResNet-50需要MAC大约为每秒70亿次运算，英伟达TeslaT4运行ResNet-50每秒可处理3920张224*224的图像，3920 images/second x 7 BillionOperations/image = 27,440 Billion Operations/second = 27.4 TrillionOperations/Second = 27.4 TOPS。而英伟达Tesla T4的理论算力是130TOPS。实际只有27.4TOPS。

决定算力真实值最主要因素是内存（ SRAM和DRAM)带宽，