01Al DSA产生的背景和产业现状 先看一下Al DSA产生的背景。 1. 人工智能的发展以及背后的算力支撑 我们看到近几年取得非常惊人效果的AI模型,比如GPT-3、AlphaFold等,其实背后都用了大量的的GPU芯片来作为训练的平台。像最右侧英伟达和微软合作训练的530B参数的模型使用了560个DGX A100平台。这些芯片提供的算力为人工智能的发展提供了巨大的支撑。 2. Al DSA产生的背景 随着AI应用和算法的发展以及落地场景越来越复杂,出现了以下两点问题: 不论是模型的规模还是算力需求,都是呈指数形式的增长。同时,由于摩尔定律放缓,通用处理器的性能提升已经十分有限。因此,计算需求与处理能力的提升之间存在较大的GAP。 第二,AI计算现在无处不在,AI计算任务多样且复杂。例如,在云上、边缘侧与端设备上,不同的场景下面包括不同的训练和推理的需求,差异是非常大的。在云上进行训练,可能需要非常高的吞吐量,非常高的精度,以及非常强的扩展性等等;而在端上,情况更加复杂,会有计算量需求巨大的情况,如自动驾驶可能需要P级算力;同时,也会有能耗和成本非常受限的应用,像可穿戴设备中的AI计算等等。 总之,不管是对巨型模型的支持,还是碎片化的需求,都和通用处理器提供的处理能力之间有很大的GAP,所以近几年我们针对AI提出很多专用的架构(DSA)。 近几年,“领域专用架构DSA”被不断提起,它其实也不是一个新的概念。我们看图中这些最常见的芯片架构,除了CPU是一个通用架构之外,实际上其它的都可以认为是一个领域专用的架构,也就是为了效率和灵活性上找一个最优点而针对某一个领域或者某一类应用而设计的架构。 那么针对Al的AI DSA,它的核心就是“专门面向Al应用领域需求,追求软硬件最佳平衡点”。然而由于AI应用场景非常复杂,目前大家还是在使用用各种各样的架构来加速AI应用,还没有形成一个或几个稳定的平衡点。
|