目前,人工智能领域已成为最受关注的热点之一。人工智能领域是通过对计算机的研究与开发,使得其具备类似于人类智能的,对环境的输入做出有意义的判断反应的研究应用领域。
目前,人工智能领域已成为最受关注的热点之一。人工智能领域是通过对计算机的研究与开发,使得其具备类似于人类智能的,对环境的输入做出有意义的判断反应的研究应用领域。决定人工智能质量的因素往往是计算能力以及数据量的大小,而实现人工智能的方式则是机器学习,让机器通过训练和学习逐渐逼近我们希望其实现的效果。随着处理器能力以及数据量的飞速增长,机器学习的方式也在发生革命性的变化,深度学习的概念被引入。深度学习由于其多层次形态,从而增强了其非线性程度,可以带来更强的拟合能力。此外,其类似于仿生学的逐层自动提取特征的过程,保证了所提取特征的质量与丰富性,使得其性能相较于传统的机器学习算法有了质的提升。
随着模型算法的发展,模型所能实现的性能逐步提升, 而模型本身的深度和复杂度也大大增加。以大规模图像识别竞赛(ILSVRC)为例,2012年多伦多大学的Alex Krizhecsky 随同其倒是Geoffrey Hinton 发布的 AlexNet 以83.0%的Top5分类准确率夺得冠军,相较于之前传统模型的最佳性能提升了百分之十几。AlexNet 本身是一个具有5层卷积层和3层全连接层的卷积神经网络,包含有6100万个权重参数和7.24亿次乘加运算。2017年为止,最复杂的网络模型层数已超过1000层,权重参数及乘加运算次数都比AlexNet提升了几个数量级,而所能实现的识别准确率也已经超越人眼。
对于最近打败众多人类围棋高手的阿尔法围棋(AlphaGo),在其打败李在石的第一版分布式实现版本中,其复杂的决策算法模型需要1300多个CPU和280个GPU来提供算力的支撑。由此可见,面对日益复杂的人工智能算法,要满足严格的功耗与实时性需求,需要有强大的处理器作为支持;因此对处理器芯片的精细化设计,成为提升芯片计算功能,满足应用需求的必要条件。
通常来讲,无论是对于人工智能的模型训练还是前向推断应用过程,处理器芯片的计算速度都是需要首先考虑的指标;而在某些诸如嵌入式移动端的低功耗场景中,对于硬件计算的功耗也需要加以严格的控制。传统的CPU由于其串行执行的方式,在应对数据与计算密集型的人工智能算法时显得捉襟见肘。因此,增加处理器计算的并行度成为性能提升的一个主要方向。英伟达提出了通用计算GPU(GPGPU)的概念,将具有大量可并行计算流处理器的GPU运用到人工智能算法的研发过程中, 并提供了成熟而稳定的诸如CUDA和cuDNN的软件环境支持。由于GPU强大的计算能力,在关注模型准确度和以数据中心及服务器环境为主的模型训练场景中,GPU得到了广泛的应用。但同时我们也注意到,常见的GPU板卡功耗高达200-300W,这使得其在需要低功耗场景中的应用收到局限。因此,针对应用场景和算法类型,对芯片内部结构进行定制化的设计,从而提升芯片整体的能效比,成为人工智能芯片发展的另一主流方向。