目前,人工智能领域已成为最受关注的热点之一。人工智能领域是通过对计算机的研究与开发,使得其具备类似于人类智能的,对环境的输入做出有意义的判断反应的研究应用领域。
通常而言,对于某一类型的人工智能算法,其往往具备可划分的特性,并且划分的子算法块具有一定的相似性。以图像应用中常见的卷积神经网络为例,运算最密集的卷积层就可以抽象为滑窗类型的乘加操作,而滑窗的大小及步幅,计算通道数的大小等均可以被抽象为可配置的参数。在硬件结构的设计过程中,往往会针对算法划分及抽象的方式,在计算通路和存储结构上进行定制化,可配置的设计。大部分研究者会采用FPGA芯片实现的方式,快速地迭代开发出加速硬件结构。多家研究机构已纷纷在顶级学术会议上发布了基于FPGA的加速结构设计,而业界企业也都开始将常见的算法模型通过FPGA加速器实现的形式部署到应用端,并且实现了较好的性能和较低的功耗。下一步,我们也可以将计算及存储核心部分进行电路固化,以专用集成电路(ASIC)的方式实现,以达到更高的能效比。目前已知的优秀ASIC芯片设计,已能在实现数百GOPS(每秒十亿次运算数)级别计算能力的情况下将功耗控制在毫瓦级别。ASIC在具备广泛应用市场的前提下,具有高能效比,量产成本低的诸多优势,但其一次性的工程费用及较大的开发成本,在快速的算法演进过程中往往会具有一定风险。因此,针对不同的研发及市场需求,应该选取不同的平台予以实现。
近年来,针对硬件实现的算法优化也在不断发展,包括数据量化,模型稀疏化等多项技术都取得了进展;而这些技术都有助于降低人工智能芯片的片上计算资源及存储带宽限制,以更低的硬件代价实现更高的吞吐速率。而数据位宽变化以及模型稀疏带来的不规则性,则对硬件结构的实现提出了挑战。未来的人工智能芯片设计,将更趋向于软硬件协同设计的模式,从软硬件两个方向分别进行限制条件的考量以及优化路径的选取,从而实现更优化,更通用的解决方案。
