​启闳半导体科技(江苏)有限公司QiHong Semicon TECHNOLOGY (JIANGSU) CO.,LTD

电子邮箱  
密码      忘记密码?
  注册
特斯拉自研芯片架构带来的启示
来源:半导体行业观察 | 作者:半导体行业观察 | 发布时间: 2022-09-05 | 2139 次浏览 | 分享到:

 

如果我们说特斯拉只对机器学习感兴趣是轻描淡写的。事实上这家电动汽车制造商建造了一台名为 Dojo 的内部超级计算机,针对训练其机器学习模型进行了优化。

 

与许多其他超级计算机不同,Dojo 没有使用现成的 CPU 和 GPU,例如 AMD、Intel 或 Nvidia 的。特斯拉根据他们的需求设计了自己的微架构,让他们做出更通用架构无法做出的权衡。

 

在本文中,我们将根据特斯拉在 Hot Chips 上的演示来了解该架构。该架构没有单独的名称,因此为简单起见,每当我们在后面提到 Dojo 时,我们都是在谈论架构。


图片
图片

框图

图片
图片


从高层次上看,Dojo 是一个 8 宽内核,具有四路 SMT,运行在保守的 2 GHz,具有 CPU 风格的pipeline,使其比 GPU 更能容忍不同的算法和分支代码。Dojo 的指令集在标量方面类似于 RISC-V,但 Tesla 的工程师添加了一组自定义向量指令,专注于加速机器学习。

 

特斯拉 Dojo 核心的简化框图


Tesla 将 Dojo 描述为“高吞吐量、通用 CPU”。从性能的角度来看,这肯定有一些道理。但为了提高计算密度,特斯拉做出了牺牲,与我们在台式机、笔记本电脑和智能手机中熟悉的 CPU 相比,Dojo 内核非常难以使用。在某些方面,Dojo 内核的处理方式更像 IBM 的 Cell 中的 SPE,而不是传统的通用 CPU 内核。


图片
图片

像Cell的 SPE?

图片
图片


在 2000 年代中期推出的IBM Cell 处理器具有八个“协同处理元件”(Synergistic Processing Elements)或 SPE,由一个功能齐全的 CPU 内核(“电源处理元件”或 PPE:Power Processing Elemen)控制。乍一看,Dojo 与 SPE 有很多相似之处。

 

Dojo 和 SPE 都针对矢量处理进行了优化,并且依赖于单独的主机处理器进行工作分配。在 Dojo 或 SPE 上运行的代码不能直接访问系统内存。相反,应用程序预计主要在一小部分本地 SRAM 中工作。此本地 SRAM 由软件管理,不能用作缓存。如果需要来自主存储器的数据,则必须使用 DMA 操作将其引入。

 

最后,Dojo 和 Cell 的 SPE 都缺乏对虚拟内存的支持。稍后我们将详细介绍这意味着什么,但简而言之,它使多任务处理变得非常困难。


Tesla Dojo 和 IBM Cell SPE 之间的非常简化的比较