​启闳半导体科技(江苏)有限公司QiHong Semicon TECHNOLOGY (JIANGSU) CO.,LTD

电子邮箱  
密码      忘记密码?
  注册
特斯拉自研芯片架构带来的启示
来源:半导体行业观察 | 作者:半导体行业观察 | 发布时间: 2022-09-05 | 2143 次浏览 | 分享到:

 

图片
图片

内存存取

图片
图片

 

说到系统内存,Dojo 芯片并不直接连接到内存。相反,它们连接到配备 HBM 的接口处理器。这些接口处理器还负责与主机系统通信。

具有 25 个独立芯片的 Dojo tile 可以访问 160 GB 的 HBM 内存。

 

Tesla 表示,他们可以跨 tile 边界从每个芯片边缘传输 900 GB/s,这意味着可以以 4.5 TB/s 的链路带宽访问接口处理器及其 HBM。因为访问 HBM 需要通过单独的芯片,所以访问延迟可能非常高。

 

图片
图片

是小,如何做到的?

图片
图片

 

Dojo 是一个 8 宽的内核,具有至少一些 OoO 执行能力、不错的向量吞吐量和一个矩阵乘法单元。但即使有 1.25 MB 的本地 SRAM,它最终还是一个非常小的内核。相比之下,富士通的A64FX在同一工艺节点上占据的面积是其两倍以上。

 

处理器设计就是要做出正确的权衡。特斯拉希望通过将大量内核封装到芯片上来最大限度地提高机器学习的吞吐量,因此单个内核必须很小。为了实现其区域效率,Dojo 使用了一些熟悉的技术。它以保守的 2 GHz 运行。较低的时钟电路往往占用较少的面积。它可能有一个基本的分支预测器和一个小的指令缓存。如果程序的代码占用量很大或有很多分支,这会牺牲一些性能。

 

但特斯拉还通过削减运行内部工作负载所不需要的功能来进一步减少功耗和面积使用。它们不进行数据端缓存,不支持虚拟内存,也不支持precise exceptions。

 


结果是一个处理器内核提供了现代 CPU 内核的性能灵活性,同时在许多方面不如 Intel 8086 对用户和程序员友好。除了内核之外,Tesla 还通过设计专门用于部署的 Dojo 芯片来节省芯片面积大规模。

 

图片
图片

物理实现

图片
图片

 

缩小,Dojo 核心是在一个非常大的 645 平方毫米的裸片上实现的,称为 D1。与我们熟悉的其他芯片不同,单个 Dojo 芯片不能自给自足。它没有 DDR 或 PCIe 控制器。die 边缘周围有 IO 接口,可以让 die 与相邻的 die 进行通信,延迟约为 100 ns。



 

要访问系统内存,Dojo D1 芯片必须与具有板载 HBM 的接口处理器通信。该接口处理器又通过 PCIe 连接到主机系统(接口处理器安装在 PCIe 卡上)。理论上,最小的功能性 Dojo 部署将涉及一个 Dojo 芯片、一个接口处理器卡和一个主机系统。但特斯拉将 Dojo die部署在每个包含 25 个die的模块中,以提供规模感。Dojo D1 die专门设计用于超级计算机的构建块,仅此而已。