特斯拉自研芯片架构带来的启示

设为首页|加入收藏

启闳半导体科技（江苏）有限公司QiHong Semicon TECHNOLOGY (JIANGSU) CO.,LTD

首页 >> 行业动态 >> 特斯拉自研芯片架构带来的启示

特斯拉自研芯片架构带来的启示

来源:半导体行业观察 | 作者:半导体行业观察 | 发布时间: 2022-09-05 | 3310 次浏览 | 分享到:

如果我们说特斯拉只对机器学习感兴趣是轻描淡写的。事实上这家电动汽车制造商建造了一台名为 Dojo 的内部超级计算机，针对训练其机器学习模型进行了优化。

与许多其他超级计算机不同，Dojo 没有使用现成的 CPU 和 GPU，例如 AMD、Intel 或 Nvidia 的。特斯拉根据他们的需求设计了自己的微架构，让他们做出更通用架构无法做出的权衡。

在本文中，我们将根据特斯拉在 Hot Chips 上的演示来了解该架构。该架构没有单独的名称，因此为简单起见，每当我们在后面提到 Dojo 时，我们都是在谈论架构。

框图

从高层次上看，Dojo 是一个 8 宽内核，具有四路 SMT，运行在保守的 2 GHz，具有 CPU 风格的pipeline，使其比 GPU 更能容忍不同的算法和分支代码。Dojo 的指令集在标量方面类似于 RISC-V，但 Tesla 的工程师添加了一组自定义向量指令，专注于加速机器学习。

特斯拉 Dojo 核心的简化框图

Tesla 将 Dojo 描述为“高吞吐量、通用 CPU”。从性能的角度来看，这肯定有一些道理。但为了提高计算密度，特斯拉做出了牺牲，与我们在台式机、笔记本电脑和智能手机中熟悉的 CPU 相比，Dojo 内核非常难以使用。在某些方面，Dojo 内核的处理方式更像 IBM 的 Cell 中的 SPE，而不是传统的通用 CPU 内核。

像Cell的 SPE？

在 2000 年代中期推出的IBM Cell 处理器具有八个“协同处理元件”（Synergistic Processing Elements）或 SPE，由一个功能齐全的 CPU 内核（“电源处理元件”或 PPE：Power Processing Elemen）控制。乍一看，Dojo 与 SPE 有很多相似之处。

Dojo 和 SPE 都针对矢量处理进行了优化，并且依赖于单独的主机处理器进行工作分配。在 Dojo 或 SPE 上运行的代码不能直接访问系统内存。相反，应用程序预计主要在一小部分本地 SRAM 中工作。此本地 SRAM 由软件管理，不能用作缓存。如果需要来自主存储器的数据，则必须使用 DMA 操作将其引入。

最后，Dojo 和 Cell 的 SPE 都缺乏对虚拟内存的支持。稍后我们将详细介绍这意味着什么，但简而言之，它使多任务处理变得非常困难。