在今年六月于旧金山举行的一场盛大发布会上,AMD CEO Lisa Su在介绍MI 300A之余,还对外公布了公司拥有1530亿晶体管的新一代AI芯片MI 300X。因为拥有强大的带宽和内存,叠加人工智能市场被英伟达近乎垄断的现状,AMD的这颗芯片在发布之后,引起了人工智能从业者的广泛关注。
Lisa Su在公司10月底的三季度的财报会议上更是乐观预测,展望今年第四季度,来自数据中心图形处理单元 (GPU) 的收入将达到约 4 亿美元,而随着收入持续增长,到 2024 年这一总额可能会超过 20 亿美元。“这一增长将使 MI300 成为 AMD 历史上销售额突破 10 亿美元最快的产品,”Lisa Su 表示。
基于这些优越的表现,Lisa Su在今天的“Advancing AI”大会演讲中提高了她对数据中心AI加速器的预测。一年前,她认为2023年的AI加速器市场为300亿美元。到2027年,全球数据中心AI加速器的市场规模将达到1500亿美元,这意味着期间的CAGR约为50%。但现在,Lisa Su认为,AI加速器在2023年的市场规模将达到450亿美元,未来几年的CAGR将高达70%,推动整个市场到2027年增加到4000亿美元的规模。
AMD还同时揭开了MI 300X和MI 300A的神秘面纱,还带来了RCom 6的更多介绍。
MI300X,全面领先竞争对手
如图所示,AMD Instinct MI300X 采用了8 XCD,4个IO die,8个HBM3堆栈,高达256MB的AMD Infinity Cache和3.5D封装的设计,支持 FP8 和稀疏性等新数学格式,是一款全部面向 AI 和 HPC 工作负载的设计。
据笔者所了解,所谓 XCD,是AMD在GPU中负责计算的Chiplet。如图所示,在MI 300X上,8个XCD包含了304 个CDNA 3 计算单元,那就意味着每个计算单元包含了34个CU(CU:Computing Unit)。作为对比,AMD MI 250X 拥有220个CU,这也是一个较大的飞跃。
在IOD方面,AMD在这一代的加速器上同样采用了Infinity Cache技术,也就是他们所说的“海量带宽放大器”(massive bandwidth amplifier)。资料显示,这是AMD在RDNA 2引入的技术。当时发布的时候,AMD方面表示,希望能够借助Infinity Cache 技术,让GPU 不但能够拥有可快速访问的高速、高带宽片内缓存,而且还可以同时实现低功耗和低延迟。在MI 300X,这个缓存的数字提升到了256MB。与此同时,AMD还给这个芯片配备了7×16路的第四代AMD infinity Fabric link,为其I/O保驾护航。
具体到封装方面,AMD通过引入3D混合键合和2.5D的硅中介层,实现了一个自称为“3.5D封装”的技术。
根据IEEE在报道中指出,这种集成是使用台积电的SoIC和 CoWoS技术完成的。其中,后者使用所谓的混合键合将较小的芯片堆叠在较大的芯片之上,这种技术无需焊接即可直接连接每个芯片上的铜焊盘。它用于生产 AMD 的V-Cache,这是一种堆叠在其最高端 CPU 小芯片上的高速缓存内存扩展小芯片。前者称为 CoWos,将小芯片堆叠在称为中介层的较大硅片上,该硅片旨在包含高密度互连中。
来到HBM 3配置方面,通过八个物理堆栈的HBM,让MI300 X的HBM容量高达192GB,是英伟达H100 80GB HBM 3的2.4倍,这和之前提供的数据一致。但在带宽方面,和上次提供的5.2TB/s的不一样,AMD在新的展示文件中表示,MI 300X的峰值存储带宽为5.3TB/s,这是英伟达H100 SXM(存储带宽为3.3TB/s)的2.4倍。
如上图所示,受惠于这些领先的设计,MI300 X在多个性能测试中领先于竞争对手。而按照他们所说,AMD在Instinct的产品战略方面有四个战略支柱,分别是易于迁移、性能领先、致力于开放和客户聚焦。当中易于迁移是指 MI 300X将与现在的硬件和软件框架兼容;性能领先则意味着不妥协的领先性能;致力于开放则着重强调了公司投资和积极参与到整个生态系统的开源标准系统中去;客户聚焦则代表着公司以客户为己任,打造适合客户需求的路线图的决心。
事实上,如图所示,AMD采用了8个MI 300X打造了一个拥有优越性能平台,具体参数如下图所示,这也让其成为了业界领先的标准设计。更重要的是,由于该产品的兼容性,使其能够大大降低客户硬件或者软件迁移的时间和成本。
AMD总结说,基于行业标准 OCP 设计构建的新一代Instinct平台配备了八个 MI300X 加速器,可提供行业领先的1.5TB HBM3内存容量。AMD Instinct平台的行业标准设计允许 OEM 合作伙伴将MI300X加速器设计到现有的AI产品中,并简化部署并加速基于AMD Instinct加速器的服务器的采用。
与Nvidia H100 HGX相比,AMD Instinct平台在类似BLOOM 176b等LLM上运行推理时,吞吐量可提高高达1.6倍,并且是市场上能够对Llama2等700亿参数模型运行推理的唯一选择。
在关键AI kernel性能表现上,基于MI 300X的平台表现也优于竞争对手。
在某些模型的训练上,如下图所示,AMD MI 300X在和英伟达H100相比时也不逊色。
从下图数据,我们则可以看到AMD最新芯片平台在训练和推理方面的更多优势。
MI 300A,业界首个APU加速器
在这次发布会上,AMD还深入介绍了业界首个APU加速器MI 300A。
作为全球首款适用于HPC和AI的数据中心APU,AMD Instinct MI300A APU利用3D封装和第四代AMD Infinity架构,在HPC和AI融合的关键工作负载上提供领先的性能。MI300A APU 结合了高性能AMD CDNA 3 GPU内核、最新的AMD“Zen 4” 86 CPU内核和128GB下一代HBM3 内存。与上一代的AMD Instinct MI250X相比,在FP32 HPC和AI上获得约为1.9倍的每瓦性能提升。
具体到产品设计方面,如上图所示,MI 300A和MI 300X拥有很多的相似之处,例如3.5D封装和256MB的AMD infinity Cache以及4个IOD。但在HBM和计算单元方面,也有了不同之处。例如虽然MI 300A同样也是采用了HBM 3设计,但是其容量大小却小于MI 300X。
在I/O die方面,虽然拥有和MI 300X同样的infinity Cache,但MI 300A的I/O配置了4×16的第四代Infinity Fabric Link和4×16的PCIe 5,这与MI 300X又有所不同。
对于这两个不同的MI 300系列产品,在计算单元方面方面的差距是尤为明显。和MI 300X只采用XCD计算单元不一样,MI 300A采用了6个XCD和3个CCD,这就意味着其拥有228个CDNA 3 CU和24个“zen 4”核心。
其实,“CPU+GPU”的设计并不是AMD独家的,例如应为的GH200,就是采用了同样的概念,英特尔也曾经在Falcon Shores上规划了XPU的设计。虽然Intel取消了XPU的设计,但AMD依然坚持走在这条路上,因为按照他们之前的说法,从一致内存架构向统一内存APU架构的转变,有望提高效率、消除冗余内存副本,且无需将数据从一个池复制到另一个池,以实现降低功耗和延迟的目的。
不过,从IEEE的报道也可以看到,英伟达和AMD的做法有所不同。在英伟达方面,Grace 和 Hopper 都是独立的芯片,它们都集成了片上系统所需的所有功能块(计算、I/O 和缓存),它们之间是通过 Nvidia NVLink Chip-2-Chip 互连水平连接的,而且很大——几乎达到了光刻技术的尺寸极限。
AMD则使用 AMD Infinity Fabric 互连技术集成了三个 CPU 芯片和六个 XCD 加速器。而随着功能的分解,MI300 中涉及的所有硅片都变得很小。最大的 I/O die甚至还不到 Hopper 的一半大小。而且 CCD 的尺寸仅为I/O die的1/5左右,这种小尺寸带来了良率和成