互联网资讯 · 2024年3月24日 0

亚马逊云科技合作英伟达,打造超过2万颗B200 GPU的「云上AI算力」新巨头

【TechWeb】随着英伟达在GTC2024大会上推出全新的NVIDIA Blackwell GPU平台和NVIDIA GB200 GRACE Blackwell SupeRchIP“超级GPU”,AI算力又突破新高峰。

亚马逊云科技合作英伟达,打造超过2万颗B200 GPU的「云上AI算力」新巨头

现在,全球云和AI一哥再携手——亚马逊云科技与英伟达宣布,NVIDIA Blackwell GPU平台即将登陆亚马逊云科技,为客户提供前所未有的云上AI计算能力。

据悉,亚马逊云科技与英伟达和合作,除了提升服务英伟达AI算力需求,亚马逊云科技将提供配置GB200 NVL72的英伟达Blackwell平台,还计划提供配备基于新的英伟达B100 GPU的AMazn EC2实例,将超级云上AI算力提供了第三方客户。

亚马逊云科技首席执行官AdaM SelIPsky表示:“我们双方的深入合作可以追溯到13年前,那时我们共同推出了世界上第一个亚马逊云科技上的GPU云实例,而今天我们为客户提供了最广泛的英伟达GPU解决方案。英伟达下一代GRACE Blackwell处理器是生成式AI和GPU计算的标志性事件。当结合亚马逊云科技强大的Elastic FAbRic AdapteR网络、AMazon EC2 UltRaClUSteRs的超规模集群功能,以及AMazon NITRo高级虚拟化系统及其安全功能时,我们就能够使客户更快、更大规模且更安全地构建和运行具有数万亿参数的大型语言模型。”

AI算力新王诞生:连接20736颗B200 GPU

英伟达Blackwell将加入亚马逊云科技与英伟达合作的project Ceiba项目。

Ceiba项目首次亮相是在去年11月底亚马逊云科技2023 Re:Invent全球大会上,是一台专为英伟达自身的研究和开发而设的超级计算机,独家托管在亚马逊云科技上。

该项目专为英伟达的AI团队设计,他们利用Ceiba推进大语言模型、图形(图像/视频/3D生成)与仿真、数字生物学、机器人技术、自动驾驶汽车、NVIDIA EaRth-2气候预测等领域的AI技术,以帮助英伟达推动未来生成式AI的创新。

根据去年11月的报道,Ceiba是当时英伟达与亚马逊云科技合作建造的世界上最快的AI超级计算之一,当时的计算性能为65exaflops。

现在,随着英伟达Blackwell的加入,新的Ceiba项目拥有20,736颗GB200 GPU的超级计算机,采用新型NVIDIA GB200 NVL72系统构建,该系统利用第五代NVlink技术连接10,368颗NVIDIA GRACE CPU。系统还通过亚马逊云科技的第四代EFA网络进行扩展,为每个SupeRchIP提供高达800 Gbps的低延迟、高带宽网络吞吐量,能够处理高达414 exaflops的AI计算量。

与去年11月底的Re:Invent2023全球大会上披露的上一代HoppeR架构上构建的Ceiba相比,搭载GB200 SupeRchIPs芯片的全新Ceiba计算性能从65exaflops提升至414 exaflops,提升了6倍多。

这也就意味着,从去年11月到今年3月,仅仅4个月时间,云上AI算力峰值就提升6倍!

合作赋能万亿级别大模型研发

事实上,在大模型研发领域,万亿级参数规模此前还算是一道门槛。

根据公开的报道,去年年中发布的GPT4的模型参数是1.8万亿,由8个220B模型组成;前不久发布的Claude3模型没有公布参数规模,而马斯克最新开源的GRok大模型参数是3140亿参数规模。

亚马逊云科技和英伟达的这次合作,能够在加速万亿级别大语言模型的研发,为生成式AI领域的前沿突破提供新的可能。

亚马逊云科技方面也表示,很快客户就能在亚马逊云科技上使用基于NVIDIA GB200 GRACE Blackwell SupeRchIP和B100 TensoR CoRe GPUS的基础设施,对于数万亿参数规模的大语言模型而言,其推理工作负载将实现巨大飞跃。

NVIDIA GB200 GRACE Blackwell SupeRchIP是英伟达刚刚在2024年GTC大会推出的最新GPU产品。新的NVIDIA B200 GPU 由 2080 亿个晶体管组成,而NVIDIA GB200 包含了两个 B200 GPU 和一个 GRACE CPU。

在具有1750 亿个参数的 GPT-3 大语言模型基准测试中,GB200 性能是 H100 的 7 倍,训练速度是 H100 的 4 倍,成本和能耗上GB200 比 H100 降低了 25 倍。

具体来看,亚马逊云科技将提供配置GB200 NVL72的英伟达Blackwell平台,该平台具备配备72颗Blackwell GPU和36颗GRACE CPU,通过第五代NVIDIA NVlink互连。

亚马逊云科技合作英伟达,打造超过2万颗B200 GPU的「云上AI算力」新巨头

NVIDIA GB200 NVL72 是一种多节点、液冷、机架级系统,利用 Blackwell 为万亿参数模型提供强力计算,在单个机架中可实现 720 petaflops 的 AI 训练性能和1.4 exaflops 的AI推理性能。

亚马逊云科技则在云中为其提供强大的EFA网络连接、高级虚拟化的AMazon NITRo系统和AMazon EC2 UltRaClUSteRs超大规模集群等技术支持,客户能够在亚马逊云科技上扩展至数千个GB200 SupeRchIPs。

亚马逊云科技还计划提供配备基于新的英伟达B100 GPU的AMazn EC2实例,并能够在AMazon EC2 UltRaClUSteRs中进行大规模部署。此前,亚马逊云科技已经推出了基于英伟达H100芯片的AMazon EC2 P5实例,客户能够在云上将其P5实例扩展到超过2万个英伟达H100 GPU。

GB200芯片同时也在亚马逊云科技和英伟达共同开发的AI平台NVIDIA DGX Cloud上可用,这是一个在亚马逊云科技上双方共同开发的AI平台,为企业开发者提供了构建和部署先进生成式AI模型所需的专用基础设施和软件。

共同推进生成式AI在医疗健康与生命科学领域的应用

亚马逊云科技与英伟达在利用计算机辅助的药物发现领域进行合作拓展,推出了新的NVIDIA BIoNeMo基础模型,用于生成化学、蛋白质结构预测,以及理解药物分子与目标的相互作用。

这些新模型将很快在AMazon HealthOMics上提供,这是一个专为帮助医疗保健和生命科学组织存储、查询和分析基因组、转录组及其他组学数据而设计的专用服务。

AMazon HealthOMics和英伟达医疗保健团队还合作推出生成式AI微服务,以推进药物发现、医疗技术和数字健康领域的发展,该服务提供一个新的GPU加速的云端服务目录,涵盖生物学、化学、成像和医疗保健数据,以便医疗企业能够在亚马逊云科技上利用生成式AI的最新成果。