大模型训练：从狂热到理性的转变

“只要有GPU卡，把服务器买走都行”。3月份开始，张阳明显感受大模型带来的冲击，作为一家云厂商算力平台负责人，他意识到市场甚至有些盲目。“当时客户比较慌，相当于对产品都没有什么要求，不关心网络和存储，就是感觉大家都在抢机器，先抢过来固定住时间，然后再去看怎么用，那会大家还没有想明白怎么用。”

到了4月，有些客户已经尝试过或者见过大模型训练，逐渐开始想明白，大概知道想要什么样的配置。要一堆GPU卡，实际上是一个认知误区，大模型训练的实现依靠的是一个算力集群，包含整套的服务。

但不是所有企业都能驾驭大规模算力集群，这注定是一场少数人的游戏。事实上，微软和OpenAI的合作也已经证明，用云来训练大模型，似乎是更合理的选择。

作为中间层，云厂商向下屏蔽底层软硬件的复杂性，向上对接企业的研发和算法工程师、个人开发者等，此外背靠集团的云厂商，还具备资金、人才、数据等优势，也就最先开始声势浩大的进军大模型。

AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色，仿佛齿轮般咬合在一起，构成数字经济的产业发动机，如今，大模型让每个齿轮都极速传动起来。

训练基础模型，是一切大模型产业生态的起点，也只有闯过算力关，才能拿到大模型竞赛的入场券。

大模型训练的三堵墙

技术的发展有其延续性，正如微软AzuRe为OpenAI打造的“超级计算机”，经历了数年的演进才有成果，现阶段大模型训练比拼的，其实是过去几年厂商的战略预判与技术积累，能上牌桌的大多是老玩家。

“大模型存在明显的炒作过热倾向，行业应该更加理性，而不是套着大模型概念做资本或者业务的炒作。我自己的观点是，真的不要去考虑端到端地去做一个大模型，对于非要做的企业，我只能说有机会，但是挑战很大。”一家互联网大厂大模型产品负责人对钛媒体表示。

在学术界看来，OpenAI并没有做出革命性的创新，本质是围绕AGI产品进行的“工程创新”，但正是工程化造就了OpenAI和大模型的成功，工程化体现在大模型研究、工程、产品、组织各个环节，算力训练集群也是如此。

“工程化做得好也很难，它证明了往上堆算力，堆数据是可以往前推进的。”微软技术中心首席架构师韩凯对钛媒体表示。

这一看似简单的逻辑背后，对企业而言却是极大的考验——看不见可能的出路，担心巨大的投入没有产出，这是最大的风险，也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随，而不是对一条没被验证过的路投资。

算力集群的工程化，至少要突破三堵墙。

首先是“算力”墙。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练，而单卡只有312TFLOPS算力时，一张卡训练一个模型要耗时32年。所以需要引入分布式训练的方法，使用多机多卡的方式来加速模型的训练，包括比较常见的数据并行和张量并行。”天翼云资深专家陈希表示。

其次是“存储”墙。单显卡的显存已经无法加载千亿级参数。千亿级参数完全加载到显存大概需要几个TB，如果再考虑梯度、优化器状态等训练过程产生的一些中间结果，占用的显存量就更大了，往往需要上百张卡才可以支持。

所以厂商一般会引入流水线并行，将模型不同的层放到不同的节点的显卡内进行计算。对于这一组节点只需要加载某一些层的参数，降低显存的压力。

随之而来的是“通信”墙。大模型并行切分到集群后，模型切片间会产生大量通信，包括节点内多卡通信，节点间通信。几种并行方式都会涉及到大量的节点与节点间的通信，这时候就会对总线和总带宽都有很高的要求，要达到几百G的吞吐。

另外除了这三堵墙以外，还有一些其他问题：如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显。最近几年随着tRansfoRMeR结构的引入，平均每两年，模型参数数量增长15倍。而相应的芯片制程从7nM提升到4nM，单卡算力增长不超过4倍，芯片工艺发展落后于大模型的需求。

大模型训练需要的不单单是算力，对存储，对安全，对训练框架都有一定的要求，需要一套比较完整的平台或服务来提供支持。“大家最近的一个普遍的感受，就是能满足大模型训练平台的提供商不多，高性能算力供应整体比较紧张。”陈希说。

为什么“他们”能成？

现在仍有不少企业毫无准备或者自我感觉有所准备，就冲进基础模型领域。

然而，如果细细研究现阶段做出基础模型的厂商，无一例外在AI领域都有足够积累，特别是底层基础设施层面，他们的实践也在验证“云是规模算力的最佳承载平台”这一判断。

“为了打造AI超级计算机，微软早在2018年就开始布局，除了OpenAI还投资了几个小公司，大数据是AI的前序，云计算基础设施是算力平台，大模型是算力、算法和数据的集合，微软的成功在于全栈能力。”韩凯表示。

回到国内，百度也遵循类似的逻辑。百度副总裁谢广军提到，算力和存储一定要达到更高的密度，才能够支持大模型。显著的问题还有网络互联，大模型训练用的比较多的显卡是带有NVlink高速互连的A800，需要比传统云计算做到更低延时、更高带宽，大量的小文件，也需要低延时、高存储的基础设施。

“大模型跑起来之后，还有非常多的地方需要加速，像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库，对于大模型计算和推理非常有帮助。”谢广军说。

从平台的视角来说，不管是训练任务还是推理任务，单个的任务就需要非常长的时间，需要占用很多资源。怎么能够保证资源的充分利用，以及降低它的训练和推理时间。这里面需要切任务、调度、并行，对于模型训练的加速比和并行度的支撑。

同时，一个平台上往往有有很多任务，如何灵活调度，进而能够让这些任务充分地使用资源，甚至能够感知到异构算力的拓扑，使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做。

以文心一言的训练为例，千卡规模的A100或者A800数据并行加速比达到90%，其中用了非常多的调优手段和技术，百度智能云围绕着大模型一层一层做优化，在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层，共同组成了 AI IaaS，这些基础设施可以支持上万亿参数大模型的训练。

此外，预训练模型需要通过千卡以上的集群训练，而在大多数情况，精调或者微调更普遍，基于大模型训练行业模型，相当于在树干上长树枝，不需要超大规模的集群，小几十张卡足以满足企业所需训练资源。

达观数据将在7月份正式推出国产版GPT“曹植”系统，也是得益于多年文本智能技术积累和垂直领域场景业务经验，算法和数据层面有所储备，而在测试阶段的算力层面，达观数据CEO陈运文表示，自建算力数据中心较为吃力，达观寻求了多种算力平台的支持，包括运营商算力中心、鹏程实验室等。

达观数据也曾尝试某家头部云厂商的GPU算力，但经过测算成本太高，租一年半下来的成本，足够达观数据自家购置一个自己的算力平台，达观数据选择了英伟达DGX高性能工作站方案，相当于英伟达自身做了很多集群优化，解决了存储和网络的大部分问题，直接买GPU卡自建集群和英伟达解决方案相比，综合性能相差一倍。

“我们自己的模型训练成本其实还是很高的，但是我们帮客户算过账，模型在推理阶段需要的算力投入并不大，很多客户只要单机多卡就够，硬件投入不算很大，但是给客户带来的效果和体验提升非常明显。”陈运文表示。

英伟达不只有GPU

小厂商用英伟达的商业技术补齐能力，大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能，进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU。

来自市场的消息显示，A800的价格一度超过8万元人民币，A100更贵，甚至超过9万元。

“英伟达的策略是既要确保每家大客户都能拿到货，同时又不会完全满足其短时大量的需求，这使得英伟达GPU保持在一个供应紧张的状态。”一位业内人士表示，英伟达全球A100的产能并不缺，供货没有问题，对于禁售A100之后，特供中国的替代品A800，英伟达特意开了一条产品线，因其产能相对有限，造成了供需矛盾。

一些厂商也在想其他办法，比如在香港建立算力集群，同时H800和A800复用了一部分产品线，未来H800的产能上来之后或许会压制A800，不排除英伟达会继续增加适用于中国市场的产线。

除了产量，高企的价格也源于英伟达芯片的工程化能力，这是其成为大模型训练核心的决定性原因。

业界内外对英伟达有两种极端认知：一种认为，英伟达难以战胜；另一种是诸多厂商在PPT上“吊打”英伟达。然而，即便在理念和先进性上领先，但这一切只停留在芯片设计环节，没有真正工业落地，也就无从对比。

现实情况是，在大模型算力领域，英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。

以英伟达最新发布的GH200GRACEHoppeR超级芯片，以及拥有256个GH200超级芯片的DGXGH

chatGPT

近期文章

互联网资讯 / 人工智能 · 2024年2月24日

大模型训练：从狂热到理性的转变

Need more than content? Move into the product flow.