互联网资讯 / 人工智能 · 2024年2月24日

大模型训练:从狂热到理性的转变

“只要有GPU卡,把服务器买走都行”。3月份开始,张阳明显感受大模型带来的冲击,作为一家云厂商算力平台负责人,他意识到市场甚至有些盲目。“当时客户比较慌,相当于对产品都没有什么要求,不关心网络和存储,就是感觉大家都在抢机器,先抢过来固定住时间,然后再去看怎么用,那会大家还没有想明白怎么用。”

到了4月,有些客户已经尝试过或者见过大模型训练,逐渐开始想明白,大概知道想要什么样的配置。要一堆GPU卡,实际上是一个认知误区,大模型训练的实现依靠的是一个算力集群,包含整套的服务。

但不是所有企业都能驾驭大规模算力集群,这注定是一场少数人的游戏。事实上,微软和OpenAI的合作也已经证明,用云来训练大模型,似乎是更合理的选择。

作为中间层,云厂商向下屏蔽底层软硬件的复杂性,向上对接企业的研发和算法工程师、个人开发者等,此外背靠集团的云厂商,还具备资金、人才、数据等优势,也就最先开始声势浩大的进军大模型。

AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色,仿佛齿轮般咬合在一起,构成数字经济的产业发动机,如今,大模型让每个齿轮都极速传动起来。

训练基础模型,是一切大模型产业生态的起点,也只有闯过算力关,才能拿到大模型竞赛的入场券。

大模型训练的三堵墙

技术的发展有其延续性,正如微软AzuRe为OpenAI打造的“超级计算机”,经历了数年的演进才有成果,现阶段大模型训练比拼的,其实是过去几年厂商的战略预判与技术积累,能上牌桌的大多是老玩家。

“大模型存在明显的炒作过热倾向,行业应该更加理性,而不是套着大模型概念做资本或者业务的炒作。我自己的观点是,真的不要去考虑端到端地去做一个大模型,对于非要做的企业,我只能说有机会,但是挑战很大。”一家互联网大厂大模型产品负责人对钛媒体表示。

在学术界看来,OpenAI并没有做出革命性的创新,本质是围绕AGI产品进行的“工程创新”,但正是工程化造就了OpenAI和大模型的成功,工程化体现在大模型研究、工程、产品、组织各个环节,算力训练集群也是如此。

“工程化做得好也很难,它证明了往上堆算力,堆数据是可以往前推进的。”微软技术中心首席架构师韩凯对钛媒体表示。

这一看似简单的逻辑背后,对企业而言却是极大的考验——看不见可能的出路,担心巨大的投入没有产出,这是最大的风险,也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随,而不是对一条没被验证过的路投资。

算力集群的工程化,至少要突破三堵墙。

首先是“算力”墙。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练,而单卡只有312TFLOPS算力时,一张卡训练一个模型要耗时32年。所以需要引入分布式训练的方法,使用多机多卡的方式来加速模型的训练,包括比较常见的数据并行和张量并行。”天翼云资深专家陈希表示。

其次是“存储”墙。单显卡的显存已经无法加载千亿级参数。千亿级参数完全加载到显存大概需要几个TB,如果再考虑梯度、优化器状态等训练过程产生的一些中间结果,占用的显存量就更大了,往往需要上百张卡才可以支持。

所以厂商一般会引入流水线并行,将模型不同的层放到不同的节点的显卡内进行计算。对于这一组节点只需要加载某一些层的参数,降低显存的压力。

随之而来的是“通信”墙。大模型并行切分到集群后,模型切片间会产生大量通信,包括节点内多卡通信,节点间通信。几种并行方式都会涉及到大量的节点与节点间的通信,这时候就会对总线和总带宽都有很高的要求,要达到几百G的吞吐。

另外除了这三堵墙以外,还有一些其他问题:如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显。最近几年随着tRansfoRMeR结构的引入,平均每两年,模型参数数量增长15倍。而相应的芯片制程从7nM提升到4nM,单卡算力增长不超过4倍,芯片工艺发展落后于大模型的需求。

大模型训练需要的不单单是算力,对存储,对安全,对训练框架都有一定的要求,需要一套比较完整的平台或服务来提供支持。“大家最近的一个普遍的感受,就是能满足大模型训练平台的提供商不多,高性能算力供应整体比较紧张。”陈希说。

为什么“他们”能成?

现在仍有不少企业毫无准备或者自我感觉有所准备,就冲进基础模型领域。

然而,如果细细研究现阶段做出基础模型的厂商,无一例外在AI领域都有足够积累,特别是底层基础设施层面,他们的实践也在验证“云是规模算力的最佳承载平台”这一判断。

“为了打造AI超级计算机,微软早在2018年就开始布局,除了OpenAI还投资了几个小公司,大数据是AI的前序,云计算基础设施是算力平台,大模型是算力、算法和数据的集合,微软的成功在于全栈能力。”韩凯表示。

回到国内,百度也遵循类似的逻辑。百度副总裁谢广军提到,算力和存储一定要达到更高的密度,才能够支持大模型。显著的问题还有网络互联,大模型训练用的比较多的显卡是带有NVlink高速互连的A800,需要比传统云计算做到更低延时、更高带宽,大量的小文件,也需要低延时、高存储的基础设施。

“大模型跑起来之后,还有非常多的地方需要加速,像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库,对于大模型计算和推理非常有帮助。”谢广军说。

从平台的视角来说,不管是训练任务还是推理任务,单个的任务就需要非常长的时间,需要占用很多资源。怎么能够保证资源的充分利用,以及降低它的训练和推理时间。这里面需要切任务、调度、并行,对于模型训练的加速比和并行度的支撑。

同时,一个平台上往往有有很多任务,如何灵活调度,进而能够让这些任务充分地使用资源,甚至能够感知到异构算力的拓扑,使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做。

以文心一言的训练为例,千卡规模的A100或者A800数据并行加速比达到90%,其中用了非常多的调优手段和技术,百度智能云围绕着大模型一层一层做优化,在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层,共同组成了 AI IaaS,这些基础设施可以支持上万亿参数大模型的训练。

此外,预训练模型需要通过千卡以上的集群训练,而在大多数情况,精调或者微调更普遍,基于大模型训练行业模型,相当于在树干上长树枝,不需要超大规模的集群,小几十张卡足以满足企业所需训练资源。

达观数据将在7月份正式推出国产版GPT“曹植”系统,也是得益于多年文本智能技术积累和垂直领域场景业务经验,算法和数据层面有所储备,而在测试阶段的算力层面,达观数据CEO陈运文表示,自建算力数据中心较为吃力,达观寻求了多种算力平台的支持,包括运营商算力中心、鹏程实验室等。

达观数据也曾尝试某家头部云厂商的GPU算力,但经过测算成本太高,租一年半下来的成本,足够达观数据自家购置一个自己的算力平台,达观数据选择了英伟达DGX高性能工作站方案,相当于英伟达自身做了很多集群优化,解决了存储和网络的大部分问题,直接买GPU卡自建集群和英伟达解决方案相比,综合性能相差一倍。

“我们自己的模型训练成本其实还是很高的,但是我们帮客户算过账,模型在推理阶段需要的算力投入并不大,很多客户只要单机多卡就够,硬件投入不算很大,但是给客户带来的效果和体验提升非常明显。”陈运文表示。

英伟达不只有GPU

小厂商用英伟达的商业技术补齐能力,大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能,进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU。

来自市场的消息显示,A800的价格一度超过8万元人民币,A100更贵,甚至超过9万元。

“英伟达的策略是既要确保每家大客户都能拿到货,同时又不会完全满足其短时大量的需求,这使得英伟达GPU保持在一个供应紧张的状态。”一位业内人士表示,英伟达全球A100的产能并不缺,供货没有问题,对于禁售A100之后,特供中国的替代品A800,英伟达特意开了一条产品线,因其产能相对有限,造成了供需矛盾。

一些厂商也在想其他办法,比如在香港建立算力集群,同时H800和A800复用了一部分产品线,未来H800的产能上来之后或许会压制A800,不排除英伟达会继续增加适用于中国市场的产线。

除了产量,高企的价格也源于英伟达芯片的工程化能力,这是其成为大模型训练核心的决定性原因。

业界内外对英伟达有两种极端认知:一种认为,英伟达难以战胜;另一种是诸多厂商在PPT上“吊打”英伟达。然而,即便在理念和先进性上领先,但这一切只停留在芯片设计环节,没有真正工业落地,也就无从对比。

现实情况是,在大模型算力领域,英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。

以英伟达最新发布的GH200GRACEHoppeR超级芯片,以及拥有256个GH200超级芯片的DGXGH

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册