使用全球40年的天气数据,用200张GPU卡进行预训练,2个月左右的时间,训练出了参数量达亿级的盘古气象大模型。
这是清华大学毕业3年的毕恺峰训练大模型的故事。
不过,从成本上看,按照正常情况下,一张GPU 7.8元/小时计算,毕恺峰盘古气象大模型的训练成本可能超出200万。这还是气象领域的垂直大模型,如果训练的是通用大模型,成本可能要翻百倍。
有数据统计,中国当下10亿参数规模的大模型已经超百个。然而行业蜂拥而上的大模型“炼丹”却面临着高端GPU一卡难求的无解题。算力成本高企,缺算力、缺资金也成为了摆在行业面前最直观的问题。
“缺,当然缺,但是我们能有什么办法。”某大厂高管被问及是否缺算力问题时脱口而出。
这似乎已经成了行业公认的一道无解题,顶峰时期一张英伟达A100的价格已经被炒到了二三十万人民币,单台A100服务器的月租价格也飙到了5万-7万/月。但是即便如此,高昂的价格依然可能拿不到芯片,一些算力供应商也遇到过供应商跳票等之前很难遇到的奇葩经历。
事实证明,高端GPU的短缺短期内在全行业都无解。大模型爆发,市场对算力的需求快速增长,但供给量增速远远没有跟上。虽然算力供给长远来看一定会从卖方市场进入买方市场,但这个时间究竟要多久,也是个未知。
各家都在盘算着自己手里有多少“货”,甚至用这个来判断市场份额。比如手里如果接近1万张卡,市场总共是10万张卡,那份额就是10%。“到年底保有量大概到4万,如果市场是20万的,那可能占20%的市场。”知情人士举例表示。
一边是买不到卡,一边是大模型训练门槛并没有业界烘托的那么容易“入门”。上述提到,毕恺峰盘古气象大模型的训练成本可能超出200万。但需要注意的是,毕恺峰盘古气象大模型是在盘古通用大模型的基础上训练出得垂直大模型,它的参数为亿级。如果要训练一款十亿规模参数或者更大规模的通用大模型,那么成本可能要十倍、百倍往上加。
“目前投资规模最大的是在训练,没有几十亿的资本投入,很难下场去持续做大模型。”腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏透露。
“跑得要快,至少在钱烧完之前能有成果拿到下一轮‘融资’。”一位创业者描述当下大模型“战况”,“这条路是条绝路。如果你没有百亿千亿资金在后边撑着,很难走得通。”
这一局面下,业内的共同观点是,随着大模型市场的角逐厮杀,市场也会从狂热到理性,企业也会随着预期的变化来控制成本、调整策略。
没条件,创造条件也要上——这似乎是大模型参与者中的多数心态。而如何创造条件,应对真实存在的问题,各家也是方法颇多。
由于高端GPU芯片短缺,且中国市场能用的GPU不是最新代次,性能通常更低一些,所以企业需要更长的时间来训练大模型。这些公司也在寻找一些创新性的办法来弥补算力短板。
近期,信通院牵头发布了《行业大模型标准体系及能力架构研究报告》,其中就提到了大模型数据层的评估。报告建议,在数据质量方面,由于其对模型的效果影响会很大,推荐引入人工的标注和确认,至少从原始数据中挑选一定比例进行标注,从而构建并严重高质量的数据集。
除了通过高质量数据减少大模型成本,对于业界来说,提升基础架构能力,实现千卡以上稳定运行两周不掉卡,是技术难点也是构建可靠基础架构、优化大模型训练的方法之一。
网络也影响大模型训练速度和效率。大模型训练动辄千卡,连接几百台GPU服务器所要求的网络速度极高,如果网络有点拥塞,训练速度就会很慢,效率很受影响。“只要一台服务器过热宕机,整个集群都可能要停下来,训练任务要重启。这对云服务运维能力与排查问题能力的要求非常高。”邱跃鹏说。
也有厂商另辟蹊径,从云计算架构过渡到超算架构也成为减少成本的一种方法,即在都能满足用户需求的情况、非高通量计算的任务及并行任务场景下,超算云大概是云超算一半左右的价格,然后再通过性能优化资源利用率可以从30%提高到60%。
另外,也有厂商选择使用国产平台做大模型的训练和推理以替代一卡难求的英伟达。
上述方法,每一种都是一个相对大的工程,所以,一般企业是很难通过自建的数据中心来满足,很多算法团队都选择最专业的算力厂商来支持。这其中并行存储也是很大的一种成本,以及技术能力,对应的故障率的保障等等也属于硬件成本的一部分。当然甚至要考虑,IDC可用区电的成本,软件、平台、人员成本等运营成本等等。
千卡级别的GPU集群才会有规模化效应,选择算力服务商,等于说边际成本为零。
中国工程院院士,中国科学院计算技术研究所研究员孙凝晖也曾在演讲中提出,AIGC 带来 人工智能产业的爆发,而智能技术的规模化应用具有典型长尾问题,即具备强 AI 能力的强势部门 (网安、九院九所和气象局等)、科研院校与大中企业只占据算力需求主体的大约 20%,另外 80% 则均为中小微企业,这类主体受限于公司规模与预算,往往难以接入算力资源、或受限于算力的高昂价格,从而难以在AI时代浪潮中获得发展红利。
因此,要实现智能技术的规模化应用,让人 工智能产业既“叫好”也“叫座”,需要大量便宜、易用的智能算力,让中小微企业也能方便、 便宜地使用算力。
而无论是大模型对算力的急切的需求,还是算力在应用过程中需要解决的各种难题,这其中都需要注意的一个新变化是,算力已经在市场需求和技术迭代的过程中,成为了一种新的服务模式。
我们在抢的大模型算力是什么算力?解答这个问题,需要先从算力服务说起。
从种类来讲,算力分为通用算力、智能算力和超算算力,而这些算力成为一种服务,是市场与技术双重驱动的结果。
《2023算力服务白皮书》(以下简称“白皮书”)对算力服务的定义是,算力服务以多样性算力为基础,以算力网络为链接,以供给有效的算力为目标的算力产业新领域。
算力服务的本质,是通过全新计算技术实现异构算力统一输出,并与云、大数据、AI等技术交叉融合。算力服务中不仅只有算力,它是算力、存储、网络等资源的统一封装,以服务形式(如API)完成算力交付。
了解这一点就会发现,在抢英伟达芯片的,其实是很大一部分是算力服务提供方,即算力生产者。真正在前端调用算力API的行业使用者,只需要提出对应的算力需求。
也就是说,在算力结构产业链中,上游企业主要完成实现对通用算力、智算算力、超算算力、存储和网络等算力服务的支撑资源的供给。例如在大模型算力争夺战中,英伟达就属于上游算力基础资源供应方向行业供应芯片,而这其中浪潮信息等服务器厂商股票应声上涨也是受到了市场需求的影响。
中游企业则以云服务商、新型算力服务提供商为主,他们的角色主要通过对算力的编排、算力调度、算力交易技术实现算力生产,并通过API等方式完成算力供给。上述提到的算力服务商、腾讯云、火山引擎都处于这一环节。而算力服务中游企业的服务化能力越强,对应用方的门槛越低,越有助于算力的普惠、泛在化发展。
下游企业,则是依靠算力服务提供的计算能力进行增值服务生成制造的产业链角色,如行业用户等。这部分用户只需要提出需求,算力生产者则根据需求去配置对应的算力完成用户下达的“算力任务”。
这相比原来自己购买服务器搭建大模型算力环境,都更有成本和技术优势。毕恺峰训练盘古气象大模型,应该是直接调用了盘古大模型的底层即华为云的高性能计算服务,那么其他大模型企业的使用算力或者说为算力付费的过程会有什么不一样吗?
ChatGLM是最早一批推出的通用大模型,以智谱AI的ChatGLM算力使用为例,据已经公开披露的消息,智谱AI使用了国内多家主流AI算力服务商。“理论上应该所有的都有用了。”知情人士表示,这其中可能还包括了国内主流的算力服务商/云服务商。
按量计费和包年包月计费是当前算力服务的主流模式,使用需求大致有两种,一种是选择对应的算力服务实例,在某云服务商的官网界面,可提供搭载英伟达A800、A100、V100三种主流显卡的高性能GPU服务器。
另一种是选择对应的MaaS服务平台,在MaaS平台中对大模型进行行业性的精调。以腾讯云TI-ONE平台按量计费刊例价为例,8C40G V100*1的配置,20.32元/小时,可用于自动学习-视觉、任务式建模、Notebook、可视化建模。
当前行业也在推进算力服务的“算网一体化融合”,通过对计算任务、算网资源状态等信息的综合判断,形成可支持跨架构、跨地域、跨服务商调度的算网编排方案,并完成相关资源部署。例如,只要存一笔钱,存到算力网络里来,算力网络中的分区可以随意调用。根据应用特点,选择最适合的分区、最快的分区、最具性价比的分区,然后根据时长计费,从预存的资金中把费用扣除。
云服务商也是如此,算力服务作为云服务一项独特的产品,使他们迅