人工智能 · 2024年2月26日

AI算力成全新竞争风口,ChatGPT引发热潮

2023年伊始,资本市场的关注点明显变了,AIGC逐渐成为这一轮大行情的全新焦点。今年以来,从国外的AUTOGPT到国内的文心一言,再到华为的盘古大模型、讯飞星火大模型等纷纷推出,呈现出一派你方唱罢我方休的姿态。

尽管参与者甚众,但目前为止这些应用,离真正的落地还相距甚远。实际上,不论是哪家公司训练大模型,都离不开天文数字的海量算力支持,因此当前能够真正从AI大模型中获益的,更可能是为大模型训练提供算力支持的高性能算力厂商和服务器厂商。

ChatGPT拉动算力持续飙升

在AI大模型飞速发展之下,单个大语言训练驱动AI训练服务器需求约2亿美元,AI推理服务器方面,如ChatGPT在初期便可带动推理服务器需求约45亿美元。而各种ChatGPT的爆发,更让它背后的AI服务器随之水涨船高。

具体而言,算力作为大模型的核心引擎,它的计算方式既简单又粗暴,即实际拥有多少的GPU芯片,将直接决定其算力的大小。并且ChatGPT所需要的算力不是固定的,反而是逐次递增的,这就意味着ChatGPT越聪明,其背后所需要的算力就越多,而供需双方存在的现实差距,则让算力资源的“紧张问题”变得愈加严重起来。

从需求侧来看,大模型参数量的持续增大,需要更多算力资源予以支持。从大模型自身的发展状况来看,参数量的变化是一个非常值得关注的指标。从最早的ResNet、inception等模型,到如今的GPT模型,大模型的参数量不断壮大。

数据显示,2018年前后OpenAI先后推出Transformer和GPT-1模型,参数量在1亿级别;随后谷歌提出3亿参数的BERT模型,参数量再次增长。2019、2020年OpenAI加速追赶,陆续迭代出GPT-2、GPT-3模型,参数量分别为15亿、1750亿,实现模型体量质的飞跃,而阿里达摩院旗下的多模态大模型M6的参数量,更是达到了万亿甚至10万亿的量级,数据量加速指数级攀升之下,其所需算力自然也需要指数级提升。

从供给侧来看,大模型参数量不断增大之下,参数运算需要大规模并行计算的支持,而它取决于底层GPU内存容量。OpenAI预计人工智能科学研究要想取得突破,所需要消耗的计算资源每3—4个月就要翻一倍,资金也需要通过指数级增长获得匹配。在算力方面,GPT-3.5在微软Azure AI超算基础设施(由GPU组成的高带宽集群)上进行训练,总算力消耗约3640PF-days。

在大数据方面,GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基 百科英文版的160倍。就ChatGPT而言,需要TB级的运算训练库,甚至是P-Flops级的算力,需要7-8个投资规模30亿、算力500P的数据中心才能支撑运行。总之,在大模型持续发展之下,ChatGPT的竞争焦点逐渐转到了AI超级算力上,或者是包括GPU在内的算力资源支持上。

矿卡风口再次来临

在行业算力需求持续飙升之下,以英伟达等为主的核心高性能芯片厂商,已经享受到了作为ChatGPT“卖铲人”的收益,再次迎来了曾经互联网大爆发时期的那种矿卡风口。以英伟达的旗舰芯片H100为例,其在短短一周之内,涨价近7万元人民币,售价普遍高达30万左右,次旗舰A100芯片在短短三个月多时间里,从6万元一路涨至9万元,涨幅超过50%。尽管其产品不断涨价,但订单依然是供不应求。

一方面,是英伟达作为硬件霸主,不仅在消费级市场占据大部分市场,还是AI服务器芯片领域的头号选择,因此其成为很多“渴望”大算力企业的优先选择。据此前公开的数据显示,截至2022年第三季度,英伟达在独立显卡市场的份额或已经达到了88%,显卡部分带来的营收占到了其总营收的60%以上,这表明其依然是消费级显卡市场无可争辩的领导者。

基于其在图像处理器领域的强势地位和核心技术,其AI大算力芯片在大模型爆发之后,始终处于“供不应求”的状态,特别是ChatGPT从国外蔓延到国内的过程中,越来越多的国内互联网企业选择跟随,其中以BAT为首出现了超过10家企业宣布推出大模型的计划。按照ChatGPT的水准,至少需要3000枚A100芯片,以9万/枚的价格来算就是2.7亿人民币才能完成一个大模型部署;10个大模型就需要3万枚A100芯片,27亿人民币,加上后续训练成本,这将会是一个天文数字。

另一方面,由于受到政策层面的影响,高端AI芯片“断供”的风险剧增,也可能会导致一部分大模型企业提前囤积芯片,导致相关的芯片用量激增。其实,早在去年8月,美国政府就发布出口管制政策,禁止英伟达将A100、H100两款芯片售往中国。为了应对制裁并且不丢掉市场份额,英伟达先后推出了“阉割版”的A800、H800两款芯片。但这两款芯片依旧被暴增的市场需求一抢而空,市场价格随之水涨船高。

在科技制裁之下,预计国内相关的想要布局AI大模型训练的公司,或许会加速囤积相关的芯片,从而带来新一轮的AI算力芯片争夺战。

国产替代跑步前进,但仍有高墙难越

从目前来看,尽管国内使用英伟达GPU服务器的占比较高,且在当前AI大模型发展势头之下,英伟达具有压倒性优势。但国产企业顶着压力,依然跑出了几匹黑马。根据IDC最新发布的《中国加速计算市场(2021年下半年)跟踪报告》,2021年全年中国AI服务器市场规模达350.3亿元,同比增长68.6%。在企业级GPU芯片领域,中国厂商壁仞科技在2022年推出“BR100”芯片、天数智芯推出了“智铠100”芯片、寒武纪推出了“思元270”芯片。

其中壁仞科技称,BR100拥有全球最高算力,峰值算力达到了市场在售旗舰产品的三倍以上,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。这些消息,对于身处美国从设备、材料到技术全面封锁之中的中国企业而言,应该算是一个可喜的消息,但想要翻越英伟达这座高山显然也并不容易。

首先,在AI芯片设计上,国产厂商与海外巨头的差距虽然缩小了,但在AI大生态上的差距却依然存在。比如,壁仞科技的芯片算力数据虽好,但缺少至关重要的处理FP64的能力,依然无法完全取代英伟达的H100、A100。并且,英伟达使用的CUDA平台早已成为应用最为广泛的AI开发生态系统,只支持英伟达的Tesla架构GPU,在现阶段根本无法用国产芯片取代,因为它涉及到AI芯片的软件生态建设、基础架构等,都还掌握在巨头手中,目前我们还没办法在硬件编程模型上找到替代方案。

其次,在地缘政策背景下,国内目前还无法在AI芯片的全产业链实现独立自主,卡脖子领域仍然很多。过去几年,美国围绕中国芯片产业的“科技围堵”有增无减,从开始的限制材料、设备,到后来的全产业链动员封杀,《芯片法案》的颁布正是其科技打压的集中呈现。而在此背景下,国内芯片产业替代所需要的EDA工具、代工制造和先进封装等方面的问题,将面临更为严峻的现实考验,想要在短期之内进行全产业链替代并不容易。

目前来看,无论是解决生态问题,还是解决产业链自主问题都需要时间,后者的实现尤其需要一番功夫。

AI芯片国产化替代破局点在哪儿?

不过从解决问题的角度来说,国产替代也绝非没有机会,至少从国内当前的信创产业基础和数据应用来看,国内市场更有可能利用前端市场的创新来逆向底层定制,从而走出一条自己的路。即便是在当下,也有一些暂时性的替代方案和思路。

一是定向的国产扶持路径。对于国产厂商来说,如果它不通过定向合作的方式,很难通过“单打独斗”来做事情,因为外国企业都会有自己的软件架构,然后整个产业都适配这个架构,从而形成一个完整的生态,这种情况下“从零做起”完全是“费力不讨好”的事情。因此,要想推动国产厂商的崛起,就需要先通过与头部国产AI芯片制造商长期绑定合作,推动自主企业软件架构的形成,然后以该架构为主线,逐渐建立起覆盖上下游的应用生态。

当然,这种路径也有时间周期。据中信证券研报显示,GPU IP自研需要36-48个月以及200个工程师,而采用外购IP的方式,则需要12-18个月开发周期,总体上时间都不算短。

二是通过兼容CUDA生态做延伸。相比自研系统,兼容CUDA系统则可以迅速切入国际主流的商业计算软件和人工智能软件,通过接入丰富的软硬件生态,可广泛应用于大数据,人工智能、商业计算等应用领域。

对比两种方法来看,目前较为可行的方案还是第二种,但从长远来看还是做两手准备。这样才能够未雨绸缪,为将来的全面替代做铺垫。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册