人工智能 · 2024年2月25日 0

ChatGPT算力攻坚战:如何取胜?

史上用户增速最快消费级应用ChatGPT,自去年11月底发布以来,让全球为其狂欢,各方势力仍持续为此“上火”:用户急着试探ChatGPT是否真的有那么聪明,每天有超过2亿的人都在疯狂抛出各式各样的问题“刁难”ChatGPT,并展现自己的“调教”成果;

ChatGPT算力攻坚战:如何取胜?

(ChatGPT每日点击访问量统计 图源:国盛证券研究所)

国内互联网大厂们 基于要“活下去”的心愿和讲更动听的AI故事,急着与ChatGPT扯上关系 :一时间百度、腾讯、阿里等纷纷拿出相关技术布局以及底层设施储备,为中国的ChatGPT奋力一战;

近3个月过去,ChatGPT热度丝毫未减,有关部门也在努力

2月24日,东数西算一体化算力服务平台在宁夏银川正式上线发布。据悉,东数西算一体化算力服务平台将瞄准目前最稀缺、刚需迫切的ChatGPT运算能力,以支撑中国人工智能运算平台急需的大算力服务。

目前,该平台已吸引曙光、中国电子云、天翼云、阿里云、华为、中兴等大算力头部企业,以及国家信息中心、北京大数据研究院等中国主要大数据机构入驻。

各方势力蜂拥而至,足以见得,目前的算力填补不了ChatGPT们的需求,众志成城,才能打赢ChatGPT算力攻坚战。

本文试图探究,ChatGPT到底需要多大的算力?升级算力的路子是什么?

ChatGPT,企图榨干算力

通用AI时代来临,人类对于算力的需求正逐渐失控。

伴随着摩尔定律失效,大模型时代来临,算力不再“淡定”,每5-6个月就要翻倍,以困兽冲破牢笼之势飞速增长:

ChatGPT算力攻坚战:如何取胜?

(模型发布时间及算力变化 图源:浙商证券)

2018年,谷歌带着3亿参数BERT模型,闯进大众视野,开启大规模预训练模型时代;在这之后,OpenAI、英伟达、微软先后推出15亿参数的GPT-2、83亿参数的Megatron-LM、170亿参数的图灵Turing-NLG,各个大厂暗自较劲,参数规模从十亿级别竞争到了百亿级别。

2020年6月,OpenAI又将算力“战场”拔高了一个层级:推出1750亿参数的GPT-3,把参数规模提高到千亿级别。随后一山更比一山高:微软和英伟达在2020年10月联手发布了5300亿参数的Megatron-Turing自然语言生成模型(MT-NLG)。

2021年,国内迎来预训练大模型元年。在这一年里,华为、百度、阿里等中国企业开始发力:

华为云联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿;

百度推出ERNIE 3.0 Titan模型,参数规模达2600亿;

阿里达摩院的M6模型参数达到10万亿,又将大模型参数带到新的高度 ……

在这之中表现最为亮眼的,莫过于从GPT-3迭代而来的ChatGPT,2022年底一出世就博得全球目光,无论是在模型预训练阶段,还是模型被访问阶段, ChatGPT都对算力提出“史无前例”的要求。

在模型预训练阶段, 从GPT-1到GPT-3,从GPT-3 Small到GPT-3 175B,对算力的需求呈指数型增长。

在大模型的框架下,每一代 GPT 模型的参数量均高速扩张,参数量从GPT-1的1.17亿个,翻了1029倍至GPT-3 的1750 亿个;

具体来看,在GPT-3历代模型中,短短2年,参数量便从GPT-3 Small的1.25亿个,翻了1399倍至GPT-3的1750亿个,未来GPT-4还要翻倍:根据 Altman 的介绍,预计GPT-4的参数将会达到2800亿个。

与此同时,在模型被访问阶段,ChatGPT对算力同样有着“狂热”需求:

据Similarweb数据,ChatGPT官网在2023年1月27日-2月3日一周内吸引的每日访客数量高达2500万。假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。

如果想要“消化”掉这2.5亿次咨询量,根据国盛证券测算,需要大量的A100 GPU芯片“连夜赶工”:

假设每个问题平均30字,单个字在A100 GPU上约消耗350ms,则一天共需消耗729,167个A100 GPU运行小时,对应每天需要729,167/24=30,382片 英伟达A100 GPU。

也就是说,目前每天2.5亿次咨询量,需要30,382片英伟达A100 GPU同时计算,才能把ChatGPT“喂饱”,以下是ChatGPT部分耗费(电费以0.08美元/kwh计算):

ChatGPT算力攻坚战:如何取胜?

而以上图表所显示的,仅仅是2.5亿咨询量需求下,使用英伟达A100 GPU相关设备,ChatGPT所需要的算力成本。

其背后对能源的消耗,更是“触目惊心”。

环球零碳研究中心曾粗略合计了ChatGPT全生命周期的碳足迹:自2022年11月30日运行以来,其制造设备的碳排放量超过了33.41吨,模型训练碳排放超过552吨,运行60天碳排放约为229.2吨。

也就是说上线两个月的ChatGPT,全过程碳排放超过了814.61吨,而这,相当于186个丹麦家庭每年消耗的能量。

现阶段ChatGPT背后的大模型仍在迭代,每日访问量仍在递增,未来还会有更多的ChatGPT们涌现。彼时,算力以及其背后的功耗还能顾得过来吗?

对此,苏妈表示了担忧:在ISSCC 2023上,苏妈表示根据目前计算效率每两年提升2.2倍的规律,预计到2035年,如果想要算力达到十万亿亿级,则需要的功率可达500MW,相当于半个核电站能产生的功率,“这是极为离谱、不切合实际的”。

ChatGPT算力攻坚战:如何取胜?

(2010-2040功率发展情况 图源:2023 IEEE international Solid-State Circuits Conference)

为了达到这样的效果,我们的计算效率起码要每两年提升2.2倍,才能匹配上2035年的算力需求。苏妈坦言,尽管用上目前最先进的计算技术、最先进的芯片,也满足不了ChatGPT们。

而当ChatGPT吞噬完大量算力、能源,“吃饱喝足”之后,各国打的不再是算力之争,而是“国运之争”:一旦搭载ChatGPT的人形机器人能够大批量地上岗时,吃人口红利的国家不再有显著的优势。

ChatGPT们,包括未来的人形机器人们, 正对算力、能源“虎视眈眈”,同时对人类的威胁也不容小觑:往小了看,影响到个人职业发展,往大了看,牵扯到国家竞争力。

存算一体承载和释放ChatGPT

而一切的一切,都得从打好算力之争开始。

传统的AI1.0时代的代表企业,例如AMD已经开始探寻新的出路:依靠系统级创新实现更大的突破。系统级创新,即从整体设计的上下游多个环节协同设计来完成性能的提升。

一个经典案例是,在对模型算法层面使用创新数制(例如8位浮点数FP8)的同时,在电路层对算法层面进行优化支持,最终实现计算层面数量级的效率提升:相比传统的32位浮点数(FP32),进行系统级创新的FP8则可以将计算效率提升30倍之多。而如果仅仅是优化FP32计算单元的效率,无论如何也难以实现数量级的效率提升。

于是,为解决“如何用更少的电,输出更高的算力”这一终极命题,业内给出不少技术及方案:量子计算(量子芯片)、光机芯片、芯粒(Chiplet)、3D封装、存算一体……。同时也有团队将这些技术进行结合,以期达到系统级创新。

在这之中,现在能够兼容CMOS工艺又能尽快量产的有芯粒、3D封装、存算一体。而芯粒、存算一体是目前业内普遍认为,能够突破 AI 算力困境,进行架构创新的两条清晰路线。

浙商证券指出,面对未来潜在的算力指数增长,短期使用芯粒异构技术加速各类应用算法落地,长期来看,打造存算一体芯片,或将成为未来算力升级的潜在方式。

ChatGPT算力攻坚战:如何取胜?

(架构创新路线 图源:浙商证券)

芯粒异构技术成为“种子”选手的原因是,该技术能够突破先进制程的封锁,且大幅提升大型芯片的良率、降低设计成本、芯片制造成本。

而之所以说是短期,是因为该技术路径需要牺牲一定的体积和功耗,导致其目前只能在基站、服务器、智能电车等领域广泛使用。

为解决这一“小缺陷”,目前在学术界,已有团队选择将芯粒异构技术与存算一体架构相融合,以期达到1+1>2的效果:

在ISSCC 2022上,复旦大学芯片与系统前沿技术研究院刘明院士团队提出多芯粒的存算一体集成 芯片——COMB-MCM。

据团队表示,电路上COMB-MCM采用存算一体设计,能够降低功耗、提高系统算力