要说当下最火热的科技大佬,非英伟达创始人黄仁勋莫属。
手握AI算力命门,“黄教主”携旗下A100、H100号令天下,这两款芯片是目前“唯一可以实际处理ChatGPT的GPU”。
就连一直在呼吁暂缓AI研发的马斯克,也很诚实地购买了1万枚英伟达的GPU,以防备愈演愈烈的AI商业军备竞赛。
ChatGPT问世后,中国掀起了一场轰轰烈烈的AIGC“大跃进”,互联网、文娱、游戏、科技企业乃至央企、科研院所都蜂拥而上。
但人工智能不会凭空而来而是需要设备,这就对上游的AI芯片产生了井喷式的需求。但早在去年8月,美国政府就已经限制了A100、H100及其同等性能的芯片对中国的出口。英伟达也在调整相应参数,既能符合贸易禁令,又能满足中国企业的需求。
当下的中国科技企业们正试图迈向AI时代,虽有凌云壮志,但处境却非常尴尬。暂时抛开产品力不谈,在一哄而上、无限内卷的“大干快上”之下,行业正迅速变成红海。
中国AI创业者们对上游芯片供应过度依赖,而英伟达几乎独占算力资源,直接让其以“垄断”优势攫取巨额利润。万亿美金市值的神话,直接表明了资本市场对这场上下游之间不对等博弈的态度。
01
AI时代的“微软+英特尔”
AI商战背后不仅是算法的比拼,更是算力的对垒。
此前,有传言称黄仁勋将于6月6日到访上海,会见小米、腾讯、字节跳动、理想汽车、比亚迪等中国企业高管。
而在结束台北之行后,黄仁勋坐上了返回美国的飞机,并没有如期来到大陆。至今也没有再次来华的消息。
外界盛传黄仁勋来大陆,符合中国需要英伟达的呼声;但他折返回美国,也在情理之中,毕竟在局势如此敏感的时刻,挑动美国政府紧绷的神经并不明智。
向前追溯,英伟达的AI种子播种于2016年。彼时OpenAI刚刚创立,黄仁勋亲自前去交流,并捐赠了一台搭载有8颗P100芯片的DGX-1,那是英伟达当时最强力的浮点运算GPU。6年后,ChatGPT横空出世,AI浪潮引爆全球,作为其背后的鼎力支持者,英伟达顺势坐上了火山口。
相比高性能服务器和通用服务器,AI大模型所需要的服务器除CPU外,还要配备4~8颗GPU,部分高配版甚至搭配16颗GPU。
AI商战背后不仅是算法的比拼,更是算力的对垒。大模型本身就是无数个AI服务器的堆叠。并且在推出成熟的产品前,厂商们还需要大量芯片进行事前的模拟训练。
去年7月,美国BIS颁发《出口管制条例》,限制向中国出口先进芯片产品,英伟达A100、H100赫然在列。
两款芯片被禁止后,英伟达调整技术参数,以符合贸易规定,黄仁勋就曾表示:“在中国,我们有特别定制的芯片,提供给阿里、百度等中国云厂商,中国初创公司一定会有机会来开发自己的大语言模型。”
他口中的替代品即A800和H800。据称,国内几家头部互联网企业都向英伟达下了1.5万~1.6万枚的订单,金额大概在十亿美金左右。
这显然无法满足蜂拥而至的创业者。况且,就算是最佳替代品A800,传输速度和运算性能只有A100的七成。如今即便是“阉割版”,A800和H800都已经十分紧俏。
据悉,目前持有量超过1万枚GPU的中国企业不超过5家。其中,拥有1万枚英伟达A100的企业至多可能只有阿里云1家。
加起来看,国内可用于训练AI大模型的A100大约只有4万~5万枚,相当吃紧。百度在文心一言的冲刺阶段,“几乎将整个集团所有的A100都顶了上去。”
供应和需求严重倒挂,导致价格瞬间狂飙。
H100在网上的售价已经被炒到4万多美金;一枚A100也上升到15万元,有黄牛甚至喊出155万元的惊天报价。
据TRendFoRce 研究显示,运行ChatGPT至少需要1万枚A100芯片,而如果以A100的处理能力来预算,GPT-3.5大模型需要2万块GPU来处理数据,大模型商业化的GPT则需要超过3万颗。
可以预想,算力作为一个产业蕴含的经济价值多么庞大,英伟达的潜在利润空间有多么惊人。
作为实打实的“硬通货“,AI时代的“英伟达+台积电”就等于PC时代的“英特尔+微软”,也类似于移动时代的“高通+苹果”。
他们站在科技产业的金字塔尖,以极深的技术护城河,竖起垄断高墙,攫取巨额利润。
02
极特殊的垄断
“只有码农没有GPU。”
AIGC是一个“软硬兼备”的行业,既需要算法也需要算力。但囿于高端芯片的缺位,也就出现了“国内只有码农没有GPU”的实际情况。
芯片禁令生效前,A100等芯片主要供给云厂商客户。因此,阿里、腾讯、字节跳动、百度等云企业基于芯片储备,理论拥有了征战AI的“入场券”。
由于算力所限,小厂商只能先做小模型;而王慧文、王小川等新入局者只能“先软后硬”,先集中资源优化算法,再考虑芯片等硬件基座。
BAT、字节等互联网巨头,华为、三六零、科大讯飞、商汤、昆仑万维等企业,清华、复旦、中科院等科研院所,再加上一众热血的创业者,纷纷加入战局。无论何种路径,对算力硬件的需求只是被迫延后,但最终不会缺席。
极为火爆的创业潮,是否能让下游需求井喷尚不得而知,但对上游高端芯片的需求暴增已是事实,并且上游供给的弹性极低。
前段时间,OpenAI首席执行官 SaM AltMan就表示,公司必须要筹集到1000亿美元,以支付 AI 模型高昂训的练费用。微软也曾斥资数亿美元从英伟达购入了数万枚A100芯片。
再加上中国企业的需求,为应对暴增的订单,英伟达已向台积电下发“超级急件”,共追加了1万片的制造产能。
但要知道,一枚芯片从设计到制造再到封装测试,最终出厂交付,要经历IC设计-代工-封装测试等位于全世界不同区域的不同厂商的复杂工作。高端GPU的耗时更长。
目前,英伟达GPU交货周期被迫拉长,交付周期从此前的大约一个月,到现在基本都需要三个月或更长,甚至很多新订单要等到年底或更久才能拿到货。马斯克也不禁吐槽:“比毒品还难买”。
为此,英伟达还推出了一项“租赁服务”,企业可以不用购买芯片,而是以每月3.7万美元的价格租用搭载了A100和H100的超级计算机DGX Cloud。
英伟达之所以能在AI芯片领域独霸天下,一方面是基于在图形、视觉等专业领域的长期积淀,黄仁勋敏锐地察觉到AI的广阔前景,并为此孤注一掷。
2012年,英伟达的一些人工智能的研究人员发现用GPU训练AI模型,效率远超CPU。自此,英伟达押注GPU,4年后,黄仁勋向OpenAI捐出了第一台DGX-1,OpenAI原来需要一年的训练,被压缩到短短一个月。
AI的火种自此开始燃烧。至今,英伟达一家在超算中心领域独霸9成以上市场份额。
另一方面,则是深度绑定台积电,黄仁勋和台积电创始人张忠谋都是华人,两人不仅是密友,也是商业上的合作伙伴。6月初的台湾之行中,黄仁勋就和张忠谋夫妇聚餐。据传,英伟达会在下一代AI GPU中导入台积电的3nM工艺。
要知道,高端芯片是一项极为复杂的高精密产业,设计芯片是一回事,制造又是另一回事。
目前,全球能勉强抗衡台积电的只有三星和英特尔,而台积电的优势还在进一步扩大。国内最先进的厂商中芯国际,与台积电相比还存在两代左右的工艺差距。并且囿于光刻机等高端设备的禁运,国内产品要想在短期内实现高端替代,几乎没有可能。
03
难寻的替代者
国内也掀起了一波“造芯运动”。
从提出显卡概念,到主攻GPU,到AI时代的“军火商”,英伟达的王者地位遭到了不少觊觎。
早在2021年,高通、微软、英特尔、亚马逊四大巨头就组成“反英伟达联盟”,试图阻击英伟达收购ARM,防止两家形成新的垄断。
如今,新的战火再次燃起,为摆脱对英伟达的过度依赖,谷歌拿出了第四代TPU,亚马逊、微软、特斯拉、Meta都在研发自己的定制芯片。
国内由于英伟达高端芯片的供应限制,也掀起了一波“造芯运动”。其中,海光信息的DCU深算一号,是国内唯一能支持FP64双精度浮点运算的高性能芯片。纸面数据上,海光深算一号基本能发挥出英伟达A100 70%的性能。其股价因此爆发式上涨。
此外,还有寒武纪的思元290系列,景嘉微的 JM9 ,以及燧原科技、壁仞科技等一众初创企业在苦苦追赶。
但对比来看,中国企业和英伟达之间还差着好几个AMD。虽然海光深算一号数据上有A100七成的功力,但海光的DCU(加速计算芯片) 的片间互联性能还有较大的提升空间。
除了性能领先,英伟达在架构方面也有绝对优势。依靠革命性的CUDA架构,英伟达对GPU流处理器进行了细致的分组,将他们转变为一个个小型单元且能单独运行。这样一来,组合起来的