最近一段时间,被国内一家AI大模型初创公司DeepSeek刷屏了。短短几个月内,DeepSeek推出的两款开源大语言模型——DeepSeek-V3和DeepSeek-R1,不仅在多个关键性能指标上与世界顶级大模型,如Meta的LlaMa 3.1、OpenAI的GPT-4、AnthRopic的Claude Sonnet 3.5等,不分伯仲。
最令人震惊的是,DeepSeek的训练成本远远低于这些传统模型,且所使用的GPU芯片并非顶级配置,但却交出了令人叹为观止的成绩单。
经济学家Ed YaRdeni在一份报告中指出:“DeepSeek在两个月内仅花费560万美元来开发其DeepSeek-v3模型。”相比之下,AnthRopic的首席执行官DaRio AModei去年提到,建立一个模型的成本为1亿至10亿美元。而且由于这些模型是开源的,在成本和定价上都具有很大的优势。
然而,不容忽视的是,尽管DeepSeek的成本大大低于传统大厂,但其能够取得如此突破的背后,依然离不开GPU这一关键硬件的强力支持。随着AI竞争日益激烈,尤其是训练和推理市场的不断扩展,算力仍将是决定胜负的关键,GPU的作用依然无法被忽视。
美国科技巨头不受影响,继续疯抢GPU
无论是DeepSeek还是对AI的泡沫担忧,都没有减缓企业的投资热情。2025年各家云厂商仍然有着大幅的资本支出。科技公司们为了在AI这场战斗中赢得胜利,近些年来大肆建设数据中心,抢GPU卡,抢电力,新一轮激烈角逐正在拉开:
1月21日,OpenAI宣布了一个新项目:星际之门,计划在未来四年内投资5000亿美元,在美国为OpenAI建设新的人工智能基础设施,在今年投入首笔1000亿美元。
亚马逊今年计划在基础设施方面投资1000亿美元,高于2024年的770亿美元,是前一年480亿美元的两倍多,绝大部分资金将用于亚马逊网络服务的数据中心和服务器;
微软在2025年1月初宣布,计划在2025财年投资800亿美元建设能够处理人工智能工作负载的数据中心;
谷歌计划在2025年投资750亿美元,谷歌首席执行官桑达尔·皮查伊称人工智能的机遇“前所未见,这就是我们加大投入以抓住这一机遇的原因。”
Meta将在今年投资600亿至650亿美元用于AI相关的资本支出。Meta首席执行官马克·扎克伯格表示:“我仍然认为,从长远来看,大力投资资本支出和基础设施将是一种战略优势。”
就连过去几年在AI领域很谨慎的甲骨文,2025年也加大了资本支出。甲骨文将在2025年将资本支出比2024年增加一倍,达到约136亿美元。而2021财年,甲骨文的资本支出仅为20亿美元左右。
在七大科技公司中,甲骨文是标准普尔500指数中唯一市值未突破1万亿美元的大型科技公司。与亚马逊和微软不同,甲骨文主要通过租赁大量数据中心而非购买。不过分析师表示,甲骨文这种独特的数据中心策略使其能够有效与资金雄厚的竞争对手竞争,因为这可以使得其资本支出中更大的一部分被投入到购买GPU。
据估计,微软、亚马逊、谷歌和Meta 2024年的总资本支出将达到2460亿美元,高于2023年的1510亿美元。而2025年的支出可能超过3200亿美元。
英伟达无疑是这一浪潮的最大受益者:其三大客户之一Meta正加速建设一座超2GW的数据中心,计划在2025年底前部署超过130万块GPU;甲骨文则在打造Zettascale级别的云基础设施超级集群,支持多达131,072个Blackwell GPU;而微软去年成为全球最大GPU买家。
2025年,英伟达的Blackwell GPU无疑将成为市场最受关注的芯片。尽管该系列面临一些技术挑战,英伟达仍计划提前推出。
AMD也在积极加速GPU导入厂商,本次大火的DeepSeek-V3模型的开发中,就使用了AMD Instinct GPU和ROCM软件。MI300系列GPU已成为AMD有史以来增长最快的产品。
为了快速攻占AI市场,AMD打算提前推出下一代GPU芯片MI350系列。
在这一趋势下,GPU市场或将再度迎来供不应求的局面,只有少数头部厂商能够优先获得供应。
扩产,能否解决GPU缺货之痛?
GPU缺货最大的问题在于产能端。CowoS封装和HBM存储作为GPU的两大支柱,也制约了GPU的产能。受云端AI加速器需求旺盛推动,2025年全球对CoWoS及类似封装产能的需求或将增113%。为此,GPU产业链中关键的两大厂商台积电、SK海力士等行业巨头纷纷加大扩产力度,试图解决供应不足的困境。
由于日益加剧的地缘政治和经济不确定性,台积电的先进封装路线图在2024年经历了多次调整。根据台积电的最新规划,2024年CoWoS的月产能预计为35,000片,到2025年将增加一倍,达到75,000片。

台积电2024年的CoWoS封装就进行了扩产,比2023年增加了2倍,但是仍然供不应求。根据SEMI Vision的数据,台积电在竹南、嘉义、台中和台南四地的先进封装扩建项目正全力推进。

另一边,SK海力士也是忙的飞起。作为HBM的主要供应商,SK海力士2025年的HBM产能均已经售罄,因而一边不断加大扩产HBM产能,目标是到明年实现每月14万片晶圆的HBM产能;一边加快产品迭代步伐。
2024年全年SK海力士营收创历史新高,超过2022年创下的纪录。反观三星,已经将HBM3E市场拱手让给了SK海力士,目前的希望是HBM4。
美光的HBM产品进展还不错,其首席执行官预计2024财年HBM的收入大概在数亿美元,2025财年将达到数十亿美元。
从短期来看,尽管扩产计划已在推进,供需矛盾仍将长期存在。尤其是随着AI和数据中心应用的进一步发展,GPU的需求将持续攀升,单靠现有产能扩充恐难以迅速弥补市场缺口。
GPU不够,ASiC来凑?
GPU芯片短缺已经不是一两年的事了,云厂商们受制于NVIDIA好多年了。因而云端巨头皆投入ASiC芯片开发,Google推出的TPU已经成为行业标杆;亚马逊AWS也推出了自研芯片;微软紧随其后,开发了MAIa和Cobalt系列;Meta则以MTIA芯片抢占市场。
显然这些ASiC已经小有气候。苹果2024年发表的AI模型就是使用Google的TPU上训练。在亚马逊的AWS REINvent大会上,其宣布将使用亚马逊自家的自研AI芯片进行模型训练。
ASiC必然有其独特的存在价值。英伟达的B200等GPU芯片,主要通过扩大面积来提升性能,而聚焦于提升算力的ASiC芯片,成为一种提升效能、降低功耗的选择。
即使是“GPU之王”英伟达,也没有忽视ASiC的潜力。据报道,英伟达已经开始规划ASiC产品线,在台湾招募上千名芯片设计、软件开发及AI研发等领域之人才。
ASiC盛行时代,也带火了博通和MaRvell。博通已经迈向万亿美元市值,MaRvell的市值也突破千亿美元大关。
随着AI模型复杂度的提升和大规模应用的普及,ASiC市场的规模呈现爆炸式增长。据摩根士丹利预计,AI ASiC市场规模将从2024年的120亿美元增长至2027年的300亿美元,年均复合增长率达34%。
GPU的短缺问题虽难短期内完全解决,但ASiC芯片的崛起无疑为填补这一空缺提供了可行的路径。
随着越来越多的云服务商投入到ASiC研发中,未来的计算生态可能会更加多元化。GPU和ASiC将两者互补,共同推动着整个AI和云计算产业的前进。
写在最后
DeepSeek的出现,使得很多人认为对算力以及英伟达不利。但是有观点认为前沿探索和后发追赶所需要的算力需求是不同的。历史经验告诉我们,AI的突破往往来源于算力的扩展,而非单纯的算法创新。随着算力的不断提升,AI的能力将得到质的飞跃。
因此,GPU在未来AI战场上的重要地位,依旧牢不可破。AI行业的未来,依然是算力的较量,无论是DeepSeek这样的新兴公司,还是OpenAI、谷歌、Meta等传统巨头,GPU仍将是支撑他们技术创新与产品突破的基石。2025年,GPU的抢夺战依旧很精彩。
