人工智能 · 2025年6月30日

2025年十大顶级GPU云平台:Serverless与RL引领AI普惠时代

近期,“AI新云”(NeoCloud)概念在科技圈和投资圈引发热潮。

今年3月,被业内称作“英伟达亲儿子”的AI基础设施企业CoReWeave上市。这家依托英伟达GPU资源冲击新云市场的初创公司,上市不到3个月市值飙升359%,达881亿美元。

CoReWeave的“身价暴涨”吸引了无数视线。业内人士指出,大模型的训练和推理成本昂贵,是规模化应用的关键挑战之一。在此背景下,被称为AI新云的GPU专用云服务平台迅速崛起。相较通用云服务,此类平台更能精准解决AI真实场景落地的痛点。

2025年上半年的产业图景印证了这一趋势。主流云平台拥抱无服务器架构与强化学习的技术栈,不仅解决传统算力成本高企的痛点,更推动多模态创作、机器人训练等场景效率实现指数级提升。

毫无疑问,这场由底层计算框架驱动的智能进化,为智能体边界的拓展按下了快进键。全球GPU云市场正在酝酿新的产业造富故事。

无服务器+强化学习,智算云按下AI应用快进键

今年,DeepSeek时刻震惊全球,大模型厂商纷纷加速模型迭代,智能体大规模部署应用的元年开启。在全球智能体掘金热潮中,提供底层算力的AI新云悄然成为最重要的服务提供者。

自2013年起便深耕中国人工智能基础设施领域,有着丰富行业经验的九章云极董事长方磊指出,从移动互联网的带宽式应用到AI时代的计算密集型应用的结构性变革,亟需新型云架构支撑。

海外市场以CoReWeave为代表,CRUSoe、Lambda Labs等AI基础设施服务商正加速扩张。国内参与者也众多,比如2025年上半年,阿里云、九章云极等企业发布新一代AI基础设施服务,如阿里云的FlashMoE和九章智算云Alaya New Cloud基于无服务器+强化学习的架构。

AI基础设施厂商快速发展的背后,是企业正在加速部署AI规模化应用。机构认为,AI常因高昂算力成本和部署复杂等因素被视为极客的游戏,但随着GPU云快速普及,AI将成为企业的新生产力。

聚焦AI云计算和基础设施建设的厂商开始探索新技术路线,解决AI应用落地痛点。

在此背景下,无服务器与强化学习的结合逐渐脱颖而出。这两项技术并非全新概念,但深度融合正在悄然改写智能应用的开发逻辑,并重塑产业成本与创新效率。

无服务器的核心价值在于按需使用、按量付费。企业无需预置服务器,只需关注业务逻辑,云服务商会自动完成资源分配。

强化学习的核心在于让AI从人类反馈中学习,能有效提升推理能力,同时让模型更聪明、可控。

这意味着企业能以更低成本、更快速度迭代智能应用,加速AI落地,推动从参数竞争向场景落地的转变。因此,无服务器与强化学习的融合不仅是技术进步,也是AI产业商业化的加速器。

从技术炫技到商业落地,将带来新的产业红利。全球GPU云厂商正站在关键拐点,谁先掌握技术融合的红利,谁将在未来竞争中占据先机。

关键趋势一:GPU云厂商加速技术降本和AI开发服务升级

九章云极:发布九章智算云Alaya New Cloud 2.0,开创中国无服务器+强化学习技术路线的智算云平台。

6月16日,作为国家算力互联网试验网建设的重要成员,AI独角兽九章云极DataCanvas发布了新一代全栈智能计算云平台——九章智算云Alaya New Cloud 2.0,并同步启动全球首个强化学习智算服务,为中国近百万的AI应用开发者和科研机构提供普惠性智算云服务。

该平台深度融合无服务器架构与强化学习技术,实现成本革新:独创“1度算力”按实际消耗计费模型,显著降低使用门槛。实测显示,其多模态训练推理成本仅为行业均值40%,多场景拍摄效率提升35%,虚拟场景制作耗时从2小时减少至20分钟,动画电影制作成本降低60%。

相比海外以CoReWeave为代表的资源型企业,九章云极展现出中国厂商更关注技术“用处”的不同思路。九章智算云Alaya New Cloud 2.0集成了丰富的AI开发框架和工具,如TensorFlow、PyTorch等,支持多种编程语言,方便开发者快速构建和训练AI模型。

与海外平台围绕资源布局不同,九章云极增加AI技术权重,围绕智能计算中心算力调度这一国际顶尖能力,连续突破智能体的技术门槛,形成算力调度智能技术专利护城河——本季内,九章云极先后发布了“智能体调试智能体方法”、“大模型函数调用优化方法”、“生成多智能体协作系统方法”、“智能体开发工具函数方法”等多个专利,发布“国内首个智算调度Agent”。

CoReWeave:成为聚类Max等级铂金级GPU云服务商

CoReWeave整体用户体验和性能表现优秀,已达到聚类Max等级铂金标准。CoReWeave技术路线深度绑定NVIDIA生态,在AI训练领域具备先发优势,是AI算力基础设施领域的专业化服务商代表之一。

LaMbda Labs:完成D轮融资,成本与客户体验是GPU云平台关键方向

LaMbda labs,宣布成功完成了4.8亿美元的D轮融资,使其总股本达到了8.63亿美元。据悉,此次融资由AndRa CAPItal和SGW共同主导,NVIDIA、ARK Invest等投资者参与其中。

据LaMbda Labs联合创始人兼首席执行官,Stephen Balaban自述,因为AWS 的GPU 云实例极其昂贵,LaMbda Labs决定自己组建GPU 服务器集群,然后为客户提供更具性价比的解决方案。

此外,LaMbda正在积极开发托管SluRM服务,这将大幅提升客户体验。

Google Cloud:Next 25大会上发表多项AI创新,成本性能双突破

Google Cloud 通过提供搭载 NVIDIA B200 和 GB200 GPU 的 A4 和 A4X 虚拟机,为客户提供更多 AI 硬件选择。Google 也将成为首家提供 NVIDIA 新一代 VeRa Rubin GPU 的云提供商。

Cloud Wide Area Network(Cloud WAN)针对应用程序性能进行优化,可提供超过40%的性能提升,同时降低高达40%的总体持有成本。

趋势一小结:无疑,成本和开发者体验成为云GPU厂商竞争的两大价值锚点,而无服务器+强化学习的融合优势凸显,有望成为AI新云发展的核心技术驱动力。

关键趋势二:大模型部署与推理应用聚焦成本

1、聚焦云上部署DeepSeek,国内云厂商大幅降低部署成本。

DeepSeek-R1的问世让低成本的模型训练变得可行。方磊就此提出,能否为数千万开发者提供普惠算力服务,将成为决定AI云企业竞争力的重要考核维度。

然而,以DeepSeek-R1大模型来看,权重显存达700GB,需16张96GB显存GPU多机部署,依然面临高昂硬件成本与跨机传输效率挑战,云端部署方案破解瓶颈势在必行。

近期,国内科技巨头针对DeepSeek云上部署作出优化。阿里云支持一键部署DeepSeek系列模型,提供弹性算力与自定义环境,按需付费模式大幅降低硬件投入;九章智算云结合无服务器与强化学习技术复现DeepSeek-R全参数微调,在AIME 2024基准上取得81.70%的准确率,超越了DeepSeek-R1满血版,部署成本降至40%。

这些信息说明,在GPU云厂商推动下,AI普惠化进程正在持续加速。

2、OpenAI:模型加速迭代,成本持续优化。

再看大模型厂商,同样在迭代大模型能力的同时,持续改进降本。近期OpenAI新上线的o3-Pro不仅有更强的能力,可以访问一系列工具,包括网页浏览、文件分析、视觉推理、基于内存的个性化响应等,更有更低的花费,输入的价格为20美元/百万Token,输出则是80美元/百万Token,较前代o1-Pro降低了约87%。100万Tokens相当于75万个单词。

趋势二小结:随着模型使用成本持续优化,AI Agent将爆发式发展,带来更多算力需求,GPU云厂商将从中受益。

关键趋势三:无服务器+强化学习成机器人产业的关键技术

1、宇树科技:强化学习代码全面开源,覆盖从仿真到仿真(SiM-to-SiM)和从仿真到现实(SiM-to-Real)的训练代码,帮助开发者在虚拟环境中训练机器人并转移到现实,降低试错成本并提升训练安全性。

2、特斯拉擎天柱:完全通过强化学习在模拟环境中训练机器人,利用网络视频学习动作,并在模拟器中通过强化学习提升可靠性,进展可能迅速。

总结:强化学习已深度融入生成式AI的对齐优化与机器人自主进化流程,而无服务器架构通过重塑资源供给,为智能体提供弹性算力基座。未来,无服务器+强化学习有望成为驱动智能体规模化落地的核心技术路线。

结语

无服务器与强化学习的技术组合正在让AI开发从参数竞赛转向场景落地,新的投资机会正在涌现。

历史经验表明,最具商业价值的企业,往往通过重塑客户成本结构实现爆发式增长。

在新的技术路线加持下,GPU云平台将激发指数级增长的智能场景需求,成为智能体时代的潜力股。

2025年10个顶级GPU云平台:Serverless+RL开启AI普惠时代

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.