人工智能 · 2026年6月2日

昇腾已完成硬件到软件的布局

一键部署OpenClaw

随着时间的推移,昇腾已经在硬件和软件的布局上取得了显著进展。自从去年开始,中国的大模型能力已经达到了全球领先的水平。以mini Max M2.5、Ki Mi K2.5为例,它们在OpenR上表现优异,DeepSeek V4也时常被与GPT-5进行比较。然而,许多人忽视了这些模型之所以能成功运行的原因在于现有算力的底座足够强大。

在面对“什么情况下算力不够用”这一问题时,答案在于Agent时代的到来。在这一阶段,“能跑”和“跑得舒服”之间的区别愈发明显。

在2026年的鲲鹏开发者大会上,昇腾展示了一个更加深入的洞察:过去一年,模型的调优频次暴涨了50到100倍,序列长度从Chatbot时代的4K飙升至接近1M,跨维度的效率提升达到了250倍。而MoE推理对于时延的要求也愈加苛刻,正从10毫秒向1毫秒级别逼近。

这并不是单纯的“模型变大”的问题,而是整个算力底座的逻辑需要进行质的重构。因此,真正的问题不在于“现有算力够不够”,而是当Agent的需求以指数级增长时,现有的算力架构还能支持多久?

基于这种视角,我们可以发现,昇腾在峰会上讲述的三件事,即超节点架构、软件全方位开源和开发者体验升级,背后都有一个共同的核心问题:如何将算力从“能跑模型”进化到“天然亲和Agent”?

这并非三个独立的议题,而是从硬件到软件再到开发者的整个技术链条,必须在Agent前夕完成的一次系统性重构。

超节点架构,让数千个NPU之间形成更强大的算力。

在Chatbot时代,序列长度约为4K,KVCache一次就足够,NPU之间的通信压力相对较小,且可控。

然而,进入Agent时代后,推理链的长度几乎达到了1M,KVCache需要跨NPU频繁跳跃。此时,问题不再仅仅是“带宽够不够”,而是一个架构级的命题——NPU和NPU之间如何进行高效的通信,直接决定了系统的性能能否得到有效提升。

在传统方案中,每个NPU独立存储,跨NPU访问需要走消息语义,即send/recv模式,单次通信在微秒级。

昇腾的超节点架构自然适应Agent负载,而判断超节点的核心标准是“是否实现了全域内存统一编址”。在这里,昇腾950芯片的架构创新实现了SI T与SI D双编程模式的一体化,在这三件事上同时做到了这一点。

首先是内存语义的革命。基于灵衢互联协议和总线控制器,AIC/AIV可以通过MTE指令直接访问远端内存,无需拷贝。相比于传统以太网,基于灵衢互联的超节点架构下,MTE指令只需一次操作即可完成。

其次是全域内存统一编址。在全局单一虚拟地址空间下,NPU和CPU可以直接访问任意位置,无需修改代码、无需路由、无需拷贝。KV Cache实现全局共享,超长上下文无缝扩展。

第三是内存池化带来的效率跃迁。通过片上内存和DD的分层池化能力,以查代算,KV Cache查询命中率大幅提高。在LLM、推荐、Engra等典型场景中,查询时延降低3到4倍,训练和推理吞吐量相比传统集群提升3到4倍。

三层叠加,使RTT时延压缩至3微秒,带宽达到TB级别。这才是真正的超节点的价值——并非“堆更多的NPU”,而是让每一个Token都更高效、更经济。

因此,这次峰会给出的核心判断很直接:互联能力决定超节点的能力,系统综合性能取决于超节点的规模与单芯片性能规格的乘积。当互联带宽达到T级,超节点要做的不是“堆更多的NPU”,而是重新定义芯片之间如何通信。

但物理上限只是入场券。真正决定算力生态命运的,是硬件造出之后的又一核心问题:软件的门槛有多高?开发者真的愿意来吗?

昇腾要走自己的一条路

吸引开发者的关键是开源,但开源这件事的底层逻辑已经变了。

过去很多硬件的所谓“开源”,是在围墙外开一扇窗——你能看到代码,但不能改核心层,更不能参与路线决策。

这是“开放姿态”,不是“开源生态”。为什么要计较这个区别?因为开源和“看上去开源”,打开的是两种完全不同的生态前景。

真正的开源意味着开发者敢在你平台上持续投入——他能改代码、路线他能参与、技术迭代更新不会某天突然停止。假开源则意味着他永远得留下一条退路,做的每一行优化都可能白费。而在Agent时代,当软件需求开始井喷、场景以周为单位涌现,开发者选择哪个生态来建基础设施,其本质是在信任,这个平台不会因为封闭而让他走回头路。

所以,“开放姿态能吸引围观,‘开源生态’才能留住人。

因此,昇腾这次在开源开放的道路上走得更彻底,其核心不同在于它正在构建一个完整、高效、开放的算子开发体系,让开发者无论从哪个入口进来,都能找到自己的路径。

追求极致性能的工程师,可以用Ascend C做细粒度控制,如计算、存、流,每一步都可调。同时,昇腾还推出了Tensor R API、支持host-device混合编程、新增CCU通信能力。

而注重快速创新的AI算法工程师,则可以用TileLang或TRITON这两个主流开源接口已经实现了100%兼容,性能达到Ascend C的0.6到0.9倍,开发周期压缩到一周。目前更支持超过600个TRITON算子和300个TileLang算子。

当然,想在性能和效率之间找甜点区的开发者,还可以选PyPTO。

此外,在这套多路径算子编程体系的另一端,CANNBot算子智能体则是把“最后一公里”也打通了。它将微架构优化经验融入技能库,单个Vector算子生成仅需3小时,从生成为部署全流程不到一天,相比传统人工开发效率提升5倍。

这如何做到的?不是工具变多了,而是昇腾把“专家经验”变成了“系统能力”。

具体来看,我们发现,有两套机制正在驱动这个变化。

第一套是Skills体系。4000多名昇腾工程师多年来调优积累的经验、踩过的坑、验证过的最佳实践,在这里被结构化沉淀为200多个可调的Skills模块。它们兼容Claude code、codeX、OpenClaw等主流Agent平台,两行命令就能调用。

以前要找对人才能解决的问题,现在Skills里直接就有了。

第二套是Agentic工作流。如今,开发者只需描述意图,7个基础Agent自动编排接入能力,调研、适配、优化、部署全流程自动化。以前是“人找工具”,现在直接成了“工具找人”,昇腾从根本上改写了开发者的工作范式。

上,我们所看到的,更多是从技术层面来拉升开发者体验。然而,若要开发者体验的飞轮全面转起来,或许光靠技术还不够,昇腾又进一步给出了两套新体验。

一是零成本的试错空间。一键自动部署、平均两分钟跑通首个DEMO、上万卡算力资源投放支撑开源社区——这里要解决的不仅是算力成本,更是“第一次尝试”的心理门槛。很多开发者不是不想用新平台,是怕花了时间还跑不通。在这里,昇腾把“试一试”的成本大幅降低,本质上是在消除这个心理阻力。

二是可兑现的职业回报。联合头部互联网企业打造三层认证体系,附带简历推荐、大厂实习等权益,昇腾正在让“我能用好昇腾”这件事本身具有商业化的职业流动性。不难想象,开发者留在一个生态里,从来不仅是因为工具好用,而是因为他在这里积累的技能能换取实打实的外部回报。正视这一需求,远比想象的要重要。

那么,这两样东西叠加之后,传递给开发者的信息就很清楚了——来昇腾,不需要从头开始。不管是对于开发者,还是对于昇腾,飞轮已经全面转起来了。

写在最后

在超节点巅峰对话直播中,我们看到一个来自产业端的判断,“当智能生产软件的方式变得更高效,人类对软件的需求会井喷。以前的软件太昂贵,很多需求被压抑了。”

对应来说,Agent时代不仅在消耗更多Token,它还在创造过去根本不存在的新需求——软件不再是标准化产品的复用,而是每个人、每个场景的即时定制。这种需求一旦释放,对算力的渴求不再是线性的,而是爆炸式的。正如Anthropic创始人Jack Clark的判断,2028年Agent可能进入自主进化,那时Token消耗将进入非线性增长通道。

两条线指向同一个结论,Agent时代的到来是不可逆转的。你不可能等Agent全面爆发之后再补架构的课、开软件的源、降低开发者的门槛——那相当于堵车的时候才开始修路。

因此,回过头来看看昇腾在峰会上铺开的三件事,其本质上是对这一判断的三重回应。

首先,超节点重新定义了NPU之间的通信范式,让Agent时代的算力消耗不再被延迟墙锁死。这里为Agent时代打下了良好的硬件基础。

其次,CANN的多路径算子编程加CANNBot,让任何一个开发者都能在昇腾上从零写出高性能算子。这里为Agent时代夯实了软件能力。

最后,Skills体系和Agentic工作流,把4000个工程师的经验打包成每个新手的起点。这里为开发者们铺好了“好用易用”的路径。

三者叠加在一起,也就解释了昇腾今天要做的事,不是在应对当下,而是在对标一个还没到眼前、但已经在路上的Agent时代。

 

申请创业报道,创业新机遇!

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.