多模态智能体大模型Sage发布，PinchBench测试显示94%最佳任务完成率

【TechWeb】2026年4日——商汤绝影正式发布了端侧多模态智能体大模型Sage。Sage采用MoE架构，总参数量达到32B，激活参数仅为3B，成为行业内首款在车端实现复杂智能体能力的大模型。根据PinchBench的测试结果，Sage在全球一线云端大模型中表现出色，已在英伟达O基于X平台实现了部署。

在当前的AI时代，汽车的复杂智能体能力往往依赖于云端，而端侧模型由于计算能力和参数限制，仅能实现简单指令的响应。端侧智能体因此面临诸多挑战，云端依赖带来延迟和高成本，而坚守端侧又缺乏真正的智能体能力。Sage的发布打破了这一格局，首次将云端级智能体能力落地到端侧。

作为端侧智能体基础，Sage可以接入OpenClaw、HeRMes等主流Agent框架，提供更多端侧智能体的核心支撑，覆盖出行、家庭等全场景应用。

Sage的实力在国际开源评测中得到了验证。在公测Agent评测基准PinchBench中，Sage端侧大模型的最佳任务完成率达到94%，超越了Claude-OpUS-4.6（93.3%）、Claude-Sonnet-4.6（88.0%）、GPT-5.4（90.5%）等多款国际主流大模型。

多模态智能体大模型Sage发布，PinchBench测试显示94%最佳任务完成率

Sage以仅3B的激活小参数，超越了许多大参数的云端旗舰，打破了“只有大模型才能做好智能体任务”的传统认知，展现出端侧原生技术的高效优势。以小米MiMo-v2-Pro为例，其激活参数为42B，总参数规模超1T，而Sage的激活参数仅3B，所需计算能力仅为其1/14，按模型权重规模近似估算，显存占用约为其1/3，但在PinchBench的最佳任务完成率上仍高出6.6个百分点。

PinchBench是由Pete R. Steinberg推荐的开源Agent评测基准。与固定的静态题库不同，PinchBench随着开源任务库的持续扩充而不断演进，覆盖了写作、研究、编码、分析、邮件、文件处理等典型场景，考察模型在工具使用、多步推理和任务执行中的综合能力。

同时，PinchBench评测要求模型完成真实任务，综合衡量成功率、速度和成本，因此测试周期更长、资源消耗更高，单任务的Token消耗可达数十万。因此模型在PinchBench上的精确表现，能够更好地体现其在复杂真实场景中的综合能力与稳定性。

在北京车展期间，商汤绝影将正式推出搭载Sage端侧多模态智能体的大模型的Sage Box，助力汽车迈入超级智能体时代，奠定核心根基。

凭借两大黑科技，Sage让座舱从“听懂指令”到“说到做到”

Sage端侧大模型在PinchBench跑赢众多国际主流云/端大模型的背后，是商汤绝影围绕Sage后训练阶段自研的两项关键技术：SCout和ERL。

以SCout和ERL为核心的后训练技术体系，一项让模型“学得又快又省”，另一项让模型“做事不出错”，重塑了智能体在学习效率、训练成本和复杂任务执行上的优势，解决了让车载大模型从“能听懂指令”转化为“能独立办成一件复杂的事”的行业公认难题。

SCout：让大模型学复杂任务，省60%算力

SCout（Sub-Scale Collaboration On Unseen Tasks，分级协同学习框架）技术重点解决大模型学习复杂任务时的高成本、试错慢的问题，在复杂任务能力注入过程中可节省约60%的GPU小时消耗。

很多任务涉及空间规划、设备联动、多步决策，直接让大模型自己试错学习，既慢又烧算力。SCout的思路是“探路与吸收解耦”——先派一个轻量小模型快速在任务里跑一遍，把走得通的路径筛选出来，再把这些高价值经验喂给大模型学习，形成“小模型先探路，大模型再吸收”的学习机制，在降低训练成本的同时，也能够快速掌握更多真实用车场景技能。

ERL：让模型自己擦掉错误步骤，成功率提升20%

已被机器学习顶级会议ICLR 2026收录的ERL（Erasable Reinforcement Learning，可擦除强化学习），聚焦复杂任务链中的错误识别与纠偏。用户在真实使用中提出来的需求，往往需要模型跨多个步骤完成推理和执行，过程中一旦某一步出现偏差，整个任务流程就可能失效。

ERL让模型能够自动识别推理过程中的错误步骤，对错误内容进行擦除并重新生成，从源头阻断偏差扩散，就像给模型装上了“边想边纠错”的能力。这项技术让Sage在多跳复杂推理基准上较此前SOTA取得显著提升，装车后Sage在复杂任务上的完成率提升了20%。

SCout和ERL两项技术前后协同共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。叠加一体化多模态架构与原生训练数据的优势，Sage在能力、成本与产出可行性之间取得了平衡，为打造智能体中枢提供了核心AI支撑。

端侧跑出全球领先能力，Sage定义智能上限

如果说PinchBench 94%的任务完成率证明了Sage能“办成复杂的事”，那么真正决定座舱体验的，是模型在各个专业维度上是不是都“够用、够稳、够聪明”。不同能力维度的公开基准上，Sage全面领先本月最新发布的同量级端侧旗舰模型Google-Gemini-4，把端侧模型的能力天花板抬到了一个新的水位。

经过测试，Sage在MMLU Pro（跨学科专业知识）测试中获得76分，领先同级端侧模型约10%，证明端侧模型具备云端级通用知识密度；GPQA Diamond（研究生级专业推理）测试中，Sage获得77分，提升33%，凸显复杂推理深度；Human SEMantic Understanding（座舱语义与视觉理解）测试中获91分，提升32%，依托原生数据建立独特优势。

在重点考察任务执行能力的τ2-bench（工具调与任务闭环）基准上，Sage以80分的成绩相较Gemini 4实现38%的提升，接近翻倍领先。这项基准专门评估模型使用工具、走完多步任务的实战能力，也是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。τ2-bench上近一倍的领先，直接印证了Sage作为端侧智能体基座在真实任务执行环节上的绝对优势。

从专业基准到场景体验：Sage真正“懂场景、会思考、能服务”

这些专业能力落到真实车舱，转化为一组直接影响用户体验的指标：Sage场景推理精度超过90%，长链路工具使用、逻辑规划、环境感知任务成功率分别达92%、89%、94%，复杂指令遵循率提升40%。

在O基于Rin X平台部署下，Sage可实现首字响应（TTFT）约0.5秒、单Token推理延迟（TPOT）低至0.03秒、生成吞吐达到80 tk/S，平均任务时长优于主流API模型，为座舱智能体提供稳定、实时、可持续在线的运行能力。

模型可以一次性解析用户的复合指令，自动联动空调、影音、导航等车载系统完成任务闭环；结合传感器对乘员状态与路况的感知，还能主动提供儿童模式、智能路线调整等服务。
Sage不再是“被动唤醒、单次响应”的语音助手，而是一个真正懂场景、会思考、能服务的出行伙伴。

商汤绝影Sage端侧多模态智能体基座大模型为舱驾一体方案打通了量产可行的模型路径，打破了技术与落地之间的壁垒，推动智能座舱从基础交互向高阶舱驾融合智能体服务跨越。

chatGPT

近期文章

互联网资讯 · 2026年4月22日 0

多模态智能体大模型Sage发布，PinchBench测试显示94%最佳任务完成率

You may also like...

发表评论取消回复

互联网资讯 · 2026年4月22日 0

You may also like...

揭秘拼多多直通车高投产的秘密

小米13 Pro通过3C认证：支持120W超级快充

宏碁董事长：PC需求下滑，最糟的时刻尚未到来

发表评论 取消回复

发表评论取消回复