互联网资讯 · 2026年4月9日

全行业都在测语音AI”接话准不准”,但从没人问过:它真的听懂了吗?

先说一个数字。

超过40%。

这是当前某主流全模态大模型在语音交互中的”蒙对”的比例。也就是说,它每做100次正确操作,有4次是错误的。

它不是听懂了才回答的。它是碰巧没答错。

这个数字来自百融语音团队刚刚开源的TT Benc。我们给Gemini 3-Pro、GPT-4o-audio、Qwen3-Omini、mini CP-Mo-4.5这些当红模型,出了一张从没出过的卷子。

结果,整体翻车。

一个价值千万的bug,藏在”正确”里。

先别急着看数据。我给你讲个真实场景,你就懂了。

一个智能语音坐席正在给客户介绍理财产品,说得正欢。这时候客户咳嗽了一声。

AI停了。安静了两秒。等客户开口。

看起来很贴心对吧?很”智能”对吧?

但真相是:它根本不知道那是一声咳嗽。

它只是检测到”有声音了”,然后条件反射般闭嘴了。如果下一次客户是在跟旁边的同事说话,它也会停。如果是窗外传来一声汽车喇叭,它还是会停。如果客户真的想打断说”我不感兴趣”—它的反应,跟听到咳嗽,一模一样。

四种完全不同的情况。四种需要完全不同处理方式的场景。但在这个AI的大脑里,它们是同一件事—有动静,闭嘴。

从外面看,它每次都”做对了”。从里面看,它一次都没”听懂”。

这不是个案。整个语音AI行业的系统性盲区。

整个行业都在考一张错误的卷子。

为啥这个问题存在了这么久,却没人发现?

因为我们的考试出错了。

目前全行业评测语音交互能力,最主流的方法叫端点检测—用户说完了没有。说完了就接话,没说完就等着。

一个二分类问题。简单。粗暴。而且,严重失真。

近两年出现了一些进阶Benc,FLEXI测社交场景、多轮任务、MTR-DuplexBench评性能衰减。它们确实比二分类进步了。

但它们有一个致命的共同缺陷:只看”做了什么”,从不问”为什么这么做”。

它们能看到”模型沉默了”,却无法分辨:这次沉默,是因为正确判断了用户在思考?还是把咳嗽当成了说话?还是把背景噪音当成了用户指令?

这三种沉默,在现有Benc里得分完全一样。但在真实通话中,一种是智能,一种是愚蠢,一种是危险。

所有人都在用这张”错误的卷子”打分,然后宣布自己的模型”表现优秀”。

难怪没人发现问题。因为卷子本身就看不出问题。

这件事有多严重?

你可能觉得:就算蒙对了,用户也感知不到啊,结果不是一样的吗?

不一样。非常不一样。

在百融云创的各种业务场景中,智能坐席每天要处理海量实时通话。营销、回访、客服、贷后—每一通电话都是真金白银。

想象一下这些场景:

客户正在犹豫要不要买。他停顿了三秒,在心里算账。一个”真听懂了”的AI会安静等待,给他思考空间。一个”蒙”的AI可能误判为”用户说完了”,急匆匆接上话,打断了客户正在形成的购买决定。

客户被旁边的同事叫了一声。他扭头说了句”等一下”。一个”真听懂了”的AI立刻停下。一个”蒙”的AI可能把这句话当成对话指令,做出莫名其妙的回应。

客户明确说了”你别说了”。一个”真听懂了”的AI立刻停下。一个”蒙”的AI可能还在犹豫—因为它上次听到类似的声音强度时,判断的是”背景噪音,忽略”。

每一次误判,都是一次转化率的流失、一次客户满意度的损耗、一次合规风险的累积。

乘以日均百万级的通话量。

这不是小问题。这是一个被”正确的分数”掩盖的巨大隐患。

我们撕开了这个口子。

我们做了一个Benc,叫codeTT—它不测”做了什么”。它测”为什么这么做”。

它只做一件事:揪出那些”动作蒙对了,但理由完全错误”的case。

公式很简单:在所有”动作正确”的样本中,有多少是”意图判断错误”的?

SMR越高,说明模型越像一个考试蒙题的学生—选择题选对了,但你问他为啥这么选,他说”因为今天周三”。

这个指标在此之前,从未有人提出来过。因为以前的卷子根本没有”问理由”这一栏。

成绩单来了。请坐稳。

我们把当前最能打的语音模型和全模态大模型全部拉上了考场。

图注:主流模型在4类核心决策上的准确率对比(中英文),清晰展示各模型的”偏科”现象—许多模型只在一种场景下表现尚可,其余场景大幅崩塌。

专用控制器:”瘸腿冠军”

Easy Turn、FireRedChat、SMart-Turn-v3、NAMO-Turn—这些专门做端点检测的选手,在”接管话轮”(TakeOver)上分数很高,FireRedChat达到86.67%。

但一到”该不该忽略”(DiSMiSS),成绩直接崩盘。FireRedChat只有6.83%。

什么概念?100次该忽略的情况,它只判断对了不到7次。剩下93次,它都做出了不该做的反应。

这些模型把”判断用户说完没”练到了极致,但面对真实世界的复杂性—背景噪音、旁人说话、用户犹豫—它们基本是瞎的。

全模态大模型:”优等生”的成绩单里全是水分

Gemini 3-Pro在动作级别看起来最风光,中文英文平均准确率超过81%。看起来是妥妥的优等生。

但打开SM的”X光”—

图注:14种细粒度场景下各模型的准确率和SM对比,清晰呈现”动作对但理由错”的普遍性。

miniCP-Mo-4.5:SM在Antin场景下高达55.93%(中文,1轮历史)。

什么意思?它”正确保持说话”的case里,超过一半是蒙对的。它不知道用户是在”嗯嗯”还是在咳嗽还是在跟旁人说话,反正统统选”继续说”—碰巧蒙对了。

GPT-4o-audio:动作级别表现体面,但在Collaboation(第三方协作插入)场景下准确率不到8%。几乎完全无法识别”另一个相关的人加入了对话”这类情况。

Qwen3-Omini:增加上下文到5轮后,Side-talk(旁人对话)识别率从45%暴跌到7%。 上下文越多,反而越糊涂。

即使是全场最佳的Gemini3-Pro,SM也在15%~25%之间。 也就是说,它每5次”正确操作”中,至少有1次是碰巧做对的。

没有任何一个模型的SMR低于15%。没有。任何。一个。

上下文越多越好吗?大错特错

我们在0轮、1轮、3轮、5轮对话历史下分别测试。发现了一个反直觉的结论:

适度的上下文(1~3轮)确实有帮助。 比如帮模型分清”用户在思考”和”环境噪声”。

但加到5轮?反而变差了。 尤其在”打断”场景下,性能下降,SMR升高。

图注:GPT-4o-audio的语义混淆矩阵,直观展示模型在哪些场景间产生了意图混淆。

模型确实停下来了,但它停下来的不是因为听到你在打断,而是因为它的”历史惯性”告诉它该停了。

这就像一个老司机在红灯路口停了车—不是因为他看到了红灯,而是因为他在这个路口每次都会停。看起来一样,但本质上,一个是安全驾驶,一个是定时炸弹。

codeTT撕开的三层真相

所有实验数据指向同一个结论:当前语音AI的turn-taking能力被严重高估了。

codeTT揭示了三层能力阶梯,现实是残酷的:

第一层:边界检测—说完了吗? 专用控制器能做到。大部分系统止步于此。

第二层:上下文推理—为什么这样? 全模态大模型开始触及,但远未过关。SMR无情地证明了这一点。

第三层:多方语用消歧—谁在说、说给谁、什么意图? 所有模型在这里集体趴下。Collaboation和Exclusion场景的惨淡数据就是铁证。

传统Benc只测第一层,然后宣布胜利。codeTT告诉你,战争才刚刚开始。

这对行业意味着什么?

对语音AI从业者: codeTT是第一个能告诉你”模型为啥做错了”的诊断工具。不再是”准确率低了,但不知低在哪”。现在你能精确定位:是backchannel识别弱?是多人场景搞不定?还是上下文用多了反而过拟合?修什么,一目了然。

对全双工语音交互赛道: codeTT重新定义了什么叫”好的turn-taking”。从”接话时机对不对”到”决策理由对不对”,这是评测范式的一次本质升级。

对产品经理和业务决策者: 下次有人跟你说”我们的模型turn-taking准确率95%”,你可以多问一句—“SMR是多少?” 如果他答不上来,那个95%大概率里面掺了不少水。

已开源。拿去用。

codeTT的完整数据集和评测工具已在GitHub开源。

300小时数据,18,000个标注实例,14种诊断场景,中英双语全覆盖。

欢迎所有语音AI团队拿去测自己的模型。

测完之后,你可能会重新认识你的”优等生”。

2026年,行业在比谁的语音模型”反应更快”。

2026年,百融问了一个更扎心的问题:

反应快有什么用?它根本不知自己为啥要这样反应。

当前最好的模型,至少15%的”正确”是蒙出来的。最差的超过50%。

这些数字不好看。但我们认为,看见真相,比维持幻觉重要一万倍。

只有知道自己不懂什么,才能真正开始学。

这句话对AI适用。对这个行业,同样适用。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.