互联网资讯 / 人工智能 · 2026年4月20日 0

Opus 4.7发布,承认不如Mythos

4月17日凌晨,Anthropic正式发布了Opus 4.7。

Opus 4.7发布,承认不如Mythos

这是该公司目前最强的公开模型,主打编程和智能体任务,图像分辨率提升至此前三倍,上下文维持100万Token,API定价保持不变,输入每百万Token 5元,输出25元。

但反常的是,Anthropic这次发布的新模型自己也承认并非最强。该公司坦言,尽管Opus 4.7在多项指标上有所提升,但在部分关键能力上,仍不及近期开亮相的Claude Mythos Preview。

围绕这次升级,不少讨论却不是“它更强了”,而是“它更难聊了”。一些早期体验者和测试者发现,Opus 4.7在编程、终端操作和多步骤智能体任务上进步明显,但在分析、写作、研究这类非代码任务上,反而更容易显得生硬,也更少主动调用工具和网络搜索。

Anthropic明确提醒用户,和Opus 4.7打交道得换一套方法,别再指望它像旧模型那样替你“揣摩意思”,而要更直接地下指令。换句话说,这不是一个更会聊天的新旗舰,而是一个更适合干活的公开版本。

编码和工具能力是真涨了,但网络搜索反而退步了。

Opus 4.7发布,承认不如Mythos

基准测试,Opus 4.7最强的改进在编码上。

首先是SWE-bench Verified基准测试,模型要解决真实的GitHub Issue,即程序员平时在开源项目里遇到的那种实际bug或者功能需求。模型得自己看懂代码、找到问题、写补丁,然后验证修复是否有效。这是目前行业里公认最接近真实开发场景的测试之一。

Opus 4.7发布,承认不如Mythos

Opus 4.7在这个测试里拿下了87.6%,比上一代Opus 4.6的80.8%高了将近7个百分点,也超过了Gemini 3.1 Pro的80.6%。

还有更难的SWE-bench Pro测试。模型需要跨四种编程语言,不光是修一个文件里的bug,可能要同时改多个文件并理解整个项目的结构。Opus 4.7的得分从53.4%跳到了64.3%,涨幅超过10%。这意味着上一代模型在这上面十次任务要失败差不多一半,现在十次里能成功六次。GPT-5.4的得分是57.7%,Gemini 3.1 Pro是54.2%,Opus 4.7已经把差距拉开了。

实际用起来怎么样?

高级工程师本·拉弗蒂(Ben Lafferty)说,Opus 4.7感觉智力上真提升了且质量明显更好。模型会自己删掉那些没意义的包装函数和多余的支架,边干边修正自己的代码,这是从Claude 4系列以来见过最利落的一次升级。

公司技术员列奥·楚拉科夫(Leo Tchoulakov)也观察到类似的效果。Opus 4.7能把任务从头做到尾而不是半路停下,任务成功率比Opus 4.6提高了10%到15%,工具错误更少且验证步骤的执行也更可靠。

在终端操作方面,Terminal-Bench 2.0用于测试命令行环境里的熟练度。模型需要导航文件系统、执行DevOps任务并在终端里调试程序。Opus 4.7得分69.4%,比Opus 4.6的65.4%高了4个百分点,也稍微超过了Gemini 3.1 Pro的68.5%。早期合作伙伴WaRP证实,Opus 4.7通过了以前Claude模型都没能通过的终端任务,包括一个Opus 4.6完全搞不定的并发bug。

工具使用的频率降低了且更倾向于自己先推理。这在很多情况下效果更好。但如果你确实希望模型更积极使用工具,比如在智能体工作中更主动搜索或读取文件,那就得在提示词里明确说清楚什么时间以及为什么该用工具。

默认生成的子智能体也更少。Opus 4.7在决定是否把工作分给子智能体时更谨慎。如果你确实需要并行处理多个文件或任务得明确告诉它。

切尔尼总结说,Opus 4.7在长时间运行的任务上比之前的模型表现好很多,特别适合那些以前人工监督是瓶颈的任务,比如复杂的多文件改动、说不清楚的调试问题、跨服务的代码审查、多步骤的智能体任务。他建议把能力级别保持高并先看第一轮能跑多远。

Replit、Notion、Shopify这些公司的工程团队来说,从看着AI干活到管理AI结果的转变已经开始了。Opus 4.7能不能接住这个期待,得看它在你自己的真实任务上跑得怎么样。