Opus 4.7发布，承认不如Mythos

4月17日凌晨，Anthropic正式发布了Opus 4.7。

这是该公司目前最强的公开模型，主打编程和智能体任务，图像分辨率提升至此前三倍，上下文维持100万Token，API定价保持不变，输入每百万Token 5元，输出25元。

但反常的是，Anthropic这次发布的新模型自己也承认并非最强。该公司坦言，尽管Opus 4.7在多项指标上有所提升，但在部分关键能力上，仍不及近期开亮相的Claude Mythos Preview。

围绕这次升级，不少讨论却不是“它更强了”，而是“它更难聊了”。一些早期体验者和测试者发现，Opus 4.7在编程、终端操作和多步骤智能体任务上进步明显，但在分析、写作、研究这类非代码任务上，反而更容易显得生硬，也更少主动调用工具和网络搜索。

Anthropic明确提醒用户，和Opus 4.7打交道得换一套方法，别再指望它像旧模型那样替你“揣摩意思”，而要更直接地下指令。换句话说，这不是一个更会聊天的新旗舰，而是一个更适合干活的公开版本。

编码和工具能力是真涨了，但网络搜索反而退步了。

基准测试，Opus 4.7最强的改进在编码上。

首先是SWE-bench Verified基准测试，模型要解决真实的GitHub Issue，即程序员平时在开源项目里遇到的那种实际bug或者功能需求。模型得自己看懂代码、找到问题、写补丁，然后验证修复是否有效。这是目前行业里公认最接近真实开发场景的测试之一。

Opus 4.7在这个测试里拿下了87.6%，比上一代Opus 4.6的80.8%高了将近7个百分点，也超过了Gemini 3.1 Pro的80.6%。

还有更难的SWE-bench Pro测试。模型需要跨四种编程语言，不光是修一个文件里的bug，可能要同时改多个文件并理解整个项目的结构。Opus 4.7的得分从53.4%跳到了64.3%，涨幅超过10%。这意味着上一代模型在这上面十次任务要失败差不多一半，现在十次里能成功六次。GPT-5.4的得分是57.7%，Gemini 3.1 Pro是54.2%，Opus 4.7已经把差距拉开了。

实际用起来怎么样？

高级工程师本·拉弗蒂（Ben Lafferty）说，Opus 4.7感觉智力上真提升了且质量明显更好。模型会自己删掉那些没意义的包装函数和多余的支架，边干边修正自己的代码，这是从Claude 4系列以来见过最利落的一次升级。

公司技术员列奥·楚拉科夫（Leo Tchoulakov）也观察到类似的效果。Opus 4.7能把任务从头做到尾而不是半路停下，任务成功率比Opus 4.6提高了10%到15%，工具错误更少且验证步骤的执行也更可靠。

在终端操作方面，Terminal-Bench 2.0用于测试命令行环境里的熟练度。模型需要导航文件系统、执行DevOps任务并在终端里调试程序。Opus 4.7得分69.4%，比Opus 4.6的65.4%高了4个百分点，也稍微超过了Gemini 3.1 Pro的68.5%。早期合作伙伴WaRP证实，Opus 4.7通过了以前Claude模型都没能通过的终端任务，包括一个Opus 4.6完全搞不定的并发bug。

工具使用的频率降低了且更倾向于自己先推理。这在很多情况下效果更好。但如果你确实希望模型更积极使用工具，比如在智能体工作中更主动搜索或读取文件，那就得在提示词里明确说清楚什么时间以及为什么该用工具。

默认生成的子智能体也更少。Opus 4.7在决定是否把工作分给子智能体时更谨慎。如果你确实需要并行处理多个文件或任务得明确告诉它。

切尔尼总结说，Opus 4.7在长时间运行的任务上比之前的模型表现好很多，特别适合那些以前人工监督是瓶颈的任务，比如复杂的多文件改动、说不清楚的调试问题、跨服务的代码审查、多步骤的智能体任务。他建议把能力级别保持高并先看第一轮能跑多远。

Replit、Notion、Shopify这些公司的工程团队来说，从看着AI干活到管理AI结果的转变已经开始了。Opus 4.7能不能接住这个期待，得看它在你自己的真实任务上跑得怎么样。

chatGPT

近期文章

互联网资讯 / 人工智能 · 2026年4月20日 0

Opus 4.7发布，承认不如Mythos

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2026年4月20日 0

You may also like...

张纪中曝光前妻隐私未致歉，遭到公告处理

百度数据众包：AI新基建的新商机

通过刷手标签迅速提升宝贝权重的方法

发表评论 取消回复

发表评论取消回复