Anthropic在发布Opus 4.7仅41天后,于近日正式推出Claude Opus 4.8。新模型在SWE-Bench Pro基准测试中以超过10分的优势超越GPT-5.5,并在人工智能分析智能指数(Artificial Analysis Intelligence Index)上以61.4分排名第一,领先GPT-5.5的60.2分。这一版本被视为一次真正的架构升级,而非简单的模型迭代。
Opus 4.8的核心亮点是引入动态工作流(Dynamic Workflows)工具,允许Claude规划大型任务并将工作分配到数十至数百个并行子智能体(subagents)中,随后验证输出并返回完整结果。此外,模型在诚实度上实现了4倍提升,即更准确地向用户表达自身的不确定性。在长上下文任务测试中,Opus 4.8的表现显著优于GPT-5.5和Gemini 3.1 Pro。

