Anthropic 在推出 Opus 4.7 僅 41 天後,於近日正式推出 Claude Opus 4.8。新模型在 SWE-Bench Pro 基準測試中以超過 10 分的優勢 超越 GPT-5.5,並在人工智能分析智能指數(Artificial Analysis Intelligence Index)上以 61.4 分排名第一,領先 GPT-5.5 的 60.2 分。此版本被視為一次真正的架構升級,而非單純的模型迭代。
Opus 4.8 的核心亮點是引入 動態工作流(Dynamic Workflows)工具,允許 Claude 規劃大型任務,並將工作分配到數十至數百個並行子智能體(subagents)中,隨後驗證輸出並返回完整結果。此外,模型在 誠實度上實現了 4 倍提升,亦即更準確地向用戶表達自身的不確定性。在長上下文任務測試中,Opus 4.8 的表現顯著優於 GPT-5.5 和 Gemini 3.1 Pro。

