Anthropic ha lanzado oficialmente Claude Opus 4.8, apenas 41 días después de presentar Opus 4.7. El nuevo modelo supera a GPT-5.5 por más de 10 puntos en el benchmark SWE-Bench Pro, y ocupa el primer lugar en el Artificial Analysis Intelligence Index con 61.4 puntos, frente a los 60.2 de GPT-5.5. Esta versión se considera una verdadera actualización arquitectónica, no una simple iteración del modelo.
El punto clave de Opus 4.8 es la introducción de la herramienta de flujo de trabajo dinámico (Dynamic Workflows), que permite a Claude planificar tareas grandes y distribuir el trabajo entre decenas o cientos de subagentes paralelos, para luego verificar los resultados y devolver respuestas completas. Además, el modelo ha logrado una mejora de 4 veces en honestidad, es decir, expresa con mayor precisión su incertidumbre al usuario. En pruebas de contexto largo, Opus 4.8 supera significativamente a GPT-5.5 y Gemini 3.1 Pro.

