Anthropic ha llevado a Claude 3.5 Sonnet a un nuevo nivel con una actualización disruptiva: ya no solo conversa por texto, sino que puede observar la pantalla, mover el ratón y teclear como una persona real, ayudándote a manejar tu computadora. Si todavía estás rellenando formularios manualmente o copiando y pegando datos, esta mejora podría cambiar por completo tu flujo de trabajo. A continuación, exploramos el alcance de esta nueva capacidad de "operación informática" y en qué situaciones puede marcar la diferencia.
¿Cómo controla Claude la computadora como un humano?
Anthropic ha diseñado una API específica para Claude que le permite "percibir" la interfaz del ordenador: básicamente, analiza capturas de pantalla, comprende la ubicación de botones y campos de entrada, y genera comandos para mover el ratón, hacer clic y escribir. Una vez que los desarrolladores integran esta API, pueden pedirle a Claude que realice tareas como: "Abre el archivo de Excel en mi escritorio, copia los números de la columna B en el formulario web y luego envíalo". Claude va revisando la pantalla paso a paso, moviendo el cursor y operando el navegador, como si estuvieras dirigiendo a un asistente remoto.
En el benchmark OSWorld, que evalúa la capacidad de los modelos para usar computadoras, el nuevo Claude 3.5 Sonnet obtuvo un 14.9% solo con capturas de pantalla, superando ampliamente el 7.8% del segundo clasificado, Cradle BAAI. Si se le permiten más pasos, su rendimiento puede alcanzar el 22%. Aunque todavía está lejos del 70% o más de un humano, actualmente es la IA más hábil "usando una computadora".
Mejora notable en programación: código más fiable
Además de controlar el ordenador, el nuevo Claude 3.5 Sonnet ha dado un salto impresionante en programación. En SWE-bench Verified (un estándar que mide la capacidad de la IA para resolver problemas de software reales), su puntuación pasó del 40,6% al 49%, superando a todos los modelos públicos, incluido OpenAI o1-preview. Tras pruebas de GitLab, se observó que el razonamiento de Claude en flujos de desarrollo de software con múltiples pasos mejoró un 10%, sin aumentar la latencia. En otras palabras, ahora es más fiable para ayudarte a escribir un módulo completo de una aplicación web o depurar lógica compleja.

