Anthropic ha lanzado una actualización importante para Claude 3.5 Sonnet, que no es un simple parche: ahora la IA puede manejar directamente tu computadora. En pocas palabras, Claude puede ver tu pantalla, mover el ratón e incluso escribir. Al mismo tiempo, el nuevo modelo Claude 3.5 Haiku llega a la velocidad del rayo y destaca en múltiples pruebas de referencia. Esta actualización abre nuevas posibilidades tanto para desarrolladores como para usuarios comunes.
Claude 3.5 Sonnet: usa la computadora como una persona
El punto central de esta actualización es la nueva capacidad de Claude 3.5 Sonnet para controlar la computadora. Anthropic ha creado una API especial que permite a Claude percibir la información de píxeles en la pantalla e interactuar con ella como lo haría una persona. Los desarrolladores pueden integrar esta API para que Claude realice tareas de varios pasos, como "abrir el navegador, iniciar sesión en el correo y enviar un mensaje". En la prueba de referencia OSWorld, Claude 3.5 Sonnet obtuvo un 14,9% de aciertos solo con capturas de pantalla, superando al segundo clasificado por un amplio margen.
Por supuesto, esta función aún está en fase de prueba, y Claude todavía tiene margen de mejora en operaciones precisas como desplazamiento o arrastre. Por ejemplo, puede interrumpir la tarea durante grabaciones largas de pantalla. Sin embargo, empresas como Canva y DoorDash ya están probando esta función de Claude para automatizar flujos de trabajo repetitivos; por ejemplo, Replit la utiliza para construir agentes que revisan aplicaciones automáticamente.
Salto en rendimiento de codificación: liderazgo en la industria
Además de controlar la computadora, la capacidad de codificación de Claude 3.5 Sonnet ha dado un salto cualitativo. Su puntuación en la prueba SWE-bench Verified pasó del 33,4% al 49,0%, superando a muchos modelos públicos, incluidos algunos modelos de razonamiento especializados. Las pruebas de GitLab muestran que el nuevo Claude ofrece un razonamiento más potente para tareas DevSecOps sin aumentar la latencia.

