La actualización más destacada de Claude 3.5 Sonnet es su evolución de "saber responder" a "saber operar". Gracias a una capacidad que permite al modelo percibir la interfaz de un ordenador y ejecutar pasos, puede unir acciones como comprender capturas de pantalla, navegar y rellenar formularios en un flujo completo. A continuación, desglosamos, desde un enfoque práctico, qué puede hacer Claude 3.5 Sonnet, para quién es útil y cuáles son sus limitaciones.
Qué cambia realmente la función "Operar el ordenador" de Claude 3.5 Sonnet
Antes, si le pedías a Claude 3.5 Sonnet que redactara un plan, a menudo tenías que abrir páginas web, copiar contenido, cambiar de herramienta y pegar. La nueva dirección es esta: Claude 3.5 Sonnet no solo comprende capturas de pantalla, sino que también puede descomponer tus instrucciones en lenguaje natural en pasos concretos de operación del ordenador. Para los desarrolladores, esto significa poder integrar en sus productos la cadena "ver la interfaz — ejecutar la acción — devolver el resultado".
No es solo un botón más, sino que permite que las tareas avancen de forma continua en un mismo contexto, reduciendo las interrupciones. Su valor será más evidente en flujos de trabajo que requieren múltiples pasos y revisiones repetidas.
Qué puede hacer: formularios, navegación web y organización de datos más fluidos
Según la información disponible, los escenarios típicos para Claude 3.5 Sonnet incluyen: utilizar datos de tu ordenador para rellenar formularios, navegar en el navegador a páginas relevantes y organizar información en salidas estructuradas. Puedes verlo como un "asistente con ojos", que primero comprende el contenido de la captura de pantalla y luego continúa operando según tus instrucciones. Los equipos con operaciones repetitivas, como entrada de datos operativos, consolidación de informes o verificación de documentación, notarán más fácilmente una mejora en la eficiencia.
Si quieres que Claude 3.5 Sonnet te ayude en tareas de investigación, este modo también es más adecuado: primero localizar las fuentes, luego extraer los puntos clave y finalmente generar tablas o explicaciones listas para entregar.


