La actualización más destacada de Claude 3.5 es su capacidad de 'Uso de Computadora': no solo conversa, sino que también interpreta lo que ve en pantalla y simula movimientos del ratón, clics y entradas de teclado. Para quienes necesitan gestionar flujos, completar formularios o realizar múltiples pasos en software, Claude 3.5 se acerca más a un asistente práctico.
¿Qué es exactamente el 'Uso de Computadora' de Claude 3.5?
El llamado Uso de Computadora de Claude 3.5 permite al modelo interactuar con aplicaciones de escritorio o interfaces web como lo haría un humano: primero identifica elementos en la pantalla, luego decide mover el cursor, hacer clic en botones o ingresar texto. No "lee directamente los datos de tu sistema", sino que ejecuta pasos basándose en las capturas de pantalla y las instrucciones que le proporciones.
Los desarrolladores también enfatizan que el Uso de Computadora de Claude 3.5 sigue en fase de prueba pública; ocasionalmente puede atascarse, hacer clics incorrectos o mostrar pasos inestables. Es más realista considerarlo como una "operación semi-automática" que acelera tareas, en lugar de esperar que funcione perfectamente de principio a fin.
¿Qué tareas se acelerarán notablemente con Claude 3.5?
Cuando una tarea requiere docenas de clics repetitivos, el valor de Claude 3.5 se vuelve más evidente: por ejemplo, ingresar información línea por línea en sistemas de backend, copiar y pegar entre páginas, descargar/organizar archivos según reglas fijas o completar campos en formularios. Siempre que los elementos de la interfaz sean relativamente claros y el flujo sea reutilizable, Claude 3.5 suele convertir el "trabajo manual" en "supervisión".
Para equipos, Claude 3.5 también es útil para validar procesos: hacer que siga un SOP (procedimiento operativo estándar) para identificar rápidamente qué pasos son propensos a errores, qué páginas tienen textos confusos o qué botones carecen de una guía clara.
Cómo usar el Uso de Computadora de Claude 3.5 (perspectiva del desarrollador)
Actualmente, la capacidad de Uso de Computadora de Claude 3.5 está orientada principalmente a desarrolladores, disponible en versión beta a través de la API, y se puede integrar en Amazon Bedrock y Google Cloud Vertex AI. El enfoque común es proporcionar a Claude 3.5 "capturas de pantalla/estado de la interfaz" junto con el "objetivo del siguiente paso", para que genere secuencias de acciones ejecutables, como clics y entradas de texto.


