El cambio más práctico en esta actualización de Claude es hacer que "ver imágenes", "escribir código" y la "ejecución de múltiples pasos" sean más fluidos. Para los usuarios cotidianos, Claude no solo responde preguntas, sino que se asemeja más a un asistente que te acompaña para completar tareas. A continuación, se explican las funciones en detalle para que puedas usarlas directamente.
Mejora en la comprensión de imágenes de Claude: Ve y "explica lo importante"
La comprensión de imágenes de Claude se orienta más a "leer imágenes para actuar", no solo a describir escenas. Cuando le envías una captura de pantalla, una foto de una tabla o una página de producto, Claude puede primero extraer la estructura (títulos, campos, botones, números clave) y luego organizar los resultados según tu objetivo.
El uso práctico es: primero pide a Claude que repita la información clave que identifica, luego haz que genere contenido según una plantilla, como "organiza este recibo en una tabla de gastos" o "extrae la tabla de esta captura y completa las columnas faltantes". En este tipo de tareas, la ventaja de Claude es convertir la información de la imagen en una estructura de texto editable, lo que facilita integrarla en flujos posteriores.
Capacidad de Claude para operar computadoras: De sugerencias a "pasos ejecutables" (vista previa de API)
Anthropic ha proporcionado una dirección de API para "operar computadoras" en Claude 3.5 Sonnet: Claude puede percibir la interfaz de la computadora y desglosar instrucciones en acciones específicas, como abrir un navegador, navegar por páginas o ingresar contenido en una tabla. Su significado radica en convertir mucho del trabajo de "hacer clic con el mouse" en pasos que Claude puede realizar por ti.
Es importante enfatizar que esta capacidad actualmente se inclina más hacia escenarios de integración y prueba para desarrolladores, no significa que cualquiera pueda abrir Claude y controlar remotamente una computadora de inmediato. Además, el equipo oficial menciona que acciones humanas naturales como desplazarse, arrastrar o hacer zoom siguen siendo un desafío para Claude, por lo que es más adecuada para tareas automatizadas con procesos claros y pasos verificables.


