**Nuevas funciones de Claude: ahora puede controlar tu PC con mouse y teclado** - Claude | Titikey

Anthropic ha llevado a Claude 3.5 Sonnet a un nuevo nivel con una actualización disruptiva: ya no solo conversa por texto, sino que puede observar la pantalla, mover el ratón y teclear como una persona real, ayudándote a manejar tu computadora. Si todavía estás rellenando formularios manualmente o copiando y pegando datos, esta mejora podría cambiar por completo tu flujo de trabajo. A continuación, exploramos el alcance de esta nueva capacidad de "operación informática" y en qué situaciones puede marcar la diferencia.

¿Cómo controla Claude la computadora como un humano?

Anthropic ha diseñado una API específica para Claude que le permite "percibir" la interfaz del ordenador: básicamente, analiza capturas de pantalla, comprende la ubicación de botones y campos de entrada, y genera comandos para mover el ratón, hacer clic y escribir. Una vez que los desarrolladores integran esta API, pueden pedirle a Claude que realice tareas como: "Abre el archivo de Excel en mi escritorio, copia los números de la columna B en el formulario web y luego envíalo". Claude va revisando la pantalla paso a paso, moviendo el cursor y operando el navegador, como si estuvieras dirigiendo a un asistente remoto.

En el benchmark OSWorld, que evalúa la capacidad de los modelos para usar computadoras, el nuevo Claude 3.5 Sonnet obtuvo un 14.9% solo con capturas de pantalla, superando ampliamente el 7.8% del segundo clasificado, Cradle BAAI. Si se le permiten más pasos, su rendimiento puede alcanzar el 22%. Aunque todavía está lejos del 70% o más de un humano, actualmente es la IA más hábil "usando una computadora".

Mejora notable en programación: código más fiable

Además de controlar el ordenador, el nuevo Claude 3.5 Sonnet ha dado un salto impresionante en programación. En SWE-bench Verified (un estándar que mide la capacidad de la IA para resolver problemas de software reales), su puntuación pasó del 40,6% al 49%, superando a todos los modelos públicos, incluido OpenAI o1-preview. Tras pruebas de GitLab, se observó que el razonamiento de Claude en flujos de desarrollo de software con múltiples pasos mejoró un 10%, sin aumentar la latencia. En otras palabras, ahora es más fiable para ayudarte a escribir un módulo completo de una aplicación web o depurar lógica compleja.

Si necesitas mayor velocidad, Anthropic ha preparado el nuevo Claude 3.5 Haiku: tiene el mismo precio y velocidad que la generación anterior, pero su nivel de inteligencia supera incluso al anterior Claude 3 Opus. Especialmente en tareas de codificación, Haiku alcanzó un 40,6% en SWE-bench Verified, por encima del primer Claude 3.5 Sonnet y de GPT-4. Es ideal para escenarios que requieren iteraciones rápidas y llamadas frecuentes, como pruebas automatizadas, análisis de logs o autocompletado de código.

¿Cómo pueden los desarrolladores usar estas nuevas capacidades?

El Claude 3.5 Sonnet actualizado ya está disponible para todos los usuarios. Los desarrolladores pueden acceder a la función de operación informática a través de la API de Anthropic, Amazon Bedrock y Vertex AI de Google Cloud (ten en cuenta que es una versión beta). Sin embargo, esta función aún dista mucho de ser perfecta: acciones simples para los humanos como desplazarse, arrastrar o hacer zoom a menudo fallan en Claude, y a veces las sesiones largas de grabación de pantalla interrumpen la tarea. No obstante, empresas como Asana, Canva y Replit ya la están utilizando para automatizar procesos repetitivos, como rellenar formularios automáticamente o revisar la interfaz de aplicaciones. Claude 3.5 Haiku se lanzará a finales de mes, inicialmente solo con texto, y luego añadirá entrada de imágenes.

Si eres desarrollador o sufres con tareas tediosas como rellenar formularios y mover datos, vale la pena probar que Claude haga clic por ti. Aunque todavía parece un novato torpe, su ritmo de mejora ya es difícil de ignorar.

Nuevas funciones de Claude: ahora puede controlar tu PC con mouse y teclado

¿Cómo controla Claude la computadora como un humano?

Mejora notable en programación: código más fiable

¿Cómo pueden los desarrolladores usar estas nuevas capacidades?

Buscar artículos

Artículos Populares

Los mejores prompts para ChatGPT: usos que de verdad pueden multiplicar por 10 la eficiencia

La instalación de Claude Code siempre da error: guía paso a paso para resolver el problema de configuración en tres pasos

Lista de verificación para depurar “salidas fallidas” de ChatGPT, Claude, Gemini y Midjourney, y trucos KISS para prompts

Flujo de Trabajo Eficiente: Integra ChatGPT, Claude, Gemini y Midjourney para Coherencia y Menos Estrés en Revisiones

3 Técnicas para Hacer Preguntas Efectivas a ChatGPT y Claude y Obtener Respuestas Precisas