Le changement le plus notable de Claude 3.5 Sonnet cette fois-ci, c’est qu’on commence à permettre au modèle de « comprendre l’écran et manipuler la souris », en transformant des instructions en langage naturel en un véritable processus d’actions sur ordinateur. Pour celles et ceux qui ont besoin d’automatiser des tableurs, de saisir des données sur le web ou d’organiser des informations, le périmètre d’usage de Claude 3.5 Sonnet s’élargit nettement.
En quoi consiste exactement la « capacité à piloter l’ordinateur » de Claude 3.5 Sonnet ?
Claude 3.5 Sonnet a ajouté, à destination des développeurs, une approche d’API liée au pilotage de l’ordinateur : d’abord percevoir l’interface (par exemple capture d’écran/état de l’UI), puis décomposer ta demande en étapes exécutables. Il peut suivre pas à pas une chaîne du type « ouvrir le navigateur — aller à la page — repérer le champ de saisie — remplir le formulaire — envoyer », de sorte que la tâche ne reste plus au stade de simples recommandations textuelles.
Le cœur de cette capacité ne tient pas à « savoir naviguer sur Internet », mais à « savoir agir selon l’interface ». Claude 3.5 Sonnet est conçu pour continuer à faire des choix et à corriger les erreurs au fil d’un processus en plusieurs étapes ; il convient donc pour confier à l’automatisation des opérations répétitives, fastidieuses et sujettes aux erreurs.
Pour quels scénarios est-ce le plus adapté : tableurs, back-office, tests et processus répétitifs
Si ton travail se bloque souvent sur du « copier-coller + aller-retour entre pages », Claude 3.5 Sonnet aura davantage de valeur : extraire des champs depuis des données locales, les renseigner dans un formulaire en ligne ou un tableur ; saisir des informations dans un système back-office en suivant un chemin fixe ; rejouer une même procédure pour différents clients ou différents lots de données.
Pour les équipes de développement, Claude 3.5 Sonnet est aussi mieux adapté au rôle d’« exécutant outillé » : par exemple, dans un environnement de test, cliquer étape par étape, vérifier l’état des pages, consigner les résultats, puis réécrire les points anormaux dans une liste.
Programmation et usage d’outils également renforcés
En plus de pouvoir piloter un ordinateur, Claude 3.5 Sonnet a aussi été renforcé sur les tâches de programmation et d’utilisation d’outils ; l’éditeur mentionne des améliorations nettes sur des benchmarks comme HumanEval et SWE-bench Verified. L’effet le plus tangible pour toi : Claude 3.5 Sonnet est plus enclin à produire du code exécutable sous contraintes, respecte mieux les formats d’interface, et dérive moins dans les demandes en plusieurs étapes.
