Anthropic vient de déployer une mise à jour majeure de Claude 3.5 Sonnet, bien plus qu'une simple retouche : l'IA est désormais capable d'interagir directement avec un ordinateur. Concrètement, Claude peut voir votre écran, déplacer la souris et même taper du texte. Parallèlement, le tout nouveau modèle Claude 3.5 Haiku fait son apparition à une vitesse fulgurante, avec des performances remarquables sur plusieurs benchmarks. Cette mise à jour ouvre un champ des possibles tant pour les développeurs que pour les utilisateurs ordinaires.
Claude 3.5 Sonnet : utiliser un ordinateur comme un humain
Le point fort de cette mise à jour est la nouvelle capacité de contrôle d'ordinateur de Claude 3.5 Sonnet. Anthropic a développé une API dédiée qui permet à Claude de percevoir les pixels de l'interface écran et d'interagir avec elle à la manière d'un humain. Les développeurs peuvent intégrer cette API pour que Claude exécute des tâches multi-étapes comme « ouvrir le navigateur, se connecter à la messagerie, envoyer un e-mail ». Sur le benchmark OSWorld, Claude 3.5 Sonnet a obtenu un score de 14,9 % en ne se basant que sur des captures d'écran, loin devant le deuxième.
Bien entendu, cette fonctionnalité est encore en phase de test : Claude a encore des progrès à faire sur des actions précises comme le défilement ou le glisser-déposer. Par exemple, il peut interrompre une tâche lors d'un enregistrement long. Mais plusieurs entreprises, dont Canva et DoorDash, ont déjà commencé à tester cette fonctionnalité de Claude pour automatiser des processus répétitifs, comme Replit qui l'utilise pour construire des agents capables de vérifier automatiquement des applications.
Amélioration spectaculaire du codage : des performances de pointe dans le secteur
Outre le contrôle d'ordinateur, les capacités de codage de Claude 3.5 Sonnet ont fait un bond qualitatif. Son score sur SWE-bench Verified est passé de 33,4 % à 49,0 %, dépassant ainsi de nombreux modèles publics, y compris certains modèles de raisonnement spécialisés. Les tests de GitLab montrent que la nouvelle version de Claude offre un raisonnement plus puissant pour les tâches DevSecOps sans augmenter la latence.

