Anthropic недавно выпустила обновление для Claude 3.5 Sonnet, которое кардинально меняет подход к взаимодействию с ИИ. Раньше модель могла только вести диалог, теперь же она способна видеть экран, перемещать курсор, нажимать клавиши и выполнять действия за вас. Если вы всё ещё тратите время на ручное заполнение форм или копирование данных, эта функция может полностью изменить ваш рабочий процесс. Давайте разберёмся, на что способен новый режим «управления компьютером» и в каких сценариях он оказывается полезен.
Как Claude управляет компьютером как человек?
Anthropic создала для Claude специальный API, который позволяет модели «воспринимать» интерфейс компьютера — по сути, модель смотрит на скриншоты, определяет расположение кнопок и полей ввода, а затем генерирует команды для перемещения мыши, кликов и ввода текста. Разработчики, подключив этот API, могут попросить Claude выполнить такие задачи: «Открой таблицу Excel на моём рабочем столе, скопируй числа из столбца B в веб-форму и отправь». Claude шаг за шагом проверяет экран, двигает курсор, управляет браузером — весь процесс напоминает удалённое руководство стажёром.
В бенчмарке OSWorld, оценивающем способность моделей управлять компьютером, новый Claude 3.5 Sonnet, работая только со скриншотами, набрал 14,9% — это значительно выше, чем у второго места Cradle BAAI с 7,8%. Если добавить больше действий, результат достигает 22%. Хотя это всё ещё далеко от человеческого уровня (более 70%), Claude остаётся лучшим среди ИИ-моделей в умении «пользоваться компьютером».
Значительное улучшение навыков программирования — код стал надёжнее
Помимо управления компьютером, новая версия Claude 3.5 Sonnet демонстрирует впечатляющий прогресс в программировании. В тесте SWE-bench Verified, измеряющем способность ИИ решать реальные задачи по разработке ПО, его показатель вырос с 40,6% до 49%, что превосходит все публичные модели, включая OpenAI o1-preview. После тестирования в GitLab выяснилось, что рассуждения Claude при многоэтапной разработке улучшились на 10%, а задержка не увеличилась. Другими словами, доверить ему написание полноценного веб-модуля или отладку сложного кода стало надёжнее.

