Anthropic недавно выпустила значительное обновление для Claude 3.5 Sonnet — это не мелкие доработки, а предоставление ИИ возможности напрямую управлять компьютером. Проще говоря, теперь Claude может видеть ваш экран, перемещать курсор и даже печатать. Одновременно была представлена новая модель Claude 3.5 Haiku с молниеносной скоростью, которая показала впечатляющие результаты в ряде тестов. Это обновление открывает новые горизонты как для разработчиков, так и для обычных пользователей.
Новые возможности Claude 3.5 Sonnet: работа с компьютером как человек
Ключевая особенность обновления — способность Claude 3.5 Sonnet управлять компьютером. Anthropic создала специальный API, позволяющий Claude воспринимать пиксельную информацию экрана и взаимодействовать с ним подобно человеку. Разработчики могут интегрировать этот API, чтобы Claude выполнял многошаговые задачи, например: «открой браузер, войди в почту, отправь письмо». В тесте OSWorld Claude 3.5 Sonnet набрал 14,9% только на основе скриншотов, что значительно превзошло второго участника.
Конечно, функция пока на стадии тестирования: у Claude есть трудности с точными операциями вроде прокрутки и перетаскивания. Например, он может прервать задачу при длительной записи экрана. Однако такие компании, как Canva и DoorDash, уже начали тестировать эту функцию для автоматизации повторяющихся рабочих процессов. Replit, например, использует её для создания агентов, которые автоматически проверяют приложения.
Прорыв в программировании: лидерство среди моделей
Помимо управления компьютером, навыки кодирования Claude 3.5 Sonnet значительно выросли. В тесте SWE-bench Verified его результат повысился с 33,4% до 49,0%, что превосходит многие открытые модели, включая специализированные модели рассуждений. Тесты GitLab показали, что новая версия Claude обеспечивает более высокие возможности рассуждения для задач DevSecOps без увеличения задержки.

