Самое заметное в этом обновлении Claude 3.5 — переход от «умеет разговаривать» к «умеет работать с интерфейсом». В публичной бете Claude 3.5 может анализировать содержимое экрана, перемещать курсор, нажимать кнопки и печатать в полях ввода, чтобы выполнять пошаговые задачи. Ниже — редакторское объяснение ключевых изменений Claude 3.5, чтобы вам было проще понять, стоит ли пробовать прямо сейчас.
Новая функция Claude 3.5 «использование компьютера»: что она умеет
Под «использованием компьютера» понимается сценарий, когда вы задаёте Claude 3.5 цель, а он выполняет её как человек по интерфейсному процессу: сначала смотрит на экран, затем решает, куда нажать и что ввести. Это подходит для задач с большим количеством действий — например, поэтапно заполнять поля в админке сайта, переносить данные со страницы A в форму/таблицу B и т. п. При этом официально подчёркивается, что это всё ещё экспериментальная возможность: Claude 3.5 иногда может «промахнуться» и нажать не туда или пропустить шаг, поэтому важно быть готовым вовремя поправлять его.
Как доступно: API в публичной бете и вызов с разных платформ
Сейчас «использование компьютера» в Claude 3.5 доступно в виде публичной беты через API — разработчики могут строить решения напрямую на Anthropic API. Кроме того, Claude 3.5 можно использовать через Amazon Bedrock и Vertex AI в Google Cloud, что упрощает подключение для компаний с уже выбранной облачной инфраструктурой. Для команд это означает, что Claude 3.5 — не просто демонстрация, а функция, которую можно встраивать в процессы и системы автоматизации.

