Новые функции Claude 3.5: управление компьютером и улучшенное программирование

Anthropic недавно выпустила значительное обновление для Claude 3.5 Sonnet — это не мелкие доработки, а предоставление ИИ возможности напрямую управлять компьютером. Проще говоря, теперь Claude может видеть ваш экран, перемещать курсор и даже печатать. Одновременно была представлена новая модель Claude 3.5 Haiku с молниеносной скоростью, которая показала впечатляющие результаты в ряде тестов. Это обновление открывает новые горизонты как для разработчиков, так и для обычных пользователей.

Новые возможности Claude 3.5 Sonnet: работа с компьютером как человек

Ключевая особенность обновления — способность Claude 3.5 Sonnet управлять компьютером. Anthropic создала специальный API, позволяющий Claude воспринимать пиксельную информацию экрана и взаимодействовать с ним подобно человеку. Разработчики могут интегрировать этот API, чтобы Claude выполнял многошаговые задачи, например: «открой браузер, войди в почту, отправь письмо». В тесте OSWorld Claude 3.5 Sonnet набрал 14,9% только на основе скриншотов, что значительно превзошло второго участника.

Конечно, функция пока на стадии тестирования: у Claude есть трудности с точными операциями вроде прокрутки и перетаскивания. Например, он может прервать задачу при длительной записи экрана. Однако такие компании, как Canva и DoorDash, уже начали тестировать эту функцию для автоматизации повторяющихся рабочих процессов. Replit, например, использует её для создания агентов, которые автоматически проверяют приложения.

Прорыв в программировании: лидерство среди моделей

Помимо управления компьютером, навыки кодирования Claude 3.5 Sonnet значительно выросли. В тесте SWE-bench Verified его результат повысился с 33,4% до 49,0%, что превосходит многие открытые модели, включая специализированные модели рассуждений. Тесты GitLab показали, что новая версия Claude обеспечивает более высокие возможности рассуждения для задач DevSecOps без увеличения задержки.

Это означает, что разработчики могут с большей уверенностью доверять ему сложные многошаговые задачи разработки ПО. В другом тесте на оценку программирования HumanEval Claude 3.5 Sonnet набрал 93,7%, значительно улучшив способность решать реальные проблемы. Для пользователей, часто работающих с ИИ над кодом, это обновление приносит реальное повышение эффективности.

Claude 3.5 Haiku: идеальный баланс скорости и интеллекта

Вместе с Claude 3.5 Sonnet была представлена новая быстрая модель Claude 3.5 Haiku. Её главное преимущество — стоимость и скорость, на уровне предыдущей Haiku, но с гораздо более высоким уровнем интеллекта, сопоставимым с флагманской моделью предыдущего поколения Claude 3 Opus. В задачах кодирования Claude 3.5 Haiku набрал 40,6% в SWE-bench Verified, превзойдя многие модели, включая GPT-4.

С точки зрения позиционирования, Claude 3.5 Haiku отлично подходит для приложений реального времени, чувствительных к задержкам, таких как пользовательские продукты, подзадачи агентов или сервисы, генерирующие персонализированный опыт на основе больших объёмов данных. Если вам нужна высокая скорость отклика без серьёзных потерь в интеллекте, эта новая модель станет выгодным выбором.

Новые возможности Claude 3.5 Sonnet: работа с компьютером как человек

Прорыв в программировании: лидерство среди моделей

Claude 3.5 Haiku: идеальный баланс скорости и интеллекта

Поиск статей

Популярные Статьи

Несколько лучших подсказок (Prompt) для ChatGPT: способы использования, которые реально повышают эффективность в 10 раз

Claude Code при установке постоянно выдаёт ошибки: пошагово решаем проблему с настройкой за три шага

Чек-лист отладки и KISS‑приёмы для промптов, когда ChatGPT / Claude / Gemini / Midjourney дают сбой

Эффективный рабочий процесс связки ChatGPT + Claude + Gemini с Midjourney: решаем проблему разрозненного стиля и «краха» при правках

Сборник кодов ошибок Spotify и руководство по их устранению