В недавнем весеннем обновлении OpenAI представила новую модель под кодовым названием GPT-4o. Буква "o" означает "omni" (универсальный), что указывает на первую в истории интеграцию понимания и генерации текста, аудио и визуальных данных в одной модели. Это обновление — не просто итерация, а значительный скачок в плане плавности и интеллектуальности взаимодействия человека и ИИ, предлагая беспрецедентный опыт для всех пользователей, включая тех, кто пользуется бесплатной версией.
Естественный кросс-модальный диалог
Самый заметный прогресс GPT-4o — в естественности общения. Модель способна отвечать почти с человеческой скоростью, распознавать и имитировать тон и эмоции пользователя. Независимо от того, общаетесь ли вы голосом или текстом, взаимодействие становится больше похожим на разговор с реальным собеседником, а не на холодный обмен сообщениями. Этот прогресс позволяет модели играть более живые роли — например, рассказывать эмоциональные сказки на ночь или выступать в роли внимательного помощника в обучении.
Кроме того, существенно улучшена функция реального времени перевода. Хотя предыдущие версии уже умели переводить, GPT-4o поддерживает быстрый переход между 50 языками, а в сочетании с новыми голосовыми возможностями обеспечивает почти синхронный устный перевод. Это делает кросс-языковое рабочее общение, путешествия или изучение иностранных языков невероятно простыми, фактически стирая языковые барьеры.
«Универсальный репетитор», который видит мир
Сердце «универсальной» модели — её мультимодальные возможности. Теперь вы можете загружать в ChatGPT изображения, документы, таблицы и даже презентации, чтобы модель анализировала контент, суммировала информацию или отвечала на вопросы. Более того, благодаря функции совместного использования экрана, GPT-4o может «видеть» ошибки в коде или сложности с программным обеспечением на вашем экране и давать голосовые или текстовые подсказки в реальном времени, как супер-репетитор, всегда готовый помочь.


