В последнем крупном обновлении ChatGPT появилось множество впечатляющих функций, а запуск модели GPT-4o стал настоящей вехой. Это обновление не только ускорило отклик, но и сделало ИИ более похожим на реального собеседника — от простого текстового диалога до понимания изображений, звуков и эмоций. В этой статье мы подробно разберём эти новые возможности ChatGPT и посмотрим, как они меняют повседневное использование.
Модель GPT-4o: идеальное сочетание универсальности и скорости
Буква «o» в названии GPT-4o означает «omni» (всеобъемлющий). Она объединяет возможности обработки аудио, видео и текста, становясь по-настоящему мультимодальной моделью. По сравнению с предыдущей GPT-4 Turbo, API GPT-4o работает быстрее, а стоимость снижена до 50%. Ответы практически мгновенные — скорость в два раза выше, чем у GPT-4. Пользователи теперь могут наслаждаться более плавным диалогом в ChatGPT без долгого ожидания.
Что особенно радует — GPT-4o способна вести реальный разговор, как человек, и даже распознавать эмоции по тону голоса. Например, по звукам дыхания она может понять, что вы только что занимались спортом, и дать персонализированный ответ. Два экземпляра GPT-4o могут общаться друг с другом, описывать увиденное и даже вместе петь — демонстрируя более сильное взаимодействие между ИИ. Эти новые функции ChatGPT значительно повышают естественность и увлекательность общения.
Мультимодальное взаимодействие и способность распознавать изображения
Одно из ключевых обновлений GPT-4o — улучшенное зрение. Теперь модель может эффективно помогать людям с нарушениями зрения ориентироваться в окружающей среде, например, сообщать направление или подсказывать, как вызвать такси. В демонстрации, просканировав окружение, GPT-4o мгновенно распознавала объекты и предполагала возможные рабочие сценарии — это открывает огромный потенциал в сфере здравоохранения и личных помощников.

