Модель GPT-4o от OpenAI полностью изменила способ взаимодействия человека с искусственным интеллектом. Буква «o» в названии означает «Omni» (всеобъемлющий). Именно это позволяет ChatGPT быть не просто текстовым помощником, а настоящим собеседником, способным слышать, видеть и говорить. На основе личного опыта я расскажу о двух самых полезных функциях: голосовой диалог и демонстрация экрана — и о том, какие проблемы они реально решают.
Естественный голосовой диалог и мгновенный перевод
Больше всего в GPT-4o впечатляет невероятно естественная голосовая связь. Модель распознаёт тон голоса и эмоции, умеет терпеливо ждать, если вы задумались — больше никакой неестественной скованности. Это не просто маркетинг. Обновлённая функция мгновенного перевода поддерживает 50 языков и работает как профессиональный переводчик-синхронист в реальном времени. На зарубежных встречах я не раз выручался с её помощью.
Будь то чтение сказки на ночь ребёнку или роль секретаря на совещании — ChatGPT подстраивает тон голоса и лексику под ваше эмоциональное состояние. Для людей с речевыми трудностями или тех, кому нужна поддержка в общении, такой очеловеченный диалог — то, что было невозможно раньше. Это действительно стирает барьеры.
Демонстрация экрана — ваш личный супер-репетитор
Раньше, если вы застряли при написании текста, кода или монтаже видео, приходилось делать скриншоты или вручную описывать проблему ChatGPT. Теперь достаточно включить демонстрацию экрана — модель считывает содержимое вашего экрана и анализирует именно ту задачу, над которой вы работаете. Я проверил: при написании кода столкнулся с багом, и модель, глядя на мой экран, голосом подсказывала, как его исправить — будто рядом сидел супер-репетитор.


