В последнее время фокус обновлений ChatGPT предельно ясен: превратить «умеет говорить» в «умеет слушать, видеть и обрабатывать файлы». От более естественного голосового диалога до более удобного доступа с рабочего стола и прямой передачи файлов из облака — сценарии использования ChatGPT становятся ближе к повседневным рабочим процессам.
Голосовой режим больше похож на реальный разговор: быстрее, стабильнее и с более тонкими эмоциональными нюансами
OpenAI уже начал постепенно открывать для части пользователей более продвинутый голосовой режим, делая голосовые ответы ChatGPT более реалистичными и уделяя больше внимания темпу и паузам. Это можно воспринимать как «устное обсуждение»: удобно, чтобы подвести итоги на ходу, наметить план во время вождения или быстро смоделировать вопросы и ответы перед встречей. Для тех, кому нужна межъязыковая коммуникация, ChatGPT в сочетании с возможностями мгновенного перевода ещё ближе к опыту «переводчика под рукой».
От текста к аудио и видео: мультимодальные возможности ChatGPT стали практичнее
Следуя мультимодальному курсу GPT-4o, ChatGPT больше не ограничивается обработкой текста, а объединяет понимание текста, изображений и аудио в рамках одного диалога. Вы можете загрузить изображение, чтобы ChatGPT объяснил содержание и помог описать сцену, или просто озвучить запрос и затем сгенерировать текстовый план. Официально также упоминалось, что будут продвигаться возможности, связанные с видео, однако в целом доступ будет открываться поэтапно — надёжнее пользоваться, когда соответствующий пункт появится в интерфейсе.


