За последнее время я плотно протестировал обновлённые функции ChatGPT и больше всего впечатлён мультимодальными возможностями GPT-4o. Режим реального голосового диалога, демонстрация экрана для помощи с программированием, новая функция запоминания и управления библиотекой изображений — всё это заметно повысило эффективность ежедневной работы. Делюсь несколькими реальными сценариями, которые оставили яркое впечатление.
Мгновенный устный перевод: языковой барьер исчезает
Раньше для перевода в ChatGPT приходилось вручную копировать текст. Теперь достаточно запустить голосовой диалог — я говорю на русском, а он отвечает на английском, причём почти без задержки. Во время онлайн-совещания с зарубежными коллегами я попробовал использовать ChatGPT как синхронного переводчика. Хотя иногда встречались мелкие неточности, общая плавность оказалась куда лучше, чем я ожидал. Он поддерживает более 50 языков и умеет подстраивать тон под контекст: в официальной обстановке выбирает более сдержанные формулировки, в дружеской беседе — более непринуждённые. Для тех, кто регулярно работает с несколькими языками, это must-have функция.
Демонстрация экрана: «супер-репетитор» для кода и монтажа
Новая версия ChatGPT поддерживает демонстрацию экрана. Если в коде возникает ошибка, достаточно открыть Xcode или VS Code — ИИ считывает содержимое экрана в реальном времени и даёт рекомендации. Я попросил его оптимизировать один скрипт на Python: он одновременно анализировал код и голосом объяснял логику, будто рядом сидел наставник. Аналогично, при монтаже видео, когда тормозил спецэффект, я поделился таймлайном — он сразу указал на плагин, потребляющий слишком много ресурсов. Такое визуально-голосовое взаимодействие гораздо эффективнее, чем скриншоты и набор текста.


