Мультимодальные возможности ChatGPT становятся всё более «удобными в использовании»: он не только умеет переписываться текстом, но и может смотреть изображения, слушать вашу речь и мгновенно отвечать. Для повседневного применения ценность этого обновления не в эффектности, а в том, что теперь вы можете просто «закинуть» в ChatGPT скриншоты, фотографии или продиктованные запросы — и он сразу их обработает.
Что именно изменилось в мультимодальном обновлении
Раньше, пользуясь ChatGPT, часто приходилось сначала «переводить материалы в текст», чтобы задать вопрос. Теперь же вы можете напрямую загрузить изображение или описать ситуацию голосом. Обновления, представленные, в частности, GPT-4o, сделали переключение ChatGPT между текстом, голосом и изображениями более естественным, а взаимодействие — ближе к живому разговору, а не к анкете из вопросов и ответов.
Эти изменения заметно влияют на рабочий процесс: больше не нужно сначала всё систематизировать, а потом спрашивать; вместо этого можно «сначала закинуть материалы, а затем попросить ChatGPT помочь выделить главное». Если вы часто работаете с диаграммами, скриншотами продуктов или фотографиями с места, рост эффективности будет очень ощутим.
Способность ChatGPT понимать изображения: можно спрашивать про скриншоты, меню и графики
После выбора загрузки изображения в окне диалога ChatGPT рекомендуется задавать конкретный вопрос — например: «Пожалуйста, структурируй этот скриншот в виде трёх ключевых пунктов и укажи риски». Также можно попросить ChatGPT сделать краткое резюме содержимого изображения, извлечь текст с картинки или объяснить тренды на графике, но лучше добавить фразу: «Если плохо видно — скажи, что нужна более высокая чёткость».
На практике чем более «структурированы» инструкции, тем надёжнее результат: можно указать формат вывода (таблица/список/шаги), а также попросить ChatGPT сначала пересказать ключевую информацию, которую он видит на изображении, и лишь затем приступать к анализу — это снижает риск неверной интерпретации.


