Las capacidades multimodales de ChatGPT se vuelven más prácticas: no solo chatea por texto, sino que también puede ver imágenes, escucharte y responder al instante. Para el uso diario, el valor de esta actualización no está en el bombo, sino en que puedes enviar capturas de pantalla, fotos y necesidades expresadas oralmente directamente a ChatGPT para que las procese.
¿Qué cambió realmente con la actualización multimodal?
Antes, para usar ChatGPT a menudo tenías que "convertir los datos en texto" antes de hacer preguntas; ahora puedes subir imágenes directamente o describir situaciones por voz. Actualizaciones como GPT-4o permiten que ChatGPT cambie entre texto, voz e imágenes de forma más natural, y la interacción se asemeja más a una conversación que a un formulario de preguntas y respuestas.
Este cambio es evidente en el flujo de trabajo: no necesitas organizar primero y luego preguntar; en su lugar, "envías el material primero y luego dejas que ChatGPT te ayude a organizar los puntos clave". Si a menudo manejas gráficos, capturas de pantalla de productos o fotos en sitio, notarás una mejora significativa en la eficiencia.
Capacidad de ChatGPT para ver imágenes: puedes preguntar sobre capturas, menús, gráficos
Después de seleccionar subir imagen en el cuadro de diálogo de ChatGPT, se recomienda que hagas preguntas específicas, como "organiza esta captura de pantalla en tres puntos clave e indica los riesgos". También puedes pedir a ChatGPT que resuma el contenido de la imagen, extraiga texto de la misma o explique tendencias en gráficos, pero es mejor añadir "si no ves claro, dime si necesitas una resolución más alta".
En el uso práctico, las instrucciones más "estructuradas" son más estables: puedes especificar el formato de salida (tabla/lista/pasos), o pedir a ChatGPT que primero repita la información clave que ve en la imagen, antes de comenzar el análisis, para reducir malentendidos.


