Recientemente, si has abierto ChatGPT, es posible que hayas notado algunas diferencias. Esto se debe al nuevo modelo omnisciente GPT-4o de OpenAI. La "o" significa "omni" (omnisciente), lo que indica que ya no se limita a procesar texto, sino que puede entender y razonar simultáneamente información de audio, visual y textual, generando una verdadera revolución en la interacción.
Del texto a todos los sentidos: el salto en la interacción multimodal
El avance más notable de GPT-4o es su capacidad multimodal. En el pasado, aunque ChatGPT podía "ver" imágenes o "escuchar" voz, el proceso solía estar fragmentado. Ahora, GPT-4o puede integrar esta información sin problemas. Por ejemplo, en la última aplicación de escritorio para Mac, puedes activarlo con un atajo de teclado y hacer preguntas directamente por voz; incluso puede ver el contenido que compartes en pantalla para comprender el contexto de la pregunta. Esta interacción fluida hace que se sienta más como conversar con un compañero inteligente con sentidos integrados, y no solo con un respondedor de texto.
Traducción en tiempo real y conexión global
Las barreras lingüísticas se están rompiendo aún más con GPT-4o. Aunque la función de traducción no es nueva, GPT-4o admite más de 50 idiomas y permite cambios rápidos e interpretación instantánea. Imagina que estás en una videollamada con un amigo extranjero; GPT-4o puede actuar como traductor en tiempo real, haciendo que ambas partes casi no perciban retrasos lingüísticos. Esto no es solo una mejora técnica, sino que reduce el umbral de comunicación intercultural a un nivel sin precedentes, haciendo que el diálogo global sea extremadamente fácil.


