Recientemente, el enfoque de las actualizaciones de ChatGPT ha sido claro: transformar la capacidad de "chatear" en escuchar, ver y procesar archivos. Desde diálogos de voz más naturales, hasta entradas de escritorio más convenientes y la carga directa de archivos desde la nube, los casos de uso de ChatGPT se están acercando más al flujo de trabajo diario.
El modo de voz se asemeja más a una conversación real: más rápido, estable y con detalles emocionales
OpenAI ha comenzado a liberar gradualmente un modo de voz más avanzado a algunos usuarios, haciendo que las respuestas de voz de ChatGPT sean más realistas y prestando más atención al ritmo y las pausas. Puedes considerarlo como una discusión oral, adecuada para repasar mientras caminas, hacer esquemas mientras conduces o simular preguntas y respuestas rápidamente antes de una reunión. Para quienes necesitan comunicación en múltiples idiomas, ChatGPT combinado con la capacidad de traducción instantánea, también se acerca más a la experiencia de un intérprete portátil.
De texto a audio y video: Las capacidades multimodales de ChatGPT son más prácticas
Basado en el enfoque multimodal de GPT-4o, ChatGPT ya no solo procesa texto, sino que integra la comprensión de texto, imágenes y audio en el mismo diálogo. Puedes subir imágenes para que ChatGPT explique el contenido, ayude a describir escenas, o expresar tus necesidades directamente por voz y luego generar un plan en texto. OpenAI también ha mencionado públicamente que avanzará en capacidades relacionadas con video, pero en general, la liberación se realiza por etapas, por lo que es más seguro usarlo cuando veas la entrada disponible.


