ChatGPT a récemment bénéficié d'une importante mise à jour, dont le modèle GPT-4o est la fonctionnalité phare. En tant que modèle multimodal complet, GPT-4o ajoute la conversation vocale en temps réel, l'analyse vidéo et la reconnaissance d'images, transformant radicalement la manière dont les utilisateurs interagissent avec l'IA. Cet article détaille ces nouvelles capacités de ChatGPT pour vous aider à exploiter pleinement ces innovations.
Dialogue multimodal GPT-4o : fusion poussée de la voix et de la vidéo
L'amélioration centrale de GPT-4o réside dans le renforcement de ses capacités de traitement vocal et vidéo. Il ne se limite plus aux échanges textuels : il peut dialoguer en temps réel comme un humain, reconnaître les émotions de l'utilisateur à travers le ton et la respiration (par exemple, détecter si vous venez de faire du sport). Les utilisateurs peuvent également partager leur écran pour que l'IA analyse le contenu affiché en direct, un atout précieux pour le dépannage ou les scénarios pédagogiques. De plus, GPT-4o prend en charge la traduction entre le chinois et l'anglais, avec un rythme et une intonation naturels qui fluidifient les échanges interlinguistiques.
Analyse visuelle intelligente et compréhension d'images
La fonction la plus surprenante des nouvelles capacités de ChatGPT est l'amélioration de la reconnaissance visuelle. En téléchargeant une photo, GPT-4o peut décrire l'environnement, par exemple identifier des instruments de laboratoire et en déduire le contexte professionnel, ce qui est très utile pour les personnes malvoyantes ou dans des contextes éducatifs. Pour la résolution de problèmes mathématiques, le modèle de raisonnement o1 permet de photographier un sujet d'examen : l'IA fournit alors une démarche pas à pas plutôt qu'une réponse directe, particulièrement adaptée aux exercices complexes comme le calcul infinitésimal.
Amélioration des performances et optimisation pour le bureau
OpenAI a amélioré la rapidité et la qualité des réponses de GPT-4o dans cette mise à jour. Le coût des appels API a été réduit jusqu'à 50 %, ce qui est avantageux pour les développeurs et les entreprises. Par ailleurs, l'application ChatGPT pour Mac fait son apparition : grâce au raccourci Option+Space, l'IA est accessible à tout moment, sans passer par un navigateur. Les utilisateurs de la version gratuite peuvent également tester GPT-4o, avec une limite d'utilisation ; au-delà, le service passe automatiquement à GPT-3.5. Ces nouvelles fonctionnalités de ChatGPT méritent d'être testées.