ChatGPT के इस अपडेट का केंद्र GPT-4o है (o=omni, यानी सर्व-समर्थ)। यह टेक्स्ट, वॉयस और विज़ुअल समझ को एक ही रीजनिंग क्षमता में एकीकृत करता है, जिससे ChatGPT सिर्फ “जवाब देने” तक सीमित नहीं रहता, बल्कि “संवाद” और “सहयोग” जैसा अनुभव देता है। नीचे हमने सबसे ध्यान देने लायक नए फीचर्स और उनके व्यावहारिक उपयोग-परिदृश्य आपके लिए व्यवस्थित किए हैं।
GPT-4o में वास्तव में क्या अपग्रेड हुआ: टेक्स्ट असिस्टेंट से सर्व-समर्थ मॉडल तक
GPT-4o के साथ ChatGPT एक साथ टेक्स्ट, ऑडियो और इमेज को समझने और जनरेट करने में सक्षम हो जाता है, और अलग-अलग मोड के बीच बार-बार स्विच करने की जरूरत कम हो जाती है। यूज़र के लिए सबसे स्पष्ट बदलाव यह है: एक ही बातचीत में आप बोलकर, टाइप करके और तस्वीर भेजकर—तीनों तरीकों को मिला सकते हैं, और ChatGPT फिर भी संदर्भ (context) को लगातार बनाए रखता है। पहले जहां अनुभव ज्यादा “प्रश्न-उत्तर” जैसा था, अब फोकस “रियल-टाइम इंटरैक्शन” पर अधिक है।
अधिक नैचुरल वॉयस बातचीत और रियल-टाइम ट्रांसलेशन: बहुभाषी संवाद और सहज
वॉयस बातचीत में ChatGPT का जवाब वास्तविक बातचीत के करीब लगता है: रिद्म अधिक प्राकृतिक है और यह आपके टोन के साथ बेहतर तरीके से चल पाता है। अनुवाद अब सिर्फ वाक्य को दूसरी भाषा में बदलना नहीं है, बल्कि कई भाषाओं के बीच तेज़ी से स्विच करने का समर्थन करता है—यह यात्रा के दौरान रास्ता पूछने, अंतरराष्ट्रीय मीटिंग में तात्कालिक दुभाषिया (interpretation) के लिए, या इंटरव्यू कंटेंट को सुनते-सुनते व्यवस्थित करने के लिए उपयोगी है। बेहतर और स्थिर परिणामों के लिए, शुरुआत में ही ChatGPT को अपनी लक्ष्य भाषा और परिदृश्य स्पष्ट बता देना अच्छा रहता है (जैसे: “और ज्यादा बोलचाल वाली जापानी में मेरे लिए दुभाषिया करो”)।

