ChatGPT की मल्टीमोडल क्षमताएं अब और सुविधाजनक हो रही हैं: यह सिर्फ टाइप करके चैट नहीं करता, बल्कि छवियों को देख सकता है, आपकी आवाज सुन सकता है और तुरंत जवाब दे सकता है। दैनिक उपयोग के लिए, इस अपग्रेड का मूल्य दिखावे में नहीं है, बल्कि इस तथ्य में है कि आप स्क्रीनशॉट, फोटो, और मौखिक आवश्यकताओं को सीधे ChatGPT को संसाधित करने के लिए दे सकते हैं।
मल्टीमोडल अपग्रेड ने वास्तव में क्या बदला
पहले ChatGPT का उपयोग करने के लिए अक्सर डेटा को "टेक्स्ट में बदलना" पड़ता था तब जाकर प्रश्न पूछे जा सकते थे, अब आप सीधे छवि अपलोड कर सकते हैं या आवाज के माध्यम से स्थिति का वर्णन कर सकते हैं। GPT-4o जैसे अपडेट के साथ, ChatGPT टेक्स्ट, आवाज और इमेज के बीच अधिक स्वाभाविक रूप से स्विच कर सकता है, और इंटरैक्शन अब प्रश्नोत्तर फॉर्म के बजाय वार्ता के करीब है।
यह परिवर्तन वर्कफ़्लो के लिए स्पष्ट है: आपको पहले सामग्री को व्यवस्थित करने की आवश्यकता नहीं है, फिर प्रश्न पूछें; बल्कि "पहले सामग्री दें, फिर ChatGPT को आपके लिए मुख्य बिंदुओं को व्यवस्थित करने दें"। यदि आप नियमित रूप से चार्ट, उत्पाद स्क्रीनशॉट या साइट फोटो का प्रबंधन करते हैं, तो दक्षता में वृद्धि स्पष्ट रूप से महसूस होगी।
ChatGPT की छवि देखने की क्षमता: स्क्रीनशॉट, मेनू, चार्ट, सभी पूछे जा सकते हैं
ChatGPT डायलॉग बॉक्स में छवि अपलोड करने के बाद, सलाह है कि आप प्रश्न को विशिष्ट रखें, उदाहरण के लिए "कृपया इस स्क्रीनशॉट को तीन मुख्य बिंदुओं में व्यवस्थित करें, और जोखिमों की ओर इशारा करें"। आप ChatGPT से छवि सामग्री का सारांश बनाने, छवि में टेक्स्ट निकालने, या चार्ट ट्रेंड की व्याख्या करने के लिए भी कह सकते हैं, लेकिन बेहतर होगा कि आप एक वाक्य जोड़ें "यदि स्पष्ट नहीं दिख रहा है तो कृपया मुझे बताएं कि उच्च रेजोल्यूशन की आवश्यकता है"।
वास्तविक उपयोग में, जितना अधिक "संरचित" निर्देश होगा, उतना ही स्थिर परिणाम मिलेगा: आप आउटपुट फॉर्मेट (टेबल/सूची/चरण) निर्दिष्ट कर सकते हैं, या ChatGPT से पहले छवि में देखी गई महत्वपूर्ण जानकारी को दोहराने के लिए कह सकते हैं, फिर विश्लेषण शुरू कर सकते हैं, ताकि गलत व्याख्या कम हो।


