Chrome Gemini में नया स्क्रीन चयन टूल, 3.5 Flash को मिली कंप्यूटर संचालन क्षमता

Google अपने Chrome ब्राउज़र में Gemini असिस्टेंट के लिए "स्क्रीन से चुनें" (Select from screen) नामक एक नया टूल ला रहा है। यह सुविधा उपयोगकर्ताओं को वर्तमान टैब में किसी भी टेक्स्ट या इमेज को तुरंत अपने संवाद प्रॉम्प्ट में जोड़ने की अनुमति देती है। उपयोगकर्ता को बस वर्तमान टैब को हाइलाइट करना होता है, "स्क्रीन से चुनें" विकल्प चुनना होता है और लक्ष्य सामग्री को बॉक्स में चुनना होता है, जिसके बाद Gemini स्वचालित रूप से चयनित छवि या टेक्स्ट को इनपुट बॉक्स में भर देता है। वर्तमान में, यह सुविधा Chrome 149 संस्करण के साथ धीरे-धीरे रोल आउट हो रही है। यदि तुरंत दिखाई न दे, तो ब्राउज़र को पुनः आरंभ करें। यह अपडेट विज़ुअल क्वेरी प्रक्रिया को काफी सरल बनाता है, जिससे उपयोगकर्ताओं को मैन्युअल रूप से स्क्रीनशॉट लेने या कॉपी-पेस्ट करने की आवश्यकता नहीं होती, और AI वर्तमान ब्राउज़िंग पेज के विशिष्ट तत्वों को समझ सकता है।

इसके साथ ही, Google ने यह भी घोषणा की है कि Gemini 3.5 Flash मॉडल अब कंप्यूटर उपयोग (computer use) टूल के साथ शामिल है। डेवलपर्स सीधे Gemini API में इस क्षमता को कॉल कर सकते हैं, जिससे मॉडल मानव-समान इंटरफ़ेस संचालन का अनुकरण कर सकता है, जैसे कि ऐप इंटरफ़ेस को ब्राउज़ करना और विश्लेषण कार्य करना। आधिकारिक उदाहरण में, 3.5 Flash ने इस टूल का उपयोग करके "Gemini ऐप का विश्लेषण किया और श्रेणी के अनुसार व्यवस्थित फीचर्स की सूची लौटाई"। इसका अर्थ है कि मॉडल अब केवल टेक्स्ट समझने तक सीमित नहीं है, बल्कि मानव की तरह ग्राफिकल इंटरफ़ेस को "देख" और "संचालित" कर सकता है, जो स्वचालित परीक्षण, स्मार्ट असिस्टेंट आदि परिदृश्यों के लिए नई संभावनाएं खोलता है। Gemini 3.5 Flash की कंप्यूटर उपयोग सुविधा आज से Gemini API में उपलब्ध है।

"स्क्रीन से चुनें" से लेकर "कंप्यूटर उपयोग" तक, Google AI को "संवाद साथी" से "स्क्रीन-नेटिव" एजेंट में अपग्रेड कर रहा है। पहला सामान्य उपयोगकर्ताओं के लिए AI के साथ इंटरैक्शन की कठिनाई को कम करता है, जबकि दूसरा डेवलपर्स के लिए जटिल ग्राफिकल इंटरफ़ेस को स्वचालित करने का नया द्वार खोलता है। Chrome ब्राउज़र और Gemini मॉडल के गहन एकीकरण के साथ, भविष्य में AI मानव की तरह वेब पेज ब्राउज़ कर सकता है, फॉर्म भर सकता है या यहां तक कि बहु-चरणीय कार्य भी कर सकता है—यह सार्वभौमिक डिजिटल असिस्टेंट की ओर एक महत्वपूर्ण कदम हो सकता है। हालांकि, स्वचालन दक्षता और उपयोगकर्ता गोपनीयता के बीच संतुलन कैसे बनाया जाए, यह एक मुख्य मुद्दा बना हुआ है जिस पर निरंतर ध्यान देने की आवश्यकता है।

लेख खोजें

लोकप्रिय लेख

ChatGPT के सबसे उपयोगी कुछ प्रॉम्प्ट (Prompt): ऐसे तरीके जो सच में दक्षता 10 गुना बढ़ा दें

Claude Code की इंस्टॉलेशन हमेशा त्रुटि देती है: तीन चरणों में कॉन्फ़िगरेशन की समस्या हाथों-हाथ हल करें

ChatGPT Claude Gemini Midjourney के आउटपुट के “फेल” होने पर ट्रबलशूटिंग चेकलिस्ट और प्रॉम्प्ट के KISS टिप्स

ChatGPT Claude Gemini加Midjourney联动的高效工作流解决输出不统一和改稿崩溃

Spotify प्लेबैक त्रुटि कोड: समस्या निवारण गाइड