Anthropic ने हाल ही में Claude 3.5 Sonnet में एक क्रांतिकारी अपडेट जोड़ा है – यह अब सिर्फ टाइप करके चैट नहीं करता, बल्कि इंसानों की तरह स्क्रीन देख सकता है, माउस घुमा सकता है और कीबोर्ड पर टाइप कर सकता है, और वास्तव में आपके कंप्यूटर को संभाल सकता है। यदि आप अभी भी मैन्युअल रूप से फॉर्म भर रहे हैं या डेटा कॉपी-पेस्ट कर रहे हैं, तो यह अपग्रेड आपके काम करने के तरीके को पूरी तरह बदल सकता है। आइए देखते हैं कि यह नई "कंप्यूटर ऑपरेशन" क्षमता कितनी शक्तिशाली है और यह किन परिदृश्यों में काम आ सकती है।
Claude कैसे इंसानों की तरह कंप्यूटर को नियंत्रित करता है?
Anthropic ने विशेष रूप से Claude के लिए एक API बनाई है जो इसे कंप्यूटर इंटरफ़ेस को "समझने" में सक्षम बनाती है – सीधे शब्दों में कहें तो यह स्क्रीनशॉट देखता है, बटन और इनपुट बॉक्स की स्थिति को समझता है, और फिर सीधे माउस मूवमेंट, क्लिक और टाइपिंग जैसे कमांड जनरेट करता है। डेवलपर्स इस API को जोड़ने के बाद Claude से इस तरह के कार्य करवा सकते हैं: "मेरे डेस्कटॉप पर Excel शीट खोलो, कॉलम B के नंबर वेब फॉर्म में कॉपी करो और फिर सबमिट करो।" Claude चरण दर चरण स्क्रीन की जाँच करता है, कर्सर घुमाता है, ब्राउज़र को ऑपरेट करता है – पूरी प्रक्रिया ऐसी लगती है जैसे आप दूर से किसी इंटर्न को काम पर लगा रहे हों।
AI की कंप्यूटर उपयोग क्षमता का मूल्यांकन करने वाले OSWorld बेंचमार्क में, नए Claude 3.5 Sonnet ने सिर्फ स्क्रीनशॉट के आधार पर 14.9% स्कोर हासिल किया, जो दूसरे स्थान पर रहे Cradle BAAI (7.8%) से काफी बेहतर है। यदि इसे और अधिक ऑपरेशन स्टेप दिए जाएँ, तो इसका स्कोर 22% तक पहुँच सकता है। हालाँकि यह मनुष्यों के 70% से अधिक के स्तर से अभी भी पीछे है, लेकिन यह वर्तमान AI में सबसे अच्छा "कंप्यूटर उपयोगकर्ता" बन गया है।
कोडिंग क्षमता में भारी सुधार, कोड लिखना अधिक विश्वसनीय
कंप्यूटर ऑपरेट करने के अलावा, नए Claude 3.5 Sonnet ने प्रोग्रामिंग में भी उल्लेखनीय प्रगति दिखाई है। SWE-bench Verified (वास्तविक सॉफ़्टवेयर समस्याओं को हल करने की AI की क्षमता मापने वाला बेंचमार्क) पर इसका स्कोर पिछले 40.6% से बढ़कर 49% हो गया, जो OpenAI o1-preview सहित सभी सार्वजनिक मॉडलों से आगे है। GitLab के परीक्षणों में पाया गया कि Claude की मल्टी-स्टेप सॉफ़्टवेयर डेवलपमेंट प्रक्रियाओं में रीज़निंग क्षमता में 10% सुधार हुआ है, और विलंबता में कोई वृद्धि नहीं हुई है। दूसरे शब्दों में, इसे एक पूरा वेब एप्लिकेशन मॉड्यूल लिखने या जटिल कोड लॉजिक को डीबग करने के लिए कहना पहले से कहीं अधिक विश्वसनीय है।

