Anthropic ने हाल ही में Claude 3.5 Sonnet में एक बड़ा अपडेट किया है, जो कोई मामूली सुधार नहीं है, बल्कि AI को सीधे कंप्यूटर संचालित करने की क्षमता प्रदान करता है। सीधे शब्दों में कहें तो, अब Claude आपकी स्क्रीन देख सकता है, माउस घुमा सकता है, और यहाँ तक कि टाइप भी कर सकता है। साथ ही, बिल्कुल नया Claude 3.5 Haiku मॉडल बिजली की गति से आया है, जिसने कई बेंचमार्क परीक्षणों में शानदार प्रदर्शन किया है। यह अपडेट डेवलपर्स और आम उपयोगकर्ताओं दोनों के लिए नई संभावनाओं के द्वार खोलता है।
Claude 3.5 Sonnet की नई विशेषता: कंप्यूटर को इंसानों की तरह इस्तेमाल करना
इस अपडेट का मुख्य आकर्षण Claude 3.5 Sonnet में जोड़ी गई कंप्यूटर संचालन क्षमता है। Anthropic ने एक विशेष API बनाया है जो Claude को स्क्रीन इंटरफेस के पिक्सेल जानकारी को देखने और इंसानों की तरह उससे इंटरैक्ट करने में सक्षम बनाता है। डेवलपर्स इस API को एकीकृत करके Claude को ऐसे मल्टी-स्टेप कार्य करने का निर्देश दे सकते हैं जैसे "ब्राउज़र खोलें, ईमेल में लॉगिन करें, ईमेल भेजें"। OSWorld बेंचमार्क में, Claude 3.5 Sonnet ने केवल स्क्रीनशॉट के आधार पर 14.9% स्कोर प्राप्त किया, जो दूसरे स्थान से कहीं अधिक है।
बेशक, यह सुविधा अभी परीक्षण चरण में है, और Claude को स्क्रॉलिंग, ड्रैग-एंड-ड्रॉप जैसी सूक्ष्म क्रियाओं में अभी और सुधार की आवश्यकता है। उदाहरण के लिए, यह लंबे समय तक स्क्रीन रिकॉर्डिंग के दौरान कार्य को बीच में रोक सकता है। लेकिन Canva, DoorDash सहित कई कंपनियों ने इस Claude फीचर का परीक्षण शुरू कर दिया है, ताकि दोहराए जाने वाले कार्य वर्कफ़्लो को स्वचालित किया जा सके। उदाहरण के लिए, Replit इसका उपयोग ऐसे एजेंट बनाने के लिए कर रहा है जो स्वचालित रूप से ऐप्स की जाँच कर सकते हैं।
कोडिंग प्रदर्शन में छलांग: प्रोग्रामिंग क्षमता उद्योग में अग्रणी
कंप्यूटर संचालन के अलावा, Claude 3.5 Sonnet की कोडिंग क्षमता में भी गुणात्मक उछाल आया है। SWE-bench Verified परीक्षण में इसका स्कोर पिछले 33.4% से बढ़कर 49.0% हो गया, जो कई सार्वजनिक मॉडलों को पीछे छोड़ देता है, जिसमें कुछ विशेष रीजनिंग मॉडल भी शामिल हैं। GitLab के परीक्षणों से पता चला है कि नया Claude, बिना विलंब बढ़ाए, DevSecOps कार्यों के लिए बेहतर रीजनिंग क्षमता प्रदान करता है।

