इस बार Claude 3.5 Sonnet में सबसे ज़्यादा ध्यान देने लायक नया बदलाव यह है कि मॉडल को “स्क्रीन समझने और माउस चलाने” की दिशा में बढ़ाया गया है, यानी प्राकृतिक भाषा निर्देशों को वास्तविक कंप्यूटर ऑपरेशन वर्कफ़्लो में बदला जा सकता है। जिन लोगों को स्प्रेडशीट ऑटोमेशन, वेब डेटा एंट्री, और सामग्री/डेटा व्यवस्थित करने की ज़रूरत होती है, उनके लिए Claude 3.5 Sonnet की उपयोग-सीमा स्पष्ट रूप से बढ़ गई है।
Claude 3.5 Sonnet की “कंप्यूटर चलाने की क्षमता” आखिर है क्या
Claude 3.5 Sonnet में डेवलपर्स के लिए कंप्यूटर ऑपरेशन से जुड़ी API-आधारित सोच जोड़ी गई है: पहले कंप्यूटर इंटरफ़ेस को महसूस/समझना (जैसे स्क्रीनशॉट/इंटरफ़ेस स्टेट), फिर आपकी मांग को ऐसे कदमों में तोड़ना जिन्हें निष्पादित किया जा सके। यह “ब्राउज़र खोलें—पेज पर जाएँ—इनपुट बॉक्स ढूँढें—फ़ॉर्म भरें—सबमिट करें” जैसी एंड-टू-एंड कड़ी को चरण-दर-चरण पूरा कर सकता है, ताकि काम सिर्फ़ टेक्स्ट सुझावों तक सीमित न रहे।
इस क्षमता का मूल “इंटरनेट चलाना आता है या नहीं” नहीं, बल्कि “इंटरफ़ेस के अनुसार काम करना आता है या नहीं” है। Claude 3.5 Sonnet को इस तरह डिज़ाइन किया गया है कि वह बहु-चरणीय प्रक्रियाओं में लगातार निर्णय ले सके और गलतियों को सुधार सके, इसलिए बार-बार होने वाले, बिखरे हुए और गलती-प्रवण काम ऑटोमेशन को सौंपने के लिए उपयुक्त है।
किन परिदृश्यों के लिए अधिक उपयुक्त: स्प्रेडशीट, बैकएंड, टेस्टिंग और दोहराए जाने वाले वर्कफ़्लो
अगर आपका काम अक्सर “कॉपी-पेस्ट + बार-बार पेज बदलने” में अटकता है, तो Claude 3.5 Sonnet अधिक मूल्यवान होगा: स्थानीय सामग्री से फ़ील्ड निकालकर ऑनलाइन फ़ॉर्म या स्प्रेडशीट में भरना; बैकएंड सिस्टम में तय पाथ के अनुसार जानकारी दर्ज करना; एक ही प्रक्रिया को अलग-अलग ग्राहकों या अलग-अलग डेटा बैच के लिए बार-बार चलाना।
डेवलपमेंट टीमों के लिए भी Claude 3.5 Sonnet “टूल्स के साथ निष्पादक” के रूप में अधिक उपयुक्त है—उदाहरण के लिए टेस्ट एनवायरनमेंट में चरण-दर-चरण क्लिक करना, पेज की स्थिति सत्यापित करना, परिणाम रिकॉर्ड करना, और फिर असामान्य बिंदुओं को सूची के रूप में वापस लिखना।
प्रोग्रामिंग और टूल उपयोग भी साथ-साथ मजबूत
कंप्यूटर ऑपरेट करने के अलावा, Claude 3.5 Sonnet ने प्रोग्रामिंग और टूल-उपयोग वाले कार्यों में भी सुधार किया है। आधिकारिक तौर पर कहा गया है कि HumanEval, SWE-bench Verified जैसी बेंचमार्क परीक्षाओं में इसमें स्पष्ट बढ़त दिखी है। आपके लिए सबसे प्रत्यक्ष असर यह है: Claude 3.5 Sonnet प्रतिबंधों/कंस्ट्रेंट्स के अनुसार चलने वाला रन करने योग्य कोड देने के लिए अधिक तैयार रहता है, इंटरफ़ेस फ़ॉर्मैट का बेहतर पालन करता है, और बहु-चरणीय आवश्यकताओं में भटकने की संभावना कम होती है।
