Thay đổi mới đáng chú ý nhất của Claude 3.5 Sonnet là khả năng bắt đầu giúp mô hình "hiểu màn hình và điều khiển chuột", chuyển đổi chỉ dẫn ngôn ngữ tự nhiên thành quy trình thao tác máy tính thực tế. Đối với những người cần tự động hóa bảng biểu, nhập liệu trang web hay sắp xếp tài liệu, phạm vi ứng dụng của Claude 3.5 Sonnet được mở rộng rõ rệt.
Khả năng "điều khiển máy tính" của Claude 3.5 Sonnet thực chất là gì?
Claude 3.5 Sonnet bổ sung hướng tiếp cận API liên quan đến điều khiển máy tính dành cho nhà phát triển: đầu tiên là nhận diện giao diện máy tính (ví dụ: ảnh chụp màn hình/trạng thái giao diện), sau đó phân tách yêu cầu của bạn thành các bước có thể thực thi. Nó có thể hoàn thành chuỗi hành động như "mở trình duyệt — điều hướng đến trang — xác định ô nhập liệu — điền biểu mẫu — gửi đi", giúp nhiệm vụ không còn dừng lại ở mức đề xuất bằng văn bản.
Điểm mấu chốt của khả năng này không phải là "biết truy cập web hay không", mà là "biết thao tác theo giao diện hay không". Claude 3.5 Sonnet được thiết kế để có thể liên tục đưa ra lựa chọn và sửa lỗi trong quy trình nhiều bước, phù hợp để giao phó các thao tác lặp lại, vụn vặt và dễ sai cho tự động hóa.
Phù hợp hơn với những tình huống nào: bảng biểu, hệ thống backend, kiểm thử và quy trình lặp
Nếu công việc của bạn thường bị tắc nghẽn ở "sao chép-dán + chuyển đổi qua lại giữa các trang", Claude 3.5 Sonnet sẽ có giá trị hơn: trích xuất trường dữ liệu từ tài liệu cục bộ, điền vào biểu mẫu trực tuyến hoặc bảng tính; nhập thông tin theo đường dẫn cố định trong hệ thống backend; chạy lặp lại một quy trình cho các khách hàng khác nhau hoặc các lô dữ liệu khác nhau.
Đối với nhóm phát triển, Claude 3.5 Sonnet cũng phù hợp hơn để đóng vai trò "người thực thi có công cụ", ví dụ như nhấp theo từng bước trong môi trường kiểm thử, xác minh trạng thái trang, ghi lại kết quả, sau đó viết lại các điểm bất thường thành danh sách.
Lập trình và sử dụng công cụ cũng được tăng cường đồng thời
Bên cạnh khả năng điều khiển máy tính, Claude 3.5 Sonnet cũng được củng cố trong các nhiệm vụ lập trình và sử dụng công cụ, bên phát triển đề cập rằng nó có cải thiện rõ rệt trong các bài đánh giá như HumanEval, SWE-bench Verified. Ảnh hưởng trực quan nhất đối với bạn là: Claude 3.5 Sonnet sẵn sàng hơn trong việc xuất mã có thể chạy theo ràng buộc, tuân thủ định dạng giao diệu tốt hơn, và ít bị lạc hướng hơn trong các yêu cầu nhiều bước.


