Anthropic vừa tung bản cập nhật đột phá cho Claude 3.5 Sonnet – giờ đây nó không chỉ biết chat mà còn có thể nhìn màn hình, di chuyển chuột, gõ bàn phím như con người, thực sự giúp bạn thao tác máy tính. Nếu bạn vẫn đang tự tay điền form, copy-paste dữ liệu, bản nâng cấp này có thể thay đổi hoàn toàn cách làm việc của bạn. Cùng xem khả năng "thao tác máy tính" mới này mạnh mẽ đến đâu và nó có thể được áp dụng trong những tình huống nào.
Làm thế nào Claude có thể điều khiển máy tính như con người?
Anthropic đã xây dựng một bộ API đặc biệt cho Claude, giúp nó "cảm nhận" giao diện máy tính – nói đơn giản là xem ảnh chụp màn hình, hiểu vị trí của các nút và ô nhập liệu, sau đó tạo ra các lệnh di chuyển chuột, nhấp chuột, gõ bàn phím. Sau khi tích hợp API này, nhà phát triển có thể yêu cầu Claude thực hiện các tác vụ như: "Mở file Excel trên desktop của tôi, sao chép các số ở cột B vào form web và gửi đi". Claude sẽ từng bước kiểm tra màn hình, di chuyển con trỏ, thao tác trình duyệt – toàn bộ quá trình giống như bạn đang chỉ đạo một thực tập sinh từ xa.
Trong bài kiểm tra OSWorld đánh giá khả năng sử dụng máy tính của mô hình, phiên bản mới Claude 3.5 Sonnet chỉ dựa vào ảnh chụp màn hình đã đạt được 14,9% điểm số, vượt xa mức 7,8% của đối thủ đứng thứ hai là Cradle BAAI. Nếu cho phép nó thực hiện nhiều bước thao tác hơn, điểm số có thể tăng lên 22%. Dù vẫn còn khoảng cách so với mức trên 70% của con người, nhưng đây hiện là AI giỏi nhất trong việc "dùng máy tính".
Khả năng lập trình được cải thiện đáng kể, viết code đáng tin cậy hơn
Ngoài thao tác máy tính, phiên bản mới Claude 3.5 Sonnet cũng có tiến bộ vượt bậc về lập trình. Trên SWE-bench Verified (chuẩn đánh giá khả năng giải quyết vấn đề phần mềm thực tế của AI), điểm số của nó đã tăng từ 40,6% lên 49%, vượt qua tất cả các mô hình công khai khác bao gồm OpenAI o1-preview. GitLab sau khi thử nghiệm phát hiện khả năng suy luận của Claude trong quy trình phát triển phần mềm nhiều bước đã tăng 10% mà không làm tăng độ trễ. Nói cách khác, yêu cầu nó viết một module ứng dụng web hoàn chỉnh hoặc debug logic code phức tạp giờ đây đáng tin cậy hơn trước rất nhiều.

