Tính năng mới của Claude: AI có thể điều khiển chuột và bàn phím máy tính như người thật

Anthropic vừa tung bản cập nhật đột phá cho Claude 3.5 Sonnet – giờ đây nó không chỉ biết chat mà còn có thể nhìn màn hình, di chuyển chuột, gõ bàn phím như con người, thực sự giúp bạn thao tác máy tính. Nếu bạn vẫn đang tự tay điền form, copy-paste dữ liệu, bản nâng cấp này có thể thay đổi hoàn toàn cách làm việc của bạn. Cùng xem khả năng "thao tác máy tính" mới này mạnh mẽ đến đâu và nó có thể được áp dụng trong những tình huống nào.

Làm thế nào Claude có thể điều khiển máy tính như con người?

Anthropic đã xây dựng một bộ API đặc biệt cho Claude, giúp nó "cảm nhận" giao diện máy tính – nói đơn giản là xem ảnh chụp màn hình, hiểu vị trí của các nút và ô nhập liệu, sau đó tạo ra các lệnh di chuyển chuột, nhấp chuột, gõ bàn phím. Sau khi tích hợp API này, nhà phát triển có thể yêu cầu Claude thực hiện các tác vụ như: "Mở file Excel trên desktop của tôi, sao chép các số ở cột B vào form web và gửi đi". Claude sẽ từng bước kiểm tra màn hình, di chuyển con trỏ, thao tác trình duyệt – toàn bộ quá trình giống như bạn đang chỉ đạo một thực tập sinh từ xa.

Trong bài kiểm tra OSWorld đánh giá khả năng sử dụng máy tính của mô hình, phiên bản mới Claude 3.5 Sonnet chỉ dựa vào ảnh chụp màn hình đã đạt được 14,9% điểm số, vượt xa mức 7,8% của đối thủ đứng thứ hai là Cradle BAAI. Nếu cho phép nó thực hiện nhiều bước thao tác hơn, điểm số có thể tăng lên 22%. Dù vẫn còn khoảng cách so với mức trên 70% của con người, nhưng đây hiện là AI giỏi nhất trong việc "dùng máy tính".

Khả năng lập trình được cải thiện đáng kể, viết code đáng tin cậy hơn

Ngoài thao tác máy tính, phiên bản mới Claude 3.5 Sonnet cũng có tiến bộ vượt bậc về lập trình. Trên SWE-bench Verified (chuẩn đánh giá khả năng giải quyết vấn đề phần mềm thực tế của AI), điểm số của nó đã tăng từ 40,6% lên 49%, vượt qua tất cả các mô hình công khai khác bao gồm OpenAI o1-preview. GitLab sau khi thử nghiệm phát hiện khả năng suy luận của Claude trong quy trình phát triển phần mềm nhiều bước đã tăng 10% mà không làm tăng độ trễ. Nói cách khác, yêu cầu nó viết một module ứng dụng web hoàn chỉnh hoặc debug logic code phức tạp giờ đây đáng tin cậy hơn trước rất nhiều.

Nếu bạn có yêu cầu cao hơn về tốc độ, Anthropic cũng chuẩn bị thế hệ mới Claude 3.5 Haiku – nó có giá giống như Haiku thế hệ trước, tốc độ tương tự, nhưng mức độ thông minh thậm chí vượt qua cả "đàn anh" Claude 3 Opus. Đặc biệt trong các tác vụ lập trình, Haiku đạt 40,6% trên SWE-bench Verified, cao hơn cả Claude 3.5 Sonnet ban đầu và GPT-4. Phù hợp với các tình huống cần lặp lại nhanh, gọi API thường xuyên như kiểm thử tự động, phân tích log hoặc gợi ý code.

Nhà phát triển có thể sử dụng các khả năng mới này như thế nào?

Phiên bản nâng cấp Claude 3.5 Sonnet đã được mở cho tất cả người dùng. Nhà phát triển có thể gọi tính năng thao tác máy tính thông qua Anthropic API, Amazon Bedrock và Vertex AI của Google Cloud (lưu ý đây là phiên bản thử nghiệm). Tuy nhiên, tính năng này hiện còn xa mới hoàn hảo – những thao tác cuộn trang, kéo thả, phóng to/thu nhỏ mà con người thấy đơn giản, Claude thường xuyên gặp lỗi, đôi khi còn bị gián đoạn tác vụ do ghi màn hình kéo dài. Nhưng các công ty như Asana, Canva, Replit đã bắt đầu sử dụng nó để tự động hóa các quy trình lặp lại, chẳng hạn như tự động điền form, kiểm tra giao diện ứng dụng. Claude 3.5 Haiku dự kiến ra mắt vào cuối tháng, ban đầu chỉ hỗ trợ văn bản, sau đó sẽ bổ sung đầu vào hình ảnh.

Nếu bạn là nhà phát triển, hoặc thường xuyên bị hành hạ bởi những việc nhàm chán như điền form, sao chép dữ liệu, hãy thử để Claude giúp bạn nhấp chuột. Dù hiện tại nó vẫn như một người mới lóng ngóng, nhưng tốc độ tiến bộ đã khiến ai cũng phải chú ý.

Làm thế nào Claude có thể điều khiển máy tính như con người?

Khả năng lập trình được cải thiện đáng kể, viết code đáng tin cậy hơn

Nhà phát triển có thể sử dụng các khả năng mới này như thế nào?

Tìm kiếm bài viết

Bài viết phổ biến

Các Prompt ChatGPT Tốt Nhất: Cách Dùng Để Tăng Hiệu Suất Gấp 10 Lần