Anthropic이 최근 Claude 3.5 Sonnet에 혁신적인 업데이트를 적용했습니다. 이제 AI는 단순히 텍스트로 대화하는 것을 넘어, 사람처럼 화면을 보고 마우스를 움직이며 키보드를 입력해 실제로 컴퓨터를 조작할 수 있습니다. 아직도 수동으로 양식을 채우거나 데이터를 복사·붙여넣기 하고 있다면, 이번 업그레이드는 업무 방식을 근본적으로 바꿔줄 잠재력이 있습니다. 새롭게 추가된 '컴퓨터 조작' 기능이 얼마나 강력한지, 그리고 어떤 상황에서 유용하게 활용될 수 있는지 지금부터 확인해보세요.
Claude는 어떻게 사람처럼 컴퓨터를 조작할까?
Anthropic은 Claude가 컴퓨터 화면을 '인식'할 수 있도록 전용 API를 구축했습니다. 쉽게 말해 스크린샷을 보고 버튼이나 입력 필드의 위치를 파악한 뒤, 마우스 이동, 클릭, 키보드 입력 등의 명령을 직접 생성합니다. 개발자들이 이 API를 연동하면 Claude에게 "내 바탕화면에 있는 Excel 파일을 열고, B열의 숫자를 웹페이지 양식에 복사한 다음 제출해줘" 같은 작업을 요청할 수 있습니다. Claude는 단계별로 화면을 확인하고 커서를 움직이며 브라우저를 조작합니다. 마치 원격으로 인턴에게 업무를 지시하는 것과 비슷한 느낌이죠.
AI의 컴퓨터 사용 능력을 평가하는 OSWorld 벤치마크에서, 새 버전의 Claude 3.5 Sonnet은 스크린샷만으로 14.9%의 점수를 기록했습니다. 이는 2위인 Cradle BAAI의 7.8%를 크게 웃도는 수치입니다. 더 많은 조작 단계를 허용했을 때는 점수가 22%까지 올라갔습니다. 물론 인간의 70% 이상 수준에는 미치지 못하지만, 현재 AI 중에서는 가장 '컴퓨터를 잘 다루는' 모델이라고 할 수 있습니다.
코딩 능력 대폭 향상, 더 신뢰할 수 있는 코드 작성
컴퓨터 조작 능력 외에도, 새 버전의 Claude 3.5 Sonnet은 프로그래밍 분야에서 놀라운 발전을 보였습니다. SWE-bench Verified(실제 소프트웨어 문제 해결 능력을 측정하는 벤치마크)에서 이전 40.6%에서 49%로 점수가 급등하며, OpenAI o1-preview 등 모든 공개 모델을 넘어섰습니다. GitLab의 테스트 결과, Claude는 다단계 소프트웨어 개발 프로세스에서 추론 능력이 10% 향상되었고, 지연 시간은 증가하지 않았습니다. 즉, 완전한 웹 애플리케이션 모듈을 작성하거나 복잡한 코드 로직을 디버깅하는 작업이 이전보다 훨씬 더 신뢰할 수 있게 되었습니다.

