Claude, 이제 컴퓨터를 직접 조종한다? 마우스와 키보드를 움직이는 AI 비서의 등장

Anthropic이 최근 Claude 3.5 Sonnet에 혁신적인 업데이트를 적용했습니다. 이제 AI는 단순히 텍스트로 대화하는 것을 넘어, 사람처럼 화면을 보고 마우스를 움직이며 키보드를 입력해 실제로 컴퓨터를 조작할 수 있습니다. 아직도 수동으로 양식을 채우거나 데이터를 복사·붙여넣기 하고 있다면, 이번 업그레이드는 업무 방식을 근본적으로 바꿔줄 잠재력이 있습니다. 새롭게 추가된 '컴퓨터 조작' 기능이 얼마나 강력한지, 그리고 어떤 상황에서 유용하게 활용될 수 있는지 지금부터 확인해보세요.

Claude는 어떻게 사람처럼 컴퓨터를 조작할까?

Anthropic은 Claude가 컴퓨터 화면을 '인식'할 수 있도록 전용 API를 구축했습니다. 쉽게 말해 스크린샷을 보고 버튼이나 입력 필드의 위치를 파악한 뒤, 마우스 이동, 클릭, 키보드 입력 등의 명령을 직접 생성합니다. 개발자들이 이 API를 연동하면 Claude에게 "내 바탕화면에 있는 Excel 파일을 열고, B열의 숫자를 웹페이지 양식에 복사한 다음 제출해줘" 같은 작업을 요청할 수 있습니다. Claude는 단계별로 화면을 확인하고 커서를 움직이며 브라우저를 조작합니다. 마치 원격으로 인턴에게 업무를 지시하는 것과 비슷한 느낌이죠.

AI의 컴퓨터 사용 능력을 평가하는 OSWorld 벤치마크에서, 새 버전의 Claude 3.5 Sonnet은 스크린샷만으로 14.9%의 점수를 기록했습니다. 이는 2위인 Cradle BAAI의 7.8%를 크게 웃도는 수치입니다. 더 많은 조작 단계를 허용했을 때는 점수가 22%까지 올라갔습니다. 물론 인간의 70% 이상 수준에는 미치지 못하지만, 현재 AI 중에서는 가장 '컴퓨터를 잘 다루는' 모델이라고 할 수 있습니다.

코딩 능력 대폭 향상, 더 신뢰할 수 있는 코드 작성

컴퓨터 조작 능력 외에도, 새 버전의 Claude 3.5 Sonnet은 프로그래밍 분야에서 놀라운 발전을 보였습니다. SWE-bench Verified(실제 소프트웨어 문제 해결 능력을 측정하는 벤치마크)에서 이전 40.6%에서 49%로 점수가 급등하며, OpenAI o1-preview 등 모든 공개 모델을 넘어섰습니다. GitLab의 테스트 결과, Claude는 다단계 소프트웨어 개발 프로세스에서 추론 능력이 10% 향상되었고, 지연 시간은 증가하지 않았습니다. 즉, 완전한 웹 애플리케이션 모듈을 작성하거나 복잡한 코드 로직을 디버깅하는 작업이 이전보다 훨씬 더 신뢰할 수 있게 되었습니다.

속도에 대한 요구가 더 높다면, Anthropic은 차세대 Claude 3.5 Haiku도 함께 공개했습니다. 이전 세대 Haiku와 동일한 가격·비슷한 속도를 유지하면서도, 지능 수준은 기존의 상위 모델인 Claude 3 Opus를 능가합니다. 특히 코딩 작업에서 Haiku는 SWE-bench Verified에서 40.6%를 기록하며 초기 Claude 3.5 Sonnet과 GPT-4보다 뛰어난 성능을 보여줍니다. 자동화 테스트, 로그 분석, 코드 자동 완성 등 빠른 반복과 잦은 호출이 필요한 작업에 적합합니다.

개발자는 어떻게 이 새로운 기능을 사용할 수 있을까?

업그레이드된 Claude 3.5 Sonnet은 이미 모든 사용자에게 공개되었습니다. 개발자는 Anthropic API, Amazon Bedrock, Google Cloud의 Vertex AI를 통해 컴퓨터 조작 기능(베타 버전)을 호출할 수 있습니다. 다만 이 기능은 아직 완벽하다고 보기 어렵습니다. 스크롤, 드래그 앤 드롭, 확대/축소 같은 인간에게는 간단한 작업에서 Claude는 자주 실수를 하며, 장시간 화면 녹화로 인해 작업이 중단되기도 합니다. 그럼에도 Asana, Canva, Replit 같은 기업들은 이미 이 기능을 사용해 반복적인 업무를 자동화하고 있습니다. 예를 들어 자동 양식 작성, 앱 화면 동작 점검 등에 활용 중입니다. Claude 3.5 Haiku는 이달 말에 출시될 예정이며, 초기에는 텍스트만 지원하고 추후 이미지 입력이 추가될 예정입니다.

개발자이거나 양식 작성, 데이터 이동 같은 지루한 작업에 지친 분이라면 Claude에게 마우스 클릭을 맡겨보는 것도 좋은 방법입니다. 아직은 서툰 신입 같지만, 그 발전 속도는 이미 주목할 만한 수준입니다.

Claude는 어떻게 사람처럼 컴퓨터를 조작할까?

코딩 능력 대폭 향상, 더 신뢰할 수 있는 코드 작성

개발자는 어떻게 이 새로운 기능을 사용할 수 있을까?

기사 검색

인기 기사

ChatGPT를 가장 잘 활용할 수 있는 몇 가지 프롬프트(Prompt) — 효율을 진짜 10배 올리는 사용법

Claude Code 설치가 계속 오류 나나요? 3단계로 설정 문제를 끝내는 단계별 가이드

ChatGPT Claude Gemini Midjourney 출력이 망했을 때의 트러블슈팅 체크리스트와 프롬프트 KISS 팁

ChatGPT, Claude, Gemini와 Midjourney를 효율적으로 연동하는 워크플로: 출력 불일치와 개고 고충 해결

ChatGPT와 Claude 답변 불일치 문제 해결: AI를 정확히 이해시키는 3가지 질문 기술