Claude는 최근 '화면을 보고, 마우스를 클릭하는' 능력을 크게 향상시켰습니다. 단순히 질문에 답변하는 것을 넘어서, 컴퓨터 인터페이스를 직접 조작하여 작업을 완료하려 시도합니다. 이 글은 보다 실용적인 관점에서 Claude의 컴퓨터 조작 능력이 무엇인지, 어떤 작업에 적합한지, 그리고 실제 적용 시 주의해야 할 점을 설명합니다.
Claude 컴퓨터 조작 능력의 새로운 점은 무엇인가
공개 보도에 따르면, Anthropic는 Claude 3.5 Sonnet에 모델이 "컴퓨터 인터페이스를 인지하고 상호작용할 수 있도록" 하는 API 접근 방식을 제공했습니다. Claude는 스크린샷을 읽고 현재 인터페이스 상태를 추론한 후, 목표를 연속적인 동작으로 분해하여 실행할 수 있습니다.
이를 "이미지 이해 + 다단계 조작"의 조합으로 이해할 수 있습니다. Claude는 먼저 스크린샷에 어떤 창, 버튼, 표가 있는지 이해한 후, 다음으로 어디를 클릭하고, 무엇을 입력하며, 어떻게 페이지를 이동할지 결정합니다.
어떤 작업을 Claude에 직접 맡기기에 적합한가
가장 적합한 작업은 규칙이 명확하고 단계가 반복적이지만, 수작업으로는 시간이 많이 소요되는 컴퓨터 프로세스입니다. 예를 들어: 브라우저를 열어 자료를 검색하고, 결과를 표로 정리하며, 백엔드 시스템에서 필드별로 데이터를 입력하는 작업입니다.
"답변만 주지 말고, 이 프로세스까지 실행해 달라"고 요구할 때 Claude의 가치가 나타납니다. Claude는 동일한 작업 컨텍스트 내에서 계획을 세우고, 실행하며, 수정할 수 있어, 여러 도구 간에 복사하여 붙여넣는 번거로움을 줄여줍니다.


