Anthropic이 최근 Claude 3.5 Sonnet에 대한 대규모 업데이트를 단행했습니다. 단순한 개선이 아니라, AI가 직접 컴퓨터를 조작할 수 있는 능력을 갖추게 된 것입니다. 쉽게 말해, Claude가 이제 화면을 보고, 마우스를 움직이며, 타이핑까지 할 수 있습니다. 동시에 새로운 Claude 3.5 Haiku 모델도 번개처럼 빠른 속도로 등장해 여러 벤치마크 테스트에서 뛰어난 성능을 보여주고 있습니다. 이번 업데이트는 개발자와 일반 사용자 모두에게 새로운 가능성을 열어줍니다.
Claude 3.5 Sonnet 새로운 기능: 사람처럼 컴퓨터 사용
이번 업데이트의 핵심은 Claude 3.5 Sonnet에 추가된 컴퓨터 조작 능력입니다. Anthropic은 Claude가 화면의 픽셀 정보를 인식하고 사람처럼 상호작용할 수 있도록 전용 API를 개발했습니다. 개발자는 이 API를 통합해 "브라우저 열기, 이메일 로그인, 메일 보내기" 같은 다단계 작업을 Claude가 수행하도록 할 수 있습니다. OSWorld 벤치마크 테스트에서 Claude 3.5 Sonnet은 스크린샷만으로 14.9%의 점수를 기록해 2위를 크게 앞질렀습니다.
물론 이 기능은 아직 테스트 단계에 있으며, 스크롤이나 드래그 같은 세밀한 조작에서는 개선이 필요합니다. 예를 들어, 긴 시간 화면 녹화 중에 작업이 중단될 수 있습니다. 하지만 Canva, DoorDash를 포함한 여러 기업이 이미 이 Claude 기능을 테스트하며 반복 작업 자동화에 활용하고 있습니다. Replit도 이를 이용해 앱을 자동으로 확인하는 Agent를 구축하고 있습니다.
코딩 성능 도약: 업계 최고 수준의 프로그래밍 능력
컴퓨터 조작 외에도 Claude 3.5 Sonnet의 코딩 능력이 비약적으로 향상되었습니다. SWE-bench Verified 테스트에서 이전 33.4%에서 49.0%로 점수가 상승했으며, 이는 전용 추론 모델을 포함한 많은 공개 모델을 능가하는 결과입니다. GitLab 테스트에서도 새로운 Claude가 지연 시간 증가 없이 DevSecOps 작업에 더 강력한 추론 능력을 제공한다는 점이 확인되었습니다.

