Claude의 이번 업데이트에서 가장 실용적인 변화는 '이미지 분석', '코드 작성', '다단계 실행' 기능을 더욱 매끄럽게 만든 것입니다. 일상 사용자에게 Claude는 단순히 질문에 답변하는 것을 넘어서, 작업을 함께 완수하는 조력자 역할을 합니다. 아래에서는 각 기능을 나누어 자세히 설명하므로, 바로 활용할 수 있습니다.
Claude 이미지 이해 기능 업그레이드: 보고 이해하며 '핵심을 짚어줌'
Claude의 이미지 이해 기능은 단순히 장면을 설명하는 것이 아니라 '이미지를 읽어 작업 수행'에 중점을 둡니다. 스크린샷, 표 사진 또는 제품 페이지를 Claude에 제공하면, 먼저 구조(제목, 필드, 버튼, 핵심 숫자)를 파악한 후, 사용자의 목표에 맞춰 결과를 정리하여 출력합니다.
실제 사용법은 다음과 같습니다: 먼저 Claude가 인식한 핵심 정보를 재진술하도록 한 후, Claude가 템플릿에 따라 콘텐츠를 생성하게 합니다. 예를 들어 "이 영수증을 비용 보고서로 정리해줘" 또는 "스크린샷에서 표를 추출하고 누락된 열을 채워줘"와 같은 작업입니다. 이러한 작업에서 Claude의 장점은 이미지 정보를 편집 가능한 텍스트 구조로 변환하여 후속 워크플로우에 더 잘 연결할 수 있다는 점입니다.
Claude 컴퓨터 조작 능력: 제안에서 '실행 가능한 단계'로 (API 프리뷰)
Anthropic는 Claude 3.5 Sonnet에 '컴퓨터 조작' API 방향을 제시했습니다: Claude는 컴퓨터 인터페이스를 인식하고 지시를 구체적인 동작으로 분해할 수 있습니다. 예를 들어 브라우저 열기, 페이지 탐색, 표에 내용 입력 등이 있습니다. 이 기능의 의미는 많은 '사용자가 마우스를 클릭하는' 작업을 Claude가 대신할 수 있는 단계로 바꾸는 데 있습니다.
강조할 점은, 이 능력은 현재 개발자 통합 및 테스트 시나리오에 더 중점을 두고 있으며, 모든 사용자가 Claude를 열어 바로 원격으로 컴퓨터를 조작할 수 있다는 것을 의미하지는 않습니다. 또한 공식적으로도 스크롤, 드래그, 줌과 같이 인간에게는 자연스러운 동작이 Claude에게는 여전히 도전 과제라고 언급했으므로, 흐름이 명확하고 단계가 검증 가능한 자동화 작업에 더 적합합니다.


