Chrome Gemini, '화면에서 선택' 도구 추가… 3.5 Flash, 컴퓨터 조작 능력 탑재

Google이 Chrome 브라우저의 Gemini 어시스턴트를 위해 '화면에서 선택(Select from screen)'이라는 새로운 도구를 도입했습니다. 이 기능을 사용하면 현재 탭에 표시된 모든 텍스트나 이미지를 빠르게 대화 프롬프트에 추가할 수 있습니다. 사용자는 현재 탭을 활성화한 뒤 '화면에서 선택'을 클릭하고 원하는 영역을 드래그하면, Gemini가 자동으로 선택한 이미지나 텍스트를 입력창에 채워 넣습니다. 현재 이 기능은 Chrome 149 버전부터 순차적으로 배포 중이며, 바로 보이지 않을 경우 브라우저를 재시작하면 활성화됩니다. 이번 업데이트로 시각적 쿼리 과정이 크게 간소화되어, 사용자가 수동으로 스크린샷을 찍거나 복사·붙여넣기 하지 않아도 AI가 현재 페이지의 특정 요소를 이해할 수 있게 되었습니다.

또한 Google은 Gemini 3.5 Flash 모델에 컴퓨터 사용(computer use) 도구를 내장했다고 발표했습니다. 개발자는 Gemini API에서 이 기능을 바로 호출하여 모델이 인간처럼 인터페이스를 조작하도록 할 수 있습니다. 예를 들어 애플리케이션 UI를 탐색하고 분석 작업을 수행하는 식입니다. 공식 데모에서 3.5 Flash는 이 도구를 활용해 "Gemini 앱을 분석하고 카테고리별로 정리된 기능 목록을 반환"했습니다. 이는 모델이 더 이상 텍스트 이해에만 국한되지 않고, 그래픽 인터페이스를 '보고' '조작'할 수 있음을 의미하며, 자동화 테스트, 스마트 어시스턴트 등 다양한 시나리오에 새로운 가능성을 열어줍니다. Gemini 3.5 Flash의 컴퓨터 사용 기능은 즉시 Gemini API에서 사용 가능합니다.

'화면에서 선택'에서 '컴퓨터 사용'까지, Google은 AI를 '대화 파트너'에서 '화면 네이티브' 에이전트로 업그레이드하고 있습니다. 전자는 일반 사용자가 AI와 상호작용할 때의 조작 장벽을 낮추고, 후자는 개발자에게 복잡한 GUI 자동화의 새로운 문을 열어줍니다. Chrome 브라우저와 Gemini 모델의 통합이 깊어짐에 따라, 미래의 AI는 사람처럼 웹을 탐색하고, 양식을 작성하며, 심지어 다단계 작업을 수행할 수 있을 것입니다. 이는 범용 디지털 어시스턴트를 향한 중요한 한 걸음입니다. 다만, 자동화 효율성과 사용자 프라이버시 간의 균형을 어떻게 유지할지는 계속해서 주목해야 할 핵심 과제입니다.

기사 검색

인기 기사

ChatGPT를 가장 잘 활용할 수 있는 몇 가지 프롬프트(Prompt) — 효율을 진짜 10배 올리는 사용법

Claude Code 설치가 계속 오류 나나요? 3단계로 설정 문제를 끝내는 단계별 가이드

ChatGPT Claude Gemini Midjourney 출력이 망했을 때의 트러블슈팅 체크리스트와 프롬프트 KISS 팁

ChatGPT, Claude, Gemini와 Midjourney를 효율적으로 연동하는 워크플로: 출력 불일치와 개고 고충 해결

Spotify 오류 코드 총정리 및 해결 가이드