Gemini, Chrome에서 '화면 선택' 기능 추가… 3.5 Flash, 컴퓨터 조작 능력 획득

Google이 Chrome 브라우저의 Gemini 어시스턴트에 'Select from screen'이라는 새로운 도구를 출시하고 있습니다. 이 기능을 사용하면 현재 탭에 있는 텍스트나 이미지를 빠르게 선택해 Gemini의 질문창에 바로 추가할 수 있으며, 수동으로 스크린샷을 찍거나 복사·붙여넣기 할 필요가 없습니다. 사용자가 해당 도구를 클릭하면 현재 탭이 강조 표시된 후 원하는 내용을 사각형으로 선택해 Gemini가 분석할 수 있도록 전달합니다. 이 기능은 Chrome 149 버전 업데이트의 일부로 단계적으로 배포되고 있으며, 아직 옵션이 보이지 않는 경우 브라우저를 재시작하면 활성화됩니다.

또한 Google은 Gemini 3.5 Flash 모델이 이제 컴퓨터 사용 능력을 내장했다고 발표했습니다. 개발자는 Gemini API를 통해 이 기능을 호출할 수 있으며, 모델이 직접 화면 인터페이스를 조작하며 분석을 수행합니다. 예시에 따르면 3.5 Flash는 Gemini 앱을 자동으로 열고, 기능 인터페이스를 탐색한 후 분류 체계가 명확한 기능 목록을 반환할 수 있습니다. 이는 AI 어시스턴트가 더 이상 텍스트나 이미지 이해에 그치지 않고, 인간처럼 소프트웨어를 '조작'할 수 있게 되었음을 의미하며, 자동화 테스트, 지능형 에이전트 및 RPA 시나리오에 새로운 가능성을 제시합니다. 해당 모델은 즉시 Gemini API에서 사용할 수 있습니다.

'Select from screen'의 상호작용 비용 절감과 3.5 Flash의 컴퓨터 조작 능력 획득을 통해, Google은 Gemini를 단순한 질의응답 어시스턴트에서 보다 능동적인 데스크톱 에이전트로 업그레이드하고 있습니다. 향후 사용자는 Gemini가 대신해 여러 애플리케이션을 넘나드는 복잡한 작업(예: 파일 정리, 양식 작성, 보고서 분석)을 수행하도록 지시할 수 있을 것입니다. 이러한 방향은 다른 업체들이 추진 중인 'AI 에이전트' 개념과도 일치하므로, 실제 적용 효과를 주목할 필요가 있습니다.

기사 검색

인기 기사

ChatGPT를 가장 잘 활용할 수 있는 몇 가지 프롬프트(Prompt) — 효율을 진짜 10배 올리는 사용법

Claude Code 설치가 계속 오류 나나요? 3단계로 설정 문제를 끝내는 단계별 가이드

ChatGPT Claude Gemini Midjourney 출력이 망했을 때의 트러블슈팅 체크리스트와 프롬프트 KISS 팁

ChatGPT, Claude, Gemini와 Midjourney를 효율적으로 연동하는 워크플로: 출력 불일치와 개고 고충 해결

Spotify 오류 코드 총정리 및 해결 가이드