Chrome용 Gemini, 화면 선택 도구 추가… 3.5 Flash에 컴퓨터 제어 기능 탑재

Google은 Chrome 브라우저의 Gemini 어시스턴트에 실용적인 새 기능인 '화면 선택(Select from screen)' 도구를 도입하고 있습니다. 사용자가 이 도구를 클릭하면 현재 탭이 강조 표시되며 "Gemini에 질문하려면 텍스트나 이미지를 선택하세요"라는 안내가 나타납니다. 선택한 내용은 이미지 형태로 자동으로 대화 입력창에 추가되어, 화면상의 정보를 빠르게 질문할 수 있습니다. 이 기능은 Chrome 149 버전부터 순차적으로 배포되며, 아직 보이지 않는다면 브라우저를 재시작하면 활성화됩니다.

또한 Google은 Gemini 3.5 Flash 모델에 '컴퓨터 사용(computer use)' 도구가 내장되었다고 발표했습니다. 개발자는 Gemini API나 Gemini Enterprise Agent Platform을 통해 이 도구를 호출할 수 있으며, 모델이 데스크톱 애플리케이션 인터페이스를 직접 분석하고 작업을 수행할 수 있습니다. 예를 들어 공식 데모에서 3.5 Flash는 컴퓨터 사용 능력을 활용해 "Gemini 앱을 분석하고 분류된 기능 목록을 반환"했습니다. 이는 AI 모델이 단순한 텍스트 생성에서 능동적으로 환경과 상호작용하는 중요한 진전을 의미합니다.

이 두 가지 업데이트는 사용자 측과 개발자 측 모두에서 Gemini의 실용성을 높였습니다. 화면 선택은 이미지 입력 과정을 간소화했고, 컴퓨터 사용은 자동화 작업과 지능형 에이전트에 새로운 가능성을 열었습니다. Chrome 생태계와 AI 모델의 융합이 계속됨에 따라, 이러한 '보이는 대로 상호작용하는' 방식이 앞으로 인간과 AI의 협업에서 일반화될 것으로 기대됩니다.

기사 검색

인기 기사

ChatGPT를 가장 잘 활용할 수 있는 몇 가지 프롬프트(Prompt) — 효율을 진짜 10배 올리는 사용법

Claude Code 설치가 계속 오류 나나요? 3단계로 설정 문제를 끝내는 단계별 가이드

ChatGPT Claude Gemini Midjourney 출력이 망했을 때의 트러블슈팅 체크리스트와 프롬프트 KISS 팁

ChatGPT, Claude, Gemini와 Midjourney를 효율적으로 연동하는 워크플로: 출력 불일치와 개고 고충 해결

ChatGPT와 Claude 답변 불일치 문제 해결: AI를 정확히 이해시키는 3가지 질문 기술