Chrome Gemini เพิ่มเครื่องมือเลือกหน้าจอ เผย Gemini 3.5 Flash ควบคุมคอมพิวเตอร์ได้

Google กำลังเพิ่มฟีเจอร์ใหม่ที่มีประโยชน์ให้กับ Gemini บน Chrome นั่นคือเครื่องมือ "Select from screen" (เลือกจากหน้าจอ) เมื่อผู้ใช้คลิกเครื่องมือนี้ แท็บปัจจุบันจะถูกไฮไลต์และมีข้อความแจ้งว่า "เลือกข้อความหรือรูปภาพใดก็ได้เพื่อถาม Gemini" เนื้อหาที่เลือกจะถูกเพิ่มลงในช่องป้อนข้อความสนทนาโดยอัตโนมัติในรูปแบบรูปภาพ ช่วยให้ผู้ใช้สอบถามข้อมูลบนหน้าจอได้อย่างรวดเร็ว ฟีเจอร์นี้เริ่มทยอยเปิดให้ใช้งานพร้อมกับ Chrome 149 หากยังไม่เห็น ให้ลองรีสตาร์ทเบราว์เซอร์เพื่อเปิดใช้งาน

ในเวลาเดียวกัน Google ประกาศว่า โมเดล Gemini 3.5 Flash มีเครื่องมือ "Computer Use" (การควบคุมคอมพิวเตอร์) ในตัวแล้ว นักพัฒนาสามารถเรียกใช้ผ่าน Gemini API หรือ Gemini Enterprise Agent Platform เครื่องมือนี้ช่วยให้โมเดลสามารถวิเคราะห์อินเทอร์เฟซแอปพลิเคชันบนเดสก์ท็อปและดำเนินการได้โดยตรง ตัวอย่างเช่น ในตัวอย่างอย่างเป็นทางการ 3.5 Flash ใช้ความสามารถ Computer Use "เพื่อวิเคราะห์แอป Gemini และส่งคืนรายการฟังก์ชันที่จัดหมวดหมู่แล้ว" ซึ่งถือเป็นก้าวสำคัญที่โมเดล AI ก้าวจากการสร้างข้อความล้วนๆ ไปสู่การโต้ตอบกับสภาพแวดล้อมอย่างจริงจัง

การอัปเดตทั้งสองนี้ช่วยเพิ่มความสามารถในการใช้งานของ Gemini ทั้งในฝั่งผู้ใช้และนักพัฒนา: การเลือกจากหน้าจอช่วยลดความยุ่งยากในการป้อนข้อมูลรูปภาพ ขณะที่ Computer Use เปิดโอกาสใหม่ๆ สำหรับงานอัตโนมัติและเอเจนต์อัจฉริยะ ด้วยการผสานรวมระหว่างระบบนิเวศ Chrome และโมเดล AI อย่างต่อเนื่อง รูปแบบการโต้ตอบแบบ "เห็นอะไรก็ถามได้" นี้มีแนวโน้มจะกลายเป็นปกติในการทำงานร่วมกันระหว่างมนุษย์และคอมพิวเตอร์ในอนาคต

ค้นหาบทความ

บทความยอดนิยม

ChatGPT Prompt ยอดนิยม 10 ข้อที่เพิ่มประสิทธิภาพการทำงานได้จริง 10 เท่า