Gemini เพิ่มฟีเจอร์เลือกจากหน้าจอใน Chrome ส่วน 3.5 Flash รองรับการควบคุมคอมพิวเตอร์

Google กำลังเปิดตัวเครื่องมือใหม่สำหรับ Gemini ในเบราว์เซอร์ Chrome ที่ชื่อว่า "เลือกจากหน้าจอ (Select from screen)" ฟีเจอร์นี้ช่วยให้ผู้ใช้สามารถเลือกข้อความหรือรูปภาพใดๆ จากแท็บปัจจุบันแล้วส่งไปยังช่องถามคำถามของ Gemini ได้ทันที โดยไม่ต้องแคปหน้าจอหรือคัดลอกและวางด้วยตนเอง เมื่อคลิกที่เครื่องมือนี้ แท็บปัจจุบันจะถูกไฮไลต์ จากนั้นคุณสามารถเลือกพื้นที่ที่ต้องการให้ Gemini วิเคราะห์ ฟีเจอร์นี้กำลังทยอยเปิดตัวเป็นส่วนหนึ่งของอัปเดต Chrome 149 หากยังไม่เห็นตัวเลือก ให้รีสตาร์ทเบราว์เซอร์เพื่อเปิดใช้งาน

ในเวลาเดียวกัน Google ประกาศว่า โมเดล Gemini 3.5 Flash มีความสามารถในการควบคุมคอมพิวเตอร์ในตัวแล้ว นักพัฒนาสามารถเรียกใช้ความสามารถนี้ผ่าน Gemini API เพื่อให้โมเดลควบคุมอินเทอร์เฟซหน้าจอโดยตรงเพื่อทำการวิเคราะห์ ตัวอย่างที่แสดงให้เห็นว่า 3.5 Flash สามารถเปิดแอป Gemini อัตโนมัติ เรียกดูฟังก์ชันต่างๆ และส่งคืนรายการฟังก์ชันที่จัดหมวดหมู่ได้อย่างชัดเจน ความก้าวหน้านี้หมายความว่า AI assistant ไม่เพียงเข้าใจข้อความหรือรูปภาพอีกต่อไป แต่ยังสามารถ "ปฏิบัติการ" ซอฟต์แวร์ได้เหมือนมนุษย์ เปิดโอกาสใหม่สำหรับการทดสอบอัตโนมัติ ตัวแทนอัจฉริยะ และสถานการณ์ RPA โมเดลดังกล่าวเปิดใช้งานแล้วใน Gemini API ตั้งแต่วันนี้

ด้วยฟีเจอร์ "เลือกจากหน้าจอ" ที่ช่วยลดต้นทุนการโต้ตอบ และความสามารถในการควบคุมคอมพิวเตอร์ของ 3.5 Flash Google กำลังยกระดับ Gemini จากผู้ช่วยตอบคำถามธรรมดาให้เป็นตัวแทนเดสก์ท็อปที่กระตือรือร้นมากขึ้น ในอนาคต ผู้ใช้อาจสามารถให้ Gemini ดำเนินงานที่ซับซ้อนข้ามแอปพลิเคชันแทนตนเองได้ เช่น จัดระเบียบไฟล์ กรอกแบบฟอร์ม หรือวิเคราะห์รายงาน ทิศทางนี้สอดคล้องกับแนวคิด "AI agent" ที่บริษัทอื่นกำลังผลักดันเช่นกัน และควรจับตาดูผลลัพธ์ที่เกิดขึ้นจริงอย่างใกล้ชิด

ค้นหาบทความ

บทความยอดนิยม

ChatGPT Prompt ยอดนิยม 10 ข้อที่เพิ่มประสิทธิภาพการทำงานได้จริง 10 เท่า

Spotify รหัสข้อผิดพลาดในการเล่นเพลง รวมวิธีแก้ไขเบื้องต้น