ล่าสุด หากคุณเปิดใช้ ChatGPT คุณอาจสังเกตเห็นว่ามันแตกต่างไปจากเดิม สิ่งนี้เกิดขึ้นเพราะ OpenAI ได้เปิดตัว GPT-4o โมเดลอเนกประสงค์รุ่นใหม่ "o" ในที่นี้อ้างอิงถึง "omni" (อเนกประสงค์) ซึ่งหมายความว่าโมเดลนี้ไม่จำกัดอยู่แค่การประมวลผลข้อความอีกต่อไป แต่สามารถเข้าใจและให้เหตุผลเกี่ยวกับข้อมูลเสียง ภาพ และข้อความได้พร้อมกัน นำไปสู่การปฏิวัติการโต้ตอบอย่างแท้จริง
จากข้อความสู่ประสาทสัมผัสทั้งหมด: การก้าวกระโดดของการโต้ตอบแบบมัลติโมดัล
ความก้าวหน้าที่สำคัญที่สุดของ GPT-4o คือความสามารถแบบมัลติโมดัล ในอดีต แม้ว่า ChatGPT จะสามารถ "ดู" ภาพหรือ "ฟัง" เสียงได้ แต่กระบวนการมักจะแยกจากกัน ตอนนี้ GPT-4o สามารถบูรณาการข้อมูลเหล่านี้ได้อย่างราบรื่น ตัวอย่างเช่น ในแอปพลิเคชันเดสก์ท็อป Mac รุ่นล่าสุด คุณเพียงกดปุ่มลัดเพื่อเรียกใช้มัน และถามคำถามผ่านเสียงโดยตรง มันยังสามารถดูเนื้อหาที่คุณแชร์หน้าจอเพื่อเข้าใจบริบทของปัญหาได้ การโต้ตอบที่ลื่นไหลนี้ทำให้รู้สึกเหมือนกำลังสื่อสารกับหุ้นส่วนอัจฉริยะที่ครอบคลุมหลายประสาทสัมผัส ไม่ใช่แค่เครื่องตอบกลับข้อความเท่านั้น
การแปลภาษาแบบเรียลไทม์และการเชื่อมต่อกับโลก
อุปสรรคด้านภาษากำลังถูกทำลายลงด้วย GPT-4o มากขึ้น แม้ว่าฟังก์ชันการแปลจะไม่ใช่เรื่องใหม่ แต่ GPT-4o รองรับมากกว่า 50 ภาษา และสามารถสลับภาษาและแปลพูดแบบทันทีได้ ลองจินตนาการว่า คุณกำลังสนทนาวิดีโอกับเพื่อนชาวต่างชาติ GPT-4o สามารถทำหน้าที่เป็นล่ามเรียลไทม์ ทำให้ทั้งสองฝ่ายแทบไม่รู้สึกถึงความล่าช้าด้านภาษา นี่ไม่ใช่แค่การอัปเกรดทางเทคนิค แต่เป็นการลดขีดจำกัดการสื่อสารข้ามวัฒนธรรมลงสู่ระดับที่ต่ำ前所未มี ทำให้การสนทนาแบบ全球เป็นเรื่องง่ายอย่างยิ่ง


