Trong bản cập nhật lớn gần đây, ChatGPT đã mang đến hàng loạt nâng cấp tính năng thú vị, trong đó việc ra mắt mô hình GPT-4o được xem như một cột mốc quan trọng. Bản cập nhật này không chỉ tăng tốc độ phản hồi, mà còn giúp AI tiếp cận gần hơn với cách tương tác của con người thực – từ hội thoại văn bản đơn thuần phát triển thành khả năng hiểu hình ảnh, âm thanh và cảm xúc. Bài viết này sẽ giúp bạn tìm hiểu chi tiết về các tính năng mới của ChatGPT và xem chúng thay đổi thói quen sử dụng hàng ngày của chúng ta như thế nào.
Mô hình GPT-4o: Sự kết hợp hoàn hảo giữa toàn năng và tốc độ
Chữ "o" trong GPT-4o đại diện cho "omni" (toàn năng), tích hợp khả năng suy luận từ âm thanh, video và văn bản, trở thành một mô hình đa phương thức thực sự. So với thế hệ trước GPT-4 Turbo, API của GPT-4o nhanh hơn, chi phí giảm tới 50%, phản hồi gần như tức thời, tốc độ nhanh gấp đôi GPT-4. Giờ đây người dùng có thể trải nghiệm hội thoại mượt mà hơn trên ChatGPT, không còn phải chờ đợi lâu.
Điều đáng ngạc nhiên là GPT-4o có thể trò chuyện theo thời gian thực như người thật, thậm chí nhận diện cảm xúc qua giọng điệu của bạn. Ví dụ, nó có thể nhận ra bạn vừa tập thể dục qua tiếng thở dốc và đưa ra phản hồi cá nhân hóa. Hai phiên bản GPT-4o còn có thể giao tiếp với nhau, mô tả những gì chúng nhìn thấy, thậm chí cùng nhau hát. Những tính năng mới của ChatGPT này giúp tăng cường đáng kể sự tự nhiên và thú vị trong tương tác.
Khả năng tương tác đa phương thức và nhận diện hình ảnh
Một trong những nâng cấp cốt lõi của GPT-4o là khả năng thị giác. Giờ đây nó có thể hỗ trợ tốt cho người khiếm thị hiểu rõ môi trường xung quanh, chẳng hạn như báo cáo hướng đi hoặc cách gọi taxi. Trong bản trình diễn, sau khi quét môi trường xung quanh, GPT-4o có thể nhận diện vật thể ngay lập tức và suy luận bối cảnh công việc có thể có, điều này cho thấy tiềm năng lớn trong lĩnh vực chăm sóc sức khỏe và hỗ trợ cá nhân.

