ChatGPTに相次いで実装された注目のアップデート。日常的に利用するユーザーはもちろん、AIを活用するクリエイターにとっても見逃せない新機能が揃っています。より自然な音声対話からマルチモーダル理解まで、OpenAIはChatGPTをより柔軟でスマートなツールへと進化させています。本記事では、特に注目すべき新機能をピックアップしてご紹介します。
GPT-4o:オールインワンのマルチモーダルモデル
GPT-4oのリリースはChatGPTにとって画期的なアップグレードです。テキストだけでなく、画像、音声、動画コンテンツを直接理解できます。例えば、デザインのスケッチをアップロードして改善案を依頼したり、会議の録音データを送って自動で要約を生成させたりすることが可能です。応答速度も大幅に向上し、ほぼリアルタイムの対話体験を実現。前世代のGPT-4と比較して、推論やクリエイティブなタスクでのパフォーマンスがより安定しています。
注目すべき点として、Plusユーザーはより高度なインテリジェンス層を利用でき、無料ユーザーも標準インテリジェンスモードであればGPT-5を回数制限なく使用できます(悪用防止の仕組みにご注意ください)。まだGPT-4oのマルチモーダル機能を試していない方は、ChatGPTの設定で手動でモデルを切り替えてみることをおすすめします。
Voice Engine:15秒で声をクローン
OpenAIが提供するVoice Engine(音声エンジン)により、音声の複製が驚くほど簡単になりました。15秒の音声サンプルを提供するだけで、その声と高い一致度を持つ音声出力をシミュレートできます。この機能はパーソナル音声アシスタントとしてだけでなく、言語学習者の発音矯正や、音声コンテンツ制作者のナレーション作成にも活用可能です。現在は一部地域でテスト中ですが、大きな可能性を示しています。
改良された音声モードと組み合わせることで、タイピング不要で自然な音声でChatGPTと会話できます。質問、トーンの調整、マルチターンの対話にも対応。Altmanは新バージョンの音声品質が大幅に向上すると約束していましたが、実際の体験はよりスムーズで自然なものになっています。


