ChatGPTが待望の機能アップグレードを実施。最新モデル「GPT-4o(オムニモデル)」が完全開放され、ユーザーはより自然な音声対話、リアルタイム画面共有、そして開発ツール上での直接コード編集が可能になった。これらの新機能により、ChatGPTは単なるチャットボットから、マルチモーダル情報を理解し、寄り添うスマートアシスタントへと進化した。無料ユーザーも有料購読者も、この刺激的な変化を体験できる。本記事では、それらのコア新機能を総ざらいする。
GPT-4oのマルチモーダル能力:音声・映像・テキストを完全統合
GPT-4oは、音声、映像、テキストの推論能力を完全に融合させた真のオムニモデル。前世代のGPT-4 Turboと比べ、API速度は2倍に向上し、コストは50%削減、応答はほぼリアルタイムとなった。ユーザーはテキストだけでなく、画像やファイルをアップロードしてAI分析を依頼でき、カメラを通じてChatGPTに周囲の状況をリアルタイムで説明させることも可能。視覚障害者の環境認識を支援する用途にも活用できる。さらに、2つのGPT-4o同士が対話したり、合唱したりするデモも公開され、AI同士の協力の可能性が示された。
音声対話がより自然に——声のトーンや感情を認識
新版ChatGPTの音声モードは大幅に改良され、まるで実際の友人と話すような生き生きとした対話が可能に。ユーザーの声に含まれる感情や、息遣い、笑い声などのサウンドに応じて適切に反応する。教育現場では、GPT-4oが教師のように段階的に生徒を導き、答えを直接与えずに問題解決を促すため、学習効率が大きく向上。さらに、記憶機能が強化され、ユーザーの習慣や好みを学習して、よりパーソナライズされた応答を提供する。

