OpenAIがChatGPTに2つの大型アップデートを投入しました:GPT-4oオムニモデルとCanvasコラボレーションインターフェースです。前者はAIに「見る」「聞く」能力を、後者は創作やプログラミングをまるでパートナーと一緒に作業するようにスムーズにします。本記事ではこれらの新機能を詳しく解説し、日常の使い勝手がどう変わるかをお伝えします。
GPT-4oのマルチモーダル対話能力
GPT-4oの「o」はオムニ(全能)を意味し、もはやテキストだけではありません。リアルタイム音声会話に対応し、トーンや感情を感知できるほか、即席翻訳も可能——50言語に対応しており、あなたが中国語で話せば英語の通訳を直接出力します。さらに実用的なのが画面共有機能:プログラムのバグや編集の問題に遭遇したら、画面を共有するだけでGPT-4oがあなたの操作を「見ながら」音声ガイダンスを提供します。まるでリアルタイムでそばにいるスーパーチューターのようです。
さらにGPT-4oは視覚理解能力も備えており、カメラでシーンを認識し、視覚障害者が周囲の環境を「聞く」ことを支援します。これらの能力により、ChatGPTはチャットツールから、見て、聞いて、教えられるAIパートナーへと進化しました。
Canvas:コーチのように創作をサポート
Canvasは独立して開くコラボレーションウィンドウで、従来のダイアログボックスとは完全に異なります。長文の執筆やコード作成時に、Canvasは行内コメント、修正提案、直接編集機能を提供します。例えば文章を書く場合、テキストを選択してAIに推敲やトーン調整を依頼したり、ワンクリックで表や詩に変換したりできます。コード作成時には、コードレビュー、バグ修正、言語変換(PythonからJavaScriptなど)に対応。すべての変更は履歴として保存され、いつでも元に戻せます。


