ビジュアル機能は、ChatGPTアプリ(iOS、Android)で「高度な音声」モード使用時に、ユーザーがカメラで撮影しているビデオストリーミングからの情報も、ChatGPTとの対話に反映できる機能である。
今年5月にOpenAIが「GPT-4o」を発表した際に、「高度な音声」モードで実現する機能の1つとしてビジュアル機能も紹介された。その際、 「高度な音声」モードのスムーズな会話力とともに、ビジュアル機能の実用性と視覚認識の効果が注目を集めたが、同機能の提供は遅れていた。ユーザー待望の機能追加である。
「12 Days of OpenAI」でのデモを紹介すると、ペーパードリップ用のケトルやドリッパーなどをテーブルの上に並べ、それらにカメラを向けてChatGPTにドリップコーヒーの淹れ方を質問した。ChatGPTはユーザーが手順に従っているのを確認しながら、ステップバイステップで淹れ方を説明した。
ビジュアル機能は画面共有もサポートする。「高度な音声」モードで三点ボタンをタップして画面共有を選択すると、スマートフォンの画面に表示されていることについてChatGPTと対話できる。
ビジュアル機能は、ChatGPT EnterpriseとEduのユーザー以外に、約10日をかけてロールアウトする。
サンタ・モードは、クリスマス風にアレンジされたサンタ音声である。ChatGPTの設定の音声選択で「Santa」を選んで「高度な音声」モードを開くと、オーブがスノードームに変化し、「Ho Ho Ho」というサンタの掛け声で音声対話が始まる。サンタ・モードを使用すると、特典として初回時に「高度な音声」の制限がリセットされる。