米OpenAIは7月17日(現地時間)、ChatGPTの新機能「ChatGPT agent」を発表した。ChatGPTがユーザーの指示を受けて、リサーチ、ウェブサイトの操作、データ分析、スライドやスプレッドシートの作成といった複雑なタスクを自律的に実行するエージェント機能である。
有料プラン「Plus」「Pro」「Team」に17日から順次展開され、EnterpriseおよびEducationユーザーには数週間以内に提供を開始する予定である。

agentは、「Operator」や「Deep Research」で培われたAIエージェント機能を基に、より汎用的に活用できるよう進化させたものである。

今年1月にChatGPTに追加された「Operator」は、オンラインタスクを代行するAIエージェントである。たとえば、NBAの試合のチケットを探す際に「週末にサンフランシスコで行われるウォリアーズ戦のチケットを探して」と依頼すると、Operatorはクラウド上の仮想環境で独自のブラウザを操作し、チケット予約サイトで依頼のタスクを行う。

今年2月に登場した「Deep Research」は高度な分析・調査を行うエージェント機能である。ユーザーのリサーチの依頼に対し、ChatGPTがウェブ検索を行い、数十~数百規模のウェブサイトから情報を収集・整理してレポートを作成する。

agentは、OperatorやDeep Researchの機能を兼ね備えている。ウェブページから迅速に情報を読み取る「テキストブラウザ」、ウェブページを視覚的に理解して操作する「ビジュアルブラウザ」、コード生成やファイル分析、API連携などを行う「ターミナル」で構成され、状況に応じてそれらを使い分けながら効率的にタスクを遂行する。agentの登場により、チャットボットとして始まったChatGPTは、複雑なタスクを自律的にこなす“働くAI”へと変貌を遂げようとしている。
○ChatGPT agentの使い方とデモ

agentは、Deep Researchと同様に、プロンプト入力ボックス内の「ツール」ボタンから選択する。

発表では、友人の結婚式の出席するために、ChatGPTに以下のように依頼するライブデモが実施された。

以下を探すのを手伝ってくれる?
- 予定されているイベントのドレスコードを満たす服装(メンズ)
- ミッドラグジュアリーなアイテムを、会場や天候に合わせて5つくらい提案して
- 前後に数日の余裕を持たせてホテルを探して
- booking.comを使って、空き状況と現在の料金も確認して
- それと、可能な500ドル以下で、彼らへのギフトも忘れずに選んで(ギフト登録があればそれを優先、なければ素敵なものを探して)

ChatGPT agentは、結婚式会場のウェブページや複数のオンラインショップ、旅行サイトなどを訪問し、イベントのドレスコードや雰囲気、服装のトレンドなどを調査してレポートを作成した。
ホテルの空室状況については、予約サイトでの検索結果のスクリーンショットを添付し、ユーザーが即時に確認できるようにした。

このほかにも、ペットの写真からステッカー用のイラストを生成し、オンライン印刷サービスへの発注準備を整えたり、全てのMLB球場を効率よく巡る旅行プランを立てる依頼の結果も紹介された。

agentは仮想コンピュータ環境で動作し、ユーザーのPC内に直接アクセスすることはない。また、オンラインストアでの購入など重要なアクションの際にはユーザーの許可を求める。慎重さが求められる作業はagentからユーザーに引き継ぐことができ、常にユーザーが主導権を保持できる設計となっている。

また、ウェブサイトに埋め込まれた悪意ある指示によってagentが乗っ取られる「プロンプトインジェクション」のリスクに対して、OpenAIは「モデルの訓練および監視体制を強化した」と説明している。

OpenAIによると、agentはHumanity’s Last Examで41.6%、FrontierMath, Tier 1-3で27.4%を達成するなど、複雑なタスクの実行能力を測る複数の高難易度ベンチマークで新たなSOTA(最先端)スコアを記録している。
編集部おすすめ