米OpenAIは2月21日(現地時間)、1月に米国でリサーチプレビューを開始したAIエージェント「Operator」の提供を、日本、オーストラリア、ブラジル、カナダ、インド、シンガポール、韓国、英国のChatGPT Proプラン(月額200ドル)に拡大した(20日に展開開始、21日に完了)。
Operatorは、ユーザーの依頼に応じてブラウザを操作してタスクを実行するAIエージェントである。
独自のブラウザを使用してWebページを閲覧し、入力、クリック、スクロールなどの操作を行なう。GPT-4o の視覚機能と強化学習による高度な推論を組み合わせてグラフィカルユーザーインターフェイス (GUI)を操作するように訓練されたComputer-Using Agent (CUA)という新しいモデルが採用されている。Operatorは、スクリーンショットを通じてブラウザ画面を認識し、許可されたマウスおよびキーボードの操作を用いることで、特定のAPIを介さずにWeb上のタスクを実行することができる。
ユーザーは、フォーム入力や情報収集など、繰り返し行うオンライン上のルーチンタスクを依頼できる。指示はChatGPTと同様に、シンプルな対話形式で行う。
OpenAIは、Operatorがルールを順守しながら実際のニーズに対応できるよう、 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uberなどの企業と提携して開発を進めている。例えば、レストラン予約サイトのOpenTableを選択して「今夜19時にBerettaに2名分のテーブルを予約して」と依頼したり、チケットマーケットプレイスStubHubで「週末にサンフランシスコで行われるウォリアーズ戦のチケットを探して、500ドル以下の最も良い席を4枚購入して」と指示したりできる。
Operatorはタスク実行中に問題が発生した場合、推論機能を活用して自己修正を試みる。安全性とデータ保護を最優先事項としており、ログイン認証情報や支払い情報など機密性の高い情報を入力する際は、ユーザーにブラウザの制御を引き継ぐよう求める。この「引き継ぎモード」では、Operatorがユーザーの入力情報を記録したり、スクリーンショットを撮影することはない。また、注文の送信や電子メールの送信といった重要なアクションでは、確定前にユーザーの承認を求めるよう訓練されている。
Operatorは現在、初期のリサーチプレビューであり、限定的なユーザーを対象に提供しながらフィードバックを収集し、機能の改良を進めている。
将来的には、Plus、Team、Enterpriseにも提供を拡大し、ChatGPTに統合する計画である。
編集部おすすめ