OpenAIは9月30日(現地時間)、動画生成AIモデルの新版「Sora 2」と、同モデルを用いる動画作成・共有アプリ「Sora」(iOS)を発表した。

同社はSoraの進化をGPTになぞらえ、昨年2月に発表した初代「Sora」が動画生成における「GPT-1の瞬間」であったとすれば、 Sora 2は「(ChatGPTの躍進の起点となった)GPT-3.5のような転換点に一気に到達しようとしている」と述べている。


初代Soraは、シンプルなテキストプロンプトから高品質でフォトリアリスティックな動画を生成できる点が評価され、創造性を示した初のビジョンモデルとして注目を集めた。しかし、複雑な物理現象のシミュレーション、因果関係の理解などに課題があり、実用性の面では「可能性を示した初期モデル」という位置付けにとどまっていた。

Sora 2はこうした制約を克服し、バレーボール、器械体操、スケートボードのフリップといった複雑な動きでも現実に即した映像を生成できる。例えば、バスケットボールのシュートが外れた映像の場合、従来のSoraではボールの軌道が不自然に変化することがあったが、Sora 2ではボールがバックボードに当たって自然に跳ね返ってくる。これは現実世界の物理法則や因果関係を仮想的に再現する「ワールドシミュレーター」としての能力を前進させる一歩といえる。

Sora 2では映像と音声のなめらかな同期が可能になり、セリフや効果音、背景の環境音を違和感なく生成できる。これにより、より没入感のある映像体験が可能となった。生成スタイルも多様で、実写的映像からアニメ調、映画風の質感まで対応可能である。複数のカメラカットや世界観の連続性を保った映像生成も可能であり、特定の世界設定に沿った演出や編集も容易である。

○アプリ「Sora」とカメオ機能

Soraアプリは、動画を生成し共有できるソーシャルアプリである。最大の特徴の1つが「Cameos(カメオ)」機能で、自分自身を登場させた映像を生成できる。

下のダンスバトルの動画は、よく見るとSora 2を発表したSoraチームのメンバーが踊っている。


生成動画であるため、「プロテニスのグランドスラム大会で優勝してインタビューを受ける自分」といった、従来は不可能だった映像も簡単に作成できる。

カメオは、アプリで作成して登録する。使用範囲を設定することが可能で、友達がカメオの使用を許可していたら、上のように友人同士で共演するような動画を生成できる。

カメオ作成時には本人確認を前提とした仕組みがあり、なりすましや無断利用を防ぐ設計が組み込まれている。これにより、ユーザーは自身の肖像利用を柔軟に管理し、後から許可の変更や削除を行うこともできる。

Soraチームによれば、当初はAI生成動画のフィード機能に対し「人とのつながりが失われる懸念」があったが、カメオ機能が試され始めてから反応が一変し、友達とつながる新しい方法としての可能性が広がったという。

OpenAIの大規模言語モデル(LLM)であるGPTは、GPT-3.5がChatGPTという対話するサービスとしてリリースされたことで注目を集めた。GPT-3.5という技術単体だけでは爆発的なブームを起こせなかった可能性がある。

Sora 2も同様に、動画生成の実用性を高める技術の進展に、動画生成の価値を一般の人も楽しめるようにするアプリケーションを組み合わせることで、GPT-3.5のような転換点になることが期待されている。

Sora 2は招待制で段階的に提供を拡大していく。まず米国とカナダで最初の展開を開始し、利用可能になるとSoraアプリに通知が届く。招待を受け取ったユーザーは、sora.comからもSora 2にアクセスできるようになる。
当面は無料で提供されるが、計算資源に応じて生成回数などに上限が設けられる見込みである。ChatGPT Proユーザーは、sora.comで試験的に提供される高品質なSora 2 Proモデルも利用できる。Sora 2のAPI提供も予定されている。
編集部おすすめ