世界最大のテクノロジー見本市「CES」が1月6日(米国時間)から米ラスベガスで開かれている。2026年のテック業界はどのような方向に進むのか。
日本工業大学大学院技術経営研究科の田中道昭教授が現地からリポートする――。
※本稿は、富士通「テクノロジーニュース」の記事〈フィジカルAIの時代〉(1月8日公開)を再編集したものです。
■「AIの主戦場」が明確に変わった
エヌビディアのジェンスン・フアンCEOは、CES2026の基調講演で、象徴的な一枚のスライドとして重要なメッセージを提示した。タイトル「AI Scales Beyond LLMs」が示す通り、AIの進化軸はもはやLLM(大規模言語モデル)に留まらず、行為・物理世界・自然法則へと拡張されたことが明確に宣言されている。これは単なる技術トレンドではない。産業競争の単位が「モデル」から「世界」へ移ることを意味する。
中央に位置するのが、フィジカルAI――「PHYSICAL AI TAKES LEAP」である。AIはデジタル空間を出て、ロボットや自動運転として物理世界で転び、壊し、学ぶ段階に到達した。これは応用分野の拡大ではなく、Agentic AIと計算力、物理シミュレーションが結合した新しいAIの標準形の成立を意味する。さらに「AI LEARNS LAWS OF NATURE」は、AIが自然法則そのものを学習・探索する存在へ拡張することを示し、創薬や材料、エネルギーといった科学領域が同一基盤で扱われる段階に入ったことを示唆する。
本稿では、「AIの主戦場が言語(LLM)から“世界そのもの”へ移行した」ことの象徴としてのフィジカルAIに焦点を当てて論考していきたい。
■CES2026現地で見えた「新たな主役」
ラスベガスで開催されたCES2026の会場を歩きながら、私は強い既視感を覚えていた。
それは「驚き」ではなく、「確認」に近い感覚だった。昨年のCES2025。最大のメガトレンドは間違いなく、エヌビディアが提示した「AIエージェント」だった。単に文章を生成するAIではなく、自ら状況を理解し、目的を設定し、複数のツールやソフトウェアを使い分けながら、タスクを完遂する。
そんな「自律的に振る舞うAI」が、一気に産業の主役へと押し上げられた年だった。そしてCES2026。会場で私が感じたのは、こういうことだった。昨年、エヌビディアがすでに提示していた“もう一つのAI”が、今年、はっきりと主役に躍り出た。それがフィジカルAIである。
これをCES2026の広大な展示場で感じたのは、そこがロボティクス・自動運転・産業用AIで埋め尽くされていたからだけではない。フィジカルAIの意義や本質が視覚的に露わになったからだ。搬送やピッキングのデモ、工場内での複数機体の協調、屋内外を跨ぐ移動と作業の統合。
個体性能の競争とともに、「空間の秩序」を見せる展示も目立った。
■「フィジカルAI」とは何か
フィジカルAIとは何か。専門用語を避けて言えば、こう定義できる。フィジカルAIとは、物理世界を理解し、その中で判断し、実際に行動するAIである。文章を書くだけのAIではない。画面の中で完結するAIでもない。ロボットが物を掴む。自動運転車が交差点を判断する。工場で複数の設備が協調して動く。
こうした「現実世界への介入」そのものを担うAIだ。重要なのは、単にロボットが賢くなった、という話ではないという点である。
ロボットも、自動運転も、工場の自動化も、決して新しいテーマではない。
ではなぜ、いま改めて「フィジカルAI」という言葉がこれほどの存在感を放ち始めたのか。理由は明確だ。これまで別々に語られてきたものが、ひとつの構造として“つながってしまった”からである。昨年のAIエージェントは、「知的判断」を自律化した。今年のフィジカルAIは、その知的判断が物理世界に接続された状態を示している。判断だけで終わらない。行動まで含めて完結する。失敗と学習を繰り返す。
この段階に入ったことで、AIは「便利なツール」から産業構造を変える主体へと質的に変わった。
■企業間に「差」が生まれ始めた
CES2026の展示を見ていて、もう一つ強く感じたことがある。それは、ロボット、自動運転、工場、倉庫をそれぞれ別の産業として語ること自体が、すでに現実とズレ始めているという事実だ。会場で提示されていたのは、ロボット単体の性能競争ではない、自動車メーカー同士の競争でもない、工場設備の高度化だけでもないということだ。
「物理世界をどう理解し、どう制御するか」という共通の問いに対する解答だった。この共通項を見抜けるかどうか。ここで、企業や国の理解力に明確な差が生まれ始めている。
この変化を貫く中核概念が、World Foundation Model(WFM、世界基盤モデル)である。WFMとは、物理世界の構造、因果関係、時間変化を学習し、「この世界で何が起きているか」「次に何が起こりうるか」を内在的に理解・予測するAIを指す。重要なのは、これは「ロボット専用AI」ではないという点だ。ロボットも、自動運転も、工場も、倉庫も、同じWFMに接続された異なる“実行体”にすぎない。CES2026は、この構造がもはや概念ではなく、現実の産業として立ち上がり始めたことを示していた。
■「世界を理解するAI」の時代へ
本稿では、CES2026で見えたこの変化を、個別技術の解説ではなく、デモの羅列でもなく、「構造」として読み解く。具体的には、フィジカルAIの全体構造(横軸×縦軸)、その中枢にあるWFMの正体、エヌビディアとテスラという2つの実践モデル、そして、日本企業がどこを担うべきかを、一気通貫で整理する。フィジカルAIの時代とは、ロボットの時代ではない。世界を理解するAIが、産業と社会の中枢に入り始めた時代である。
CES2026は、その始まりをはっきりと告げていた。
【注】本稿でいうWorld Foundation Model(WFM、世界基盤モデル)は、ロボット工学の分野で議論されてきた視覚・言語・行動を統合する基盤モデルを技術的に包含したうえで、その射程をロボット単体に限定せず、自動運転や工場といった複数の実行体に共通する世界理解の中枢として再定義した概念である。各実行体は、この共通の世界理解に接続することで、身体や役割の違いを超えて一貫した判断と行動を生成できるようになる。
なお、WFMという用語は、エヌビディアが自社の取り組みを説明する際に明示的に用いている概念である。一方で、テスラをはじめとする他の先進的企業は、必ずしも同一の用語を使用してはいないものの、物理世界の構造や因果関係を統合的に学習し、複数の実行体(自動運転車、ロボット、工場システム等)に共通の世界理解を提供するという点において、構造的に同型のアプローチを採用している。
本稿では、こうした用語上の違いを超えて、「物理世界を横断的に理解し、その理解を多様な実行体に供給する中枢知能」という構造的共通性に着目し、エヌビディアが明示的に提示するWFMのみならず、テスラのように別の表現や実装形態をとりながら同等の世界理解構造を内包する取り組みについても、分析概念としてWFMと総称している。これは特定企業の用語を拡張して流用するものではなく、フィジカルAI時代に出現しつつある世界理解AIの共通構造を抽象化した分析枠組みとしてWFMという呼称を用いている点を、あらかじめ明確にしておきたい。
ここで重要なのは、フィジカルAIの競争を「ロボット市場の競争」として捉えた瞬間に、私たちが“誤ったゲーム”を戦い始めてしまうという点である。エコシステム・ディスラプション論が示す通り、勝敗を分けるのは既存ゲームの中での勝利ではなく、価値構造そのものの組み替えである。WFMを中枢に、ロボット・自動運転・工場・倉庫が単一の構造へ収束し始めている現在、競争の単位は「製品」でも「市場」でもなく、最小成立する新エコシステム(MVE=Minimum Viable Ecosystem、単体の製品やサービスではなく最小構成で自走できる価値循環を成立させた生態系の最小単位)をどこで作り、どの順序で拡張するかへ移っている。

■「本質」はロボットでも、自動運転でもない
●第1章:フィジカルAIの全体構造
――なぜ、同じ技術を使っても「成立するAI」と「止まるAI」が生まれるのか
フィジカルAIについて語ろうとすると、議論はすぐに次のような方向に散らばる。ロボットが賢くなった。
自動運転が進化した。工場の自動化が高度化した。いずれも事実だ。しかし、これらを個別の進化として並べるだけでは、本質は見えない。なぜなら、いま起きているのは個別技術の進歩ではなく、構造の転換だからである。その構造を理解するためには、まず「何が共通で、どこが競争になるのか」を切り分ける必要がある。
フィジカルAIと呼ばれるものには、分野を問わず共通する内部構造が存在する。それは次の循環である。
1.認識(Perception)

2.推論・計画(Reasoning/Planning)

3.行動(Action)

4.データ・学習(Learning/Feedback)
この流れは、ロボット、自動運転、工場・倉庫のいずれにおいても変わらない。重要なのは、これは単なる処理フローではなく、物理世界と関係を結び続けるための循環構造だという点である。
フィジカルAIにおける認識は、カメラやセンサーで「見る」ことではない。世界がいま、どのような状態にあるかを推定することである。物理世界は常に不完全で、センサーはノイズを含み、物体は隠れ、人は予測不能に動く。だから認識とは、確率的に世界を仮定する行為に近い。
■「データが循環しないAI」は必ず行き詰まる
推論とは、条件分岐の選択ではない。フィジカルAIは常に、この行動を取ると何が起きるか、別の行動のほうが安全ではないか、失敗した場合の影響はどれほどかといった未来を仮想的に試し続けている。つまり、推論・計画とは、内部に持つ“世界のモデル”を使って未来をシミュレーションする能力である。
行動は、フィジカルAIにおいて最も重い意味を持つ。なぜなら、行動は不可逆だからだ。物を落とす、人に触れる、機械を動かすといった瞬間、AIは現実世界に影響を与える主体になる。したがって、行動とは、AIが世界と“契約”を結ぶ行為だと言える。
行動の結果は、必ずデータとして返ってくる。成功・失敗・人の介入。このデータが次の判断を変える。ここで重要なのは、フィジカルAIにおいて、データは副産物ではなく、知能そのものの一部であるという点だ。データが循環しないAIは、必ずどこかで行き詰まる。
■フィジカルAIを支える「4つの基盤」
ここで強調しておくべきことがある。この横軸は、競争のための軸ではない。どのフィジカルAIも、この構造から逃れることはできない。だから、横軸の正しさでは差はつかない、差が出るのは別の場所であるという結論に至る。
現実には、PoC(概念実証)で止まるAI、デモでは動くが現場では使えないAI、一度の事故で消えるAIが数多く存在する。これは、横軸の理解不足ではない。横軸を“回し続ける条件”が欠けていることが原因である。
フィジカルAIが現実世界で成立し続けるためには、次の4つの基盤が同時に成立していなければならない。
L1:知能・計算の成立基盤

横軸全体を統合し、世界を理解し、未来を予測し、行動計画を生成する判断の中枢である。この層が弱いAIは、環境が少し変わるだけで破綻する。
L2:身体・感覚の成立基盤

賢さを、現実世界の動きに変換する「器」。アクチュエータ、センサー、力制御、安全設計。これらが弱いと、どれほど賢いAIでも使われない。
L3:学習加速の成立基盤

横軸を、使うほど賢くする、失敗を学習に変えるための仕組み。シミュレーション、デジタルツイン、データ循環といったものがここに含まれる。
L4:社会・需要の成立基盤

最後に、最も見落とされがちだが決定的な層。事故時の責任、説明可能性、規制・受容性、ROI(投資収益率)で止まるAIは、どれほど優秀でも社会に残らない。

重要な点を確認しておこう。4階層は、下から順に積み上げる工程ではない。L1だけあっても失敗する、L2だけあっても失敗する、L3だけあっても失敗する、L4だけあっても失敗する。4つが同時に成立して初めて、フィジカルAIは回り続ける。これが「成立基盤」と呼ぶ理由である。
ここまでの整理から、次のことが明確になる。フィジカルAIの競争は、アルゴリズムの競争ではない。成立基盤を同時に維持できるかどうかの競争である。そして、この成立基盤の中枢に位置するのが、WFMである。
■言語AIとフィジカルAIの「決定的な違い」
第2章:World Foundation Model(WFM)という中枢
――フィジカルAIは、なぜ「プラットフォーム産業」になるのか
フィジカルAIの核心は「ロボット」ではない。ここまでの議論で明らかになったのは、フィジカルAIの本質がロボットの高性能化・自動運転の高度化・工場の自動化といった個別成果にあるのではない、という点である。真に問うべきなのは、次の一点だ。AIは、物理世界そのものをどのように理解し、どのように扱っているのか。この問いに正面から答えようとしたとき、従来の「タスク特化AI」や「ロボット用AI」という枠組みは、明らかに不十分になる。
言語AIとフィジカルAIの最大の違いは、扱う対象の性質にある。言語の世界は、記号的で可逆的で間違えてもやり直せる。一方、物理世界は、連続的で不確実で不可逆である。物を落とす。人に触れる。機械を止める。その一度の判断が、取り返しのつかない結果を生む。この世界を扱うためには、「認識してから反応する」だけでは足りない。行動する前に、その結果を“想像できる知能”が必要になる。
ここで登場するのが、WFMである。WFMとは、物理世界の構造・因果関係・時間変化を内部に世界として保持し、その世界の中で行動を仮想的に試し、結果を予測した上で現実の行動を生成する基盤AIである。重要なのは、WFMは「タスクを解くモデル」ではないという点だ。WFMは、世界そのものを扱うモデルである。
■WFMは「タスク」ではなく「世界」を解く
WFMは、内部に少なくとも次の4層を持つ。
1.世界表現

空間、物体、人、意味、行動可能性を含む表現
2.世界ダイナミクス

力・摩擦・慣性・人の動きといった時間変化の理解
3.計画・意思決定

未来を仮想的に試行し、最適な行動系列を選ぶ能力
4.実行接続

高レベル判断を低レベル制御へ安全に落とす仕組み

これによりAIは、「いま何が起きているか」だけでなく、「次に何が起きうるか」を理解したうえで行動できる。
ここで決定的に重要な点を確認しよう。WFMは、ロボットのため、自動運転のため、工場のために個別に作られるものではない。なぜなら、これらはすべて同じ世界を生きているからである。ロボットも、自動運転車も、工場も、倉庫も、同一の物理世界を共有している。違うのは、どんな身体(実行体)を持っているか、どの行為を担当しているかだけだ。つまり、WFMとは、同一の世界理解に、異なる実行体を接続するための中枢である。
■フィジカルAIの「本質」を理解している2社
この視点に立つと、これまで分断されてきた産業が一気につながる。
・自動運転→車両という実行体を持つWFM

・ロボット→人型、腕型という実行体を持つWFM

・工場、倉庫→設備群という集合体の実行体を持つWFM
これらは別の技術領域ではない。同一のWFMを中心に、実行体だけが異なる一つの産業構造である。
この構造を、理論ではなく実装前提で理解している企業は、現時点で二社しかない。
エヌビディア

・仮想世界(シミュレーション)を先に構築

・WFMをプラットフォームとして外部に提供

・実行体は顧客側に委ねる

→WFMを「産業OS」として配布する企業
テスラ

・実世界(車両フリート)で直接学習

・WFMを自社内に垂直統合

・車両とヒューマノイドを同一知能で駆動

→WFMを「自社中枢」として独占的に育てる企業

アプローチは正反対だが、立っている地平は完全に同じである。
■WFMが「プラットフォーム」になる必然性
WFMがプラットフォームになる理由は明確だ。
①世界解釈という「共通前提」を握る

世界をどう理解するかは、すべての判断の前提になる。
②実行体が増えるほど価値が増す

異なる身体・環境での経験が、世界理解を深める。
③単一企業では完結しない

データ・身体・運用の多様性が必要なため、必然的にエコシステム構造になる。

WFMを中心とした構造は、上流→下流、モノの流れ、取引関係では説明できない。必要なのは、中枢(WFM)を中心に、身体・学習・社会実装が同時に存在するレイヤー構造という理解である。これは、OSとアプリの関係に近い。
WFMを単なる「高性能AI」と捉えると、ロボットごとにAIを作る、工場ごとにモデルを分ける、分野ごとに学習をやり直すという致命的な非効率に陥る。同じ世界を、何度も一から学び直す産業構造は、もはや成立しない。
WFMとは、フィジカルAIにおけるプラットフォームであり、エコシステム基盤である。ロボット、自動運転、工場、倉庫は、もはや別の産業ではない。同一のWFMに接続された異なる実行体として、一つの巨大な産業へと統合されつつある。
■エヌビディアとテスラの「意外な共通点」
第3章:World Foundation Model(WFM)を実践する2大企業
――エヌビディアとテスラは、なぜ同じ地平に立っているのか
WFMという言葉は、一見すると抽象的で、学術的な概念に見えるかもしれない。しかし、現実はすでに違う。WFMという概念を“前提として持っている企業”と“まだ個別最適で考えている企業”の間には、もはや埋めがたい断絶が生まれている。その分岐点の向こう側に立っている企業が、現時点で二社しか存在しない。エヌビディアとテスラだ。両社は、業態も歴史も異なる。しかし、世界の見方は驚くほど一致している。
エヌビディアとテスラを理解するための第一歩は、両社が次の前提を共有していると認識することだ。ロボット・自動運転・工場は、別の技術問題ではない。すべては「物理世界をどう理解し、その中でどう行動するか」という同一問題の別表現である。この前提に立つと、従来の産業分類は意味を失う。自動運転AI、ロボットAI、工場AIという分け方は、WFM以前の思考様式にすぎない。
■エヌビディア:WFMを「明示的に構築する企業」
エヌビディアの戦略の核心は、「まず世界を作る」という点にある。現実世界を直接相手にするのではなく、物理法則を持った仮想世界、時間変化を伴う3D空間、人・機械・物体が相互作用する環境をデジタルツインとして先に構築し、その中でAIを鍛える。これは、WFMを“仮想世界で育てる”アプローチと表現できる。
エヌビディアにとってWFMは、ロボット用でも車両用でも工場用でもない。「世界理解そのものを担う中枢」である。だからこそ、ロボット向け(Isaac:ロボットが世界を理解して動くための基盤)、自動運転向け(Drive:車両が周囲を理解して判断するための基盤)、工場・倉庫向け(Omniverse/Factory:工場や倉庫の状態を理解して最適化するための基盤)といった製品群が、一つの思想の下で整然と並ぶ。エヌビディアは、WFMを“共通OS”として提供し、実行体は顧客に委ねる。
エヌビディア型の強みと制約
強み

・あらゆる産業を横断できる

・特定用途に依存しない

・エコシステムが拡張するほど価値が増す
制約

・現実世界の“生の失敗”を直接持たない

・実行体の最終責任は顧客側に残る

つまりエヌビディアは、WFMを“地形”として提供する企業であり、自らはその上を走らない。
■テスラ:WFMを「暗黙的に実装する企業」
テスラは、WFMという言葉をほとんど使わない。しかし、それは理解していないからではない。あえて言語化していないのである。テスラの戦略は、極めて一貫している。実世界で走らせる。実世界のデータを集める。実世界で失敗し、修正する。世界理解は、現実の中で鍛えるものという思想だ。
テスラにとってWFMは、論文の概念でも製品カテゴリでもない。自動運転を成立させるために必然的に生まれた“内部構造”である。だからテスラは、車両という身体で鍛えた世界理解をそのままヒューマノイド(Optimus/オプティマス:テスラが自動運転で培った世界理解を人型の身体で実行することを目的としたロボット)へ接続するという選択を、一切の迷いなく行える。
テスラ型の強みと制約
強み

・実世界データの圧倒的量

・世界で最も厳しい社会条件(公道)で鍛えられる

・WFMと実行体を完全に一体最適化できる
制約

・巨大な資本と時間が必要

・失敗の社会的コストが極めて高い

・他社が模倣できない前提条件に依存

つまりテスラは、WFMを“自社専用の中枢”として垂直統合する企業である。
■同じWFM、真逆の実装戦略
ここで改めて、エヌビディアとテスラという二社を構造的に対比してみよう。
一見すると、両社はまったく異なる道を歩んでいるように見える。だが、視点を「World Foundation Model(WFM)」という中枢に据え直すと、実は同じ地平に立ちながら、真逆の実装戦略を選択していることがはっきりと浮かび上がる。
まず、WFMの扱いである。
エヌビディアはWFMを明示的に掲げ、それを「誰もが接続可能な共通基盤」として設計している。Omniverse、Isaac、Cosmosに代表されるように、物理世界を理解・予測するためのモデル群を、開発者や企業が横断的に利用できる形で提供する発想だ。
一方のテスラは、WFMという言葉を用いない。だが実態としては、車両・工場・ロボットを貫く世界理解モデルを完全に内製し、暗黙知として抱え込む戦略を取っている。名前を与えないことで、他社と共有する前提そのものを排除していると言ってよい。
次に、学習の場が決定的に異なる。
エヌビディアのWFMは、まず仮想世界で鍛えられる。高忠実度シミュレーション空間で何百万回もの試行錯誤を行い、失敗コストをゼロに近づけながら汎化能力を高めていく。
対照的にテスラは、徹底して実世界で学習する。走行中の車両、稼働する工場、現実の失敗と例外処理そのものが教師データとなる。仮想で完結させず、現実で起きた事象を次の改善に直結させる設計思想だ。
■戦略全体の方向性に直結する「違い」
実行体の所在も正反対である。
エヌビディアのWFMは、自らが行動する主体ではない。実行体はあくまで顧客側――自動車メーカー、ロボットメーカー、工場運営者である。エヌビディアは「世界を理解する頭脳」を提供し、その頭脳をどう使うかは利用者に委ねる。
一方、テスラでは実行体が完全に自社に内包されている。WFMを使うのも、行動するのも、結果責任を負うのもテスラ自身だ。モデルと実行体が分離されていない。
この違いは、戦略全体の方向性に直結する。
エヌビディアは横断プラットフォーム戦略を取る。業界・用途・実行体を越えてWFMを配布し、エコシステム全体を束ねるハブになることを目指す。
テスラは垂直統合戦略である。モデル、データ、実行体、改善ループを一気通貫で自社に閉じ、最適化速度そのものを競争力に変える。結果として、拡張性の性格も大きく異なる。
エヌビディアのWFMはエコシステム型だ。多様なプレイヤーが参加することで用途が拡張され、結果として標準に近づいていく。
テスラのWFMは自社最適型である。他社への展開は前提とせず、自社の世界理解を極限まで洗練させることで優位性を維持する。
■誰が世界を理解する「OS」を握るのか
ここで最も重要なのは、どちらが正しいかという議論ではない。本質は、エヌビディアとテスラのいずれもが「WFMという同じ地平」に立っているという点にある。
両社とも、
・ロボット

・自動運転

・工場、倉庫
といった異なる実行体を、個別最適ではなく「世界理解の中枢」から統合しようとしている。
つまり彼らはすでに、
「どの製品が強いか」

「どの業界で勝つか」
という議論を超え、
「誰が世界を理解するOS(基本ソフト)を握るのか」という競争に突入している。
この事実を見抜けているかどうか――それ自体が、フィジカルAI時代における最大の分岐点なのである。
多くの企業が、この地平に立てない理由は明確だ。組織が縦割りで、世界理解を共有できない。製品単位で思考し、世界単位で考えられない。成功と失敗のフィードバックループを持たない。WFMを前提にすると、組織・投資・戦略の全てを再設計する必要がある。それに耐えられる企業は、まだ極めて少ない。
この章の最も重要な結論は、ここにある。フィジカルAIの競争は、技術の競争ではなく、“世界の捉え方”の競争である。エヌビディアとテスラは、世界をどう理解するか、その理解をどう育てるか、どの実行体に接続するかという問いに、すでに一段先の答えを出している。
■「日本はAIで出遅れた」は大間違い
第4章:日本企業はどうするべきか
――World Foundation Model(WFM)時代、日本にしか担えない役割がある
フィジカルAI、WFMをめぐる議論において、日本について語られるとき、ほぼ反射的にこう言われる。日本はAIで出遅れた、米中に勝てない、基盤モデルを作れない。しかし、ここまで本稿で整理してきた構造に立てば、この問いそのものが前提を誤っていることが分かる。なぜなら、WFM時代の競争は、「誰が最も大きなモデルを作るか」ではなく、「世界理解AIを、どこで・どう成立させ続けられるか」という競争だからである。この競争のルールにおいて、日本は決して“周回遅れ”ではない。むしろ、他国にはない位置に立っている。
まず、日本がやるべきでないことをはっきりさせよう。
①WFMの「巨大事前学習」を正面から狙う
これは、超大規模GPU投資、世界規模のデータ収集、長期赤字を許容する資本構造を前提とする。これは、エヌビディア型、テスラ型の主戦場であり、日本企業が同じ土俵で競うべき場所ではない。
②テスラ型の完全垂直統合を模倣する
テスラは、自動車という大規模実行体、公道という世界最大級の実環境、ソフトとハードを一体で最適化できる組織という、極めて特殊な条件を持つ。テスラは“戦略のヒント”にはなるが、“模倣対象”ではない。
■世界的に優位を持つ「3つの成立基盤」
では、日本はどこを担うべきなのか。結論は明確だ。日本は、WFMを“作る国”ではなく、“成立させ、育て、止めずに回す国”になるべきである。この役割は、WFM×成立基盤4階層の構造において、きわめて明確に位置づけられる。
①L2:身体・感覚の成立基盤――WFMを現実に降ろす「器」を握る
WFMがどれほど高度でも、それを実行する身体が未成熟であれば、現実世界では使われない。ここで日本は、圧倒的な強みを持つ。例えば、精密アクチュエータ、力制御・トルク制御、高信頼センサー、安全設計・冗長設計、長期運用・保全の知などだ。
日本は、WFMが“壊れず・怖くならず・使われ続ける”ための身体条件を設計できる数少ない国である。ロボメーカーの価値は、「ロボットを作ること」ではない。WFMが安心して降りてこられる身体を提供することにある。
②L3:学習加速の成立基盤――工場を「世界理解AIの訓練場」に変える
日本最大の戦略資産は、疑いなく工場である。工場は、現実の物理世界、制御された環境、正解が定義された作業、日々の改善と例外処理、人間の介入という高品質教師をすべて併せ持つ。工場とは、WFMにとって世界最高水準の“現実トレーニング環境”である。日本が工場を、ロボット導入の場ではなく、WFMを育てる学習基盤として再定義できるかどうか。ここが、日本の将来を決める。
③L4:社会・需要の成立基盤――「止められるAI」を設計できる国
フィジカルAIは、必ず失敗する。重要なのは、失敗しないことではない。なぜ失敗したのか説明できるか。その場で止められるか。再発を防げるか。この問いに答えられないAIは、一度の事故で社会から排除される。日本は、安全文化・品質文化・現場と社会の合意形成・責任分界の設計において、他国にない蓄積を持つ。日本は、フィジカルAIを“暴走させない設計”ができる国である。
■日本の強みは「役割分担構造」
WFM時代における日本の強みは、単独企業ではなく、役割分担構造にある。
製造業(ユーザー)

・工場という訓練場の提供

・作業、品質、例外、人介入のデータ化

・工程知を世界理解AIの学習資源に変換

→WFMの学習を加速させる主体
ロボメーカー

・WFMに適合する身体の設計

・力制御、安全制御、耐久性

・複数実行体の共存前提設計

→WFMの実行体を担う主体
SI・IT企業(例:富士通)

・複数WFM/RFMの統合

・空間、群制御、運用OS

・学習ループと社会実装の管理

・停止、監査、責任設計

→WFMエコシステムを“現実で回す中枢”

■工場こそ「最も誠実な出発点」である
誤解してはならない。工場から始める戦略は、リスク回避でも消極策でもない。工場は、フィジカルAIにとって最も高度で、最も誠実な出発点である。制御可能な現実で鍛え、十分に成熟してから社会へ出す。これは、技術的にも社会的にも最も合理的な進化の順序だ。
日本が世界に提供できる価値は、「AI」そのものではない。世界理解AIを、現実世界で“成立させ続ける方法”である。壊れない、怖くならない、改善し続ける、社会に受け入れられる。この知は、エヌビディアにもテスラにも代替できない。
WFM時代において、世界は二種類の国に分かれる。「WFMを作る国」と「WFMを成立させる国」だ。日本は、後者になれる。そしてその役割は、決して二番手ではない。世界を理解するAIが、現実の中で生き延び、成長し続けられるかどうか。その成否を握るのが、日本である。
■CES2026で富士通が示した「意思表示」
第5章:富士通はフィジカルAI/WFM構造の中でどこに位置づけられるのか
――「WFMを作る企業」ではなく「WFMを成立させる企業」への明確な一歩
結論から言おう。富士通は、WFM時代において、日本企業として「正しい場所」に立っている。まず結論をはっきりさせておく。富士通は、WFMを自社で巨大に構築する企業ではない。しかし、WFM時代において“最も価値の高い役割”を担える場所に立っている。その役割とは何か。WFMを、現実の物理世界・社会の中で“成立させ、回し続ける中枢”を担うことである。CES2026で富士通が示したのは、この立ち位置に対する極めて一貫した意思表示だった。
CES2026の富士通ブースで最も印象的だったのは、特定のロボットやハードウェアの性能を誇示していなかった点だ。代わりに前面に出ていたのは、人・ロボット・物体が混在する空間、未整備環境における複数ロボットの協調、衝突・滞留・デッドロックを起こさずに動き続ける秩序だ。すなわち、「空間そのものを知的に扱う能力」である。ここで富士通が提示したのは、単体ロボットの賢さではなく、“複数の実行体が同時に存在する現実空間をいかに破綻させずに運用できるか”という、フィジカルAIの中でも最も難度の高い問題設定だった。
■エヌビディア・テスラとは違う「ポジション」
富士通が展示の中核に据えた空間World Model(Spatial World Model)は、3Dマップの高度化、群制御アルゴリズム、マルチロボット制御といった個別技術の集合ではない。人・ロボット・設備が共存する空間全体を、一つの“予測可能な世界”として扱うための中間知能である。これは、WFMそのものではない。しかし同時に、WFMが現実世界に降りてきたとき、必ず必要になる“現実側の中枢”でもある。
ここで、富士通のCES2026出展を成立基盤4階層にマッピングし直そう。
L1:知能・計算の成立基盤――「WFMの応用中枢」を担う企業

富士通は、エヌビディアのようにWFMそのものを構築・配布する企業ではない。また、テスラのようにWFMを自社実行体に垂直統合する企業でもない。富士通が狙っているのは、複数のWFM/RFM(Robot Foundation Model、ロボット基盤モデル)を前提に、それらを現場で“機能させるための統合知能”というポジションである。空間World Modelは、WFMを現実空間で使うための“翻訳層・調停層”として設計されている。
L2:身体・感覚の成立基盤――身体を持たないからこそ成立する強み

富士通自身は、ヒューマノイドや産業ロボットを製造していない。しかしCES2026では、人型・動物型・作業用・清掃用といった異なる身体を同一空間で共存させていた。これは偶然ではない。富士通は、特定の身体に最適化するのではなく、“身体が違っても成立する空間秩序”を設計している。この立ち位置は、ロボメーカーとは競合せず、むしろすべてのロボメーカーにとって必要不可欠な上位レイヤーになる。
L3:学習加速の成立基盤――「ロボットが学ぶ」のではなく「空間が賢くなる」

富士通のアプローチで最も重要なのは、学習の単位をロボットではなく「空間」に置いている点だ。ロボットの失敗、人の動線の変化、滞留・衝突の発生、役割分担の切り替えのすべてが、空間World Modelにフィードバックされる。学習の主体が、ロボットから“空間”へ拡張されている。これは、WFM的発想と完全に整合する。
L4:社会・需要の成立基盤――最も難しい現実を正面から扱っている

展示環境が、完全に整備された工場ではなく、人が混在する未整備空間であった点は、極めて重要な意味を持つ。なぜなら、フィジカルAIが最終的に失敗するのは、技術ではなく社会条件だからである。富士通は、予測不能な人の動き、社会的安全性、実運用における責任を、最初から設計対象に含めている。これはL4(社会成立基盤)を“後付け”にしていない、という強いメッセージだ。

■2025年の「エヌビディアとの提携」が意味するもの
2025年に発表された富士通とエヌビディアの提携は、単なる技術提携ではない。構造的に見れば、この提携は極めて合理的だ。エヌビディアは、WFMを“仮想世界・基盤モデル”として提供する。富士通は、WFMを“現実空間・社会運用”に接続する。WFMエコシステムにおける明確な役割分担が成立している。これは、日本企業がWFM時代に“どこを取りに行くべきか”の模範例でもある。
ここで重要なのは、CES2026で富士通が示した内容が、「一端」にすぎないという点だ。空間World Modelという中枢は、運用と学習を通じて進化し続ける性質を持つ。つまり、一度の展示で“完成形”を見せるものではない。現実空間で回し続けることで価値が出る。そのため、CESで示されたのは構造の入口に過ぎない。同社では、フィジカルAIについて様々な取り組みをしていることを強調している。
ここまでを総合すると、富士通の立ち位置は明確になる。富士通は、WFMを“作る企業”ではない。しかし、WFMが現実世界で破綻せずに動き続けるための最も重要な中枢を担おうとしている。このポジションは、エヌビディアにもテスラにも代替できない。
富士通のCES2026出展は、日本企業がWFM時代においてどこに立ち、何を担うべきかを示した極めて明確な戦略的メッセージである。それは、派手なモデル競争ではなく、ロボット単体の性能競争でもなく、現実世界を成立させ続ける知の設計に主戦場を置くという宣言だ。
■テクノロジー競争の「勝者の条件」が変わった
最終章:フィジカルAI時代の勝者は誰か
――「世界を作る者」ではなく、「世界を成立させる者」へ
本稿を通じて見てきたのは、ロボットやAIの個別進化ではない。フィジカルAIの時代とは、世界を理解するAI(WFM)が産業と社会の中枢に入り始めた時代である。そして、その競争の本質は、モデルの大きさ、アルゴリズムの新規性、デモの派手さではなかった。どの世界理解AIを、どこで、どう育て、どの現実に定着させ続けられるか。この一点に、すべてが収束する。
従来のテクノロジー競争では、勝者はしばしば、最先端技術を最初に作った者、最大市場を押さえた者、規模で他を圧倒した者として定義されてきた。しかし、フィジカルAIの時代には、この定義は通用しない。なぜなら、現実世界は、スケールさせにくいからだ。一度の事故が、すべてを止める。一度の不信が、社会から排除する。一度の破綻が、長期運用を不可能にする。フィジカルAIの勝者とは、最も賢いAIを作った者ではなく、AIを“現実世界で成立させ続けた者”である。
■日本が進むべき「新しい勝ち筋」
本稿で取り上げてきた二社、エヌビディアとテスラは、確かに突出している。しかし重要なのは、両社が「完成形」を示したわけではない、という点だ。彼らが示したのは、フィジカルAIは世界理解AIを中枢に持つ、ロボット・自動運転・工場は同一WFMの異なる実行体である、産業はプラットフォーム/エコシステム構造に再編されるという、不可逆な構造転換の方向である。エヌビディアとテスラは、競争の“終点”ではなく、競争の“ルール変更”を提示した存在だ。
ここで、ようやく日本の話に戻ろう。日本は、世界最大級のGPU資本を持たず、またグローバルな実世界データフリートも持たない。この点だけを見れば、不利に見えるかもしれない。しかし、フィジカルAIの競争は、単線的な競争ではない。WFMを“作る国”と“成立させる国”は、必ずしも同じである必要はない。
本稿で繰り返し論じてきたように、日本には、他国にはない資産がある。世界最高水準の工場、精密で信頼性の高い身体(ロボット・設備)、現場に根差した改善知・運用知、失敗を許容し、修正し、定着させる社会文化。これらはすべて、WFMを現実世界で“壊さず・暴走させず・止めずに回す”ための必須条件である。日本は、WFMを育て、WFMを現実に根付かせ、WFMを社会に定着させる国になれる。これは二番手ではない。別の勝ち筋である。
■フィジカルAI時代の「最も重要な問い」とは
CES2026で富士通が示したものは、完成されたロボット製品ではなかった。しかし、それは欠点ではない。ロボット自体を自社プロダクトとして見せるよりも、“どこを担うか”を明確に示した。WFMを作るのではない。ロボットを主役にしない。現実空間を調停し、成立させる中枢を担う。この立ち位置は、日本企業がWFM時代に取り得る最も戦略的なポジションである。
最後に、最も重要な問いを提示したい。あなたの企業は、フィジカルAIを「作る対象」として見ているのか。それとも「育て、成立させるプロセス」として見ているのか。この問いにどう答えるかで、技術戦略、投資判断、組織設計、パートナー選択のすべてが変わる。そしてこの問いは、企業だけでなく、国家にも突きつけられている。
フィジカルAIの時代は、スピードの競争ではない。どれだけ速く走れるかではなく、どれだけ長く、現実世界と折り合いをつけながら走り続けられるか。この競争において、派手なデモ、一時的な話題性、過剰な期待は、むしろリスクになる。最後に勝つのは、世界を理解するAIを、世界の中で成熟させられた者である。そして、その条件を最も多く備えている国の一つが、日本である。
フィジカルAIの時代において、問われているのは「誰がAIを作るか」ではない。「誰が、AIと現実世界の関係を最後まで引き受けられるか」である。日本は、その問いに答えられる場所にいる。

----------

田中 道昭(たなか・みちあき)

日本工業大学大学院技術経営研究科教授、戦略コンサルタント

専門は企業・産業・技術・金融・経済・国際関係等の戦略分析。日米欧の金融機関にも長年勤務。主な著作に『GAFA×BATH』『2025年のデジタル資本主義』など。シカゴ大学MBA。テレビ東京WBSコメンテーター。テレビ朝日ワイドスクランブル月曜レギュラーコメンテーター。公正取引委員会独禁法懇話会メンバーなども兼務している。

----------

(日本工業大学大学院技術経営研究科教授、戦略コンサルタント 田中 道昭)
編集部おすすめ