手先が器用で折り紙も折れる、人間の要求に柔軟に対応できるGoogleの最新AIロボット事情
Googleが開発中のAIロボット: <a href="https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/" target="_blank" rel="noreferrer noopener">Google</a>

手先が器用で折り紙も折れる、人間の要求に柔軟に対応できるGo...の画像はこちら >>

 ロボットが人間のようにビニール袋のジッパーを閉めたり、折り紙を折ったり、家事を手伝ったり、複雑な作業もこなしてくれる、さらには一緒にゲームで遊んでくれる。そんな未来が近づきつつあるようだ。

 2025年3月19日、アメリカのGoogle DeepMindが発表した最新のAIは、人間の声や視覚情報をもとに、物理世界を正確に理解し、繊細な作業をこなすことができる。

 たとえ初めて経験する状況であっても、これまでの知識をもとにどうするべきかをきちんと考え、要求に応じて臨機応変に行動ができるのだ。

 待ち望んでいたヒューマノイドロボットがついに現実となる日がもうそこまで近づいている。

ロボットの脳として機能するAI

 現在、ロボット技術は進化しているが、自律的に複雑な動作を行うことは依然として難しい。特に、未知の状況で安全かつ正確に動く「エンボディドAI(Embodied AI)」の開発は、多くの企業にとっての課題となっている。

 エンボディドAIとは、物体を操作したり、人とコミュニケーションをとり物理的な作業を支援する、身体性を持つエージェントベースのAIシステムのことだ。

 Google DeepMindの新たなAIモデル[https://deepmind.google/technologies/gemini-robotics/]は、この課題に取り組むために開発された。

 Googleが公開した映像を見れば、人間並みに柔軟で判断力に優れたロボットの登場が、一歩実現へ近づいたことを嫌でも実感することだろう。

[動画を見る]

 2種の新型AIモデルは、Googleの大規模言語モデル「Gemini 2.0」にロボット制御用の機能を実装したもので、「Gemini Robotics」と「Gemini Robotics-ER」と呼ばれている。

 Gemini Roboticsの特徴は、視覚的な情報や言葉による指示を理解して、それに基づき行動できること。Googleはこの力を、「視覚・言語・行動能力」と呼んでいる。

 一方、Gemini Robotics-ERは、より高度な空間の理解を踏まえた推論能力を特徴としており、AIによる世界の理解を、既存の一般的なコントローラーに伝えることを可能にする。

 ちなみにERは、「具現化された推論(embodied reasoning)」の頭文字をとったもの。

それが示唆する通り、このGoogleの最新AIモデルは、これまでAIがデジタルで理解していただけの内容を、この物理世界で見事に具現化してみせるのだ。

驚くほど器用に人間の要求を物理的に叶えてくれる

 例えば、このAIを搭載したロボットアーム(ALOHA 2)に口頭で「バナナをかごに入れて」と伝えれば、カメラに映ったバナナを認識して、難なくカゴに入れてくれる。

 バナナとブドウが混ざっていてもきちんとバナナを見分けるし、作業中に人間がカゴをあちこち動かしても間違えるようなことはない。

 しかも驚くほど器用で、ビニール袋のジッパーを閉めたり、折り紙を折ることもできる。歯車にベルトをセットするような作業ならば人間よりも早くやってのける。

[画像を見る]

一般化能力が既存モデルの2倍にアップ

 DeepMindによれば、Gemini Roboticsシステムは、これまでのAIに比べて「一般化能力」が非常に優れているのだという。

 一般化とは、さまざまな物事に共通する性質や、共通して当てはまる方法などを見つけ出す力のこと。これができれば、過去に学習したことのない状況でも上手に対応することができる。

 たとえば、ドアの開け方を学んだロボットがいたとしよう。そのロボットがそれまでとは違う種類のドアを見た時、一般化ができれば、ドアに共通する性質からきちんと開け方を推測することができる。

 ところが一般化ができないロボットは、同じドアでも少しデザインが違うだけで開けられないような事態になる。

 現実のあらゆる状況をあらかじめ想定してロボットに教えることは不可能だ。だから実用的なロボットを開発するには、高度な一般化の力がきわめて重要になる。

 GoogleのGemini Roboticsは、最先端の視覚・言語・行動モデルと比較して、「包括的な一般化ベンチマーク性能が2倍以上アップ」しているという。

[動画を見る]

ロボット制御AIが商用されるのはいつ?

 なお、今回の新型AIモデルが利用可能になる具体的な時期や商用化については、今のところ発表されていない。

 このことを踏まえるなら、どれほど優れているように見えても、まだまだ研究開発の段階であるということなのだろう。

 1つには安全性の問題があるかもしれない。

 Googleがパーナーシップを結ぶApptronik[https://apptronik.com/]のヒューマノイドロボットは、人間の身近で使われることが想定されている。そうである以上、その安全性は単なる工業用ロボット以上に検証されるべきだ。

 もちろんGoogleはそれを承知しており、ロボットの安全性を評価するためのデータセットを公開している。

[動画を見る]

 それはアイザック・アシモフが提唱したロボット三原則にちなみ「ASIMOV」と呼ばれるもので、これを利用することで、さまざまな状況においてロボットがとりうる行動の帰結を、AIが理解しているのか厳密に測定することができるという。

 ちなみにロボット三原則とは、「ロボットは人間に危害を加えてはならない」「ロボットは人間の命令に従わなければならない」「ロボットは自らの存在を護らなければならない」という3つのルールだ。ただし今となっては、ロボット三原則は現実的ではないという意見もあるが…。

 Google DeepMindの新たなAIモデルは、ロボットがより高度な作業をこなせるようになる未来への重要な一歩といえる。

 もし、これらの技術が実用化されれば、工場や家庭、さらには災害救助など、さまざまな分野で活躍するロボットが誕生することになる。

 近い将来、私たちの生活の中で、AIを搭載したヒューマノイドが当たり前のように働く日が来るのだろうか。期待と不安が交差するが、今のところ期待の方が大きいかな。

References: Deepmind[https://deepmind.google/technologies/gemini-robotics/] / Arstechnica[https://arstechnica.com/ai/2025/03/googles-origami-folding-ai-brain-may-power-new-wave-of-humanoid-robots/]

本記事は、海外で報じられた情報を基に、日本の読者に理解しやすい形で編集・解説しています。

編集部おすすめ