日本のヒューマノイドロボット「オルタ3」にチャットGPTを搭載、自撮りして幽霊の真似をする
  紹介しよう、これは東京大学の研究チームが開発したヒューマノイドロボット、機械人間「オルタ3」だ。

 芸人を思わせる変なポーズをとっているが、ふざけているわけではない。
「スマホによる自撮り」と「幽霊の真似」を彼(彼女?)なりに解釈して、”自律的”にキメたポーズだ。

 オルタシリーズ3代目となる「オルタ3」は、芸人の動きを思わせたとしても、そこには最先端技術が搭載されている。

 OpenAIの大規模言語モデル「GPT-4」が統合されており、その会話内容に従い、事前にプログラムされていないポーズや表情をリアルタイムで作っているのだ。

 それは近い将来、その場の状況に応じて臨機応変に動作する人間らしいロボットが登場するということかもしれない。

ヒューマノイドロボットとAI大規模言語モデル 従来のロボット制御は、主にハードウェアによるものだった。そのためOpenAIのChatGPTのような大規模言語モデル(LLM)で、ロボットを直接制御することは難しかった。

 そこで東京大学の研究チームは、言葉による人間の動作の説明をロボットが理解できるコードに変換する方法を考案した。

 つまりLLMが紡ぎだす自然な会話のようなガイダンスで直接ロボットの動作を制御できるようにしたのだ。

 機械人間オルタシリーズの三代目となる「オルタ3」は、GPT-4が統合されており、その言葉によるガイダンスに従い、事前にプログラムされていない動作シーケンスを自律的に作り出す。

 体の各部には、圧縮空気によって駆動される43のアクチュエーターが搭載され、それよって顔や手足を動かす。ここまでは普通のロボットと同じかもしれない。

 だがその動作は、オルタナティヴ・マシン曰く、「人間の脊髄の役割を果たすセントラル・パターン・ジェネレータ(CPG)と、脳の神経細胞を模した1000個のニューラルネットワーク(NN)」によってリアルタイムに生成されるものだ。


[動画を見る]

オルタに指示を出すとCPTがその手順を教える たとえば「iPhoneで自撮りして」とオルタ3に指示を出したとする。

 するとGPT-4が「大きな笑顔と見開かれた目で興奮を表現する」「上半身を軽く左に向け、ダイナミックなポーズをとる」といった具合に、指示を実行するために取るべき手順を答える。

 さらにGPT-4は、この手順をオルタ3が理解できるようPythonコードに変換する。あとはオルタ3がこのコードに従って体の関節を調整すれば、指示された通りのポーズの完成だ。

 その様子はご覧の動画の通り。オルタ3は自発的に上半身を動かし、「スマホ片手に自撮り」してみせたり、「幽霊の真似」をしたりする。

[画像を見る]

 今のところ完全ではなく、どこかの芸人のポーズっぽさもあるが、それがリアルタイムで生成されたものだと知れば驚異的だ。

 また人間はこうしたポーズを評価することができる。

 たとえば、「手を高く上げて」と指示されたオルタ3が取ったポーズに対して、「もっと手を高く」と修正が必要であることを伝えたとする。

 するとオルタ3はそれを記憶して、同じ指示に対して次からは修正されたポーズをとるようになる。

[画像を見る]

 これを繰り返すことで、オルタ3にはより自然なポーズのデータが溜まっていく。

 実験では、人間とやりとりすることで、より多様なポーズを習得することができたという。


 これは、新生児が真似することで学習するのと同様に、ロボットは人間の真似をすることで多彩な動きを習得できるという仮説の裏付けであるとのことだ。

 『arXiv』(2023年12月11日投稿)で閲覧できる研究では次のように述べられている。
私たちは、オルタ3が文脈に応じた表情やジェスチャーを示しながら、効果的に対話してくれることを期待している。

注目すべきは、説明に反応して悲しみや喜びといった感情を反映する能力を示していることだ。ロボットは私たちと感情を共有することができるのだ
 それは近い将来、人間と同じように状況に応じて臨機応変に振る舞うロボットが登場するということだろうか?

References:2312.06571.pdf / Paper page - From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3" / written by hiroching / edited by / parumo

画像・動画、SNSが見れない場合はオリジナルサイト(カラパイア)をご覧ください。
編集部おすすめ