上海の浦東美術館ではスマホの「ビデオ通話」をクリックして展示品に向けると、「AI解説員」が解説をしてくれる。人民日報海外版が伝えた。
AI解説員はどのような質問に対しても熱心でプロフェッショナルな答えを提供してくれる。対話だけでなく、ユーザーが質問した時に間違った知識があることが分かると、それとなく訂正してくれる。AI解説員に案内してもらうと、特別感のある見学を体験することができる。
字節跳動(バイトダンス)が開発したAIツール「豆包(Doubao)」は、上海浦東美術館で開かれている特別展「模様の奇跡:ルーブル美術館所蔵インド・イラン・オスマン帝国の芸術傑作」と「非凡なるピカソ:ポール・スミスの新視点」の公式AI解説員を務めている。
陸家嘴集団の副総経理を務める浦東美術館の李旻坤(リー・ミンクン)董事長は、「AI解説員の情報が正確であれば、美術作品を見て感じることや体験が非常に豊かになる。これは意義深いことだ」と語る。
「豆包」の解説員プロジェクトの責任者、李若瑄(リー・ルオシュエン)氏は「15世紀にイランで制作された牡丹が描かれた皿を例にすると、その作風は中国の明代・永楽年間の青花牡丹紋盤と非常に似ている。そのため、AIは模様の詳細部、技法の違いといった細かな部分に注目して、正確に認識しなければならない」と説明する。
ユーザーによって撮影する角度が異なることも認証の難度を高める要素となる。文化財は角度によって形態がかなり異なるため、AIはそれが何かを正確に認識しなければならない。また、見学しているユーザーがAIに標準化された撮影環境を提供することは難しく、画像がぶれていたり、一部が隠れていたり、明るさに問題があったりすることもある。さらにユーザーが話し言葉でいろいろ質問した場合、AIにとっては文脈を理解したり、質問と質問の区切りを理解したりすることがとても難しくなる。
「豆包」に25年5月、視覚推論モデルをベースにしたビデオ通話機能が加わった。リアルタイムのQ&Aやインターネット検索などに対応しており、自然なインタラクティブ体験が人気となった。これらは美術館の解説員として「豆包」を導入するための技術的経験の蓄積となった。
技術レベルで見ると、動画解説機能はSeed1.8モデルが強力な下支えを提供している。同モデルは動画センシングやストリーミング、動画理解といった分野で世界最先端の水準に達しており、写真を撮影してAIに質問し、写真を再度撮影してさらに質問していくという一つ一つ区切ったやり取りに限らず、ユーザーと一緒にリアルタイムで視点を移動させ、対話しながら、目の前のシーンの変化を継続的に理解し、より自然で、連続性あるやり取りを実現した。(提供/人民網日本語版・編集/KN)











