「応答できる」から「共感できる」へ、初のバーチャルデジタルヒューマン国家標準を発表―中国

2025年12月22日(月)20:30

「応答できる」から「共感できる」へ、初のバーチャルデジタルヒューマン国家標準を発表―中国

中国のバーチャルデジタルヒューマン分野における初の国家標準「情報技術カスタマーサービス型バーチャルデジタルヒューマンに関する一般技術要求」が発表された。同標準の制定により、業界における技術規範の空白が埋められ、カスタマーサービス型バーチャルデジタルヒューマンの研究開発、製造、応用に対して統一された技術的要件と評価基準が示された。

中央テレビニュースアプリが伝えた。

カスタマーサービス型バーチャルデジタルヒューマンはデジタルヒューマン技術の中でも最も重要な応用分野の一つであり、すでに金融、行政、教育など複数の業界で広く活用されている。デジタルヒューマン技術はさまざまな「カスタマーサービス」の役割として、多様な商業シーンに浸透している。

同標準は、全工程を網羅する技術規範体系を構築し、カスタマーサービス型バーチャルデジタルヒューマンシステムの参照フレームワークを明確化した。対象範囲はアバター生成、視覚的インタラクション、音声インタラクション、感情インタラクション、アバター駆動、運用・保守などのモジュールに及ぶ。基本的な外観表現から高度な感情フィードバックに至るまで、異なるタイプや利用シーンのデジタルヒューマンに対し、明確な要件が定められている。

アバター生成に関しては2Dデジタルヒューマンは顔の各部位の細部が完全かつ鮮明であることが求められ、3Dの超写実デジタルヒューマンモデルについてはポリゴン数が20万以上であることが規定された。インタラクション機能面では音声、ジェスチャー、身体動作などのマルチモーダルな対話に対応することに加え、キーワード管理やコーパス更新といった運用・保守機能を備え、サービスの継続的な最適化を確保することが求められている。

国家標準では、口パクの精度を90％以上と規定しており、音声と口の動きが正確に同期することを保証している。また、ジェスチャーインタラクションの平均成功率を90％以上、身体動作インタラクションの平均成功率も90％以上としており、身体言語によるコミュニケーションの自然さを高めることを求めている。さらに、感情インタラクションの成功率を80％以上とする要件を打ち出し、デジタルヒューマンのカスタマーサービスを「応答できる」段階から「共感できる」段階へと引き上げた。

感情インタラクションの実現に向けて、標準は、表情収集、姿勢認識、音声感情分析などの機能をデジタルヒューマンに備えることを要求している。

利用者の喜び、悲しみ、焦りといった感情を正確に判断し、表情生成や感情音声合成などの手段を通じて適切なフィードバックを行う。また、音声インタラクションの応答時間は2秒以内、意味理解の正確率を85％以上とし、サービスの「温かみ」と「効率性」の両立確保を強調している。（提供/人民網日本語版・編集/YF）

編集部おすすめ