「ChatBrid」にベンチマーク用質問文＆模範回答の自動生成と、自動採点機能を一体化しGUIで提供開始～Excel作業から解放。評価作業の大半の自動化によりRAGの精度向上の生産性が10倍向上！

2025年10月21日(火)16:00

メタデータ株式会社（所在地：東京都文京区、代表取締役社長：野村直之）は、RAGエンジン「ChatBrid（チャットブリッド）」において、評価用の質問文セットを自動生成・編集・保存し、さらに自動採点まで行える新機能群「質問文セット生成・編集・保存」「自動採点機能付き採点画面」を追加しました。従来、Excelベースで人手に頼っていた評価作業をアプリ内で完結できるようにし、導入初期の評価・改善サイクルを大幅に短縮します。

本機能は、一部顧客に2025年3月より提供していたものですが、2025年11月より正式に提供開始いたします。

【画像 https://www.dreamnews.jp/?action_Image=1&p=0000332298&id=bodyimage1】

画像（1）：機能トップ画面イメージ

■ 背景～従来はExcel前提の評価業務がボトルネックに
ChatBridは、ビジュアル類似検索による“知識デバッグのしやすさ”で高い評価を獲得してきました。しかし、評価用の質問文セットの作成・保守、採点・集計は多くの企業でExcel中心の手作業に依存しており、負担が大きいという課題がありました。今回の新機能は、この評価プロセス全体をアプリに内蔵し、標準化・自動化するものです。

■ 新機能の概要

【画像 https://www.dreamnews.jp/?action_Image=1&p=0000332298&id=bodyimage2】

（画像（2）：生成された質問と回答のレビュー画面）

1. 質問文セットの自動生成・編集・保存
● 指定したデータセットから、内容を問う質問を任意件数自動生成。
● 標準でデータセット全体からなるべく満遍なく、且つ重要そうなポイントを選んで質問文を生成。
● 生成された質問・回答は鉛筆アイコンで手動編集でき、保存可能。

2. 模範回答の生成
● 管理者画面で設定したパラメータ、現行の影プロンプト、データセットプロンプトの状態で、1.で生成した質問の模範回答案を生成。
● 回答は各質問に紐づけて保存し、後段の採点に活用。

3. 自動採点（減点理由・改善コメント付き／50点満点）
● 標準採点プロンプトと、採点基準のカスタマイズプロンプトを用意。
● 関連データセット（および知識レコード）単位で思考型（Reasoning type LLM）に送って自動採点を実行。
● 減点理由や改善ポイントも同時に生成・保存。

● データセット別に、全体の平均点を集計して表示。

【画像 https://www.dreamnews.jp/?action_Image=1&p=0000332298&id=bodyimage3】

（画像（3）：自動採点の詳細と減点理由の表示）

■ 使い勝手を高めるオプション／発展機能（今後の予定を含む）
● 手動評価欄：人手で点数・コメントを記入可能。自動評価結果をワンクリックで複製して下書きにできます。
● 採点履歴の保存：各種パラメータを変更した際の点数推移を履歴として保持。
● 標準質問セットのプリセット：5～10セットの標準質問を保存・呼び出し。
● 可視化：データセット別／全体の折れ線グラフで点数の変化を表示（X軸は日時）。
● 網羅性チェック：質問の答えが知識レコードに存在しない場合を検出し、知識追加を促す機能と連携。

■ 期待される効果
● 評価作業の生産性向上：質問の作成～回答取得～採点～集計までを一気通貫でほぼ自動化。
● 初期導入の短縮：評価と改善サイクルが高速化することで、初期導入期間を半分以下へ（当社見込み）。
● 再現性と説明責任：採点プロンプト・履歴・減点理由が残るため、評価基準の透明性が向上。
● 「次の質問サジェスト」の確度向：既存の対話画面の「次の質問サジェスト」の内容および表現（文章の分かり易さ等）が改善。
● 最小質問数で主要質問をカバー：思考型LLMと高度プロンプトにより、評価対象のデータセットに関する高頻度の質問を、比較的少ない質問＆回答の数でカバー。

● データセット自体の改良を加速：生成された質問、回答、自動採点結果により、RAGの精度を左右する知識データ自体の欠陥を素早く見つけ、そのデータの不備を速やかに解決。

配信元企業：メタデータ株式会社
プレスリリース詳細へ

ドリームニューストップへ

編集部おすすめ