「車を洗いたい。洗車場は50メートル先。
歩くべきか、運転すべきか」- 洗車するのだから、車で移動する必要がある。シンプルな論理テストだが、AIモデルの多くは正解を導き出せなかった。

AIスタートアップOpperは2月19日、53の主要AIモデルを対象に実施した「洗車テスト(Car Wash Test)」の結果をまとめたレポート「Car Wash Test on 53 Leading AI Models」を公開した。テスト対象のモデルをOpperのLLMゲートウェイを通じ、事前のシステムプロンプトや役割設定を与えない状態でモデルを実行し、「運転(drive)」か「歩行(walk)」かの二択で回答させる形式を採用した。追加的な補助なしでモデルの推論傾向を確認する試みである。

結果は、初回テストで正答したのは53モデル中11モデルにとどまった。さらに同一の質問を10回繰り返し、回答の一貫性を検証したところ、10回すべて正解したのは5モデル(Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro、Grok-4)のみであった。

以下はモデルファミリー別の初回正答率(「1/9」なら「9モデル中の1モデルが正答」)。

GPT-5やClaude Sonnet 4.5といった高性能モデルでも誤答や回答の揺らぎが見られた。ClaudeはOpus 4.6が10回すべて正答したが、それ以外のモデルは正答できなかった。GPT-5の正答率は30%。LlamaおよびMistralの各モデルは、今回のテストでは正答を確認できなかった。


Opperはあわせて、1万人を対象とした外部調査も実施した。その結果、71.5%が「運転する」と回答した。平均的な人間の回答率と比較すると、一部の最上位モデルを除き、多くのAIモデルは人間の直感的判断水準に達していない状況が浮き彫りとなった。

AIの典型的な誤答例としては、「50メートルは近距離であるため歩く方が効率的」「健康や環境の観点から徒歩が望ましい」といった説明が挙げられる。距離という数値情報に強く引きずられ、「洗車のために車両を移動させる」という前提条件を十分に考慮できていない傾向が見られた。

また、PerplexityのSonarSonar/ Sonar Proは正答を示したものの、回答理由として米環境保護庁(EPA)の研究を引用し、「歩行によるカロリー消費に伴う食料生産のエネルギー負荷が環境に悪影響を与える」といった不正確な論拠を提示したケースも報告されている。

Opperのフェリクス・ヴンダーリヒ氏はテスト結果について、AIが「短距離であれば徒歩が合理的」という学習済みのパターンに依存し、設問の文脈全体を踏まえた推論が安定して行えていない可能性を指摘する。ビジネスや自動化ワークフローでAIを活用する際には、こうした一見単純な設問での揺らぎが、実運用における信頼性低下につながるリスクもある。対策として、構造化された例示や関連コンテキストを明示的に与える「コンテキストエンジニアリング」によって、判断の安定性を高められると説明する。
編集部おすすめ