チャットGPTは、最新の研究論文に書かれた仮説が「研究で証明された(ホント)」か「否定された(ウソ)」かを当てるテストで、全く同じ質問をされても回答が二転三転し、その実力は最低ラインにとどまることが最新の研究で判明した。
ワシントン州立大学の研究チームが700以上の問いを10回ずつ繰り返したところ、AIは「さっきはホントと言ったのに次はウソと言う」といった矛盾を連発。
文章はもっともらしいが、実は内容を論理的に理解していない実態が明らかとなった。
この研究成果は『Rutgers Business Revie[https://rbr.business.rutgers.edu/article/unstable-intelligence-genai-struggles-accuracy-and-consistency]』誌(2026年3月17日付)に掲載された。
参考文献:
AI gets a D: Study shows inaccuracies, inconsistency in ChatGPT answers
https://news.wsu.edu/press-release/2026/03/12/ai-gets-a-d-study-shows-inaccuracies-inconsistency-in-chatgpt-answers/[https://news.wsu.edu/press-release/2026/03/12/ai-gets-a-d-study-shows-inaccuracies-inconsistency-in-chatgpt-answers/]
同じ質問で答えがコロコロ変わる
米国ワシントン州立大学のマーケティング・国際ビジネス学准教授メスト・チチェク氏らの研究チームは、チャットGPTが研究論文の内容をどの程度正しく判断できるのかを調べた。
研究チームは2021年以降に発表されたビジネス分野の学術論文から、719個の仮説を集めた。
仮説とは、研究者が「もしAが起きればBが起きるのではないか」と予測する考えであり、研究データによって正しいかどうかが検証される。
研究では、こうした仮説が実際の研究によって支持されたのか、それとも支持されなかったのかをチャットGPTに判定させた。
そしてAIの回答が安定しているかを調べるため、まったく同じ質問を10回ずつ繰り返して入力した。
その結果、チャットGPTは同じ質問に対して、ある時は「ホント」、別の時は「ウソ」と答えを変えるケースが確認された。
10回とも同じ答えを維持できたのは全体の約73%にとどまり、AIの回答に一貫性がない実態が明らかになった。
偶然の正解を除くと実力は最低ライン
2024年に行われた最初の実験では、無料版のチャットGPT-3.5が使われ、正解率は76.5%だった。
翌2025年には更新版のチャットGPT-5 miniで同じ実験が行われ、正解率は80%にわずかに上昇した。
一見すると高い成績に見えるが、このテストは「正しいか間違いか」の二択問題である。内容が分からなくても適当に答えれば半分は当たる可能性がある。
そこで研究チームが偶然の正解を考慮して計算し直したところ、AIの実力はランダムな予測より約60%上回る程度にとどまった。
研究者はこの水準を大学の成績に例えると低いD評価に近いと説明している。
さらに分析すると、チャットGPTは「間違いの仮説」を見抜くのが特に苦手だった。
研究によって支持されなかった仮説を正しく「偽」と判断できた割合は16.4%しかなかった。
もっともらしい文章を作りながら、実際には誤った判断をしているケースが多かったのである。
AIは内容を理解しているわけではない
チチェク准教授は、この結果の理由について現在のAIの仕組みを挙げている。
チャットGPTのようなAIは、大量の文章を学習し、次に来る可能性が高い言葉を予測して文章を作る「大規模言語モデル(LLM)」という技術で動いている。
この仕組みは、人間が書いたような自然で説得力のある文章を作ることができる。しかしAIが文章の意味を人間のように理解しているわけではない。
そのため複雑な研究内容や論理的な判断が必要な問題では、学習した情報のパターンに頼って答えることが多くなる。今回の実験で同じ質問でも答えが変わったのは、そのためだと研究チームは説明している。
AIの答えは必ず確認する必要がある
今回の研究は、生成AIの便利さと同時に限界も示している。チャットGPTは文章作成や情報整理では大きな力を発揮するが、複雑な判断や研究内容の評価では誤った結論を出すことがある。
研究チームは、AIの回答をそのまま信じるのではなく、人間が内容を確認しながら使う必要があると指摘している。
チチェク准教授は、AIそのものを否定しているわけではないと強調する。
自身も日常的にAIを利用しているという。そのうえで、AIの答えをそのまま信じるのではなく、人間が内容を確認しながら慎重に使うことが重要だと説明している。











