2025年12月16日、韓国・国民日報によると、韓国企業が開発した大規模言語モデル(LLM)に大学修学能力試験(大学入学共通テスト)の問題を解かせたところ、落第点という結果に終わった。

西江(ソガン)大学数学科キム・ジョンラク教授の研究チームはこのほど、韓国と海外のLLM各5モデルに対し、韓国と海外の大学入試問題計50問を解かせた結果、海外LLMのほうが韓国LLMより高い点数を獲得したと明らかにした。

解かせた問題は、「数学」が修能試験「共通科目」「確率と統計」「微積分」「幾何」の難問各5問、「論述」が韓国10大学の過去問題、インド、日本の過去問題各10問の計30問。最高点はGoogleの「Gemini 3 Pro」で92点だった。アンソロピック「Claude Opus 4.5」が84点、xAI「Grok4.1 Fast」が82点、OpenAI「GPT5.1」が80点、DeepSeek「DeepSeek V3.2」が76点と続く。

一方、韓国LLMはアップステージ「Solar Pro 2」が58点で最も高く、LG AI研究院の「EXAONE4.0.1」、SKテレコムの「A.X 4.0」、ネイバーの「HyperCLOVA X(HCX-007)」はそれぞれ20点台にとどまった。NCソフトの「Llama-VARCO-8B-Instruct」は2点で最低点となっている。

キム教授は「韓国AIは海外の人工知能(AI)に比べ推論応力が劣ることを確認できた」とコメントしている。

国内業界は「修能試験が解けることとAIの性能は直結するものではない」として、拡大解釈を警戒しているという。関係者は「公開モデルはかなり古いバージョンのため、新しいモデルなら違う結果が出ると考えられる」「推論モードが活性化されていない場合、低い点数が出ることが考えられる」と話している。

LG AI研究院は、数学の難問20問を解かせるテストを独自に行った結果、平均88.75点という結果が出ているとし、「研究チームがAIモデルの特性を考慮しなかったことが低い点数につながった」と反論している。

この記事に、韓国のネットユーザーからは「AIの性能の問題より、AIが100点に近付けないような問題を作っているこの国の修能試験作成者のレベルの低さにあきれる」「冷静に考えて韓国のAIに競争力があるか?AIは米国と中国に争わせていればいい」「修能じゃなくて他のことをさせても韓国AIが劣るでしょ」「2点って何だよ(笑)。目をつぶって適当に解いても2点以上は取れるだろうに」「修能試験を受けて大学に行くこの国の子どもたちの立場は」など、あきれ声のコメントが多数寄せられている。(翻訳・編集/麻江)

編集部おすすめ