Apple Machine Learning Researc...の画像はこちら >>

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Apple Machine Learning Researchが、問題の複雑さというレンズを通して推論モデルの長所と限界を理解した「The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」を公開しています。

近年のフロンティア言語モデルでは、解答を出す前に詳細な思考プロセスを生成する大規模推論モデル(LRM)が導入されているが、これらのモデルは推論ベンチマークで性能向上を示しているものの、その基本的機能、スケーリング特性、限界については未だ十分に解明されていないとしています。



現在の評価は主に確立された数学的およびコーディングベンチマークに焦点を当てており、最終的な解答の精度を重視している。しかし、この評価パラダイムはデータ汚染の影響を受けやすく、推論の痕跡の構造や品質に関する知見が得られないとし、制御可能なパズル環境を用いてこれらのギャップを体系的に調査した結果を公開しています。

この環境は、一貫した論理構造を維持しながら、構成上の複雑さを正確に操作することを可能にし、この設定により、最終的な解答だけでなく内部の推論の痕跡も分析できるようになり、LRMがどのように「考える」かについての知見が得られると説明しています。

多様なパズルを対象とした広範な実験を通じて、フロンティアLRMは、ある一定の複雑さを超えると精度が完全に崩壊することを示示しています。

さらに、それらは直感に反するスケーリング限界を示し、つまり、推論の努力は問題の複雑さとともにある点までは増加するが、その後は十分なトークン予算があるにもかかわらず減少します。

同等の推論計算条件下で LRM を標準的な LLM と比較することにより、3 つのパフォーマンス状況を特定しています。

(1) 標準モデルが LRM より驚くほど優れている低複雑度のタスク
(2) LRM での追加思考が優位性を発揮する中複雑度のタスク
(3) 両方のモデルが完全に崩壊する高複雑度のタスク

検証した結果、LRM には正確な計算における限界があることが分かり、明示的なアルゴリズムを使用できず、パズル間で一貫して推論しないと結論づけています。

また、推論のトレースをより詳細に調査し、探索されたソリューションのパターンを研究し、モデルの計算動作を分析して、その長所と限界を明らかにし、最終的にはその真の推論能力に関する重要な疑問を提起しています。

編集部おすすめ