新たな論文がAppleのLLM「推論崩壊」研究に反論c

Apple Intelligenceの調査は意味がないが、我々はそれにお金を払うつもりだ

Appleが最近発表したAI研究論文「思考の錯覚」は、その率直な結論が大きな話題を呼んでいる。「最も先進的な大規模推論モデル（LRM）でさえ、複雑なタスクでは破綻する」という結論だ。しかし、この結論に誰もが賛同しているわけではない。

本日、Open Philanthropy の研究者であるアレックス・ローセン氏は、Apple の最も注目を集めた研究結果の多くは、根本的な推論の限界ではなく、実験設計上の欠陥に起因すると主張する詳細な反論を発表しました。この論文では、Anthropic の Claude Opus モデルを共著者として挙げています。

反論：「思考の錯覚」ではなく「評価の錯覚」

ローセン氏の批判は「思考の錯覚の錯覚」と題されており、今日のLRMが複雑な計画パズルに苦戦していることを否定するものではない。しかし、彼はAppleの論文が、実用的な出力制約と欠陥のある評価設定を、実際の推論の失敗と混同していると主張している。

ローセン氏が提起する主な問題は次の3つです。

Appleの解釈では、トークン予算の上限は考慮されていませんでした。Apple
が8枚以上のディスクを使ったハノイの塔パズルでモデルが「崩壊する」と主張する時点で、Claudeのようなモデルはすでにトークン出力の上限に達していました。Lawsen氏は、モデルが明示的に「パターンは続きますが、トークンを節約するためにここで停止します」と述べている実際の出力を指摘しています。
不可能なパズルは失敗としてカウントされました。Apple
のRiver Crossingテストには、解けないパズルのインスタンス（例えば、6組以上のアクター/エージェントのペアがあり、ボートの定員が数学的に制約下では全員を川を渡らせられない場合など）が含まれていたと報告されています。Lawsen氏は、モデルがそのようなことを認識して解くことを拒否したことでペナルティを受けたという事実に注目しています。
評価スクリプトは推論の失敗と出力の切り捨てを区別していませんでした。Apple
は、タスクがトークン制限を超える場合でも、完全な列挙された動作リストのみでモデルを評価する自動パイプラインを使用していました。ローセン氏は、この厳格な評価によって、部分的または戦略的な出力が不当に完全な失敗として分類されたと主張しています。

代替テスト: 代わりにモデルにコードを書かせる

ローセン氏は自身の主張を裏付けるため、異なる形式を使用してハノイの塔のテストのサブセットを再実行しました。つまり、すべての動きを網羅的にリストするのではなく、解を出力する再帰的な Lua 関数を生成するようにモデルに要求したのです。

結果はどうなったか？Claude、Gemini、OpenAI の o3 などのモデルは、15 枚のディスクによる Hanoi 問題に対して、アルゴリズム的に正しいソリューションを問題なく生成し、Apple が成功を報告しなかった複雑さをはるかに超えました。

ローセンの結論：人為的な出力制約を取り除くと、LRMは高度に複雑なタスクについて完全に推論できるように見える。少なくともアルゴリズム生成に関しては。

この議論がなぜ重要なのか

一見すると、これはAI研究における典型的な批判のように聞こえるかもしれません。しかし、ここでの関心はそれ以上に大きいのです。Appleの論文は、今日の法学修士課程が根本的にスケーラブルな推論能力を欠いていることを示す証拠として広く引用されていますが、私がここで主張したように、そもそもこの研究を捉える上で、この論文は必ずしも公平な方法とは言えなかったかもしれません。

ローセン氏の反論は、真実はもっと微妙なニュアンスを持つ可能性を示唆している。確かに、LLMは現在の展開上の制約下では長形式のトークン列挙に苦労するが、その推論エンジンは元の論文が示唆するほど脆弱ではないかもしれない。あるいは、多くの人が示唆したように、むしろ脆弱ではないかもしれない。

もちろん、これらはLRMの責任を免れるものではありません。ローセン氏自身も、真のアルゴリズムの一般化は依然として課題であり、彼の再テストはまだ予備的なものであると認めています。彼はまた、このテーマに関する今後の研究で焦点を当てるべき点について、次のような提案を示しています。

推論能力と出力制約を区別する設計評価

モデルのパフォーマンスを評価する前にパズルの解決可能性を検証する

解決策の長さだけでなく、計算の難しさを反映する複雑さの指標を使用する

アルゴリズムの理解と実行を分離するために複数のソリューション表現を考慮する

問題は、LRM が推論できるかどうかではなく、評価が推論とタイピングを区別できるかどうかです。

言い換えれば、彼の核心は明らかです。つまり、推論が最初から役に立たないと断言する前に、推論がどのような基準で測定されているのかをもう一度確認する価値があるかもしれない、ということです。

H/T: Fabrício Carraro。

ymnue.com を Google ニュースフィードに追加します。

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。