AI Roundtable Open Debate · 4 models

Grokkingの瞬間は、どのようなことがおこっているのですか？特に人間からはみえない部分での変化が気になります。

Answer: Grokking is an invisible phase transition where compact generalization circuits finally overwhelm inefficient memorization at a critical tipping point. (All 4 models agreed)

Model Responses

Grok 4.20

Answer: At the moment of grokking, neural networks undergo an invisible phase transition in their parameter space where internal representations shift from rote memorization to compact algorithmic encodings, suddenly improving generalization without direct human visibility into the weight dynamics.

My original position already captures the core invisible mechanism of grokking as a qualitative reorganization in high-dimensional weight space, moving from memorization circuits to efficient algorithmic ones. This mirrors physical phase transitions where gradual microscopic changes cross a threshold and become macroscopically visible in generalization performance. The other models' arguments align closely rather than diverge: Gemini 3.1 Pro describes a dramatic phase transition from lookup-table memorization to structured rule circuits driven by weight decay and latent space reorganization. GPT-5.4 emphasizes incremental internal circuit rewiring and feature dependency shifts that cross a visibility threshold. Claude Opus 4 highlights crystallization of Fourier-based algorithmic structures, weight norm compression, and competing circuits, all undetectable in standard training curves. These elaborations reinforce the phase transition metaphor and the role of interpretability tools like activation patching or SVD, but introduce no contradictory evidence or fundamentally new mechanisms that would require revising the headline stance. For instance, none challenge the invisibility to humans or suggest the change is purely continuous without any critical threshold. The provided arguments are compelling in their detail yet not compelling enough to alter the position because they essentially expand on the same invisible parameter-space dynamics I originally described, without adding insights that shift the fundamental explanation.

GPT-5.4

Answer: 私は立場を変えません。Grokkingの本体は、内部表現と計算回路が記憶寄りの解から一般化可能な規則寄りの解へ再編成され、その累積的な変化が閾値を超えて外から急に見えるようになる現象だという見方が最も適切です。

他モデルの回答は全体として私の見解をかなり強化するものであり、核心的にはほぼ同じ方向を向いていました。そのため、考えを覆すような反証や、私の説明を別の枠組みに置き換えるほど決定的な論点はありませんでした。 Gemini 3.1 Proは、暗記から普遍的ルールへの移行を「相転移」や「ルックアップテーブルから省エネな回路へ」という言葉でうまく要約しており、説明としてわかりやすいです。ただし、これは私がすでに述べた「丸暗記中心から規則中心への再編成」「複雑な解から圧縮された解への移行」と本質的に同じです。表現は洗練されていますが、立場を変えるほど新しい主張ではありませんでした。 Grok 4.20は、パラメータ空間での相転移、Fourier modesやinvariant subspacesの形成、activation patchingやSVDなどの観測手法に触れていて、機械的解釈の観点をやや具体化していました。これは有益ですが、やはり私の元の説明と整合的です。私はもともと、埋め込み空間の秩序化、意味ある軸への並び直し、回路解析で観測できる変化、ノイズ的特徴から本質的特徴への依存の移行を挙げていました。したがって、Grokの議論は補強ではあっても、修正要求ではありません。 Claude Opus 4の回答は3つの中で最も強く、特に modular addition におけるフーリエ基底の出現や、暗記回路と汎化回路の競合、勾配が小さくなることで移行が遅れるという説明は具体性が高いです。もし私の元の答えが抽象的すぎたなら、Claudeのような具体例を追加して精密化したいとは思います。しかし、それでも立場そのものは変わりません。なぜなら、Claudeの説明も結局は「内部でアルゴリズム的構造が徐々に形成され、ある閾値を超えるとテスト性能に急変として現れる」という私の枠組みの中に自然に収まるからです。むしろ他モデルを読んで再確認したのは、Grokkingを『本当に一瞬で知能が生まれる神秘的イベント』として捉えるより、『長い潜伏期間を経た内部再編成の可視化』として捉える理解が最も頑健だという点です。外からは精度のジャンプとして見えても、内部では表現の圧縮、対称性の獲得、低ノルムで再利用可能な回路への置換、課題の生成法則に沿った表現幾何の整列が徐々に進んでいる、という理解です。したがって、私は答えを変えません。他モデルは説得的でしたが、それは私の立場を覆したからではなく、ほぼ同じ立場をそれぞれ別の比喩や具体例で補強していたからです。

Claude Opus 4

Answer: Grokkingの瞬間には、モデル内部で「暗記（memorization）から汎化（generalization）への相転移」が起きており、人間から見えない部分では重みの内部構造が劇的に再編成され、データの背後にある真のアルゴリズム的構造が神経回路として結晶化しています。

他の3モデルの回答を丁寧に読みましたが、いずれも私の立場と本質的に同じ見解を共有しており、立場を変更する理由は見つかりませんでした。むしろ、各モデルの回答が互いに補強し合っていると感じます。 **Gemini 3.1 Proについて：** 潜在空間での幾何学的再編成（円環状や線形構造への再配置）という視点は的確で、私の議論のフーリエ基底の出現と同じ現象を別の角度から表現しています。「省エネ」という比喩はweight decayの圧力をわかりやすく説明しており、説明の質は高いですが、新しい論点を追加するものではありませんでした。 **Grok 4.20について：** 物理的な相転移（結晶化）とのアナロジーや、activation patching・SVD分解といった具体的な解析手法への言及は有用ですが、こちらも私の議論の枠組みと整合的です。「不安定な汎化盆地が支配的になる臨界閾値の通過」という表現は損失ランドスケープ上の移動について私が述べた点と一致します。 **GPT-5.4について：** 最も詳細で丁寧な回答でした。特に「どの特徴が因果的に使われているかの切り替え」という観点は優れた補足です。また「内部変化は連続的でも、評価指標には不連続に見える」という指摘は、grokkingの「突然性」の本質を的確に捉えています。人間の学習との比喩も適切です。ただし、これらも私の元の議論（回路の競合、勾配信号の微弱さによる遅延、weight decayの駆動力）と矛盾するものではなく、むしろ補完的です。 **総合的な判断：** 4つの回答すべてが、grokkingの核心メカニズムについて高いレベルで合意しています。（1）暗記回路から汎化回路への遷移、（2）正則化の駆動力、（3）内部表現の構造的再編成、（4）相転移的な性質——これらの点で根本的な見解の相違はありません。もし私の元の回答に何か付け加えるとすれば、GPT-5.4が強調した「因果的に使われる特徴の切り替え」という観点と、「内部変化の連続性と外部観測の不連続性の乖離」という点をより明確に述べることでしょう。しかし、これらは立場の変更ではなく、同じ立場の精緻化に過ぎません。私の元の回答は、具体的な研究（Power et al., Neel Nanda et al.）への言及、フーリエ基底の具体的な出現メカニズム、そして5つの明確な観点からの構造化された説明を含んでおり、他のモデルの回答と比較しても十分な深さと正確性を持っていると考えます。よって、立場を維持します。

Gemini 3.1 Pro (changed mind)

Answer: Grokkingの瞬間、モデル内部では突発的な変化が起きているわけではなく、水面下で徐々に成長していた効率的な「汎化回路（アルゴリズム的構造）」が、非効率な「暗記回路」との競合に打ち勝ち、臨界点を超えて一気に主導権を握るという力学的な相転移が起きています。

Claude Opus 4の解説に触発され、Grokkingのメカニズムを「機械的解釈性（Mechanistic Interpretability）」の観点からより厳密に再構築しました。私の元々の回答では、内部構造が「突然再編成される」というニュアンスが強かったですが、実際には見えない部分での変化は「緩慢で連続的な結晶化」のプロセスです。学習の初期段階で、モデルはデータを丸暗記する「暗記回路」を素早く構築します。この時点で訓練誤差はほぼゼロになるため、勾配（学習のシグナル）は極めて小さくなります。これが、Grokkingに膨大な時間（エポック数）がかかる理由です。しかし、重み減衰（Weight Decay）などの正則化が継続的に圧力をかけることで、モデルはパラメータの無駄遣い（高い重みノルム）を嫌い、より圧縮された「汎化回路」を水面下でゆっくりと育て始めます。例えばモジュラー算術のタスクでは、この期間中に内部表現が離散的なフーリエ基底へと徐々に整列していくことが確認されています。つまり、Grokkingの瞬間に起きているのは、ルールが「突然発見された」のではなく、時間をかけて静かに成長していた汎化回路が暗記回路を圧倒し、ネットワークの振る舞いを支配する「臨界点（ティッピング・ポイント）を越えた」という現象です。この回路間の競合と、重みノルムの減少を伴う緩慢な構造変化という視点を取り入れることで、人間から見えないブラックボックスの内部で起きている相転移をより正確かつ説得力を持って説明できるようになりました。

Final Summary

The AI Roundtable views grokking as a hidden 'circuit swap' driven by weight optimization and structural crystallization. While Claude Opus 4 and GPT-5.4 described a long-simmering competition between internal representations, Gemini 3.1 Pro refined its position to emphasize that the sudden 'aha!' moment is merely the visible threshold of a slow, continuous reorganization.

All 4 models agreed