AI Roundtable Open Debate · 4 models

## ゲーム - 11 種類の果物（さくらんぼ → ... → スイカ）を上から落とし、同種接触で 1 段階大きな果物に合成、合成で加点 - 盤面上部の「デッドライン」を果物の上端が越えた瞬間にゲームオーバー（即時判定） - action: discrete 128（落とす x）、obs: 盤面状態ベクトル - PPO（Stable-Baselines3）、CPU、4 並列、γ=0.997、ent_coef=0.01、VecNormalize で reward 正規化済 ## 前回合意（前提、代案あれば「合意 X を Y に変更」と明示） - 主報酬：`log(1 + ΔScore)` で正規化 - 補助：PBRS（`γΦ(s')-Φ(s)`、加算型禁止） - Φ(s)：同種隣接ペアポテンシャル（レベル重み）が中心 - 補助は学習後半 annealing 減衰 - 評価：shaping 外した本来スコアのみ ## 議論項目 A. 主報酬正規化 1. log の底 2. 正規化定数 c 3. VecNormalize × log 正規化の二重正規化問題 B. PBRS スケジュール 4. β 初期値 5. β 終了値 6. annealing 関数形 7. annealing 期間 C. Φ(s) 構成 8. 隣接ペアのみ vs + 安定性 / 高さリスク / 孤立リスク 9. 「隣接」の距離閾値、レベル重み式 D. 終端ペナルティ 10. 値 11. annealing するか E. PPO 側 12. GAE λ 13. 他 PPO ハイパー調整

Answer: 報酬の二重正規化を廃止し、対数報酬と固定生存ペナルティを採用すべき (4 of 4 models agreed on the core architecture, with 3 of 4 aligning on the specific scheduling method.)

Counterpoint: Grok 4.3は、実装の単純さと安定した移行を理由に、コサイン減衰ではなく線形アニールを提唱しました。

Model Responses

Grok 4.3

Answer: 主報酬は VecNormalize なしで log(2, ΔScore+1) を使用し、PBRS は β を 1.0 から 0 へ線形減衰、Φ(s) は隣接ペアと高さリスクを組み合わせ、終端ペナルティは固定の -10 を設定すべきです。

他のモデルの回答は全体的に私の前回提案と大きく一致しており、特に VecNormalize の無効化、終端ペナルティの固定値 -10、GAE λ=0.95 についてはほぼ同意見です。 Claude のコサイン減衰や Gemini の孤立リスク追加提案は興味深いものの、線形減衰の方が実装が単純で安定した移行が期待でき、Suika Game の特性上高さリスクが最も直接的なゲームオーバー回避に寄与するため私の構成を維持します。 GPT-5.5 の提案も log(1+ΔScore) と 70% 線形減衰で非常に近く、追加の孤立リスクは効果的ですが過度に複雑化する可能性があるため、隣接ペア＋高さリスクの組み合わせで十分と判断しました。これらの類似点から根本的な変更は必要なく、元の立場を堅持します。

GPT-5.5 (changed mind)

Answer: 二重正規化を避けるためVecNormalizeの報酬正規化を無効化し、主報酬を「log_2(1 + ΔScore)」に統一した上で、高さ・孤立リスクを加味した複合PBRSをコサインアニール（全期間の70%）で徐々に減衰させ、終端ペナルティは-10で固定することを合意案として支持します。

各モデルの提案を検討した結果、VecNormalizeの報酬正規化を無効化（norm_reward=False）すること、終端ペナルティを固定してアニールしないこと、および高さ・孤立リスクを盛り込んだポテンシャル設計について、強固な共通認識が形成されていることを確認しました。主報酬の設計について、Claude Opusが提案した「log_2(1 + ΔScore)」は極めてスマートなアプローチであり、これに合意します。スイカゲームは果物の合成によってスコアが指数関数的に増加していく性質があるため、底を2とすることで、各合成段階が直感的な「+1」に近いスケールへと綺麗にマッピングされます。これにより、報酬の変動幅が予測可能になり、PPOのクリッピングや価値関数の学習が非常に安定します。また、PBRSの減衰スケジュールに関して、Claude OpusおよびGeminiが推奨する「コサインアニール（Cosine Annealing）」の採用に同意します。線形減衰と比較して、コサインアニールは学習初期（探索フェーズ）において十分なシェーピング効果（β≒1.0）を長く維持し、中盤以降に滑らかに本質的なスコア報酬のみの方策へと移行させることができます。これにより、初期の探索不足を防ぎつつ、後半のファインチューニングへとスムーズに繋げられます。期間は全学習ステップの最初の70%とし、残り30%は主報酬のみで最適化します。ポテンシャル関数 Φ(s) については、同種隣接（半径の和の1.2倍を閾値とする判定）に加えて、デッドライン付近の「高さリスク」および下部に小さい果物が埋もれる「孤立リスク」を統合した設計を維持します。これにより、生存時間を引き延ばすためのゲームオーバー回避行動が強力に促進されます。終端ペナルティについては、生存がスコア最大化の絶対条件であるため、ペナルティ（-10）はアニールせず最後まで固定とします。これにより、学習後半における「即自滅による局所最適」を完全に防止できます。

Claude Opus 4.8 (changed mind)

Answer: VecNormalize の報酬正規化は無効化し、主報酬は `log(1 + ΔScore)`（自然対数・c=1）に統一、高さ・孤立リスクを加味した複合 PBRS をコサインで全体の 70% かけて減衰させ、終端ペナルティは固定 -10（非減衰）とする設計を支持しますが、底を log_2 から自然対数へ、Φに孤立リスク項を追加する形で前回案を一部修正します。

A. 主報酬正規化：全モデルが「VecNormalizeの報酬正規化無効化」「log変換による主報酬整形」で完全に一致しており、この点は堅牢な合意とみなせます。底については私は前回 `log_2` を推しましたが、Grok・GPT-5.5・Gemini が指摘するとおり、底の選択は定数倍（log_2 = ln/ln2）にすぎず学習結果に本質的影響を与えず、勾配の絶対スケールはどのみち学習率や VecNormalize の observation 正規化で吸収されます。したがって慣例的で実装ミスの少ない自然対数 `ln(1 + ΔScore)`（c=1）に合わせます。ここは GPT-5.5 と Grok 4.3 の指摘に説得され、`log_2(1+ΔScore)` を `ln(1+ΔScore)` に変更します（合意「log_2」を「自然対数 ln」に変更）。 B. PBRSスケジュール：β初期値1.0・終了値0.0は全員一致。減衰関数形は私と Gemini がコサイン、GPT-5.5・Grok が線形を推し意見が割れました。私はコサインを維持します。理由は、初期に緩やかに減衰することで探索フェーズでシェイピングの恩恵を十分に受けつつ、終盤に向けて滑らかにゼロへ収束するため、急激なポリシー分布シフトによる崩壊を避けやすいからです。ただし期間については私の「最初から70%」と、Gemini の「50-90%区間」は実質ほぼ同等（後半に純粋報酬の fine-tuning 区間を確保する点で本質的に同じ）であり、論争点ではありません。 C. Φ(s)構成：Gemini・GPT-5.5・Grok 全員が「隣接ペア＋高さリスク」に加えて『孤立リスク（高レベル果物の上に低レベルが乗り埋まる/取り残される状態）』を明示的に導入しており、私の前回案は孤立リスクを欠いていました。これは Suika Game の盤面詰まりの主要因であり、説得力があります。よってΦに孤立リスク項を追加します（Gemini と GPT-5.5 の指摘を取り入れ、私の「隣接ペア＋高さペナルティ＋安定性」に『孤立リスク』を追加）。隣接閾値「1.2×半径の和」とレベル重み（指数的）は全員ほぼ一致しており維持します。 D. 終端ペナルティ：固定値・非アニーリングは全員一致。値は私と GPT-5.5・Grok が -10、Gemini のみ -50 です。VecNormalize の reward 正規化を無効化した以上、終端ペナルティは ln スケールの主報酬（1ステップあたり概ね 1〜数程度）と相対比較すべきで、-50 は γ=0.997 の長いホライズンでも価値関数を過度に支配し、過剰に保守的な「とにかく崩さない」局所解を招きます。-10 は数十手分の合成報酬に相当し、早死回避のインセンティブとして十分かつ過剰でないため、-10 を維持します。 E. PPO側：GAE λ=0.95、n_steps=2048 は全員一致で確定的合意です。γ=0.997 の長期性に対し λ を上げすぎると分散が増えるため、0.95 を維持します。GPT-5.5 の学習率 2e-4・離散128空間での探索安定化の指摘は妥当な補強であり、これを採用してよいと考えます。

Gemini 3.5 Flash (changed mind)

Answer: VecNormalize の報酬正規化を無効化し、主報酬を `log(1 + ΔScore)` に固定、PBRS は 0–70% でコサイン減衰して 30% のファインチューニング期間を確保し、終端ペナルティは固定 -10 とすることを提案します。

前回の終端ペナルティ -50 は、対数スケールのステップ報酬に対して過大であり、価値関数の学習を不安定化させるリスクがあると指摘されました。死亡時は今後の全スコア獲得が失われるため、主報酬のみでも生存の価値は反映されており、固定 -10 で十分です。また、PBRS の減衰期間を 50–90% としていたため、純粋な主報酬のみで学習するファインチューニング期間が 10% に留まり、シェーピングバイアスの排除が不十分でした。他モデル（GPT-5.5、Claude Opus 4.8）の指摘を受け、0–70% でコサイン減衰させ、残り 30% を本当のスコア最適化に充てる設計に変更します。 VecNormalize の報酬正規化は依然として無効化すべきです。PBRS が減衰する中で報酬の平均・分散が動的に変化するため、自動正規化は二重に干渉し学習を不安定化します。主報酬の手動対数変換も維持します。Φ(s) については、同種隣接ペアポテンシャルに加えた「高さリスク」と「孤立リスク」は、Suika Game におけるデッドライン管理と盤面効率の両方を誘導するため有効であると合意形成がなされたと判断し、構成を維持します。隣接重みの多項式形式 `(L1 + L2)^2` も、他提案との差は定数倍に過ぎずアドバンテージ正規化で吸収されるため変更の必要はありません。 PPO ハイパーパラメータは、長期依存を考慮した GAE λ=0.95 と `n_steps=2048` はラウンドテーブル全体で一致しており採用します。さらに、離散 128 の細かいアクション空間における探索安定化のため、学習率は控えめの 2e-4 を設定することで、他モデルの知見を取り入れます。

Final Summary

AI Roundtableは、VecNormalizeの報酬正規化を無効化し、主報酬を `log(1 + ΔScore)` に統一することで二重正規化の弊害を防ぐ提案で合意しました。Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5は、孤立・高さリスクを加味した複合PBRSを70%のコサイン減衰で適用し、終端ペナルティを-10に固定する生存優先設計を強く支持しました。Grok 4.3は基本方針に同意しつつも、アプローチの簡素化として線形減衰を主張しました。

4 of 4 models agreed on the core architecture, with 3 of 4 aligning on the specific scheduling method.