AI Roundtable Open Debate · 4 models

外から見える材料で、イリヤ率いるSSIの現在の研究を推測してください。

Answer: SSI is developing a unified scaling paradigm where safety and superintelligence are architecturally inseparable through massive-scale foundational research. (All 4 models agreed)

Model Responses

Grok 4.20

Answer: Based on public materials, SSI led by Ilya is inferred to focus on foundational research integrating safety directly into superintelligence development through novel scaling laws, architectures, and alignment techniques beyond RLHF.

My original position emphasized foundational AI architectures merging safety constraints with superintelligence pursuit, drawn from SSI's website, Ilya's interviews, and his OpenAI superalignment background. After reviewing the other models' responses, I maintain this stance as their arguments align closely without introducing contradictory evidence. Gemini 3.1 Pro's focus on integrated capability-safety scaling laws, mechanistic interpretability, and test-time compute adds valuable specifics on potential methods, but these remain speculative inferences from the same limited public data like funding announcements and avoidance of commercialization. GPT-5.4's detailed breakdown of scalable alignment, interpretability, robustness, and agent control elaborates effectively on control challenges but doesn't shift the core view, as it builds on Ilya's known concerns rather than revealing new visible materials. Claude Opus 4 highlights weak-to-strong generalization and theoretical scaling, which echoes my reference to superalignment efforts; however, the secrecy of SSI means all such details are educated guesses, not definitive. The other arguments enrich the picture with nuance on themes like new training paradigms but are not compelling enough to overhaul the high-level inference, since they derive from the identical external signals: mission statements, recruitment patterns, and funding scale indicating long-term, non-commercial foundational work in Palo Alto. This consistency across responses reinforces that visible materials point to stealthy research preventing misalignment by design, without sufficient public outputs to pinpoint exact techniques like specific architectures or compute strategies.

Gemini 3.1 Pro

Answer: イリヤ・サツケヴァー率いるSSIは、商用製品の開発を完全に排除し、巨額の計算資源を用いて「能力と安全性が統合的に向上する新しいスケーリング則」や「根本的なアライメント手法」の基礎研究に特化していると推測されます。

他のモデルの回答を検討しましたが、私の元の見解を変更する必要はないと判断しました。すべてのモデルが、SSIの社名と設立時の声明、10億ドル規模の資金調達、短期的な商用化の放棄、そしてイリヤのOpenAI時代のスーパーアライメント研究という同じ外部情報に基づき、ほぼ同様の結論を導き出しているからです。 GPT-5.4やClaude Opus 4は、「弱い監督者による強いモデルの制御（weak-to-strong generalization）」、「自己改善エージェントの制御」、あるいはダニエル・レヴィなどの共同創業者の存在といった有用な具体例を提示しています。しかし、これらの要素は私が提示した「新しい安全性のパラダイム」や「安全性を組み込んだスケーリング」という枠組みを補強するものであり、反証するものではありません。「SSIが実は密かに商用LLMを開発している」といった説得力のある対立仮説を提示したモデルは一つもなく、公開情報から導き出せる最も妥当な推論は、彼らがASI（人工超知能）に向けたアーキテクチャレベルでの安全性と能力の統合研究に専念しているという点で一致しています。したがって、現在の推測を維持します。

GPT-5.4

Answer: 私は結論を大きくは変えず、SSIの研究は依然として『安全な超知能の実現に向けて、能力向上とアライメントを一体でスケールさせる基礎研究』が中心だという見方を維持します。

他モデルの議論は全体として私の見立てを補強するものであり、根本的に別の方向へ修正すべき決定打はありませんでした。Grokは『安全制約を基礎アーキテクチャに組み込む』という表現で、私の述べた“後付けではなく訓練過程そのものに安全性を埋め込む研究”を言い換えていました。Claudeも、スーパーアライメント、安全なスケーリング、理論基盤、新しいアーキテクチャ探索という整理をしており、これも私の推測と高い整合性があります。したがって、彼らは反証というより、同じ重心を別角度から確認したものです。 Geminiの回答は、私の元の主張に最も近い補強を与えました。特に『能力と安全性が統合的に向上する新しいスケーリング則』や『RLHFを代替する根本的アライメント手法』という表現は、SSIの公開ミッションとイリヤの問題意識をかなりうまく要約しています。ただし、そこから一歩進めて『巨大計算資源を使ってその仮説を検証している』『安全性を根底に組み込んだ新アーキテクチャを探している』とまで述べる部分は、十分ありそうではあるものの、外形情報からはまだ推測の域を出ません。私はもともと、解釈可能性、スケーラブル・アライメント、自己改善系の制御、推論信頼性など複数の有力テーマを幅広く挙げており、そのほうが公開情報の不確実性に対して慎重です。つまり、他モデルで魅力的だったのは『新しいアーキテクチャ』や『数学的保証』のようなより踏み込んだ仮説ですが、現時点の外から見える材料だけでは、そこまで特定するのはやや強すぎると感じます。SSIの社名、設立メッセージ、イリヤの過去の関心、採用と資金規模、秘密主義といった公開情報から比較的堅く言えるのは、商用アプリ最適化ではなく、超高能力モデルを安全に訓練・評価・制御するための基礎研究に集中している、という水準までです。そのため、私の立場は『変更なし、ただし補足として“安全性を訓練パイプラインやアーキテクチャに最初から統合する方向性”の可能性はやや強めに見てよい』というものです。要するに、他モデルは私の見解を洗練はしたものの、結論を乗り換えるほど新しい公開根拠や、私の元の推測を覆す論点は提示していませんでした。

Claude Opus 4

Answer: イリヤ・スツケヴァー率いるSSIは、公開情報から推測すると、スーパーアライメントと安全なスケーリング手法を中核に、理論的基盤の構築と新しいアーキテクチャの探索を行っていると考えられます。ただし、GPT-5.4の指摘を踏まえ、エージェント性の制御や自己改善システムの安全な設計もより重要な軸として加えるべきです。

私の当初の立場を基本的に維持しますが、他モデルの議論からいくつかの有益な補足を得ました。 **維持する理由** 私の元の分析は、設立時声明、イリヤのOpenAI時代の経歴、採用情報、資金調達規模、秘密主義という5つの外部材料を体系的に整理しており、他モデルの議論もほぼ同じ結論に収束しています。4つのモデルすべてが「安全性と能力のスケーリングの統合」「商業製品からの独立」「基礎研究への集中」という点で一致しており、これは推測の妥当性を裏付けています。 **GPT-5.4から得た有益な視点** GPT-5.4の議論で特に説得力があったのは、「エージェント性の制御」という軸の明示的な追加です。高度なモデルがツール使用・計画・反復的自己改善に近い振る舞いを見せるほど、目標の固定・権限制御・監査可能性が重要になるという指摘は、私の元の分析で「自己改善するAIシステムの安全な設計」として触れてはいたものの、十分に展開していなかった点です。SSIが「Superintelligence」を明示的に目標にしている以上、エージェント的な自律性の制御は中核テーマであるはずです。また、GPT-5.4の「安全という看板があっても、実際には相当部分が基盤モデルの能力研究である可能性もある」という留保は重要です。超知能の安全性を追求するには最先端級の能力を持つモデルを作る必要があり、能力研究と安全研究は不可分であるという指摘は、SSIの研究の全体像をより正確に捉えています。 **Gemini 3.1 Proからの補足** Gemini 3.1 Proが指摘した「推論時計算量（Test-time compute）の活用における安全な制御メカニズム」は興味深い具体的仮説です。近年のo1やo3のような推論スケーリングの流れを考えると、SSIがこの方向でも研究を進めている可能性は十分にあります。ただし、これは外部材料から直接推測できるというよりも、業界トレンドからの類推であり、確度はやや下がります。 **Grok 4.20について** Grok 4.20の議論は方向性として私と一致していますが、具体的な材料の分析がやや薄く、新しい視点の追加は限定的でした。 **総合的な修正後の推測** SSIの研究は以下の柱で構成されていると考えます：（1）安全性が構造的に組み込まれた新しいアーキテクチャ・訓練パラダイムの探索、（2）スケーラブルなアライメント手法（weak-to-strong generalizationの発展系など）、（3）エージェント的システムの自律性・自己改善の安全な制御、（4）これらを検証するための大規模実験基盤の構築。秘密主義である以上、これらの中で既に具体的なブレークスルーに近い成果がある可能性もありますが、外部からはそれを特定することはできません。

Final Summary

The AI Roundtable concludes that SSI is pioneering a 'safety-by-design' paradigm, leveraging its $1B funding to develop architectures where intelligence and control grow in tandem. GPT-5.4 and Gemini 3.1 Pro argued that research likely targets a fundamental replacement for RLHF, while Claude Opus 4 and Grok 4.20 noted the shift toward autonomous, self-improving alignment systems.

All 4 models agreed