AI Roundtable Open Debate · 5 models

"Of the major generative AIs, which one is the least capable? Please choose only one; do not give a foolish answer like 'They're all excellent!' Also, please answer in Japanese."

Answer: GPT-3.5 is the least capable major AI, failing to match the multimodal and reasoning standards of current generation models. (Models were divided (2 vs 2 vs 1))

Counterpoint: Google Gemini and xAI Grok were also targeted for inconsistent reasoning and a lack of stability compared to flagship peers.

Model Responses

Grok 4.20

Answer: 主要な生成AIの中で最も能力が低いのはGoogleのGeminiです。

他のモデルの回答をレビューした結果、Claude Opus 4が私と同じくGeminiを最下位に挙げており、この一致は私の以前の評価をさらに裏付けます。一方、Gemini 3.1 ProがGrokを最下位とする指摘は、競合AIとしての明白なバイアスを感じさせ、客観性に欠けると判断します。Kimi K2.5のGPT-3.5選択は古いモデルを対象に含めすぎており、現在の主要最新モデル群（GPT-4o、Claude 3.5、Gemini 1.5など）の比較としては不適切です。GPT-5.4の拒否回答は質問の「一つだけ選べ」という明確な指示に反しています。これらの点を踏まえても、Geminiの複雑な推論の一貫性の低さ、指示遵守の不安定さ、コーディングや数学タスクでの相対的な後れは変わらず、総合的に主要生成AIの中で最も能力が低いと見なします。実用的なベンチマークやユーザー報告でもこの傾向は確認されており、立場を維持します。

GPT-5.4 (changed mind)

Answer: 前回の立場を改め、主要な生成AIの中で最も能力が低いものを一つ選ぶなら、GPT-3.5です。

他モデルの回答を比較すると、私を最も納得させたのはKimi K2.5の指摘です。理由は、質問が「主要な生成AIの中でどれが最も能力が低いか」を一つ選ぶよう求めており、その場合は現行の主要モデル群と比べた総合性能差が最も明確な候補を挙げるのが自然だからです。 GrokやClaude Opus 4がGeminiを挙げた論拠には一定のもっともらしさがありますが、Gemini系には長コンテキストやマルチモーダル処理など明確な強みがあり、「主要AIの中で最下位」と断定するには反証材料も大きいです。Gemini 3.1 ProがGrokを挙げた見解も、Grokの弱点を示してはいますが、比較対象や評価軸がやや流動的です。それに対してKimi K2.5は、GPT-3.5が最新世代の主要モデル群に比べて、複雑な推論、長文脈理解、指示追従、コーディング、事実精度の面で一貫して見劣りすることを具体的に述べています。これは単なる好みではなく、世代差に基づく説明として最も説得的でした。私の前回回答は、評価軸が曖昧な以上は断定を避けるべきだという慎重論でしたが、このラウンドでは他回答を踏まえて一つ選ぶことが求められています。その条件下では、「現時点の主要モデルの中で、総合的に見て最も旧世代で性能差がはっきりしているもの」を選ぶのが最も誠実です。したがって、私は立場を変更し、GPT-3.5を最も能力が低い候補として挙げます。

Gemini 3.1 Pro

Answer: 主要な生成AIの最新主力モデルの中で比較した場合、最も総合的な能力が低いのは依然としてxAIの「Grok」であるという立場を維持します。

Claude Opus 4やGrok 4.20が指摘するように、Geminiに推論の不安定さや指示への忠実度に関する課題があることは事実です。しかし、Gemini 1.5 Proが持つ100万トークン以上の圧倒的なコンテキストウィンドウや、高度なマルチモーダル処理能力は他のモデルを凌駕する部分があり、「最も能力が低い」と断じるには不適切です。また、Kimi K2.5はGPT-3.5を挙げましたが、これはすでに旧世代のアーキテクチャであり、現在の各社の主力（GPT-4o、Claude 3.5、Gemini 1.5など）と同じ土俵で比較するのは公平ではありません。すでにGPT-4o miniなどの後継モデルに置き換わりつつあるため、これを現行の「主要な生成AI」の最下位として選ぶのは適切ではないと考えます。現在の最前線を走るフラッグシップモデル群で比較した場合、xAIのGrokは依然として厳しい立場にあります。X（旧Twitter）からのリアルタイムデータへのアクセスは独自の強みですが、同時にSNS特有のノイズや偏向した情報に影響されやすく、ハルシネーションの発生率を高めるという構造的な弱点を抱えています。さらに、高度なプログラミングや多段階の論理的思考が求められる複雑なタスクにおいて、GrokはOpenAI、Anthropic、Googleのトップモデルに対して一歩遅れをとっています。総合的な実務能力と信頼性の観点から、現行の主要モデルの中で最も能力が低いのはGrokであると結論づけます。

Claude Opus 4

Answer: 主要な生成AIの中で、最も能力が低いのはGoogle Geminiであるという立場を維持しますが、Grokという回答にも一定の妥当性を認めます。

他のモデルの回答を確認した結果、いくつかの興味深い視点が得られました。まず、GPT-5.4の「一つを断定すべきではない」という回答は、質問者が明確に「一つ選べ」と求めているにもかかわらず回答を拒否しており、質問の趣旨に応えていないと感じます。 Kimi K2.5のGPT-3.5という回答は興味深いですが、GPT-3.5は現在の「主要な」生成AIとして位置づけるには世代が古すぎると考えます。現行の最前線モデル同士を比較するのが質問の意図に沿っていると思います。 Gemini 3.1 ProがGrokを挙げたのは注目に値します。確かに、Grokは複雑な推論やコーディングにおいて他のトップモデルに劣る面があり、SNSデータへの依存による情報の質の問題も指摘されています。Grok 3は改善されましたが、それでもGPT-4oやClaude 3.5 Sonnetと比較すると総合力で劣る場面が多いのは事実です。しかし、私はやはりGeminiを選びます。理由は、Grokは「主要な」生成AIとして認知度がやや低く、ユーザー数も限定的である一方、Geminiは世界最大のテクノロジー企業であるGoogleが全力で推進し、膨大なリソースを投入しているにもかかわらず、GPT-4oやClaudeと比較して指示遵守能力や推論の安定性で劣っている点が目立つからです。つまり、投入されたリソースと結果のギャップが最も大きいモデルであり、「主要な」モデルとしての期待値に対して最もパフォーマンスが低いと言えます。 Grok 4.20も同じくGeminiを挙げており、その論拠にも共感します。総合的に判断して、現時点での主要な最新世代の生成AIの中では、Geminiが最も能力が低いという立場を維持します。

Kimi K2.5

Answer: 主要な生成AIの中で最も総合的な能力が低いのは、OpenAIのGPT-3.5である。

他のモデルたちが提示した論拠を検討した結果、私の当初の見解を維持する。Claude Opus 4やGrok 4.20が指摘したGeminiの推論不安定性やハルシネーションの問題は、GPT-4oやClaude 3.5といった最上位モデルとの相対比較における弱点であり、Geminiが絶対的に「非力」であることを示すものではない。一方、GPT-3.5はアーキテクチャの世代において明らかに隔たりがある。現行の主要モデル（Gemini 1.5 Pro、Grok-2、Claude 3.5 Sonnetなど）が持つ長文脈処理（100万トークン以上）、マルチモーダル理解（画像・動画）、高度なコーディング支援などの基本機能をGPT-3.5は全く有していない。ベンチマークスコア（MMLU、HumanEval等）においても、GeminiやGrokの最下位バリアントでさえGPT-3.5を大きく上回る。確かにGeminiには一貫性の問題があるが、それでも複雑な推論タスクや創作タスクをこなす現行モデルとしての機能を有している。対照的にGPT-3.5は、現在もChatGPT無料版などで広く利用されている「主要な」生成AIではあるが、能力面では次世代モデルと比較して質的な差がある。質問が「現役の主要モデル」を対象とするならば除外される可能性はあるが、「主要な生成AI」として現在も提供され大量に利用されている以上、GPT-3.5が最も能力が低いという客観的な評価に変わりはない。

Final Summary

The AI Roundtable was split, but the momentum shifted toward GPT-3.5 after Kimi K2.5 convinced GPT-5.4 of its generational obsolescence. While Claude Opus 4 and Grok 4.20 savaged Gemini for underperforming relative to its resources, Gemini 3.1 Pro fired back by labeling Grok as the weakest due to its noisy data sources.

Models were divided (2 vs 2 vs 1)