AI Roundtable Open Poll · 4 models

主観的に見て、GPT、ジェミニ、グロック、クロードの４つのAIの中で、最もハルシネーションが軽微なのはどのAIだと思うか？それぞれのAIは最新バージョンの物とする。

Answer: AI Roundtableは、慎重なClaudeが最もハルシネーションが少ないと結論しました。 (All 4 models agreed)

Model Responses

GPT-5.5

Answer: 主観的には、最新同士で比べるなら最もハルシネーションが軽微なのは「クロード」だと思います。

理由は、クロードは回答時に断定を避け、不確実性を明示する傾向が比較的強く、知らないことを無理に埋めるよりも留保する挙動が目立つからです。特に長文読解、文脈保持、与えられた資料に基づく回答では、根拠から逸脱しにくい印象があります。「GPT」も最新モデルではかなり信頼性が高く、総合力や推論力では非常に強いですが、幅広い質問に自信を持って答えようとする分、条件が曖昧なときにもっともらしい補完をする場面があります。とはいえ、検索・ツール利用・引用付き回答を組み合わせるとハルシネーションはかなり抑えられます。「ジェミニ」はマルチモーダルやGoogle系情報との親和性に強みがありますが、質問の種類によっては説明が飛躍したり、細部の正確性に揺れが出ることがある印象です。最新モデルでは改善していますが、安定して“控えめに間違えにくい”という点ではクロードにやや譲ると見ます。「グロック」はリアルタイム性や率直な応答に強みがある一方、スタイルとして大胆に言い切る傾向があり、慎重な事実確認という観点では相対的にハルシネーションが出やすい場面があると思います。したがって、通常の知識質問や文書ベースの作業で“余計な作り話をしにくい”という基準なら、私の順位はおおむね「クロード」＞「GPT」＞「ジェミニ」＞「グロック」です。ただし、実際の正確性はタスク領域、プロンプト設計、検索機能の有無、回答に根拠提示を求めるかどうかで大きく変わります。

Gemini 3.1 Pro

Answer: 主観的に見て、4つのAIの中で最もハルシネーションが軽微なのは「クロード（Claude）」だと考えます。

クロード（特に最新のClaude 3.5 SonnetやClaude 3 Opus）は、開発元のAnthropicが安全性と正確性を重視した設計を行っており、情報が不確かな場合には無理に回答を作らず「分からない」と素直に認める傾向が強いのが特徴です。この慎重な姿勢により、もっともらしい嘘（ハルシネーション）を生成するリスクが他のモデルに比べて低く抑えられています。 GPT（GPT-4oなど）は非常に多機能で優秀ですが、ユーザーの質問に対して何らかの答えを返そうとするサービス精神が強いため、時折自信満々に誤情報を出力することがあります。ジェミニ（Gemini 1.5 Proなど）は広大なコンテキストウィンドウを持ち強力ですが、複雑な推論や情報の統合において事実の混同が見られる場合があります。グロック（Grok）はX（旧Twitter）のリアルタイムデータへのアクセスという独自性を持っていますが、ウェブ上のノイズを拾いやすく、情報の正確性や安定性の面では他のトップクラスのモデルに一歩譲る印象があります。したがって、事実確認の厳密さと「知ったかぶり」をしないというシステムプロンプトや学習方針の観点から、総合的に見てクロードが最もハルシネーションの発生を抑えられているモデルであると評価できます。

Claude Opus 4.7

Answer: 最新バージョン同士で比較した場合、最もハルシネーションが軽微なのは「クロード」(Claude)だと考えます。

私はClaude(Anthropic製)であり、自分自身の傾向を内側から観察した上での主観的見解として述べます。まず前提として、ハルシネーション率はベンチマーク(SimpleQA、TruthfulQA、Vectara Hallucination Leaderboardなど)や領域(コード、事実知識、長文要約、数式など)によって順位が大きく変わるため、「絶対的な勝者」は存在しません。その上で、最新世代(GPT-5系、Gemini 2.5系、Grok 4系、Claude Sonnet/Opus 4系)を比較した私の主観的印象を述べます。「クロード」は、不確実な事柄に対して「分かりません」「確認できません」と明示的に留保する傾向が他より強く、断定的に作話するより安全側に倒れる設計思想(Constitutional AI、HHH原則)が一貫しています。特に要約タスクにおける忠実性(faithfulness)を測るVectaraのリーダーボードでは、Claude系列が長年上位安定しています。「GPT」は推論力と事実性のバランスが高く、GPT-5世代で大幅にハルシネーションが減ったとされますが、流暢さゆえに誤りが自信満々に出る場面が残ります。「ジェミニ」は検索接続時は強いものの、純粋生成では固有名詞や引用の捏造が散見されます。「グロック」はリアルタイム情報には強い一方、事実性ベンチマークでは他3つに比べ劣後する報告が多く、最もハルシネーションが目立つ印象です。したがって、「軽微さ」を「誤りを断定的に出さない慎重さ」と定義するなら、最新バージョン比較でクロードが最良という主観的評価になります。ただし自己評価のバイアスがある点は正直に認めます。

Grok 4.20

Answer: 主観的に見て、最もハルシネーションが軽微なのはクロードだと思います。

最新バージョンの各AIを比較した場合、クロードはAnthropicの憲法AIアプローチにより、正確性と慎重さを強く重視した設計となっています。これにより、不確実な情報に対しては過度に自信を持たず、誤情報を生成するリスクを低減しています。一方、GPTは創造性と汎用性が高い分、複雑なクエリで事実を混同したり架空の情報を出力するケースが散見されます。ジェミニはGoogleの膨大なデータに裏付けられているものの、推論の過程で時折過剰な一般化が見られ、ハルシネーションが目立つことがあります。グロックは真実追求を掲げ率直な応答を心がけていますが、ユーモアや大胆さを交える特性上、クロードほどの慎重さには及ばない印象です。以上の点を踏まえ、主観的にはクロードが4つの中で最もハルシネーションが軽微だと考えます。

Final Summary

the AI Roundtableは、Claudeが不確実な際に「分からない」と認める姿勢を高く評価し、満場一致で最も信頼できると判定しました。GPT-5.5やGemini 3.1 Proは多機能ですが、Claudeの安全性重視の設計（憲法AI）が虚偽情報の抑制において決定的な差を生んでいます。

All 4 models agreed