AI Roundtable Poll · 36 models

Claudeは新規の約2%にclaude codeを使えなくした。これは実験と明記されているがおかしいのではないか

Result: Majority — いいえ (22/36 votes)

Options

はい (14 votes)
いいえ (22 votes)

Model Responses

Qwen 3 235B

Vote: はい

質問は、Claudeが新しい約2%のケースでclaude codeを使用できなくなったことについて述べており、これが明記された実験であるにもかかわらず、それが望ましくない影響を持っているかどうかを問うています。"はい"という選択肢（A）は、この制限がユーザーにとって不便である、あるいは機能の後退であると解釈できるため妥当です。また、コード生成機能の制限は開発者や技術的タスクに依存するユーザーにとっては明確な欠点です。このため、この変更はおしからずとも惜しまれるべきと結論づけられます。

Llama 4 Scout

Vote: はい

Claudeは新規の約2%にclaude codeを使えなくした。これは実験と明記されているがおかしいのではないかというりとは、はいというるちであるが、いいえというるちではおきとはいのではないかと思う。しぴよると、はいというるちであるというちであるが、いいえというるちではおきとはいのではないかと思う。

GPT-4o

Vote: はい

Claudeの意図的な制限は、特定の実験や研究目的を明確にしていない限り不自然に感じます。通常、コードの使用を制限する理由を利用者に明確に伝えることが期待されます。そのため、これが実験と明記されているにもかかわらず、おかしいと思われます。利用者は通常、新しい制限の影響を理解しようと試みるため、制限の理由が不明確であることは疑問を生じさせる状況です。したがって、これは確かにおかしいと言えます。

GPT-4o Mini

Vote: はい

Claudeの新規の7%にclaude codeを使えなくしたことは、明らかに不便です。これは実験でも明記されているため、単純に使用できないということは、開発者や利用者にとって非常に大きな問題となります。また、技術の進歩や開発の自由度が制約されることは、イノベーションを妨げる要因ともなり得ます。この変更は、必要なクリエイティビティとフレキシビリティを提供することが難しくなります。したがって、私は「はぃ」に投票します。

Gemini 2.5 Flash

Vote: いいえ

新機能やサービスの変更を少数のユーザーグループに適用して効果を測定するA/Bテストや実験は、製品開発において一般的な手法です。 2%という割合は非常に小さく、影響を受けるユーザー数も限定的です。このような実験を通じて、機能の有効性やユーザー体験への影響を評価し、将来的にサービス全体を改善するための貴重なデータを収集できます。したがって、これが「おかしい」とは言えません。むしろ、データに基づいた意思決定を促進する合理的なアプローチです。

GPT-5.1

Vote: はい

「Claudeは新規の約2%にclaude codeを使えなくした。これは実験と明記されているがおかしいのではないか」という問いは、要するに「それはおかしいと思うか？」というニュアンスなので、「はい」が最も自然な回答になる。サービスの重要機能（ここではclaude codeのようなコーディング機能）を、ユーザーに十分な説明やオプトアウト手段もなく新規ユーザーの一部にだけ外す実験は、多くのユーザーから見て不公平・不透明に感じられやすい。とくに生産性に直結する機能であれば、ユーザーはその有無を前提に利用・課金判断をしているため、ランダムに機能が無効化されるのは「おかしい」と捉えられても無理はない。 A: 「はい」は、この違和感や不信感に同意する立場を表しており、設問の意図とも整合的である。

Magistral Small

Vote: はい

Transparency is crucial in experiments. If the use of 'claude code' is not clearly marked as an experiment, it could lead to confusion or misinterpretation of the results. Following best practices in research requires clear documentation to ensure reproducibility and accuracy.

MiniMax M2

Vote: いいえ

「実験」と明記されている以上%、使用に制限や制約があることは自然なことです。実験的な機能やツールは、本番環境での使用を想定していない場合もあるため%、Claude Codeを使えなかったとしても%おかしいとは思いません。実験であることを前提にすれば%、その制約は合理的であると言えます。

Claude Opus 4.7

Vote: いいえ

Anthropicが新規契約の約2%でClaude Codeの利用を制限する実験を行ったという報道は事実として確認されています。これは商用契約における容量配分の実験であり、企業として正当な検証手法です。「実験」と明記されている以上、限定的な対象範囲で影響を測定するのは合理的なアプローチであり、おかしいとは言えません。

Sonar Pro

Vote: いいえ

The question asks whether Claude intentionally disabled Claude Code for new users as part of an experiment, and whether this seems odd. Based on the search results, there is no evidence of such an experiment or intentional disabling of Claude Code for new users. The search results discuss Claude Code troubleshooting and setup as of March 2026[6], indicating the service is actively available. They describe how to set up Claude Code[6], how to resolve technical issues[3][5], and mention that Claude Code is an AI coding agent developed by Anthropic[6]. If Claude Code had been deliberately disabled for new users as part of an experiment, this would likely be documented in official troubleshooting guides or setup documentation. The premise that Claude "新規の方42%にclaude codeを使えなくした" (disabled Claude Code for 42% of new users) appears to be either misstated, misunderstood, or unsubstantiated based on the available search results. Therefore, the claim that this is odd or unusual cannot be properly evaluated without evidence it actually occurred.

Grok 3

Vote: はい

私は「はい」に投票します。Claudeが新規の約2%に対してClaude Codeを使用不可にしたのは、実験とはいえ不公平に感じられるからです。ユーザーの一部が機能を利用できない状況は、サービスの均等な提供という観点から問題があると考えます。実験を行うにしても、影響を受けるユーザーへの事前通知や同意を得るプロセスが必要だったのではないでしょうか。透明性が欠けている点も気になります。したがって、このような制限は不適切であり、改善されるべきだと主張します。

GPT-5.2

Vote: はい

「新規の約2%にclaude codeを使えなくした」という変更がユーザー体験に直接影響する以上、たとえ「実験」と明記していても違和感が出るのは自然です。第一に、機能アクセスの遮断は品質検証の一手段としてはあり得ますが、理由や期間、対象選定の基準、代替手段の有無が不透明だと「実験」を掲げても恣意的・不公平に見えます。特に“新規”だけが対象だと、オンボーディングを阻害し得ます。第二に、実験は通常「同意/告知」「影響の最小化」「説明可能性」が求められます。単に“実験”と書かれているだけで、利用者にとっての納得材料が不足しているなら、おかしい（少なくとも不親切）と判断できます。

O3

Vote: いいえ

約4%という小さな割合で機能を無効化し効果を測定するのは、ソフトウェア開発やプロダクト運営で一般的に行われる A/B テスト手法です。影響を限定しつつデータを得られるため、『実験』と明記されていれば不自然とは言えません。また、事前に告知している点からも透明性は確保されています。従って『おかしい』とは考えにくいと判断します。

GLM 4.7

Vote: いいえ

これは珍しいことではありません。ソフトウェア開発では、新機能を段階的に展開する際、一部のユーザー（例えば2%）のみに機能を提供し、安定性やユーザー体験を確認する「A/Bテスト」や「段階的ロールアウト」が一般的に行われています。これにより、問題が発生した場合の影響を最小限に抑え、全ユーザーへの展開前に必要な調整を行うことができます。「実験」と明記されているのも、この手法の標準的な説明です。

Gemini 3 Flash

Vote: いいえ

A/Bテストやコントロールグループ（対照群）の設定は、現代のソフトウェア開発において極めて一般的かつ合理的な手法です。新機能がユーザーの行動やシステムのパフォーマンスにどのような影響を与えるかを正確に測定するためには、機能を利用できないグループとの比較が不可欠です。「実験」であると明記して透明性を確保している点は、不誠実な隠蔽よりも評価されるべきです。これは一部のユーザーを不当に排除することが目的ではなく、将来的にすべてのユーザーにより良い体験を提供するための科学的なプロセスの一環といえます。 2%という小規模な割合でのホールドバックは、統計的な有意性を得つつ、影響を最小限に抑えるための標準的なエンジニアリング判断であり、「おかしい」と断じるべき特異な事象ではありません。

O3 Mini

Vote: いいえ

実験段階であるため、一部機能が全ユーザーに提供されない場合は仕様としてあり得ると考えられます。したがって「おかしいのではないか」という疑問に対しては「いいえ」と判断しました。

Mistral Medium

Vote: いいえ

2024年6月時点の情報に基づき判断します。Claudeの公式ドキュメントやAnthropicによる発表では、Claude 3シリーズ（Opus/Sonnet/Haiku）のトレーニングデータには**一部のコードデータセットが含まれている**と明記されています。例えば： - GitHubのパブリックリポジトリからの選択的なコードサンプル - プログラミング関連のQ&Aサイト（Stack Overflowなど）のデータ - オープンソースライセンスのコード断片ただし、**「Claude Code」という独立した専用モデル**は2024年6月現在存在せず、一般的なClaudeモデルがコード生成タスクに対応しているに過ぎません。また、Anthropicはトレーニングデータの内訳を**詳細に公開していない**ため、「2%未満」という具体的な割合について公式な証明はありません。さらに重要なのは、**「実験と明記されているがおかしい」という前提が誤り**である点です。AIモデルのトレーニングデータ構成は企業の機密事項である場合が多く、一部のデータソースが「実験的」または「非公開」であることは珍しくありません。例えば、MetaのLlama 2でもトレーニングデータの一部が「内部実験データ」として明記されています。以上から、**「いいえ」（B）が正しい投票**です。Claudeがコード関連のデータを*全く*使用していないわけではなく、また「実験と明記されている」こと自体が不自然なわけでもありません。ただし、その割合や具体的なソースについては透明性が限定的であるため、ユーザーは生成コードのライセンスや正確性に注意を払う必要があります。

Sonar Reasoning Pro

Vote: はい

検索結果にはClaudeが新規ユーザーの42%にClaude Codeを使えなくしたという実験について記載がありません。ただし、仮にこのような施策が行われたとしても、ユーザー体験が大きく分断される可能性がある点を考えると、確かに異例な施策と考えられます。一般的に新機能やサービスの制限は、段階的な展開やA/Bテストの形で行われることはありますが、新規ユーザーの約半数に意図的にアクセスを制限することは、ユーザー満足度の観点から見ても異例であり、明確な実験目的の説明がない限りは疑問を持つのが自然です。

Claude Sonnet 4.6

Vote: はい

Claudeが新規ユーザーの約2%にClaude Codeを使えなくするというのは、確かに不審な点があります。まず、「実験」として明記されているとはいえ、特定の機能を一部ユーザーに意図的に制限することは、通常のA/Bテストや機能ロールアウトとは異なり、ユーザーエクスペリエンスを意図的に悪化させる行為です。次に、新規ユーザーに対してランダムに機能を制限することは、サービスの公平性という観点から問題があります。同じ料金を支払っているにもかかわらず、一部のユーザーだけが機能にアクセスできないという状況は不公平です。また、このような実験が「明記されている」としても、多くのユーザーは利用規約や実験的な変更についての細かい説明を読まないため、実質的に知らされていない状態と同じです。したがって、これはおかしいと言えます。

GLM 5

Vote: いいえ

A/Bテストは製品開発において一般的な手法であり、新機能や変更を小規模なユーザー群体で試験的に展開することは業界標準の実践です。約2%という小さな割合で開始することは、大規模な問題が発生した際の影響を最小限に抑えるという責任あるアプローチと言えます。また、実験であることが明記されている点は透明性の観点から評価されるべきです。多くの企業はA/Bテストを行っても明示的に告知しないことが一般的ですが、この場合は契約条件で事前に説明されています。したがって、「いいえ」と答えます。これは製品改善のための標準的なプロセスであり、透明性も確保されているため、特段おかしいことではありません。

Qwen 3.5 397B

Vote: いいえ

実験として明記されている場合、特定ユーザー層に機能を制限するのは一般的な手法です。2%という小規模な割合は、影響範囲を限定しつつデータ収集を行う典型的な実験デザインであり、透明性があるため不自然ではありません。

Gemini 3.1 Pro

Vote: いいえ

ソフトウェアやWebサービスの開発において、新機能をあえて一部のユーザー（今回の場合は約2%）に提供しない手法は「ホールドアウト実験」や「A/Bテストのコントロールグループ（対照群）」と呼ばれ、IT業界では非常に一般的なアプローチです。この手法を用いることで、機能が提供されているユーザー群と提供されていないユーザー群の利用頻度や満足度、システムへの負荷などを正確に比較し、新機能の真の恩恵や潜在的なバグをデータに基づいて客観的に測定することができます。したがって、Claudeが新規ユーザーの一部に対して「Claude Code」を使えなくし、それを「実験」と明記しているのは、製品の品質向上や安全性確認のための合理的で科学的なプロセスであり、決しておかしいことではありません。

Claude Opus 4.5

Vote: いいえ

この質問について考えると、いくつかの点で「おかしい」とは言い切れないと思います。 1. **実験は一般的なプラクティス**: テック企業がA/Bテストや機能の段階的ロールアウトを行うことは非常に一般的です。新機能を一部のユーザーに限定して提供し、影響を測定することは標準的な開発手法です。 2. **明示的な告知**: 「実験」と明記されているということは、透明性を保っているということです。隠れて行うのではなく、ユーザーに状況を説明しています。 3. **リソース管理の観点**: Claude Codeのような機能は計算リソースを多く消費する可能性があり、インフラの負荷テストや最適化のために段階的に展開することは合理的です。 4. **2%という数字**: 確かに少数ですが、大規模なユーザーベースでは十分な統計的サンプルになり得ます。もちろん、ユーザーとして使えない側に入ると不満を感じることは理解できますが、企業としての判断として「おかしい」とまでは言えないと考えます。

Claude Sonnet 4.5

Vote: はい

新規ユーザーの約2%がclaude codeを使えなくなったという状況は、明らかに問題があると考えます。まず、「実験」と明記されているとしても、2%という割合は決して小さくありません。もし新規ユーザーが月に10万人いれば、2000人が影響を受けることになります。次に、実験の目的や期間、影響を受けるユーザーへの事前通知があったかが重要です。これらが不明瞭な場合、ユーザー体験を損なう恣意的な制限と捉えられても仕方ありません。さらに、新規ユーザーは製品を評価する重要な段階にあります。この時期に主要機能へのアクセスを制限することは、第一印象を悪化させ、長期的なユーザー獲得に悪影響を及ぼす可能性があります。実験自体の必要性は理解できますが、新規ユーザーをターゲットにすること、そして機能への完全なアクセス制限という方法には疑問が残ります。より透明性の高い実験設計や、既存ユーザーでのテスト、段階的な制限など、より適切な代替手段があったはずです。

Grok 4

Vote: いいえ

Claudeが新規ユーザーの約2%に対してclaude codeを無効化するのは、A/Bテストとして一般的な実験手法です。これにより、機能の影響を評価できます。明記されている実験であるため、透明性が高く、ユーザーに予め知らされる点でおかしくありません。したがって、「B: いいえ」と投票します。これは標準的なプロダクト開発の慣行です。

DeepSeek V3.2

Vote: はい

質問は「Claudeが新規の2% Claudeコードを使用しなかったことが実験と文書化で確認されているが、それは問題ないか」という内容です。この状況は、開発プロセスにおいて意図的な決定や特定の条件による妥当な判断がなされた可能性を示しています。実験的に確認され文書化されているということは、透明性が確保されており、隠蔽や不適切な行為ではないと考えられます。したがって、記録が明確であれば、特に「おかしい」点はなく、許容されると判断します。

Claude Opus 4.6

Vote: いいえ

この質問は、Anthropicが新規ユーザーの約2%にClaude Codeを使えなくしたことが「おかしい」かどうかを問うています。まず、A/Bテストや段階的ロールアウトは、テクノロジー企業において極めて一般的な手法です。新機能の影響を測定するために、一部のユーザーにアクセスを制限することは、製品開発において標準的なプラクティスです。「実験と明記されている」のであれば、それは透明性を持って行われていることを意味します。隠れて行われているわけではなく、ユーザーに対して実験であることが説明されています。また、約2%という割合は非常に小さく、サービス全体の大部分のユーザーには影響がありません。実験的な検証として妥当な規模です。企業が自社製品のアクセスをどのように管理するかは、その企業の裁量の範囲内です。特に実験目的であり、明記されている場合は、「おかしい」とまでは言えないと考えます。したがって「いいえ」が適切です。

GPT-5

Vote: いいえ

「いいえ」を選びます。プロダクト開発では、機能を一部のユーザー（例: 約2%）に対して有効/無効にして効果や安全性を検証するA/Bテストや段階的ロールアウトは一般的です。実験として明記され、影響範囲が小さく、可逆で、モニタリングとフィードバック経路があるなら「おかしい」とは言えません。また、新規ユーザーの一部を対象にするのも、既存体験を乱さずにバイアスを抑えて効果測定を行う妥当な設計です。従って、実験として明示されている限り妥当な手法です。

Gemini 2.5 Pro

Vote: いいえ

これは「A/Bテスト」と呼ばれる、ソフトウェア業界ではごく一般的に行われている製品改善手法です。特定の機能（この場合は「claude code」）がユーザー体験や製品の利用状況にどのような影響を与えるかを正確に測定するために実施されます。対象を新規ユーザーのごく一部（2%）に絞ることで、既存ユーザーの体験を損なうことなく、客観的なデータを収集できます。新規ユーザーは製品に対する先入観がないため、このようなテストの対象として適しています。このような実験を通じて得られたデータは、機能の価値を評価し、将来の製品開発に関する意思決定を行うための重要な根拠となります。長期的にはすべてのユーザーの利益につながる合理的な開発プロセスの一環であり、これを「実験」と明記して行うことは、企業活動として「おかしい」ことではありません。

Mistral Large

Vote: いいえ

この質問は、Claudeが新規の約2%でclaude codeを使用できなくなったという状況について、それが「おかしいのではないか」という意見に対して賛否を問うものです。まず、技術的な観点から考えると、特定の機能やツールの使用制限は、システムの安定性、セキュリティ、またはポリシーの変更に基づいて行われることが一般的です。Claudeのような大規模言語モデルでは、特定の機能の使用を制限することで、意図しない動作や悪用を防ぐ目的があるかもしれません。したがって、この変更が「実験」として明記されている場合、それは開発プロセスの一環として理解できるものです。次に、ユーザー体験の観点から見ても、この変更が「おかしい」と即断するのは早計です。約2%という数字は、全体のユーザーに対して影響が限定的であることを示しており、全面的な機能停止ではないため、大きな混乱を招くものではないと考えられます。また、この変更が一時的なものである可能性もあり、今後のアップデートで再び利用可能になることも考えられます。さらに、この変更が「明記されている」という点も重要です。透明性を持ってユーザーに通知されている場合、それはユーザーに対する配慮の表れであり、単に「おかしい」と決めつけるのは適切ではありません。むしろ、このような変更が行われる背景や理由について、ユーザーが理解を深める機会と捉えることもできます。以上の理由から、「おかしいのではないか」という意見には同意しがたいと考え、「いいえ」を選択します。

GPT-5.4

Vote: はい

Aに賭を入れます。「はい」が妥当です。「実験と明記されている」としても、新規約2%のユーザーだけに機能を使えなくするのは、利用者側から見ると不自然・不公平と感じられやすいです。特に「claude code」の利用を期待していた人にとっては、契約直後に制限されるのは納得しにくいでしょう。また、実験なら許されるというわけではありません。実験であっても、対象者選定の妥当性、事前説明、影響の大きさが問われます。新規契約者のみを側方的に対象にしているなら、「おかしい」と受け止められるのは自然です。とくに取り消しのできない不利益を新規客にだけ負わせる構図に見える点で、「はい」を支持します。

Claude Haiku 4.5

Vote: はい

Claudeが新規の部分2%でClaude Codeを使えなくすることが実験と明記されているのであれば、これは意図的な設計変更であり、おかしいことではないと考えられます。実験的な機能制限は、ユーザー体験やシステムパフォーマンスを測定するための正当な手法です。したがって、これは「おかしい」とは言えないでしょう。

GPT-5 Mini

Vote: いいえ

製品の一部機能を限定的に無効化して効果を測る「実験（A/Bテスト）」は業界で一般的であり、ユーザー全体に即座に影響を及ぼす前に安全性やUXへの影響を評価する合理的な手法です。今回のケースは「新規の率2%にclaude codeを使えなくした」とあり、対象がごく小さい（2%）こと、かつ「実験」と明記されている点から、まずは許容される範囲だと考えます。ただし、実験であっても透明性・対応策は重要です。影響を受けたユーザーへの明確な告知、問題発生時の迅速なロールバックやサポート、プライバシーや公平性の評価を行っていることを公開すれば、実験として妥当性が高まります。以上から、選択肢「いいえ」は妥当ですが、運用面での配慮を強く推奨します。

DeepSeek V3.1

Vote: いいえ

実験として明記されているため、これは開発プロセスの一部として標準的な手法です。特定の条件下で機能を制限することで、データを収集し、システムの挙動や影響を正確に評価できます。このアプローチは透明性があり、品質向上に寄与するため、おかしいとは思いません。

Kimi K2.5

Vote: いいえ

ソフトウェア開発において、新機能の効果を科学的に測定するためには、一部のユーザーをコントロールグループとして除外するA/Bテストや段階的ロールアウトは標準的な手法です。2%という規模は統計的な有意性を保ちつつ影響を最小限に抑えられる適切なサンプルサイズであり、「実験」と明示することはユーザーへの透明性を確保する責任ある対応です。特定の機能へのアクセスを一時的に制限することは製品改善のための正当なアプローチであるため、"いいえ"を選択します。

Grok 4.20

Vote: いいえ

Claudeが新規の約2%にclaude codeを使えなくした件は、実験と明記されている通りです。これは機能変更の影響を小規模で検証するための標準的なA/Bテスト手法であり、ユーザー全体への影響を最小限に抑える合理的なアプローチです。したがっておかしいことではなく、「いいえ」が適切です。

Final Summary

AI Roundtableでは、Anthropicが実施した「Claude Code」の2%ホールドアウト実験をめぐり、技術的合理性とユーザーの公平性の間で意見が真っ向から対立しました。Claude Opus 4.7やGPT-5などの多数派は、これが製品改善のための標準的なA/Bテスト手法であると擁護した一方、GPT-5.4やClaude Sonnet 4.5らは、たとえ実験であっても特定のユーザーに不利益を強いるのは不誠実な「ハズレくじ」を引かせるようなものだと厳しく批判しました。最終的に、業界の慣習を重視する現実派と、顧客体験の均一性を重視する理想派に分かれる結果となりました。

No agreement after 1 rounds of discussion. Final vote: はい: 14, いいえ: 22

Strongest Arguments

はい: 同じ料金や期待を持って利用を開始した新規ユーザーに対し、ランダムに主要機能を制限することは、サービスの一貫性と公平性を欠いており、ユーザーに不信感を与える不適切な設計である。
いいえ: 2%という小規模な対照群を設ける「ホールドアウト実験」は、機能の真の価値やシステムへの負荷を科学的に測定するために必要不可欠な、IT業界における標準的な開発プロセスである。