前の記事で、ある部分を書き間違えそうになった
前回の記事で「サブエージェント vs チームメイト」について書いた際、私はCodexとGeminiの両方に公式ドキュメントを個別に調査するよう依頼しました。Geminiは具体的な主張を提示しました。「エージェントチームはOpus 4.6以上のモデルを使用しなければならない」と。しかし、ClaudeもCodexもそのような記述はなかった。3つを照らし合わせた結果、2対1で除外され、記事にはこの一節は書かれなかった。公式ドキュメントを再確認したところ、Anthropicにはそのような厳格な要件はなかった——これはGeminiの推論による幻覚だった。
今回はマルチモデル比較が私を救った。しかし、別の角度から考えてみよう——もし手元にCodexとGeminiがなく、代わりにClaudeのサブエージェントを使って3回実行していたらどうだっただろうか?3つとも同じベースモデルに由来し、同じトレーニングデータのバイアスを共有しているため、「Opusの使用が必須」と答える確率はかなり高かっただろう。3回「一致した回答」が出ても、それは「正しい回答」を意味するのではなく、「Claude自身の回答が一致している」ことを示すに過ぎない。
これこそが、マルチLLMにおいて同一モデルのサブエージェントで代用できない理由である。
なぜCodexとGeminiなのか(コストの契機)
パターンについて説明する前に、なぜ私の手元にたまたまこれら2つの外部LLMがあったのか説明しておきます。「CodexとGeminiを使えばトークンを節約できる」と言うだけでは誤った議論になります——もしそれらがClaudeより高価なら、それらに外注するのはかえって無駄遣いになります。実際の組み合わせ:
Codex(OpenAI):新規サブスクリプションで1ヶ月間の無料トライアルあり。トライアル期間中のリサーチやコードレビューは、限界費用がほぼゼロ
Gemini(Google):昨年のGoogle AI Pro年間プランの割引期間中に契約。価格はClaudeのサブスクリプションプランよりはるかに安く、さらに5TBのGoogle Oneストレージが付属(元々購入する予定だったもの)。実質的にGeminiは「Google Oneを買ったら付いてきた」ようなもの
これら2つを合わせた月額コストは、Claude Codeのサブスクリプションをもう1つ契約するよりも依然として安いです(ちなみに、最新情報によると、20ドルのプランはまもなく終了するそうです)。しかも、これらはそれぞれOpenAIとGoogleのフラッグシップ製品であり、品質は最前線のサービスに引けを取りません。
この記事の前提:メインはやはりClaude Codeです。CodexとGeminiは代替ではなく、リサーチや交差検証の補助として活用します。本記事のすべてのパターンはこの前提に基づいています。
自己一貫性(Self-consistency)は交差検証(Cross-validation)とは異なる
同じモデルをN回実行することは、学術的には「自己一貫性(self-consistency)」と呼ばれる(Wang et al. 2022, arxiv 2203.11171)。これは数学や論理学のような「正解の分布が鋭い」問題に対して有効です——サンプリングを増やし、多数決を取るのです。しかし、事実確認や幻覚の検出においては、同じモデルをN回実行しても、同じバイアスを共有しているため、しばしば同時に誤りを犯してしまいます。
Claude + Codex + Geminiの3者で初めて、真の多様性が生まれる:異なる訓練データ、異なる推論スタイル、異なる誤りパターン。3者が一致すれば信頼度が高い;意見が分かれれば、追及すべき手がかりとなる。
パターン1:Delegate — タスク全体を外部委託する
最も基本的な使い方。タスクを外部のLLMに委ねる。LLMがどのように思考し、何ラウンド実行し、どれだけのドキュメントを読み込んだかは、Claudeのコンテキストを消費しない——最終的なレポートだけが戻ってくる。
実際の数値:前回の記事で、私はclaude-code-guideサブエージェントをエージェントチームの公式ドキュメント調査に派遣しましたが、そのサブエージェントは63Kトークンを消費しました(推論+5回のツール呼び出し+公式ドキュメントのクロール)。もしCodexを使って直接実行した場合:私のプロンプトは約500トークン、返ってきたレポートは約1.5Kトークンで、合計約2Kトークンが私のClaudeコンテキストに入ります。Codex内部でどれだけ消費したかはCodexの負担であり、私の負担ではありません(しかもCodexはまだ試用期間中なので、今回はコストゼロです)。
Claudeコンテキストの節約率:30倍。
適している用途:長文の推論、調査重視、中間プロセスを確認する必要がなく、結論のみが必要なタスク。
パターン2:Verify — 独立した相互検証
タスクを外部委託するのではなく、複数のLLMにそれぞれ同じことを一度行わせ、その結果を比較する。重要なルール:
独立したプロンプト:各LLMは他のLLMが何をしているか、またあなたがすでに何を見つけたかを知らない
「誘導しない」:プロンプト内で「答えはXだと思う」といった示唆をしてはならない
意見の相違への対処:3つのLLMの回答に相違がある場合は、「真実の源」(公式ドキュメント、ソースコード)を参照して判断を下す
これはトークンの無駄遣いではありません——多様性を保つためのものです。もしClaudeの予備的な結論をCodexにコンテキストとして与えると、Codexはあなたが既に持っている結論を裏付ける傾向があります(SelfCheckGPT、arxiv 2303.08896の観察)。
適応シーン:事実の正確さが求められる主張(バージョン番号、機能サポート、APIシグネチャ)、技術的決定の前提仮定、対外的に発表する内容。
パターン3:Vote — 多数決による裁定
Verifyは「意見の収集」であり、Voteは「決定を下す」ことです。参考レポートではなく明確な答えが必要な場合は、こちらに切り替えてください。
M=3 における実用的なルール:
2-of-3 多数決:多数派が勝つ
1-1-1(3つの異なる回答):SoTに戻すか、第4の当事者を追加する
高リスクなシナリオ:unanimity-or-escalate への切り替え——3者が一致しない場合は直接エスカレートし、多数決は認めない
実例:前回のGeminiの「Opus 4.6+必須」は、この段階で2対1で却下されました。
適応シーン:アーキテクチャの決定、バージョン選定、セキュリティ/コンプライアンス関連の判断。
最大の落とし穴:False Consensus
3つのモデルはいずれも、重複の多い大量のネットワークデータで学習されている。それらの「相違」の程度は想像以上に小さい。研究によると、2つのモデルが共に誤った場合、関連する誤り率は60%以上に達する——単に共に誤るだけでなく、しばしば同じ答えに誤って収束してしまう。
False Consensusを低減する3つの方法:
異なるソースを与える:Claudeにはドキュメント、Codexには論文、GeminiにはWeb検索をさせる。3つのデータソース自体に多様性がある
互いの下書きを見せない:コンセンサスは事後的に発見されるべきものであり、プロンプト段階で誘導されるべきではない
意見の相違を保持する:3つのうち2つが賛成でも1つが反対の場合、30秒かけて反対意見を確認する。その反対意見こそが正しい可能性がある
Tokenの請求明細の詳細
Claude CodeとMCPの課金境界は実は明確です:
Claudeの課金対象:Claudeへのプロンプト + MCPツール呼び出しの入力 + 返された出力
Claudeの課金対象外:外部LLMの内部推論、ツール呼び出し、温度探索
MCPの制限:返却量が10Kトークンを超えると警告が表示され、デフォルトの最大値は25Kです。超過分は切り捨てられるか、ファイルに書き込まれます
隠れたコスト:外部LLMには独自のAPI課金があります。しかし前述の通り、Codexの試用期間は無料、GeminiはGoogle Oneに付属しているため、こちらの「別の財布」はほぼ空の状態です。トークン課金制のAPIユーザーの場合は、別途計算する必要があります。
使用を避けるべき場合
答えが固定されている単純なタスク:「この関数にはどのデコレータを使うか」—— Claudeだけで十分
プロジェクトのコンテキストが必要なタスク:外部LLMはCLAUDE.md、MCPスキル、ファイルの内容を参照できません。リポジトリ全体を渡すのはコストがかかりすぎます
低遅延が求められる場合:サードパーティとのシリアル処理に加え往復通信が発生するため、UXが著しく低下します
モデル間の性能差が大きすぎる場合:Self-MoA論文(arxiv 2502.00674)によると、明らかに性能の低いモデルを追加すると、かえって精度が低下する。「モデルが多ければ良い」わけではない
実践レシピ
Delegate-first:Codexに下書きを作成させ、Claudeに最終確認をさせる。適しているもの:技術記事、コードレビュー、長文の要約
Verify-on-publish:コンテンツ公開前に三者で重要な事実を検証する。適しているもの:対外的な技術的主張
Vote-for-decision:アーキテクチャの決定には「全会一致かエスカレーション」を採用。適しているもの:一度きりの、コストの高い意思決定
まとめ
この記事――そして前回の記事も――は、この一連のパターンを使って執筆されました。Codexが技術的な検証を担当し、GeminiがWebリサーチを担当し、Claudeが統合と執筆を担当しました。3つの意見の相互照合を経て、どの主張を記事に盛り込み、どれを削除するかを決定しました。
ツールはすべて揃っており、私はすでに料金を支払っています(あるいはまだ試用期間中です)。これらを使わないことの代償は、すぐには現れません——誤った主張を公開し、読者に指摘された時に初めて支払わされることになります。複数のモデルによる相互検証を行う価値があるのは、修正がまだ可能な段階で誤りを発見できるからです。