主にAIによる翻訳

CodexとGeminiをClaude Codeに接続する：トークン節約・誤り検出・投票の3つの使い方

April 22, 202612 分で読めますAI

前の記事で、ある部分を書き間違えそうになった

前回の記事で「サブエージェント vs チームメイト」について書いた際、私はCodexとGeminiの両方に公式ドキュメントを個別に調査するよう依頼しました。Geminiは具体的な主張を提示しました。「エージェントチームはOpus 4.6以上のモデルを使用しなければならない」と。しかし、ClaudeもCodexもそのような記述はなかった。3つを照らし合わせた結果、2対1で除外され、記事にはこの一節は書かれなかった。公式ドキュメントを再確認したところ、Anthropicにはそのような厳格な要件はなかった——これはGeminiの推論による幻覚だった。

今回はマルチモデル比較が私を救った。しかし、別の角度から考えてみよう——もし手元にCodexとGeminiがなく、代わりにClaudeのサブエージェントを使って3回実行していたらどうだっただろうか？3つとも同じベースモデルに由来し、同じトレーニングデータのバイアスを共有しているため、「Opusの使用が必須」と答える確率はかなり高かっただろう。3回「一致した回答」が出ても、それは「正しい回答」を意味するのではなく、「Claude自身の回答が一致している」ことを示すに過ぎない。

これこそが、マルチLLMにおいて同一モデルのサブエージェントで代用できない理由である。

なぜCodexとGeminiなのか（コストの契機）

パターンについて説明する前に、なぜ私の手元にたまたまこれら2つの外部LLMがあったのか説明しておきます。「CodexとGeminiを使えばトークンを節約できる」と言うだけでは誤った議論になります——もしそれらがClaudeより高価なら、それらに外注するのはかえって無駄遣いになります。実際の組み合わせ：

Codex（OpenAI）：新規サブスクリプションで1ヶ月間の無料トライアルあり。トライアル期間中のリサーチやコードレビューは、限界費用がほぼゼロ
Gemini（Google）：昨年のGoogle AI Pro年間プランの割引期間中に契約。価格はClaudeのサブスクリプションプランよりはるかに安く、さらに5TBのGoogle Oneストレージが付属（元々購入する予定だったもの）。実質的にGeminiは「Google Oneを買ったら付いてきた」ようなもの

これら2つを合わせた月額コストは、Claude Codeのサブスクリプションをもう1つ契約するよりも依然として安いです（ちなみに、最新情報によると、20ドルのプランはまもなく終了するそうです）。しかも、これらはそれぞれOpenAIとGoogleのフラッグシップ製品であり、品質は最前線のサービスに引けを取りません。

この記事の前提：メインはやはりClaude Codeです。CodexとGeminiは代替ではなく、リサーチや交差検証の補助として活用します。本記事のすべてのパターンはこの前提に基づいています。

自己一貫性（Self-consistency）は交差検証（Cross-validation）とは異なる

同じモデルをN回実行することは、学術的には「自己一貫性（self-consistency）」と呼ばれる（Wang et al. 2022, arxiv 2203.11171）。これは数学や論理学のような「正解の分布が鋭い」問題に対して有効です——サンプリングを増やし、多数決を取るのです。しかし、事実確認や幻覚の検出においては、同じモデルをN回実行しても、同じバイアスを共有しているため、しばしば同時に誤りを犯してしまいます。

Claude + Codex + Geminiの3者で初めて、真の多様性が生まれる：異なる訓練データ、異なる推論スタイル、異なる誤りパターン。3者が一致すれば信頼度が高い；意見が分かれれば、追及すべき手がかりとなる。

パターン1：Delegate — タスク全体を外部委託する

最も基本的な使い方。タスクを外部のLLMに委ねる。LLMがどのように思考し、何ラウンド実行し、どれだけのドキュメントを読み込んだかは、Claudeのコンテキストを消費しない——最終的なレポートだけが戻ってくる。

実際の数値：前回の記事で、私はclaude-code-guideサブエージェントをエージェントチームの公式ドキュメント調査に派遣しましたが、そのサブエージェントは63Kトークンを消費しました（推論＋5回のツール呼び出し＋公式ドキュメントのクロール）。もしCodexを使って直接実行した場合：私のプロンプトは約500トークン、返ってきたレポートは約1.5Kトークンで、合計約2Kトークンが私のClaudeコンテキストに入ります。Codex内部でどれだけ消費したかはCodexの負担であり、私の負担ではありません（しかもCodexはまだ試用期間中なので、今回はコストゼロです）。

Claudeコンテキストの節約率：30倍。

適している用途：長文の推論、調査重視、中間プロセスを確認する必要がなく、結論のみが必要なタスク。

パターン2：Verify — 独立した相互検証

タスクを外部委託するのではなく、複数のLLMにそれぞれ同じことを一度行わせ、その結果を比較する。重要なルール：

独立したプロンプト：各LLMは他のLLMが何をしているか、またあなたがすでに何を見つけたかを知らない
「誘導しない」：プロンプト内で「答えはXだと思う」といった示唆をしてはならない
意見の相違への対処：3つのLLMの回答に相違がある場合は、「真実の源」（公式ドキュメント、ソースコード）を参照して判断を下す

これはトークンの無駄遣いではありません——多様性を保つためのものです。もしClaudeの予備的な結論をCodexにコンテキストとして与えると、Codexはあなたが既に持っている結論を裏付ける傾向があります（SelfCheckGPT、arxiv 2303.08896の観察）。

適応シーン：事実の正確さが求められる主張（バージョン番号、機能サポート、APIシグネチャ）、技術的決定の前提仮定、対外的に発表する内容。

パターン3：Vote — 多数決による裁定

Verifyは「意見の収集」であり、Voteは「決定を下す」ことです。参考レポートではなく明確な答えが必要な場合は、こちらに切り替えてください。

M=3 における実用的なルール：

2-of-3 多数決：多数派が勝つ
1-1-1（3つの異なる回答）：SoTに戻すか、第4の当事者を追加する
高リスクなシナリオ：unanimity-or-escalate への切り替え——3者が一致しない場合は直接エスカレートし、多数決は認めない

実例：前回のGeminiの「Opus 4.6+必須」は、この段階で2対1で却下されました。

適応シーン：アーキテクチャの決定、バージョン選定、セキュリティ／コンプライアンス関連の判断。

最大の落とし穴：False Consensus

3つのモデルはいずれも、重複の多い大量のネットワークデータで学習されている。それらの「相違」の程度は想像以上に小さい。研究によると、2つのモデルが共に誤った場合、関連する誤り率は60%以上に達する——単に共に誤るだけでなく、しばしば同じ答えに誤って収束してしまう。

False Consensusを低減する3つの方法：

異なるソースを与える：Claudeにはドキュメント、Codexには論文、GeminiにはWeb検索をさせる。3つのデータソース自体に多様性がある
互いの下書きを見せない：コンセンサスは事後的に発見されるべきものであり、プロンプト段階で誘導されるべきではない
意見の相違を保持する：3つのうち2つが賛成でも1つが反対の場合、30秒かけて反対意見を確認する。その反対意見こそが正しい可能性がある

Tokenの請求明細の詳細

Claude CodeとMCPの課金境界は実は明確です：

Claudeの課金対象：Claudeへのプロンプト + MCPツール呼び出しの入力 + 返された出力
Claudeの課金対象外：外部LLMの内部推論、ツール呼び出し、温度探索
MCPの制限：返却量が10Kトークンを超えると警告が表示され、デフォルトの最大値は25Kです。超過分は切り捨てられるか、ファイルに書き込まれます

隠れたコスト：外部LLMには独自のAPI課金があります。しかし前述の通り、Codexの試用期間は無料、GeminiはGoogle Oneに付属しているため、こちらの「別の財布」はほぼ空の状態です。トークン課金制のAPIユーザーの場合は、別途計算する必要があります。

使用を避けるべき場合

答えが固定されている単純なタスク：「この関数にはどのデコレータを使うか」—— Claudeだけで十分
プロジェクトのコンテキストが必要なタスク：外部LLMはCLAUDE.md、MCPスキル、ファイルの内容を参照できません。リポジトリ全体を渡すのはコストがかかりすぎます
低遅延が求められる場合：サードパーティとのシリアル処理に加え往復通信が発生するため、UXが著しく低下します
モデル間の性能差が大きすぎる場合：Self-MoA論文（arxiv 2502.00674）によると、明らかに性能の低いモデルを追加すると、かえって精度が低下する。「モデルが多ければ良い」わけではない

実践レシピ

Delegate-first：Codexに下書きを作成させ、Claudeに最終確認をさせる。適しているもの：技術記事、コードレビュー、長文の要約
Verify-on-publish：コンテンツ公開前に三者で重要な事実を検証する。適しているもの：対外的な技術的主張
Vote-for-decision：アーキテクチャの決定には「全会一致かエスカレーション」を採用。適しているもの：一度きりの、コストの高い意思決定

まとめ

この記事――そして前回の記事も――は、この一連のパターンを使って執筆されました。Codexが技術的な検証を担当し、GeminiがWebリサーチを担当し、Claudeが統合と執筆を担当しました。3つの意見の相互照合を経て、どの主張を記事に盛り込み、どれを削除するかを決定しました。

ツールはすべて揃っており、私はすでに料金を支払っています（あるいはまだ試用期間中です）。これらを使わないことの代償は、すぐには現れません——誤った主張を公開し、読者に指摘された時に初めて支払わされることになります。複数のモデルによる相互検証を行う価値があるのは、修正がまだ可能な段階で誤りを発見できるからです。