把 Codex 跟 Gemini 接進 Claude Code：省 token、查錯、投票三種用法

2026年4月22日8 分鐘閱讀AI

上一篇文章差點寫錯一段

上一篇寫 subagent vs teammate 時，我同時叫了 Codex 跟 Gemini 獨立查官方文件。Gemini 提了一個具體說法：「agent teams 必須使用 Opus 4.6+ 模型」。Claude 跟 Codex 兩方都沒有這個說法。三方對照下來 2-1 剔除，文章沒寫這段。回查官方文件，Anthropic 沒有這個硬性要求——這是 Gemini 的推論幻覺。

這次是多模型比對救了我。但換個角度想——如果我手邊沒有 Codex 跟 Gemini，改用 Claude Code 的 subagent 跑三次呢？三份都來自同一個基礎模型，共用同一組訓練資料偏見，一起說「必用 Opus」的機率相當高。三次「一致的答案」不代表「正確的答案」，只代表「Claude 自己一致」。

這就是為什麼 multi-LLM 不能用同模型 subagent 取代。

為什麼是 Codex 跟 Gemini（成本的契機）

在講 pattern 之前先交代為什麼我手邊剛好有這兩個外部 LLM。光講「叫 Codex 跟 Gemini 省 token」是假議題——如果它們比 Claude Code 貴，外包給它們反而浪費錢。實際組合：

Codex（OpenAI）：新訂閱有 1 個月免費試用。試用期內做研究跟審查程式碼，幾乎零邊際成本
Gemini（Google）：去年 Google AI Pro 年費優惠期時入手，價格遠低於 Claude Code 訂閱方案，還額外送 5TB Google One 儲存空間（本來就要買的東西）。算下來 Gemini 幾乎是「買 Google One 送的」

這兩個湊起來的月成本仍低於再開一份 Claude Code 訂閱（順帶一提：根據最新消息，20 美金的那個 tier 聽說快收掉了），而且他們分別是 OpenAI 跟 Google 的旗艦，品質不輸前線。

這篇文章的前提：主力還是 Claude Code。Codex 跟 Gemini 不是取代，是輔助做研究與交叉驗證。本文所有模式都建立在這個前提上。

Self-consistency 不等於 cross-validation

同一個模型跑 N 次在學術上叫 self-consistency（Wang et al. 2022, arxiv 2203.11171）。它對數學、邏輯這種「答案分佈銳利」的題目有效——多採樣、取多數。但對事實核對、偵測幻覺，同模型 N 次常常一起錯，因為它們共享同一組偏見。

換成 Claude + Codex + Gemini 三方，才有真正的多樣性：不同訓練資料、不同推理風格、不同錯誤模式。三方一致 = 高信心；有分歧 = 值得追查的線索。

Pattern 1：Delegate — 把整個任務外包

最基本的用法。把任務丟給外部 LLM，它怎麼想、跑多少輪、讀多少文件都不佔你 Claude 的 context——只有最終的報告會回來。

實際數字：上一篇文章我派了一個 claude-code-guide subagent 去查 agent teams 官方文件，那個 subagent 燒了 63K tokens（reasoning + 5 次 tool call + 官方文件爬取）。如果我改用 Codex 直接跑：我的 prompt ~500 tokens，回來的報告約 1.5K tokens，總共 ~2K tokens 進我的 Claude context。Codex 自己內部燒多少是 Codex 的帳，不是我的（而且 Codex 還在試用期，這次零成本）。

Claude context 節省：30x。

適合什麼：推理密集、研究密集、你不需要看中間過程、只要結論的任務。

Pattern 2：Verify — 獨立交叉驗證

不把任務委外，是讓多個 LLM 各自做一次同樣的事，然後比對。關鍵規則：

獨立 prompt：每個 LLM 不知道其他 LLM 在做什麼，也不知道你已經查到什麼
不 prime：不要在 prompt 裡暗示「我覺得答案是 X」
分歧處理：三方有分歧時，回事實依據（官方文件、原始碼）裁決

這不是浪費 token——是為了保留多樣性。如果你把 Claude 的初步結論餵給 Codex 當 context，Codex 會傾向確認你已經有的結論（SelfCheckGPT, arxiv 2303.08896 的觀察）。

適合什麼：事實敏感的陳述（版本號、功能支援、API 簽名）、技術決策的前提假設、要對外發表的內容。

Pattern 3：Vote — 多數決裁決

Verify 是「收集意見」，Vote 是「做出決定」。當你需要一個明確答案而不是一份參考報告時升級到這個。

M=3 的實用規則：

2-of-3 主議決：多數贏
1-1-1 三個不同答案：回 SoT 或追加第四方
高風險場景：改用 unanimity-or-escalate——三方不一致就直接升級處理，不接受多數

實例：上一篇的 Gemini「必用 Opus 4.6+」就是在這一關被 2-1 剔除。

適合什麼：架構決策、版本選型、安全/合規相關判斷。

最大的雷：False Consensus

三個模型都訓練在大量重疊的網路資料上。他們「不同」的程度比想像中低。研究顯示當兩個模型都錯時，相關錯誤率可達 60%+——不只一起錯，還經常一起錯成同一個答案。

降低 false consensus 的三個做法：

給不同來源：Claude 讀文件、Codex 讀論文、Gemini 做網頁搜尋。三個資料來源本身就有多樣性
不讓他們看對方草稿：共識應該是事後發現的，不是 prompt 階段誘導出來的
保留分歧：2-of-3 通過但有一方反對時，花 30 秒看反對意見。可能那一方才是對的

Token 帳單實拆

Claude Code + MCP 的計費邊界其實很清楚：

算 Claude 的帳：你對 Claude 的 prompt + MCP tool call 的 input + 回傳的 output
不算 Claude 的帳：外部 LLM 內部推理、tool call、temperature 搜索
MCP 限制：回傳 >10K tokens 會警告，預設上限 25K。過大會截斷或寫到檔案

隱藏成本：外部 LLM 有自己的 API 帳單。但如前面交代的——Codex 試用期零成本，Gemini 是 Google One 附贈，所以這邊的「另一個錢包」幾乎是空的。如果你是按 token 付費的 API 使用者，就要另外算。

什麼時候別用

答案固定的簡單任務：「這個 function 用哪個 decorator」—— Claude Code 自己就行
需要專案脈絡的任務：外部 LLM 看不到你的 CLAUDE.md、MCP skill、檔案內容。把整個 repo 塞過去成本太高
低延遲需求：三方串行加往返通訊，UX 會很痛
強弱模型差距太大：Self-MoA 論文（arxiv 2502.00674）指出，加入明顯較弱的模型反而會拉低準確率。不是「模型多就好」

實戰套路

Delegate-first：讓 Codex 寫草稿，Claude 審定稿。適合：技術文章、程式碼審查、長文摘要
Verify-on-publish：內容發佈前三方驗證關鍵事實。適合：要對外發表的技術陳述
Vote-for-decision：架構抉擇用 unanimity-or-escalate。適合：一次性、高代價的決策

收尾

這篇文章——以及上一篇——都是用這組 pattern 寫出來的。Codex 負責技術驗證、Gemini 負責網頁研究、Claude 負責整合與下筆。三方意見交叉比對後，我才決定哪些陳述寫進來、哪些剔除。

工具都擺在那裡，我也已經付過錢了（或還在試用期）。不用它的代價不會當下顯現——會在你發表一個錯的陳述、讀者指出錯誤時才付出來。多模型交叉比對值得做，是因為它讓錯誤在還來得及改的時候被抓到。