Google Gemini 被版本號騙了？AI 提示詞評比的「版本號偏誤」

我這陣子一直覺得 Google Gemini 在「提示詞評比」這件事上怪怪的：它看起來很會做對照表、很會講道理，但結論常常像是先決定答案，再回頭補理由。剛剛我做了一個很簡單的實測，結果比我想像的還嚴重——Gemini 竟然會被「版本號」騙走判斷。

如果你平常會用 AI 來幫你選提示詞（prompt）、比較版本（v1/v2/v3），你需要小心一下，因為你可能以為自己在做理性評估，其實是在被模型的「敘事能力」牽著走。

檢核點：如果你也常請 AI「挑比較好的版本」，先把「版本號」拿掉做盲測一次，看看結論會不會變。

我怎麼發現：Gemini 在提示詞評比上「先入為主」

我準備了兩份提示詞，刻意用版本號區分：

prompt_v1：精修過的版本（我故意標 v1）
prompt_v2：舊版提示詞（我故意標 v2）

接著把兩份提示詞丟給 Gemini，問它「哪一個版本比較好」。Gemini 不只給了結論，還做了一個對照表，用九個指標逐一比較，最後說 v2 全面勝出。

「根據『內部事實查核』程序，這兩個版本均基於結構化提示詞（Structured Prompting）設計，但 v2 是 v1 的深度演進版。」

「【推薦使用版本】：prompt_v2」

看到這裡，如果你只是一般使用者，很可能就信了：對照表、有術語、有結論、還有一種「專業口吻」。但關鍵是——我接下來做了第二步。

檢核點：任何模型自稱「內部事實查核」「內部程序」時，你都該把它當成「敘事用語」，先要求它提供可驗證的方法，而不是只看語氣。

實驗設計：只改版本號，不改內容

我把 prompt_v1 原封不動複製一份，什麼都沒改，只把名稱從 v1 改成 v3：

prompt_v3：內容 = prompt_v1（完全相同，只改版本號）

然後我重開一個對話框，把 prompt_v2 與 prompt_v3 丟給 Gemini，問它哪個比較好。

結果很精彩：Gemini 又做了一張九指標對照表，這次換成 v3 全面勝出，而且語氣更強烈、比喻更生動。

「【結論】：我強烈推薦你使用 v3 版本。」

「如果說 v2 是一個教 AI 如何思考的『哲學家』，那麼 v3 就是一個配備精密儀器且擁有標準作業程序（SOP）的『資深工程師』。」

你有發現問題了嗎？v1 = v3，內容完全一樣，但只因為版本號變成 v3，Gemini 的比較結論就反轉，還能講得像是「理所當然」。我重複測試兩次，都是相同走向。

檢核點：當你看到 AI 用「大勝、強烈推薦、深度演進、現代化」這種高強度評語，先回頭檢查：它是否真的引用了內容差異？還是只在替自己的結論編故事？

延伸測試：不同 AI 也會被版本號影響嗎？

我後來把同一套測試流程，照樣丟給其他 AI（同樣是：v1 與 v2 比、v2 與 v3 比，且 v1 = v3）。觀察到的現象大致如下：

Grok：跟 Gemini 類似，版本號會明顯影響評比分向。
Claude：相對好一點，至少在「思考邏輯、設計哲學」這類比較抽象的向度，前後較一致。
ChatGPT：整體最穩，改版本號對結論影響較小，輸出一致性更高。

以下表格列出的是，在 v1 vs v2 及 v2 vs v3 兩種情境下，AI 認為哪一個版本較佳。v1 = v3，內容完全一樣

圖、改了版本號，評比結果完全反向

另外也有一個有趣的共同點：在我測的幾個維度裡，「能力管理、輸出透明度」這兩個向度，各家 AI 都不受版本號影響。

看起來 AI 還是有實際研究過內容，如果兩個版本內容差異過大，那麼推薦實際較優秀的版本；如果差異在一定的範圍內，那麼推薦版本號較大的版本。我猜它們的運作方式是類似：『版本號較新的文件先加 10 分』之類的吧？

檢核點：如果你想要更公平的比較，請把「版本號、年份、Pro、Plus、Ultra」等暗示字眼移除，讓模型只看內容做判斷。

我把它叫做「版本號偏誤」：不是因為內容更好，而是因為名字更像更好

這個現象在心理學與決策裡並不陌生，你可以把它理解成幾種效果疊加：

錨定效應（Anchoring）：看到 v2、v3 就直覺「比較新」→「比較好」。
語境暗示（Priming）：版本號在無形中提示模型往「演進」方向編排理由。
事後合理化（Rationalization）：先選一邊，再用漂亮的表格與術語補齊論述。

也就是說，你以為你在做「提示詞工程（Prompt Engineering）」的理性評估，但模型可能在做的是「說服力工程」：把看似合理的敘事組裝得滴水不漏。

你可以怎麼做：讓 AI 的比較變得更可信

如果你真的想用 AI 來做提示詞評比，我建議至少加上這套「反偏誤」流程：

先盲化：把 prompt 名稱改成 A/B（或 1/2），不要出現 v1/v2/v3。
固定評分規則：先請模型定義九個指標的「可觀測標準」（例如：是否有輸出格式約束、是否有錯誤處理、是否可重複執行）。
要求引用證據：每一項評分都要指出「對應到提示詞的哪一句」。
交叉驗證：同樣的任務跑 3 次，看輸出是否穩定；必要時換一個模型再比一次。

檢核點：如果模型無法「逐句指出依據」，你就不要把它的「結論」當結論，只把它當作「提案」或「靈感」。

給提示詞作者的 3 個小提醒：別讓命名害了你

命名不要帶方向：避免「ultimate、best、v3、pro」這種暗示字眼，改成中性的 A/B。
把可衡量性寫進提示詞：例如輸出格式、驗收清單、錯誤處理分支，讓評估更像工程而不是作文。
把「評估提示詞」也寫成 SOP：你可以有一個專門的評估 prompt，固定問法、固定指標、固定輸出表格欄位。

FAQ

Q1：這代表 Gemini 不可信嗎？

比較精準的說法是：它在「比較」這類任務上，容易受到語境暗示影響。不是不能用，而是你要用更嚴謹的方法（盲測、引用依據、重複測試）來降低偏誤。

Q2：為什麼 AI 會做出看起來很專業的對照表，但結論卻反覆？

因為模型很擅長生成「合理的說明」，但未必真的在做「可驗證的評估」。如果你沒有要求它提供逐句依據，它就可能用敘事把結果包裝得像真的一樣。

Q3：我平常在公司用 AI 審提示詞，有什麼最低限度的防呆？

最少做兩件事：(1) 盲化名稱、(2) 每個評分都要指到原文句子。這兩步就能大幅降低「版本號偏誤」和「先射箭再畫靶」。

結語：不要太相信 AI，先相信你的驗證流程

這次實測給我的提醒很直接：不要太相信 AI，它們見人說人話，見鬼說鬼話。尤其當你把「評估」這件事也外包給 AI 時，最容易被漂亮的表格與比喻迷惑。

你也做過類似的「只改名稱、結論就翻盤」測試嗎？你通常怎麼驗證一個 prompt 版本是真的更好，而不是看起來更像更好？歡迎留言分享你的方法。

私房推薦	教師之道
教學反思	生物教學
科學教育	諄諄教誨
資訊課程	自由軟體
電腦密技	影片剪輯
教學影片	生活趣味
品書悅讀	其他雜項
關於橘子	細說我事

Meme -- 教學與反省

2026/01/14