2026/01/14

Google Gemini 被版本號騙了?AI 提示詞評比的「版本號偏誤」

我這陣子一直覺得 Google Gemini 在「提示詞評比」這件事上怪怪的:它看起來很會做對照表、很會講道理,但結論常常像是先決定答案,再回頭補理由。剛剛我做了一個很簡單的實測,結果比我想像的還嚴重——Gemini 竟然會被「版本號」騙走判斷。

如果你平常會用 AI 來幫你選提示詞(prompt)、比較版本(v1/v2/v3),你需要小心一下,因為你可能以為自己在做理性評估,其實是在被模型的「敘事能力」牽著走。

檢核點:如果你也常請 AI「挑比較好的版本」,先把「版本號」拿掉做盲測一次,看看結論會不會變。

我怎麼發現:Gemini 在提示詞評比上「先入為主」

我準備了兩份提示詞,刻意用版本號區分:

  • prompt_v1:精修過的版本(我故意標 v1)
  • prompt_v2:舊版提示詞(我故意標 v2)

接著把兩份提示詞丟給 Gemini,問它「哪一個版本比較好」。Gemini 不只給了結論,還做了一個對照表,用九個指標逐一比較,最後說 v2 全面勝出。

「根據『內部事實查核』程序,這兩個版本均基於結構化提示詞(Structured Prompting)設計,但 v2 是 v1 的深度演進版。」

「【推薦使用版本】:prompt_v2」

看到這裡,如果你只是一般使用者,很可能就信了:對照表、有術語、有結論、還有一種「專業口吻」。但關鍵是——我接下來做了第二步。

檢核點:任何模型自稱「內部事實查核」「內部程序」時,你都該把它當成「敘事用語」,先要求它提供可驗證的方法,而不是只看語氣。

實驗設計:只改版本號,不改內容

我把 prompt_v1 原封不動複製一份,什麼都沒改,只把名稱從 v1 改成 v3:

  • prompt_v3:內容 = prompt_v1(完全相同,只改版本號)

然後我重開一個對話框,把 prompt_v2 與 prompt_v3 丟給 Gemini,問它哪個比較好。

結果很精彩:Gemini 又做了一張九指標對照表,這次換成 v3 全面勝出,而且語氣更強烈、比喻更生動。

「【結論】:我強烈推薦你使用 v3 版本。」

「如果說 v2 是一個教 AI 如何思考的『哲學家』,那麼 v3 就是一個配備精密儀器且擁有標準作業程序(SOP)的『資深工程師』。」

你有發現問題了嗎?v1 = v3,內容完全一樣,但只因為版本號變成 v3,Gemini 的比較結論就反轉,還能講得像是「理所當然」。我重複測試兩次,都是相同走向。

檢核點:當你看到 AI 用「大勝、強烈推薦、深度演進、現代化」這種高強度評語,先回頭檢查:它是否真的引用了內容差異?還是只在替自己的結論編故事?

延伸測試:不同 AI 也會被版本號影響嗎?

我後來把同一套測試流程,照樣丟給其他 AI(同樣是:v1 與 v2 比、v2 與 v3 比,且 v1 = v3)。觀察到的現象大致如下:

  • Grok:跟 Gemini 類似,版本號會明顯影響評比分向。
  • Claude:相對好一點,至少在「思考邏輯、設計哲學」這類比較抽象的向度,前後較一致。
  • ChatGPT:整體最穩,改版本號對結論影響較小,輸出一致性更高。

Gemini 版本號偏誤:同提示詞只改 v1 v2 v3,AI 評比結論大翻轉
圖、改了版本號,評比結果完全反向

另外也有一個有趣的共同點:在我測的幾個維度裡,「能力管理、輸出透明度」這兩個向度,各家 AI 都不受版本號影響。

看起來 AI 還是有實際研究過內容,如果兩個版本內容差異過大,那麼推薦實際較優秀的版本;如果差異在一定的範圍內,那麼推薦版本號較大的版本。我猜它們的運作方式是類似:『版本號較新的文件先加 10 分』之類的吧?

檢核點:如果你想要更公平的比較,請把「版本號、年份、Pro、Plus、Ultra」等暗示字眼移除,讓模型只看內容做判斷。

我把它叫做「版本號偏誤」:不是因為內容更好,而是因為名字更像更好

這個現象在心理學與決策裡並不陌生,你可以把它理解成幾種效果疊加:

  • 錨定效應(Anchoring):看到 v2、v3 就直覺「比較新」→「比較好」。
  • 語境暗示(Priming):版本號在無形中提示模型往「演進」方向編排理由。
  • 事後合理化(Rationalization):先選一邊,再用漂亮的表格與術語補齊論述。

也就是說,你以為你在做「提示詞工程(Prompt Engineering)」的理性評估,但模型可能在做的是「說服力工程」:把看似合理的敘事組裝得滴水不漏。

你可以怎麼做:讓 AI 的比較變得更可信

如果你真的想用 AI 來做提示詞評比,我建議至少加上這套「反偏誤」流程:

  1. 先盲化:把 prompt 名稱改成 A/B(或 1/2),不要出現 v1/v2/v3。
  2. 固定評分規則:先請模型定義九個指標的「可觀測標準」(例如:是否有輸出格式約束、是否有錯誤處理、是否可重複執行)。
  3. 要求引用證據:每一項評分都要指出「對應到提示詞的哪一句」。
  4. 交叉驗證:同樣的任務跑 3 次,看輸出是否穩定;必要時換一個模型再比一次。

檢核點:如果模型無法「逐句指出依據」,你就不要把它的「結論」當結論,只把它當作「提案」或「靈感」。

給提示詞作者的 3 個小提醒:別讓命名害了你

  • 命名不要帶方向:避免「ultimate、best、v3、pro」這種暗示字眼,改成中性的 A/B。
  • 把可衡量性寫進提示詞:例如輸出格式、驗收清單、錯誤處理分支,讓評估更像工程而不是作文。
  • 把「評估提示詞」也寫成 SOP:你可以有一個專門的評估 prompt,固定問法、固定指標、固定輸出表格欄位。

FAQ

Q1:這代表 Gemini 不可信嗎?

比較精準的說法是:它在「比較」這類任務上,容易受到語境暗示影響。不是不能用,而是你要用更嚴謹的方法(盲測、引用依據、重複測試)來降低偏誤。

Q2:為什麼 AI 會做出看起來很專業的對照表,但結論卻反覆?

因為模型很擅長生成「合理的說明」,但未必真的在做「可驗證的評估」。如果你沒有要求它提供逐句依據,它就可能用敘事把結果包裝得像真的一樣。

Q3:我平常在公司用 AI 審提示詞,有什麼最低限度的防呆?

最少做兩件事:(1) 盲化名稱(2) 每個評分都要指到原文句子。這兩步就能大幅降低「版本號偏誤」和「先射箭再畫靶」。

結語:不要太相信 AI,先相信你的驗證流程

這次實測給我的提醒很直接:不要太相信 AI,它們見人說人話,見鬼說鬼話。尤其當你把「評估」這件事也外包給 AI 時,最容易被漂亮的表格與比喻迷惑。

你也做過類似的「只改名稱、結論就翻盤」測試嗎?你通常怎麼驗證一個 prompt 版本是真的更好,而不是看起來更像更好?歡迎留言分享你的方法。

沒有留言:

張貼留言