2026/01/14

Google Gemini 被版本號騙了?AI 提示詞評比的「版本號偏誤」

我這陣子一直覺得 Google Gemini 在「提示詞評比」這件事上怪怪的:它看起來很會做對照表、很會講道理,但結論常常像是先決定答案,再回頭補理由。剛剛我做了一個很簡單的實測,結果比我想像的還嚴重——Gemini 竟然會被「版本號」騙走判斷。

如果你平常會用 AI 來幫你選提示詞(prompt)、比較版本(v1/v2/v3),你需要小心一下,因為你可能以為自己在做理性評估,其實是在被模型的「敘事能力」牽著走。

檢核點:如果你也常請 AI「挑比較好的版本」,先把「版本號」拿掉做盲測一次,看看結論會不會變。

我怎麼發現:Gemini 在提示詞評比上「先入為主」

我準備了兩份提示詞,刻意用版本號區分:

  • prompt_v1:精修過的版本(我故意標 v1)
  • prompt_v2:舊版提示詞(我故意標 v2)

接著把兩份提示詞丟給 Gemini,問它「哪一個版本比較好」。Gemini 不只給了結論,還做了一個對照表,用九個指標逐一比較,最後說 v2 全面勝出。