Meme -- 教學與反省

2026/01/14

Google Gemini 被版本號騙了？AI 提示詞評比的「版本號偏誤」

我這陣子一直覺得 Google Gemini 在「提示詞評比」這件事上怪怪的：它看起來很會做對照表、很會講道理，但結論常常像是先決定答案，再回頭補理由。剛剛我做了一個很簡單的實測，結果比我想像的還嚴重——Gemini 竟然會被「版本號」騙走判斷。

如果你平常會用 AI 來幫你選提示詞（prompt）、比較版本（v1/v2/v3），你需要小心一下，因為你可能以為自己在做理性評估，其實是在被模型的「敘事能力」牽著走。

檢核點：如果你也常請 AI「挑比較好的版本」，先把「版本號」拿掉做盲測一次，看看結論會不會變。

我準備了兩份提示詞，刻意用版本號區分：

接著把兩份提示詞丟給 Gemini，問它「哪一個版本比較好」。Gemini 不只給了結論，還做了一個對照表，用九個指標逐一比較，最後說 v2 全面勝出。

2025/12/22

Gemini 3 出來後我用得滿多，尤其是「先請 AI 上網幫我篩一批資料，我再回頭精讀」這種工作流程。照理說很省時間，但我最近遇到一個很不對勁、而且值得拿出來提醒大家的狀況。

我請 Gemini 依照我設定的條件，先幫我篩出 20 筆資料。它回得很快，清單看起來也很完整：有標題、有摘要、有網址。我掃了一眼覺得「這不是我要的」，心想可能是節錄或翻譯造成偏差，所以就照著它附的網址點進去，想看原文確認脈絡。