這篇論文讓我震驚 🤯 每個人在 X 上都在吹噓「LLM 作為法官」,就像這是一個神奇的真理神諭。 但這篇論文顯示了一些瘋狂的事情: 你看到的大多數 LLM 評估都是設計上有偏見的,不是因為模型不好,而是因為法官本身悄悄地誤報了分數。 這裡有個瘋狂的部分: 如果法官在抓取錯誤答案方面稍微差勁(低特異性),它會膨脹準確性。 如果它在識別正確答案方面稍微差勁(低敏感性),它會降低準確性。 同一模型。同樣的輸出。 但你得到兩個不同的法官 = 兩個不同的「準確性」。 作者展示了數學、誤差曲線,以及法官開始無意中對你撒謊的確切點。 所以他們建立了一個修正方案: 一個插件估算器,使用校準數據將評判分數調整回真實分數。 還有一個置信區間,最終反映了來自評估集和校準集的所有不確定性。 這讓我震驚的是: 他們甚至展示了如何有效分配校準樣本,這樣你就不會浪費預算,這是 LLM 評估中沒有人談論的事情。 ...