一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

這篇論文讓我震驚 🤯 每個人在 X 上都在吹噓「LLM 作為法官」，就像這是一個神奇的真理神諭。但這篇論文顯示了一些瘋狂的事情：你看到的大多數 LLM 評估都是設計上有偏見的，不是因為模型不好，而是因為法官本身悄悄地誤報了分數。這裡有個瘋狂的部分：如果法官在抓取錯誤答案方面稍微差勁（低特異性），它會膨脹準確性。如果它在識別正確答案方面稍微差勁（低敏感性），它會降低準確性。同一模型。同樣的輸出。但你得到兩個不同的法官 = 兩個不同的「準確性」。作者展示了數學、誤差曲線，以及法官開始無意中對你撒謊的確切點。所以他們建立了一個修正方案：一個插件估算器，使用校準數據將評判分數調整回真實分數。還有一個置信區間，最終反映了來自評估集和校準集的所有不確定性。這讓我震驚的是：他們甚至展示了如何有效分配校準樣本，這樣你就不會浪費預算，這是 LLM 評估中沒有人談論的事情。 ...