熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這篇論文讓我震驚 🤯
每個人在 X 上都在吹噓「LLM 作為法官」,就像這是一個神奇的真理神諭。
但這篇論文顯示了一些瘋狂的事情:
你看到的大多數 LLM 評估都是設計上有偏見的,不是因為模型不好,而是因為法官本身悄悄地誤報了分數。
這裡有個瘋狂的部分:
如果法官在抓取錯誤答案方面稍微差勁(低特異性),它會膨脹準確性。
如果它在識別正確答案方面稍微差勁(低敏感性),它會降低準確性。
同一模型。同樣的輸出。
但你得到兩個不同的法官 = 兩個不同的「準確性」。
作者展示了數學、誤差曲線,以及法官開始無意中對你撒謊的確切點。
所以他們建立了一個修正方案:
一個插件估算器,使用校準數據將評判分數調整回真實分數。
還有一個置信區間,最終反映了來自評估集和校準集的所有不確定性。
這讓我震驚的是:
他們甚至展示了如何有效分配校準樣本,這樣你就不會浪費預算,這是 LLM 評估中沒有人談論的事情。
...

熱門
排行
收藏

