Эта статья шокировала меня 🤯 Все на X продолжают хвастаться "LLM-as-a-judge", как будто это какой-то магический оракул правды. Но эта статья показывает нечто безумное: Большинство оценок LLM, которые вы видели, предвзяты по своей сути, не потому что модели плохие, а потому что сам судья тихо искажает оценку. Вот что дико: Если судья немного плохо ловит неправильные ответы (низкая специфичность), это завышает точность. Если он немного плохо распознает правильные ответы (низкая чувствительность), это занижает точность. Одна и та же модель. Одни и те же выходные данные. Но вы получаете двух разных судей = две разные "точности". Авторы показывают математику, кривые ошибок и точный момент, когда судья начинает лгать вам, не желая этого. Так что они разработали решение: Плагин-оценщик, который корректирует оценку судьи обратно к реальной оценке, используя данные калибровки. Плюс интервал доверия, который наконец отражает неопределенность как из набора оценок, так и из набора калибровки. Вот что меня шокировало: Они даже показывают, как эффективно распределять образцы калибровки, чтобы вы не тратили бюджет, о чем никто в оценке LLM не говорит. ...