Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Эта статья шокировала меня 🤯
Все на X продолжают хвастаться "LLM-as-a-judge", как будто это какой-то магический оракул правды.
Но эта статья показывает нечто безумное:
Большинство оценок LLM, которые вы видели, предвзяты по своей сути, не потому что модели плохие, а потому что сам судья тихо искажает оценку.
Вот что дико:
Если судья немного плохо ловит неправильные ответы (низкая специфичность), это завышает точность.
Если он немного плохо распознает правильные ответы (низкая чувствительность), это занижает точность.
Одна и та же модель. Одни и те же выходные данные.
Но вы получаете двух разных судей = две разные "точности".
Авторы показывают математику, кривые ошибок и точный момент, когда судья начинает лгать вам, не желая этого.
Так что они разработали решение:
Плагин-оценщик, который корректирует оценку судьи обратно к реальной оценке, используя данные калибровки.
Плюс интервал доверия, который наконец отражает неопределенность как из набора оценок, так и из набора калибровки.
Вот что меня шокировало:
Они даже показывают, как эффективно распределять образцы калибровки, чтобы вы не тратили бюджет, о чем никто в оценке LLM не говорит.
...

Топ
Рейтинг
Избранное

