Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artigo me chocou 🤯
Todo mundo no X continua se gabando sobre “LLM-as-a-judge” como se fosse algum oráculo mágico da verdade.
Mas este artigo mostra algo insano:
A maioria das avaliações de LLM que você viu são tendenciosas por design, não porque os modelos são ruins, mas porque o juiz em si representa silenciosamente mal a pontuação.
Aqui está a parte louca:
Se um juiz é um pouco ruim em pegar respostas erradas (baixa especificidade), isso inflaciona a precisão.
Se ele é um pouco ruim em reconhecer respostas corretas (baixa sensibilidade), isso deflaciona a precisão.
Mesmo modelo. Mesmos resultados.
Mas você tem dois juízes diferentes = duas “precisões” diferentes.
Os autores mostram a matemática, as curvas de erro e o ponto exato onde o juiz começa a mentir para você sem querer.
Então, eles construíram uma solução:
Um estimador de plug-in que ajusta a pontuação julgada de volta para a pontuação real usando dados de calibração.
Além de um intervalo de confiança que finalmente reflete a incerteza tanto do conjunto de avaliação quanto do conjunto de calibração.
Aqui está o que me chocou:
Eles até mostram como alocar amostras de calibração de forma eficiente para que você não desperdice orçamento, algo que ninguém em avaliação de LLM fala.
...

Top
Classificação
Favoritos

