Este artigo me chocou 🤯 Todo mundo no X continua se gabando sobre “LLM-as-a-judge” como se fosse algum oráculo mágico da verdade. Mas este artigo mostra algo insano: A maioria das avaliações de LLM que você viu são tendenciosas por design, não porque os modelos são ruins, mas porque o juiz em si representa silenciosamente mal a pontuação. Aqui está a parte louca: Se um juiz é um pouco ruim em pegar respostas erradas (baixa especificidade), isso inflaciona a precisão. Se ele é um pouco ruim em reconhecer respostas corretas (baixa sensibilidade), isso deflaciona a precisão. Mesmo modelo. Mesmos resultados. Mas você tem dois juízes diferentes = duas “precisões” diferentes. Os autores mostram a matemática, as curvas de erro e o ponto exato onde o juiz começa a mentir para você sem querer. Então, eles construíram uma solução: Um estimador de plug-in que ajusta a pontuação julgada de volta para a pontuação real usando dados de calibração. Além de um intervalo de confiança que finalmente reflete a incerteza tanto do conjunto de avaliação quanto do conjunto de calibração. Aqui está o que me chocou: Eles até mostram como alocar amostras de calibração de forma eficiente para que você não desperdice orçamento, algo que ninguém em avaliação de LLM fala. ...