Dit artikel schokte me 🤯 Iedereen op X blijft maar opscheppen over “LLM-as-a-judge” alsof het een magische waarheidsorakel is. Maar dit artikel toont iets krankzinnigs aan: De meeste LLM-evaluaties die je hebt gezien zijn opzettelijk bevooroordeeld, niet omdat de modellen slecht zijn, maar omdat de beoordelaar zelf stilletjes de score verkeerd weergeeft. Hier is het wilde deel: Als een beoordelaar iets slecht is in het opmerken van verkeerde antwoorden (lage specificiteit), dan verhoogt het de nauwkeurigheid. Als het iets slecht is in het herkennen van juiste antwoorden (lage gevoeligheid), dan verlaagt het de nauwkeurigheid. Zelfde model. Zelfde outputs. Maar je krijgt twee verschillende beoordelaars = twee verschillende “nauwkeurigheden.” De auteurs tonen de wiskunde, de foutcurves en het exacte punt waar de beoordelaar begint te liegen zonder het te bedoelen. Dus hebben ze een oplossing gebouwd: Een plug-in schatter die de beoordeelde score terug aanpast naar de echte score met behulp van calibratiegegevens. Plus een betrouwbaarheidsinterval dat eindelijk de onzekerheid van zowel de evaluatieset als de calibratieset weerspiegelt. Hier is wat me schokte: Ze tonen zelfs hoe je calibratievoorbeelden efficiënt kunt toewijzen, zodat je geen budget verspilt, iets waar niemand in LLM-evaluaties over praat. ...