Tämä artikkeli järkytti minua 🤯 Kaikki X:ssä kehuskelevat "LLM-tuomarina" kuin se olisi jokin maaginen totuusoraakkeli. Mutta tämä artikkeli paljastaa jotain hullua: Useimmat LLM-arvioinnit, joita olet nähnyt, ovat suunnittelun perusteella puolueellisia, eivät siksi että mallit olisivat huonoja, vaan koska tuomari itse hiljaisesti vääristää pisteitä. Tässä tulee villi osa: Jos tuomari on hieman huono tunnistamaan vääriä vastauksia (matala tarkkuus), se paisuttaa tarkkuutta. Jos se on hieman huono tunnistamaan oikeita vastauksia (matala herkkyys), se heikentää tarkkuutta. Sama malli. Samat lähtökohdat. Mutta saat kaksi eri tuomaria = kaksi eri "tarkkuutta". Kirjoittajat näyttävät matematiikan, virhekäyrät ja tarkan hetken, jolloin tuomari alkaa valehdella sinulle tahattomasti. Joten he rakensivat ratkaisun: Plug-in-estimaattori, joka säätää arvioidun pistemäärän takaisin todelliseksi pisteeksi kalibrointidatan avulla. Lisäksi luottamusväli, joka lopulta heijastaa epävarmuutta sekä arviointijoukosta että kalibrointijoukosta. Tässä on se, mikä yllätti minut: Ne näyttävät jopa, miten kalibrointinäytteet jaetaan tehokkaasti, jotta budjettia ei tuhlata, mistä kukaan LLM-arvioinnissa ei puhu. ...