DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Kangwook Lee

UW Madison / KRAFTON AI

LLM som domare har blivit ett dominerande sätt att utvärdera hur bra en modell är på att lösa en uppgift, eftersom den fungerar utan testuppsättning och hanterar fall där svaren inte är unika. Men trots hur brett detta används är nästan alla rapporterade resultat mycket partiska. Ser fram emot att dela med oss av vårt preprint om hur man korrekt använder LLM som domare. 🧵 === Så hur använder man egentligen LLM som domare? De flesta använder bara LLM som utvärderare och rapporterar den empiriska sannolikheten att LLM säger att svaret ser rätt ut. När LLM:n är perfekt fungerar detta bra och ger en opartisk skattare. Om LLM:n inte är perfekt går detta sönder. Tänk på ett fall där LLM:n utvärderar korrekt 80 procent av gångerna. Mer specifikt, om svaret är korrekt, säger LLM "detta ser rätt ut" med 80 procents sannolikhet, och samma 80 procent gäller när svaret faktiskt är felaktigt. I denna situation bör du inte rapportera den empiriska sannolikheten, eftersom den är snedvriden. Varför? Låt den verkliga sannolikheten för att den testade modellen är korrekt vara p. Då är den empiriska sannolikheten att LLM säger "korrekt" (= q) q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p Så den opartiska uppskattningen bör vara (q - 0,2) / 0,6 Det blir ännu mer intressant om felmönstret är asymmetriskt eller om du inte känner till dessa felprocenter a priori. === Så vad betyder detta? Följ först den föreslagna riktlinjen i vårt preprint. Det finns ingen gratis lunch. Du kan inte utvärdera hur bra din modell är om inte din LLM som domare är känd för att vara perfekt på att bedöma den. Beroende på hur nära den är en perfekt utvärderare behöver du en tillräckligt stor testmängd (= kalibreringsmängd) för att uppskatta utvärderarens felprocent, och sedan måste du korrigera för dem. För det andra behöver tyvärr många av de resultat vi sett i artiklar under de senaste åren ses om. Om inte två artiklar använde exakt samma LLM som domare kunde jämförelse av resultat mellan dem ha lett till falska påståenden. Förbättringen kan helt enkelt komma från att ändra utvärderingsprocessen något. En rigorös metastudie är akut nödvändig. === Sammanfattning: (1) Nästan alla utvärderingar av LLM som domare under de senaste åren rapporterades med en snedvriden skattare. (2) Det är lätt att fixa, så vänta på vår fullständiga preprint. (3) Många LLM-som-domare-resultat bör tas med en nypa salt. Fullständig preprint kommer om några dagar, så håll utkik! Fantastiskt arbete av mina studenter och samarbetspartners. @chungpa_lee @tomzeng200 @jongwonjeong123 och @jysohn1108

DLLM:er verkar lovande ... Men parallellgenerering är inte alltid möjlig Diffusionsbaserade LLM:er kan generera många tokens på olika positioner samtidigt, medan de flesta autoregressiva LLM:er genererar tokens en efter en. Detta gör diffusionsbaserade LLM:er mycket attraktiva när vi behöver snabb generering med mindre beräkning. En stor fråga är ... Är parallell generering möjlig utan att förlora modelleringsnoggrannhet? Svaret är nej. Det finns fundamentala gränser för hur mycket parallellitet vi kan uppnå. Tänk på det här exemplet: "Välj en stad enhetligt och slumpmässigt från följande fyra städer: New York, New Orleans, Mexico City eller Panama City." Då P(Y₁ = Ny, Y₂ = York) = 1/4, P(Y₁ = Ny, Y₂ = Orleans) = 1/4, och så vidare. Således är P(Y₁ = Ny) = 1/2, P(Y₂ = Stad) = 1/2. Om du väljer att generera Y₁ och Y₂ parallellt, oavsett vilken avkodningsalgoritm du använder ... Du är dömd att prova "New City". Ingen av dagens DLLM:er kan generera dessa två ord korrekt utan att ge upp parallellitet. ----- Varför är det så? Faktum är att vi aldrig tränar LLM:er för att lära oss den gemensamma distributionen över flera tokens i en framåtriktad iteration. Vi lär alltid ut en marginell fördelning med en token som är villkorad av sammanhanget. (Samma sak gäller för autoregressiva modeller också.) Därför är det bara möjligt att sampla flera token samtidigt när dessa token är ömsesidigt oberoende av varandra med tanke på den aktuella kontexten. Och denna begränsning av parallell provtagning kan formaliseras exakt. Man kan härleda en informationsteoretisk gräns som är avkodningsstrategiagnostisk, och även härleda strategispecifika gränser. ----- Så är DLLM:er dömda? Nej! De har en enorm potential att spara beräkning och tid. Men: (1) vi måste vara medvetna om deras grundläggande begränsningar, och (2) Vi måste utforma bättre tränings- och avkodningsstrategier. I synnerhet finns det stort utrymme för förbättringar när det gäller avkodning. Varför? Vi vill helst att modellen ska styra graden av parallellitet under genereringen. Samtidigt bör den välja en delmängd av framtida tokens som är nästan ömsesidigt oberoende med tanke på den aktuella kontexten. Är nuvarande avkodningsstrategier bra på detta? Svårt att säga. De flesta DLLM:er stresstestades aldrig för det. ----- Därför introducerade vi ett syntetiskt riktmärke för att stresstesta DLLM:er. Vi kallar det ParallelBench. Idén är enkel: det här är uppgifter som rör naturligt språk, men som är noggrant utformade så att parallellgenerering i sig är svårt. (Tänk "ny stad", fast mer naturliga, verkliga arbetsuppgifter.) Vad kom vi fram till? Vi testade populära DLLM:er med olika avkodningsalgoritmer, och ingen kom i närheten av "orakelprestanda", den idealiska prestanda du skulle få om modellen optimalt kunde justera sin parallellitet under avkodning. ----- Takeaway: (1) Parallellgenerering är inte alltid möjlig och kolla in vårt dokument för mer information :) (2) Om du kan designa en DLLM som matchar orakelprestanda på vårt riktmärke, ja, vem vet, du kanske bara får ett samtal från någon i Menlo Park. 😉

Topp

Rankning

Favoriter