Hvorfor er kryssentropi et godt tap for språkopplæring? Advarsel: alt dette er kjent btw; Interessant nok, selv om det er mange synspunkter og intuisjoner på "hvorfor X-Ent", kan de alle komme frem fra ett enkelt utgangspunkt. Her er en enkel førsteprinsippsutledning som ikke forutsetter noe om datafordelingen. Det kommer fra et svært rimelig driftskrav :) "Jeg vil at modellen min skal høres intelligent ut" Men vi kan ikke måle det, så vi spør «Jeg vil at modellen min skal høres ut som et menneske» Selv om vi har tilgang til alle tekster som noen gang er skrevet, kan vi ikke helt måle det heller, så vi spør i stedet "Jeg vil at modellen min skal ha så stor sannsynlighet som mulig for å generere en av tekstene som noen gang er skrevet" Eller mer rett ut: "Jeg vil at modellen min skal huske treningsdataene." Tenk på dette tankeeksperimentet: Gitt et datasett S av all tekst som noen gang er skrevet av mennesker, utfører vi uavhengige forsøk for hver "tekst" i S: Eksempel: "eksempeltekst" fra vår modell Pr( ; W) Sjekk: samsvarte "prøvetekst" nøyaktig med originalen? Merk: vi betinger ikke noe! Vi spør bare, av alle tingene modellen kunne generere, fikk vi "tekst". Definer suksess som hendelsen E = "alle kontroller per utvalg lykkes" Sannsynligheten for E er produktet av sannsynlighetene som er tilordnet den riktige grunnsannheten av modellen W Pr(E) = Π_{tekst i S} Pr(tekst; W) Hvis du maksimerer log Pr(E) over W, får du kryssentropimålet. Hvordan optimaliserer du dette med SGD? Eksempeltekst fra korpus beregne gradslogg Pr(token|prefiks) for hvert prefiks i tekst Oppdater modell Det som er elegant er at det samme samtidig: 1) Minimerer beskrivelseslengden på dataene under modell P( ; W) (komprimeringsvisning) 2) Minimerer KL-divergens til den sanne fordelingen – hvis en eksisterer (selv om vi aldri antok en) 3) Implementerer maksimal sannsynlighetsestimering Derivasjonen er grei og velkjent, men den fremhever noe viktig: Kryssentropi oppstår naturlig ved å ønske nøyaktig gjengivelse av treningsdataene. PS du i stedet kunne ha bedt om å maksimere Pr(tekst generert av modellen er i grunnsannhet) Interessant nok kan optimalisering av dette føre til moduskollaps, siden en optimal løsning er å alltid forutsi et enkelt stykke tekst fra korpuset. Likevel ser gradientene igjen ut som x-entropi, men med en multiplikasjonsfaktor det vil si at Pr(tekst; W) gradslogg Pr(tekst; W)
41,09K