DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Kangwook Lee

UW Madison / KRAFTON AI

LLM tuomarina on muodostunut hallitsevaksi tavaksi arvioida, kuinka hyvä malli on tehtävän ratkaisemisessa, koska se toimii ilman testijoukkoa ja käsittelee tapauksia, joissa vastaukset eivät ole ainutlaatuisia. Mutta siitä huolimatta, kuinka laajasti tätä käytetään, lähes kaikki raportoidut tulokset ovat erittäin puolueellisia. Olen innoissani voidessamme jakaa preprinttimme siitä, miten LLM:ää käytetään oikein tuomarina. 🧵 === Joten miten ihmiset oikeasti käyttävät LLM:ää tuomarina? Useimmat käyttävät LLM:ää arvioijana ja raportoivat empiirisen todennäköisyyden, että LLM sanoo vastauksen olevan oikea. Kun LLM on täydellinen, tämä toimii hyvin ja antaa puolueettoman estimaattorin. Jos LLM ei ole täydellinen, tämä menee rikki. Otetaan esimerkiksi tilanne, jossa LLM arvioi oikein 80 prosenttia tapauksista. Tarkemmin sanottuna, jos vastaus on oikea, LLM sanoo "tämä näyttää oikealta" 80 prosentin todennäköisyydellä, ja sama 80 prosenttia pätee, kun vastaus on oikeasti väärä. Tässä tilanteessa sinun ei pitäisi raportoida empiiristä todennäköisyyttä, koska se on puolueellinen. Miksi? Olkoon todellinen todennäköisyys, että testattu malli on oikea, p. Silloin empiirinen todennäköisyys, että LLM sanoo "oikea" (= q), on q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p Joten puolueeton arvio pitäisi olla (q - 0.2) / 0.6 Tilanne muuttuu entistä mielenkiintoisemmaksi, jos virhekuvio on epäsymmetrinen tai jos et tiedä näitä virheprosentteja etukäteen. === Mitä tämä siis tarkoittaa? Ensiksi noudata esipainoksessamme ehdotettua ohjetta. Ilmaista lounasta ei ole. Et voi arvioida, kuinka hyvä mallisi on, ellei LLM:si tuomarina ole tunnettu täydellisenä arvioimaan. Riippuen siitä, kuinka lähellä se on täydellistä arvioijaa, tarvitset riittävän koon testijoukon (= kalibrointisetin) arvioijan virheprosenttien arvioimiseksi, ja sen jälkeen sinun täytyy korjata ne. Toiseksi, hyvin valitettavasti, monet löydökset, joita olemme viime vuosina nähneet artikkeleissa, täytyy tarkastella uudelleen. Ellei kaksi lehteä käyttänyt täsmälleen samaa LLM:ää tuomarina, tulosten vertailu niiden välillä olisi voinut tuottaa vääriä väitteitä. Parannus voi johtua vain arvioinnin prosessia hieman muuttamisesta. Perusteellinen metatutkimus on kiireellisesti tarpeen. === Yhteenveto: (1) Lähes kaikki viime vuosien LLM-tuomarina-arvioinnit raportoitiin puolueellisella estimaattorilla. (2) Korjaaminen on helppoa, joten odota koko esipainoksemme. (3) Monet LLM-tulokset tuomarina tulisi suhtautua varauksella. Täysi esipainos tulee muutaman päivän päästä, joten pysykää kuulolla! Upeaa työtä opiskelijoiltani ja yhteistyökumppaneiltani. @chungpa_lee @tomzeng200 @jongwonjeong123 ja @jysohn1108

DLLM:t vaikuttavat lupaavilta... Mutta rinnakkaistuotanto ei ole aina mahdollista Diffuusiopohjaiset LLM:t voivat tuottaa useita tokeneita eri paikoissa kerralla, kun taas useimmat autoregressiiviset LLM:t tuottavat tokeneita yksitellen. Tämä tekee diffuusiopohjaisista LLM:istä erittäin houkuttelevia, kun tarvitsemme nopeaa tuotantoa pienemmällä laskentamäärällä. Suuri kysymys on... Onko rinnakkaistuotanto mahdollista menettämättä mallinnustarkkuutta? Vastaus on ei. On olemassa perustavanlaatuiset rajat sille, kuinka paljon rinnakkaisuutta voimme saavuttaa. Tarkastellaan tätä esimerkkiä: "Valitse yksi kaupunki yhtenäisesti satunnaisesti seuraavista neljästä kaupungista: New Yorkissa, New Orleansissa, Mexico Cityssä tai Panama Cityssä." Sitten P(Y₁ = uusi, Y₂ = York) = 1/4, P(Y₁ = uusi, Y₂ = Orleans) = 1/4 ja niin edelleen. Siten P(Y₁ = uusi) = 1/2, P(Y₂ = kaupunki) = 1/2. Jos päätät luoda Y₁:n ja Y₂:n rinnakkain, riippumatta siitä, mitä dekoodausalgoritmia käytät... Olet tuomittu näyttelemään "New Cityä". Mikään nykypäivän DLLM:istä ei pysty luomaan näitä kahta sanaa oikein luopumatta rinnakkaisuudesta. ----- Miksi näin on? Itse asiassa emme koskaan kouluta LLM:iä oppimaan useiden tokenien yhteistä jakautumista yhdellä eteenpäin iteraatiolla. Opetamme aina yhden tokenin marginaalijakauman, joka on ehdollinen kontekstin mukaan. (Sama pätee myös autoregressiivisiin malleihin.) Siksi useiden tokenien näytteenotto kerralla on mahdollista vain, jos nämä tokenit ovat toisistaan riippumattomia nykyisessä kontekstissa. Ja tämä rinnakkaisnäytteenoton rajoitus voidaan virallistaa tarkasti. Voidaan johtaa informaatioteoreettinen raja, joka on dekoodausstrategiasta riippumaton, ja myös johtaa strategiakohtaisia rajoja. ----- Ovatko DLLM:t siis tuhoon tuomittuja? Ei! Niillä on valtava potentiaali säästää laskentaa ja aikaa. Mutta: (1) meidän on oltava tietoisia niiden perustavanlaatuisista rajoituksista ja (2) meidän on suunniteltava parempia koulutus- ja dekoodausstrategioita. Erityisesti dekoodauksessa on valtavasti parantamisen varaa. Miksi? Ihannetapauksessa haluamme, että malli hallitsee rinnakkaisuuden astetta sukupolven aikana. Samalla sen tulisi valita tulevien tokenien osajoukko, joka on lähes toisistaan riippumaton nykyisessä tilanteessa. Ovatko nykyiset dekoodausstrategiat hyviä tässä? Vaikea sanoa. Useimpia DLLM:iä ei koskaan stressitestattu sen varalta. ----- Siksi otimme käyttöön synteettisen vertailuarvon DLLM-järjestelmien stressitestaukseen. Kutsumme sitä ParallelBenchiksi. Idea on yksinkertainen: nämä ovat luonnollisen kielen tehtäviä, mutta huolellisesti suunniteltuja niin, että rinnakkaissukupolvi on luonnostaan vaikeaa. (Ajattele "uutta kaupunkia", mutta luonnollisempia, todellisia tehtäviä.) Mitä löysimme? Testasimme suosittuja DLLM-tiedostoja erilaisilla dekoodausalgoritmeilla, eikä yksikään päässyt lähellekään "oraakkelin" suorituskykyä, ihanteellista suorituskykyä, jonka saisit, jos malli pystyisi säätämään optimaalisesti rinnakkaisuuttaan dekoodauksen aikana. ----- Takeaway: (1) Rinnakkaistuotanto ei ole aina mahdollista ja katso lisätietoja artikkelistamme :) (2) Jos pystyt suunnittelemaan DLLM:n, joka vastaa oraakkelin suorituskykyä vertailuarvossamme, kuka tietää, saatat saada puhelun joltakulta Menlo Parkista. 😉

Johtavat

Rankkaus

Suosikit