Stanfordin tutkijat kehittivät uuden kehotustekniikan! Lisäämällä ~20 sanaa kehotteeseen, se: - lisää LLM:n luovuutta 1,6–2-kertaiseksi - nostaa ihmisten arvioimaa monimuotoisuutta 25,7 % - voittaa hienosäädetyn mallin ilman uudelleenkoulutusta - palauttaa 66,8 % LLM:n menetetystä luovuudesta linjauksen jälkeen Koulutuksen jälkeiset kohdistusmenetelmät, kuten RLHF, on suunniteltu tekemään LLM:istä hyödyllisiä ja turvallisia. Nämä menetelmät kuitenkin aiheuttavat tahattomasti merkittävän laskun ulostulon monimuotoisuudessa (kutsutaan moodiromahdukseksi). Kun LLM romahtaa tilaan, se alkaa suosia kapeaa joukkoa ennustettavia tai stereotyyppisiä vasteita muihin lähtöihin nähden. Tämä johtuu siitä, että ihmisen mieltymysdatassa, jota käytetään LLM:n kouluttamiseen, on piilotettu virhe, jota kutsutaan tyypillisyyden harhaaksi. Näin tämä tapahtuu: - Annotaattorit arvioivat erilaisia vastauksia LLM:stä, ja myöhemmin LLM:ää koulutetaan palkitsemismallilla jäljittelemään näitä ihmisen mieltymyksiä. - Kuitenkin kommentaattorit suosivat luonnollisesti tutumpia, helppolukuisia ja ennustettavia vastauksia. Tämä on tyypillinen harha. Joten vaikka uusi, luova vastaus olisi yhtä hyvä, ihmisen mieltymys kallistuu usein yleisen puoleen. Tämän vuoksi palkitsemismalli parantaa vastauksia, joita alkuperäinen (ennalta kohdistettu) malli jo piti todennäköisinä. Tämä terävöittää aggressiivisesti LLM:n todennäköisyysjakaumaa, kaventaen mallin luovan tuloksen yhteen tai kahteen hallitsevaan, erittäin ennustettavaan vastaukseen. Siitä huolimatta se ei ole peruuttamaton ilmiö, ja LLM:llä on silti kaksi persoonallisuutta kohdistuksen jälkeen: - Alkuperäinen malli, joka oppi rikkaat mahdollisuudet esikoulutuksen aikana. - Turvallisuuteen keskittyvä, jälkisuuntautunut malli....