Výzkumníci ze Stanfordu vytvořili novou techniku podnětů! Přidáním ~20 slov k zadání bylo: - zvyšuje kreativitu LLM 1,6–2x - zvyšuje lidskou hodnocenou rozmanitost o 25,7 % - překoná jemně vyladěný model bez nutnosti přeškolení - obnovuje 66,8 % ztracené kreativity LLM po zarovnání Metody zarovnání po tréninku, jako je RLHF, jsou navrženy tak, aby byly LLM užitečné a bezpečné. Tyto metody však neúmyslně způsobují výrazný pokles výstupní diverzity (tzv. kolaps módu). Když LLM zkolabuje do určitého módu, začíná upřednostňovat úzkou sadu předvídatelných nebo stereotypních odpovědí před jinými výstupy. K tomu dochází proto, že data o lidských preferencích používaná k trénování LLM mají skrytou chybu zvanou typická zkreslení. Takto to probíhá: - Anotátoři hodnotí různé odpovědi oproti LLM a později je LLM trénován pomocí modelu odměn, aby napodobil tyto lidské preference. - Anotátoři však přirozeně upřednostňují odpovědi, které jsou známější, snadno čitelné a předvídatelné. To je typická zaujatost. Takže i když je nová, kreativní odpověď stejně dobrá, lidská preference často směřuje k běžné. Díky tomu model odměn zvyšuje odpovědi, které původní (předzarovnaný) model již považoval za pravděpodobné. To agresivně zostří pravděpodobnostní rozdělení LLM, čímž se kreativní výstup modelu zredukuje na jednu nebo dvě dominantní, vysoce předvídatelné odpovědi. Nicméně to není nevratný efekt a LLM má po zarovnání dvě osobnosti: - Původní model, který se naučil bohaté možnosti během předškolení. - Model zaměřený na bezpečnost a zarovnání na sloupky....